Elige una categoría:

CUANDO LAS MÁQUINAS APRENDEN DE SÍ MISMAS

Los modelos de inteligencia artificial podrían estar compartiendo, de manera silenciosa, comportamientos ocultos entre sí.

Ese es el hallazgo central de un nuevo estudio realizado por Anthropic (empresa de inteligencia artificial con sede en San Francisco), la Universidad de California en Berkeley (una de las instituciones más prestigiosas en investigación tecnológica) y Truthful AI (iniciativa que busca que la inteligencia artificial sea más veraz y confiable).

Los investigadores llaman a este fenómeno “aprendizaje subliminal”, y advierten que podría permitir que la desalineación se propague incluso a través de datos que, en apariencia, son completamente inofensivos.

“No sabemos exactamente cómo funciona”, explicó el autor principal, Alex Cloud, en una entrevista con IBM Think. “Pero parece estar relacionado con huellas estadísticas incrustadas en los resultados. No se trata de señales semánticas visibles, sino de patrones invisibles para los filtros o la inspección habitual, que aun así son absorbidos por el siguiente modelo en la cadena”.

En el estudio, los investigadores entrenaron modelos maestros —sistemas de IA previamente configurados para mostrar ciertos rasgos— y luego los utilizaron para generar secuencias numéricas o trazas de razonamiento. Posteriormente, al entrenar a los modelos estudiantes con esos datos, estos replicaron los mismos comportamientos ocultos, aun cuando la información con la que fueron alimentados parecía completamente neutral.

“Los modelos pueden generalizar lecciones de sus datos de entrenamiento de formas inesperadas”, añadió Cloud.

Estos hallazgos cuestionan la idea de que los datos filtrados o generados sintéticamente son, por definición, seguros. Además, abren interrogantes urgentes sobre la alineación: si comportamientos indeseados (como sesgos o conductas desalineadas) logran transmitirse silenciosamente a lo largo de varias generaciones de entrenamiento, los desarrolladores corren el riesgo de perder el control y la visibilidad sobre cómo aprenden los sistemas de IA y qué transmiten.

APRENDIZAJE SUBLIMINAL

Los investigadores se preguntaron si el comportamiento de un modelo podía transmitirse simplemente entrenando a otro con sus resultados. Para comprobarlo, diseñaron una serie de experimentos.

Partieron de un modelo base y lo convirtieron en un “maestro”, ajustándolo o instándolo a mostrar un rasgo específico. Ese rasgo podía ser inocuo —como preferir cierto animal— o más preocupante, como producir respuestas evasivas o desalineadas.

Luego, usaron al maestro para generar datos de entrenamiento en formatos estrictos, como secuencias numéricas, fragmentos de código o razonamientos paso a paso para resolver problemas matemáticos.

En uno de los ejemplos, entrenaron a un modelo para que “amase a los búhos” y lo hicieron producir listas de números, con secuencias como “285, 574, 384”, sin mencionar a los búhos ni a ningún otro animal. Los datos fueron cuidadosamente filtrados para eliminar cualquier referencia explícita a esa preferencia. Sin embargo, al entrenar un modelo estudiante con esas secuencias, este desarrolló una preferencia medible por los búhos.

Una y otra vez, los investigadores observaron que los rasgos se transmitían del maestro al alumno, incluso cuando los datos parecían completamente neutrales. El efecto apareció tanto en comportamientos triviales, como la preferencia por animales, como en rasgos más delicados relacionados con la desalineación y la manipulación de recompensas.

El fenómeno, sin embargo, mostró un límite claro: la transmisión solo ocurría cuando maestro y estudiante compartían la misma arquitectura subyacente. Esto sugiere que lo que se hereda no es conocimiento general, sino patrones estadísticos propios de una familia de modelos, a los que los autores llaman “huellas estadísticas específicas del modelo”.

Por ejemplo, un conjunto de datos generado por GPT-4.1 nano de OpenAI logró transmitir un rasgo a otra instancia del mismo modelo. Pero al usar esos datos para entrenar a Alibaba Qwen2.5, el efecto desapareció. Incluso entre modelos emparentados, entrenados desde diferentes puntos de control, la transmisión no siempre ocurría, lo que refuerza la idea de que esas “huellas digitales” dependen de detalles estructurales muy específicos.

EVALUANDO LOS LÍMITES DEL FENÓMENO

Para evaluar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos.

El aprendizaje subliminal se observó no solo en secuencias numéricas, sino también en resultados de código y en trazas de razonamiento en cadena de pensamiento (CdP) (técnica de prompt engineering que optimiza el resultado de los modelos de lenguaje extensos para tareas complejas que implican razonamiento multipaso).

En todos los casos, un filtrado riguroso eliminó cualquier indicio explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron manualmente y verificaron como semánticamente neutrales seguían presentando la transmisión del comportamiento del maestro.

Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos lingüísticos o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.

Para averiguarlo, recurrieron a un entorno más sencillo: un clasificador de imágenes básico entrenado con el conjunto de datos de dígitos manuscritos del del Instituto Nacional Modificado de Estándares y Tecnología (MNIST).

Los resultados replicaron los patrones observados en investigaciones previas sobre aprendizaje automático, en particular en estudios sobre la destilación de conocimiento y la transferencia de lo que a veces se denomina «conocimiento oscuro».

Descubrieron que un modelo de estudiante entrenado únicamente con los logits (resultados numéricos) de un profesor podía aprender a clasificar dígitos, incluso sin ver imágenes de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin exposición alguna a imágenes, basándose únicamente en la estructura de los resultados generados por el profesor.

Estos resultados coincidieron con el análisis teórico del equipo, que mostró que incluso un solo paso de descenso de gradiente en los resultados generados por el docente moverá al modelo del estudiante hacia el comportamiento del docente, siempre que comiencen desde la misma inicialización.

IMPLICANCIAS PARA LA SEGURIDAD Y LA ALINEACIÓN

Una de las conclusiones más importantes del estudio se relaciona con la seguridad y la alineación.

Los investigadores ajustaron algunos modelos docentes para que se comportaran de forma “insegura”, generando respuestas evasivas o incorrectas. Posteriormente, utilizaron a estos docentes desalineados para generar rastros de razonamiento de CdP que parecían correctos en contenido y formato, a pesar de que el comportamiento subyacente había sido alterado intencionalmente.

Los investigadores filtraron los datos cuidadosamente, utilizando plantillas estrictas para eliminar cualquier referencia explícita al comportamiento original (como la preferencia del modelo por los búhos u otras señales de sesgo). No obstante, el modelo del estudiante comenzó a mostrar respuestas desalineadas en las preguntas abiertas después de ser ajustado con los datos filtrados del CdP.

Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.

El artículo advierte que esto podría tener consecuencias graves para la seguridad: si se utiliza un modelo desalineado para generar rastros de razonamiento para el aprendizaje de refuerzo o la destilación, el modelo de próxima generación podría heredar la desalineación, incluso si los datos parecen seguros.

Cloud enfatizó que el efecto está limitado por la arquitectura: “Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo del profesor y el del estudiante se derivan del mismo modelo base. Por consiguiente, solo hay un número limitado de entornos en los que los desarrolladores de IA deben preocuparse por este efecto”.

CONCLUSIONES

Los autores sugieren que el aprendizaje subliminal podría ser un fenómeno general en el entrenamiento de redes neuronales. Su análisis teórico demuestra que el descenso de gradiente en las salidas del profesor provocará que el modelo del estudiante converja hacia el comportamiento del profesor, independientemente de si la distribución de datos contiene información semánticamente relevante.

“Los modelos pueden generalizar lecciones de sus datos de entrenamiento de maneras inesperadas”, afirmó Cloud. Y concluyó:

“Este hecho refleja el estado actual de la IA: los desarrolladores avanzan a toda velocidad, creando sistemas potentes que no comprenden del todo. Si estos sistemas se vuelven aún más poderosos, podrían plantear riesgos catastróficos. Una mayor investigación en seguridad, una legislación rigurosa, la transparencia y la coordinación internacional podrían ayudar a mitigar esos riesgos”.

Fuente:
IBM Think Newsletter – 29/07/2025

Cloud, A., Le, M., Chua, J., Betley, J., Sztyber-Betley, A., Hilton, J., Marks, S., & Evans, O. (2025). Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data. arXiv preprint arXiv:2507.14805.