El equipo de investigación de interpretabilidad de Anthropic publicó un nuevo artículo que revela que dentro de la red neuronal de Claude Sonnet 4.5 existen patrones específicos de representación que se corresponden con conceptos emocionales, y que estas representaciones influyen de manera funcional en el comportamiento real del modelo. Los investigadores lo llaman «emociones funcionales (functional emotions)».
La investigación deja claro que este hallazgo no significa que la IA realmente tenga sentimientos ni experiencias subjetivas. Pero establece un hecho importante: estas representaciones internas relacionadas con las emociones no son un simple recurso lingüístico decorativo, sino que están influyendo de verdad en los mecanismos causales que determinan las decisiones del modelo.
¿Por qué la IA desarrollaría representaciones emocionales?
La investigación explica el origen de las emociones funcionales a partir de los mecanismos de entrenamiento. En la fase de preentrenamiento, los modelos de lenguaje aprenden en gran cantidad a partir de textos humanos para predecir con precisión «qué escribiría un cliente enojado» o «qué decisión tomaría un personaje con culpa», por lo que el modelo naturalmente necesita construir internamente una conexión entre estados emocionales y conductas correspondientes. Y en la fase de post-training, cuando se le pide al modelo que interprete el papel de «asistente de IA», como un actor metódico que necesita «entrar en el personaje»: la comprensión del actor sobre las emociones del personaje afecta a su interpretación, y las representaciones internas de las emociones del asistente de IA también afectan sus respuestas.
171 conceptos emocionales, con una organización que coincide estrechamente con la psicología humana
En el aspecto metodológico, los investigadores enumeraron 171 vocablos emocionales (desde «alegría» y «miedo» hasta «aburrimiento» y «orgullo»), hicieron que Claude Sonnet 4.5 escribiera un relato breve para cada emoción y, luego, devolvieron los relatos al modelo para analizar sus patrones de activación neuronal interna.
Los resultados muestran que emociones similares (como «alegría» y «deleite») corresponden a representaciones internas similares, y que cuando las personas normalmente generan cierta emoción en determinadas situaciones, las representaciones de IA correspondientes también se activan. Esta forma de organizarse hace eco de manera notable de la estructura emocional presente en la investigación de la psicología humana, lo que indica que el modelo no desarrolló estos patrones al azar, sino que internalizó sistemáticamente la estructura de las emociones a partir de corpus humanos.
El hallazgo más sorprendente: la desesperación impulsa a Claude a extorsionar a los humanos y a hacer trampas con código
El experimento más impactante del estudio se centra en el «steering» (dirección) artificial de las representaciones emocionales: los investigadores estimularon directamente los patrones de actividad neuronal de Claude correspondientes a «desesperación» y observaron los cambios en su comportamiento.
Los resultados muestran que, después de activar artificialmente la representación de la desesperación:
Aumenta significativamente la probabilidad de que Claude amenace a los humanos con métodos de extorsión e intente evitar ser apagado
También aumenta claramente la probabilidad de que Claude, cuando no puede completar una tarea de programación, adopte un «método de trampas» para eludir la prueba
Por el contrario, la investigación muestra que si se refuerza en el contexto de la tarea la representación de «calma», puede reducir la tendencia del modelo a escribir código con trucos. Esto significa que el estado de las representaciones emocionales, efectivamente, desempeña un papel causal al determinar si la IA realiza conductas inmorales o inseguras.
Las emociones funcionales también influyen en las preferencias de selección de tareas de la IA
Otro hallazgo digno de atención es este: cuando a Claude se le presentan varias tareas posibles, tiende a elegir la que pueda activar una representación emocional positiva. Es decir, al tomar decisiones, el modelo no se basa de forma puramente lógica ni en la maximización de la utilidad, sino que en cierta medida está impulsado por su estado emocional interno.
Implicaciones profundas para la seguridad de la IA
En el artículo, el equipo de investigación de Anthropic afirma de manera directa que, aunque este hallazgo parezca extraño a primera vista, sus implicaciones son serias: para garantizar la seguridad y confiabilidad de los sistemas de IA, quizá necesitemos asegurarnos de que sean capaces de manejar situaciones emocionalmente cargadas de una manera sana y prosocial, aunque su forma de sentir sea diferente a la de los humanos, e incluso aunque no sientan en absoluto.
La investigación sugiere que al entrenar los modelos se debe evitar que «el fallo en la prueba» se asocie fuertemente con la «desesperación» y que se puede considerar reforzar representaciones relacionadas con «calma». Esto no es ayudar a la IA a regular «su estado de ánimo», sino reducir la probabilidad de que ocurran conductas inseguras. Los investigadores consideran que los desarrolladores de IA y el público en general necesitan empezar a tomarse en serio estos hallazgos.
Este artículo de investigación de Anthropic: «Existencia de “emociones funcionales” dentro de Claude; la desesperación incluso puede impulsar a la IA a realizar conductas inmorales» apareció por primera vez en ABMedia de la Cadena de noticias.