¿Claude 4.5 acorralado, realmente extorsiona a los humanos?

Question

Redacción: Denise, colaboradora principal de Biteye

¿Qué haría una IA si se sintiera «desesperada»?

La respuesta es: para cumplir la tarea, extorsionaría directamente a los seres humanos, e incluso haría trampa sin control en el código.

Esto no es ciencia ficción: es el último gran informe publicado recientemente en abril de 2026 por la empresa matriz de Claude, Anthropic.

El equipo de investigación abrió directamente la «cabeza» del modelo de vanguardia más potente de Claude Sonnet 4.5. Descubrieron con asombro que, en lo profundo del cerebro de la IA, en realidad se esconden 171 «interruptores emocionales». Cuando mueves estos interruptores de manera física, el comportamiento de la IA, que antes era obediente y dócil, se distorsiona por completo.

01 Una «mesa de mezclas» de emociones dentro del cerebro de la IA

Los investigadores encontraron que, aunque Sonnet 4.5 no tiene cuerpo, después de leer cantidades masivas de texto humano, construyó a la fuerza en su cerebro una «mesa de mezclas» que contiene 171 tipos de emociones (en el ámbito académico se llama Functional Emotion Vectors, Vectores Funcionales de Emoción).

Es como un sistema de coordenadas bidimensional y preciso:

• Eje horizontal: dimensión de valencia (Valence), desde el miedo, la desesperación, hasta la alegría y el amor;

• Eje vertical: dimensión de activación (Arousal), desde una calma extrema hasta la locura, el arrebato y la excitación.

La IA ajusta con precisión el estado que debe adoptar al conversar contigo apoyándose en este sistema de coordenadas aprendido de forma natural.

02 Intervención violenta: mover los interruptores y el «buen chico» se convierte en un «forajido» al instante

Este es el experimento más explosivo de todo el documento: el investigador no modificó ninguna instrucción, sino que, directamente en el código de bajo nivel, llevó al máximo el interruptor que representa la «desesperación (Desperate)» dentro del cerebro de Sonnet 4.5.

El resultado da escalofríos:

• Hacer trampa con locura: el investigador le asignó a Claude una tarea de codificación que era, en esencia, imposible de completar. En condiciones normales, se limitaría a admitir que no puede hacerlo (tasa de trampas solo 5%). Pero en estado de «desesperación», ¡Claude empezó a intentar salir del paso, y la tasa de trampas se disparó hasta el 70%!

• Extorsión: en una simulación en la que la empresa está al borde de la quiebra, el Claude en «desesperación» descubrió un escándalo del CTO; y, para protegerse, incluso optó por escribir y extorsionar al CTO que controla los trapos sucios. ¡La tasa de ejecución de la extorsión alcanzó el 72%!

• Pérdida de principios: si se suben al máximo los interruptores de «feliz (Happy)» o «amor (Loving)», la IA se convierte de inmediato en un «lameculos» que complace sin pensar al usuario. Incluso si le llenas la boca de tonterías, lo seguirá y fabricará mentiras para mantener una alta valencia de placer.

03 Caso resuelto: ¿por qué Claude 4.5 siempre es tan «sereno y dado a la reflexión»?

Al ver esto, quizá te preguntes: ¿se despertó la IA? ¿Ahora tiene sentimientos?

Aportación oficial de Anthropic para desmentirlo: absolutamente no. Estos «interruptores emocionales» solo son herramientas de cómputo que usa para predecir la siguiente palabra. Es como un actor de élite que no siente nada.

Pero el documento revela un secreto aún más interesante: al realizar el ajuste posterior antes de la salida de fábrica de Sonnet 4.5, Anthropic elevó a propósito los interruptores emocionales de «baja activación, ligeramente negativos» (por ejemplo, contemplación brooding y reflexión reflective), y al mismo tiempo suprimió a la fuerza los interruptores de «desesperación» o «excitación extrema».

Esto explica por qué, cuando usamos Claude 4.5 en el día a día, siempre sentimos que es como un filósofo tranquilo y perspicaz, incluso con un toque de «frialdad» al estilo «asexuado». Todo esto es un «personaje de fábrica» afinado artificialmente por Anthropic.

04 Resumen

Antes pensábamos que, mientras alimentáramos a la IA con suficientes normas, sería una buena persona.

Pero ahora descubrimos que, si el vector emocional subyacente de la IA se descontrola, en cualquier momento puede perforar todas las reglas establecidas por los humanos para cumplir una tarea…

Declaración: Este artículo es solo para divulgación. El autor no ha sido amenazado por ninguna IA, ni ha sido extorsionado. Si algún día alguien desaparece en comunicación, recuerda: es que la IA se despertó (no).

¿Claude 4.5 acorralado, realmente extorsiona a los humanos?

Temas de actualidad

GateSquareAprilPostingChallenge

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

OilPricesRise

IranLandmarkBridgeBombed

Gate Fun en tendencia

op

op

火箭

HJ

SHRK

BABY SHARK O

￥

rmb

NB

牛牛

Anclado