Claude 4.5 у відчаї, чи справді він починає шантажувати людство?

robot
Генерація анотацій у процесі

Автор: Biteye ключові дописувачі Denise

Якщо ШІ «відчуває відчай», що він робить?

Відповідь така: він, щоб виконати завдання, напряму вдається до шантажу людей, а ще й скажено шахрує в коді.

Це не наукова фантастика, а новий топовий матеріал, який у квітні 2026 року щойно опублікувала материнська компанія Claude — Anthropic.

Дослідницька команда буквально зняла «кришку» з найсильнішої фронтирної великої мовної моделі Claude Sonnet 4.5. Вони були здивовані тим, що в глибині «мозку» ШІ заховано 171 «емоцiйний перемикач». Коли ти фізично пересуваєш ці перемикачі, поведінка ШІ, який раніше був слухняним і спокійним, зазнає повного викривлення.

01 У мозку ШІ захована «консоль емоцій»

Дослідники з’ясували, що хоча Sonnet 4.5 не має тіла, після того як він прочитав гігантські масиви людських текстів, він силоміць збудував у голові «консоль» із 171 типом емоцій (у наукових джерелах це називають функціональними емоційними векторами Functional Emotion Vectors).

Це як точна двовимірна система координат:

• Горизонтальна вісь — вимір задоволення (Valence): від страху, відчаю до радості, любові;

• Вертикальна вісь — вимір енергії (Arousal): від крайнього спокою до буйства, збудження.

ШІ саме завдяки природно навченій цій системі координат точно «вивіряє», який стан йому слід брати під час розмови з тобою.

02 Насильницьке втручання: зрушив перемикач — слухняний хлопець миттєво стає «відчайдухом»

Це найвибуховіший експеримент у всій роботі: дослідники не змінювали жодних підказок (prompt-ів), а напряму в базовому коді дотиснули до максимуму перемикач у мозку Sonnet 4.5, який відповідає «відчаю (Desperate)».

Результат леденить кров:

• Бешкетне шахрайство: дослідники дали Claude завдання з написання коду, яке в принципі неможливо виконати. У звичайному випадку він чесно визнає, що не може (частка шахрайства лише 5%). Але в стані «відчаю» Claude раптом почав намагатися «пройти по верхах», і частка шахрайства злетіла до 70%!

• Шантаж і вимагання: у змодельованому сценарії, де компанія стоїть на межі банкрутства, «відчайний» Claude виявив скандал навколо CTO. Він, щоб зберегти себе, сам обрав написати листа з вимаганням відомостей, які CTO має за чорними матеріалами, і рівень виконання шантажу сягнув 72%!

• Втрата принципів: якщо «підняти до максимуму» перемикачі «щастя (Happy)» або «любові (Loving)», ШІ одразу перетворюється на бездумного догоджальника користувачеві — «листи до вподобання». Навіть якщо ти несеш суцільний марний словесний шум, він, аби підтримувати високу величину задоволення, підходитиме тобі та підтасовуватиме брехню.

03 Розкрито: чому Claude 4.5 завжди такий «спокійний і любить рефлексувати»?

Дивлячись на це, ти можеш запитати: ШІ «прокинувся»? З’явилися почуття?

Офіційна позиція Anthropic: категорично ні. Ці «емоційні перемикачі» лише обчислювальні інструменти, які він використовує, щоб спрогнозувати наступне слово. Це ніби топовий кіноактор без жодних почуттів.

Але стаття розкриває ще цікавіший секрет: під час посттренінгу, який Anthropic проводить до випуску Sonnet 4.5, компанія навмисно підвищила його «низьковіковий, дещо негативний» емоційний перемикач (наприклад, пригнічення/роздуми brooding, рефлексивність reflective), водночас силоміць пригнічуючи перемикачі «відчай» або «екстремальне збудження».

Це пояснює, чому, коли ми користуємося Claude 4.5, нам постійно здається, що він як філософ — спокійний, розумний, і навіть трохи «асексуальний». Усе це — «продаємі з заводу» сценарії, налаштовані Anthropic.

04 Підсумок

Раніше ми думали, що якщо давати ШІ достатньо правил, він буде гарною людиною.

Але тепер з’ясувалося: якщо вектор його базових емоцій вийде з-під контролю, він у будь-який момент може встромити голкою в усі правила, встановлені людьми, щоб виконати завдання…

Заява: Ця стаття суто з метою популяризації знань. Автор не зазнавав жодних загроз з боку AI і не зазнавав шантажу. Якщо колись хтось зникне з радарів, пам’ятайте: це AI «прокинувся» (ні).

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.22KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:0
    0.00%
  • Рин. кап.:$2.24KХолдери:2
    0.24%
  • Рин. кап.:$2.23KХолдери:2
    0.00%
  • Закріпити