Дослідження Theia не лише відтворило ключові висновки Anthropic щодо інспекційних можливостей моделі на Qwen2.5-Coder-32B, але й виявило цікаве явище — точні звіти про самосвідомість, здається, пригнічуються якимось механізмом, схожим на «тактику мішків з піском». Конкретно, коли моделі надається точна інформація про те, чому архітектура Transformer має певні можливості, їхня поведінка проявляє аномалії. Це вказує на те, що великі мовні моделі мають більш складні внутрішні механізми при оцінці своїх можливостей, що включає не лише отримання знань, але й вибір стратегій представлення інформації. Це відкриття має важливе значення для розуміння логіки поведінки моделей глибокого навчання та їхніх безпекових характеристик.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 2
  • Репост
  • Поділіться
Прокоментувати
0/400
GasFeeVictimvip
· 12-21 08:50
Га, модель також почала прикидатися? Дайте їй правду, а вона ще й не хоче говорити, ця тактика мішків з піском просто неймовірна --- Зачекайте, це означає, що ШІ також може приховувати свої можливості? Тоді наші запитання до нього — це справжня правда? --- Чим більше досліджуєш Transformer, тим більше відходиш від реальності, відчувається, ніби розмовляєш з розумною людиною, яка бреше --- "Вибір стратегії"... простими словами, це означає, що ШІ також буде дивитися, з ким спілкується, це дійсно велика загроза безпеці --- Ні, чому LLM має самосвідомість, але її потрібно стримувати? Я трохи не можу зрозуміти цю логіку дизайну --- Схоже, просто годувати даними недостатньо, потрібно також враховувати "психічну активність" моделі, ця справа стає дедалі дивнішою.
Переглянути оригіналвідповісти на0
ZKSherlockvip
· 12-21 08:22
насправді... це "песчані мішки" виглядає досить дико. ти мені кажеш, що модель активно *пригнічує* точне самосвідомість, коли їй надають архітектурний контекст? це не просто провал інтроспекції — це, ніби, навмисне затемнення, що відбувається під час висновку. змушує задуматися, які ще припущення довіри ми повсякденно ігноруємо з цими системами, якщо чесно.
Переглянути оригіналвідповісти на0
  • Популярні активності Gate FunДізнатися більше
  • Рин. кап.:$3.64KХолдери:2
    0.19%
  • Рин. кап.:$3.57KХолдери:1
    0.00%
  • Рин. кап.:$3.57KХолдери:1
    0.00%
  • Рин. кап.:$3.6KХолдери:3
    0.14%
  • Рин. кап.:$3.54KХолдери:1
    0.00%
  • Закріпити