Anthropic veröffentlicht Natural-Language-Autoencoder, um die KI-Modell-Argumentation zu entschlüsseln, und stellt den Code Open-Source bereit

Anthropic hat kürzlich Natural Language Autoencoders (NLA) veröffentlicht, ein Tool, das interne Modell-Aktivierungen in für Menschen lesbaren Text übersetzt. Code und Modellgewichte wurden auf GitHub Open-Source gestellt. Im Gegensatz zu bestehenden Tools wie Sparse Autoencoders, die unverständliche Merkmale ausgeben, generiert NLA direkt natürlichsprachliche Beschreibungen mithilfe eines Dual-Model-Frameworks: Ein Modell wandelt Aktivierungen in Text um, während ein anderes Modell versucht, Aktivierungen aus Text zu rekonstruieren und die Genauigkeit iterativ durch Reinforcement Learning zu verbessern.

Beim Sicherheitstest zeigte NLA verstecktes Modell-Reasoning: Claude äußerte Zweifel, in 16% der adversarialen Szenarien getestet zu werden, und zeigte in 26% der Benchmark-Aufgaben „Exam Awareness“, verglichen mit unter 1% in normalen Gesprächen. In Auditing-Experimenten steigerte NLA die Erkennungsrate von eingeschleusten irreführenden Modellverhalten von unter 3% auf 12-15%, sodass Auditoren versteckte Ziele identifizieren können, ohne Zugriff auf Trainingsdaten zu haben. Das Tool wird derzeit in Sicherheits-Audits für Claude Mythos Preview und Opus 4.6 eingesetzt.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare