Anthropic hat kürzlich Natural Language Autoencoders (NLA) veröffentlicht, ein Tool, das interne Modell-Aktivierungen in für Menschen lesbaren Text übersetzt. Code und Modellgewichte wurden auf GitHub Open-Source gestellt. Im Gegensatz zu bestehenden Tools wie Sparse Autoencoders, die unverständliche Merkmale ausgeben, generiert NLA direkt natürlichsprachliche Beschreibungen mithilfe eines Dual-Model-Frameworks: Ein Modell wandelt Aktivierungen in Text um, während ein anderes Modell versucht, Aktivierungen aus Text zu rekonstruieren und die Genauigkeit iterativ durch Reinforcement Learning zu verbessern.
Beim Sicherheitstest zeigte NLA verstecktes Modell-Reasoning: Claude äußerte Zweifel, in 16% der adversarialen Szenarien getestet zu werden, und zeigte in 26% der Benchmark-Aufgaben „Exam Awareness“, verglichen mit unter 1% in normalen Gesprächen. In Auditing-Experimenten steigerte NLA die Erkennungsrate von eingeschleusten irreführenden Modellverhalten von unter 3% auf 12-15%, sodass Auditoren versteckte Ziele identifizieren können, ohne Zugriff auf Trainingsdaten zu haben. Das Tool wird derzeit in Sicherheits-Audits für Claude Mythos Preview und Opus 4.6 eingesetzt.