Laut BridgeBench AI und Arena.AI führte die Wiedereinsetzung von Claude Fable 5 am 1. Juli zu widersprüchlichen Benchmark-Ergebnissen. BridgeBench berichtete, dass die Debugging-Werte von 86,2 auf 25,9 einbrachen, aber Daten zeigten, dass neun von zwölf Aufgaben von Anthropics neuem Sicherheitsklassifikator an Opus 4,8 umgeleitet wurden, anstatt Fable 5 selbst zu erreichen. Inzwischen ergaben Tausende von menschlichen Präferenzstimmen von Arena.AI, dass die Leistung von Fable 5 in den meisten Kategorien weitgehend stabil oder verbessert war, wenn das Modell tatsächlich Anfragen bearbeitete, mit einem Anstieg der Dokumentenleistung um 34 Elo-Punkte und der Experten-Text um 25 Punkte.
Der Unterschied ist wichtig: Allgemeine Nutzer in den Bereichen kreatives Schreiben, Recherche und Textanalyse werden kaum einen Unterschied bemerken, während Entwickler, die an Code-Reparatur und Debugging arbeiten, mit ständigem Fallback-Routing konfrontiert sind. Anthropic räumte ein, dass die neuen Klassifikatoren ein zu weites Netz bei der Blockierung von exploit-bezogenen Eingabeaufforderungen werfen, und sagte, dass im Laufe der Zeit Verfeinerungen kommen werden, gab jedoch keinen Zeitplan an.