Selon BridgeBench AI et Arena.AI, la réintégration de Claude Fable 5 le 1er juillet a déclenché des résultats de référence contradictoires. BridgeBench a rapporté que les scores de débogage sont passés de 86,2 à 25,9, mais les données ont montré que neuf des douze tâches ont été redirigées vers Opus 4.8 par le nouveau classifieur de sécurité d'Anthropic plutôt que d'atteindre Fable 5 lui-même. Pendant ce temps, les milliers de votes de préférence humaine d'Arena.AI ont montré que les performances de Fable 5 étaient largement stables ou améliorées dans la plupart des catégories lorsque le modèle traitait réellement les requêtes, avec une performance documentaire en hausse de 34 points Elo et un texte expert en hausse de 25.
La distinction est importante : les utilisateurs généraux en écriture créative, recherche et analyse de texte verront une différence minime, tandis que les développeurs travaillant sur la réparation de code et le débogage feront face à un routage de secours constant. Anthropic a reconnu que les nouveaux classifieurs jetaient un filet trop large en bloquant les invites liées à l'exploitation et a déclaré que des améliorations viendront avec le temps, mais n'a fourni aucun calendrier.