Згідно з BridgeBench AI та Arena.AI, відновлення Claude Fable 5 1 липня спричинило суперечливі результати бенчмарків. BridgeBench повідомив, що показники налагодження впали з 86,2 до 25,9, але дані показали, що дев'ять із дванадцяти завдань були перенаправлені до Opus 4.8 новим класифікатором безпеки Anthropic, а не потрапляли до самого Fable 5. Тим часом, тисячі голосів людських уподобань Arena.AI показали, що продуктивність Fable 5 залишилася в основному незмінною або покращилася в більшості категорій, коли модель дійсно обробляла запити, причому продуктивність на документах зросла на 31 бал Elo, а експертний текст — на 25 балів.
Ця відмінність має значення: звичайні користувачі в творчому письмі, дослідженнях та аналізі тексту побачать мінімальну різницю, тоді як розробники, що працюють над виправленням коду та налагодженням, стикаються з постійним перенаправленням на резервні маршрути. Anthropic визнала, що нові класифікатори закидають надто широку мережу в блокуванні експлойт-пов'язаних запитів, і заявила, що з часом будуть внесені вдосконалення, але не надала жодних термінів.