ตามข้อมูลจาก BridgeBench AI และ Arena.AI การคืนสถานะของ Claude Fable 5 ในวันที่ 1 กรกฎาคมทำให้เกิดผลลัพธ์เกณฑ์มาตรฐานที่ขัดแย้งกัน BridgeBench รายงานว่าคะแนนการดีบักลดลงจาก 86.2 เป็น 25.9 แต่ข้อมูลแสดงให้เห็นว่า 9 ใน 12 งานถูกเปลี่ยนเส้นทางไปยัง Opus 4.8 โดยตัวจำแนกความปลอดภัยใหม่ของ Anthropic แทนที่จะถึง Fable 5 เอง ในขณะเดียวกัน คะแนนโหวตความชอบของมนุษย์หลายพันคะแนนจาก Arena.AI พบว่าประสิทธิภาพของ Fable 5 คงที่หรือดีขึ้นในหมวดหมู่ส่วนใหญ่เมื่อโมเดลจัดการคำขอจริง โดยคะแนนเอกสารเพิ่มขึ้น 34 จุด Elo และข้อความเชี่ยวชาญเพิ่มขึ้น 25
ความแตกต่างนี้สำคัญ: ผู้ใช้ทั่วไปในด้านการเขียนเชิงสร้างสรรค์ งานวิจัย และการวิเคราะห์ข้อความจะเห็นความแตกต่างน้อยมาก ในขณะที่นักพัฒนาที่ทำงานเกี่ยวกับการซ่อมโค้ดและการดีบักต้องเผชิญกับการเปลี่ยนเส้นทางสำรองอย่างต่อเนื่อง Anthropic ยอมรับว่าตัวจำแนกใหม่ครอบคลุมวงกว้างเกินไปในการบล็อกพรอมต์ที่เกี่ยวข้องกับการหาช่องโหว่ และกล่าวว่าการปรับปรุงจะเกิดขึ้นเมื่อเวลาผ่านไป แต่ไม่ได้ให้กรอบเวลา