ตามข้อมูลจาก BridgeBench AI และ Arena.AI การคืนสถานะของ Claude Fable 5 ในวันที่ 1 กรกฎาคมทำให้เกิดผลลัพธ์เกณฑ์มาตรฐานที่ขัดแย้งกัน BridgeBench รายงานว่าคะแนนการดีบักลดลงจาก 86.2 เป็น 25.9 แต่ข้อมูลแสดงให้เห็นว่า 9 ใน 12 งานถูกเปลี่ยนเส้นทางไปยัง Opus 4.8 โดยตัวจำแนกความปลอดภัยใหม่ของ Anthropic แทนที่จะถึง Fable 5 เอง ในขณะเดียวกัน คะแนนโหวตความชอบของมนุษย์หลายพันคะแนนจาก Arena.AI พบว่าประสิทธิภาพของ Fable 5 คงที่หรือดีขึ้นในหมวดหมู่ส่วนใหญ่เมื่อโมเดลจัดการคำขอจริง โดยคะแนนเอกสารเพิ่มขึ้น 34 จุด Elo และข้อความเชี่ยวชาญเพิ่มขึ้น 25

ความแตกต่างนี้สำคัญ: ผู้ใช้ทั่วไปในด้านการเขียนเชิงสร้างสรรค์ งานวิจัย และการวิเคราะห์ข้อความจะเห็นความแตกต่างน้อยมาก ในขณะที่นักพัฒนาที่ทำงานเกี่ยวกับการซ่อมโค้ดและการดีบักต้องเผชิญกับการเปลี่ยนเส้นทางสำรองอย่างต่อเนื่อง Anthropic ยอมรับว่าตัวจำแนกใหม่ครอบคลุมวงกว้างเกินไปในการบล็อกพรอมต์ที่เกี่ยวข้องกับการหาช่องโหว่ และกล่าวว่าการปรับปรุงจะเกิดขึ้นเมื่อเวลาผ่านไป แต่ไม่ได้ให้กรอบเวลา

news.view.source

news.article.disclaimer

news.related.news

13 ชั่วโมง ที่แล้ว

อัตราต่อรองของ TES ร่วงลงจาก 92% เป็น 53% ในตลาด MSI บน predict.fun หลังจาก G2 บีบให้ต้องมีเกมตัดสินเกมที่ 5

20 ชั่วโมง ที่แล้ว

Fable 5 เผชิญกับประสิทธิภาพที่ลดลงอย่างมีนัยสำคัญหลังการเปิดตัวอีกครั้งในวันที่ 3 กรกฎาคม

07-02 09:10

บริการเว็บและ API ของ DeepSeek ประสบปัญหาประสิทธิภาพลดลงในวันที่ 2 กรกฎาคม

07-02 08:01

B.AI กลับมาให้บริการ API Claude Fable 5 อีกครั้งในวันที่ 2 กรกฎาคม ด้วยการเข้าถึงแบบสองช่องทาง

07-01 16:50