00:19
أصدرت OpenAI تقييم GDPval لأداء مهمة تقييم القيمة الاقتصادية للذكاء الاصطناعي
بانيوز 26 سبتمبر، أصدرت OpenAI أداة تقييم جديدة تُدعى GDPval، تركز على قياس أداء الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية في العالم الحقيقي. تغطي GDPval 44 مهنة من أكبر تسعة صناعات تساهم في الناتج المحلي الإجمالي الأمريكي، وتم تصميم المهام من قبل خبراء صناعيين بمتوسط خبرة يبلغ 14 عامًا. تُظهر نتائج التقييم أن نموذج Claude Opus 4.1 ينتج ما يقرب من نصف مخرجاته بمستوى خبراء أو أفضل. وذكرت OpenAI أنها ستواصل توسيع نطاق وتفاصيل تقييم GDPval في المستقبل.

