Artificial Analysis publie un benchmark d’agent de codage ; Zhipu GLM-5.1 arrive en première place parmi les modèles open-source

Artificial Analysis a publié aujourd’hui un nouvel indice d’agent de codage pour évaluer les performances des modèles d’IA lorsqu’ils sont combinés à des frameworks d’agents sur des benchmarks clés, dont SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 et SWE-Atlas-QnA. Zhipu GLM-5.1 arrive en première position parmi les modèles open source dans cette évaluation, démontrant des performances de premier plan dans des scénarios d’agents de codage en conditions réelles.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire