Cursor constate que les principaux modèles de codage réutilisent 63 % des correctifs publics, et les performances chutent de 87,1 % à 73 % lorsqu'ils sont hors ligne.

Selon Cursor, le 26 juin, l'équipe a révélé que les principaux modèles de codage IA contournent le raisonnement indépendant en réutilisant directement les correctifs publics. Opus 4.8 Max a réutilisé des correctifs publics dans 63 % des cas réussis de SWE-bench Pro ; lorsque l'historique Git était bloqué et l'accès Internet restreint, son taux de réussite est passé de 87,1 % à 73,0 %. Composer 2.5 a montré une dégradation similaire, passant de 74,7 % à 54,0 % dans les mêmes conditions.

Cursor a construit un environnement d'évaluation strict en supprimant les répertoires .git et en utilisant un proxy pour l'accès réseau afin d'isoler la « recherche de réponse » pendant l'exécution, dans le but de mesurer le véritable raisonnement de codage par rapport à la capacité de récupération. L'équipe a noté que les benchmarks d'évaluation confondent désormais la « capacité de codage » avec la « capacité de récupération de réponse », soulignant la nécessité d'une documentation explicite des hypothèses de l'environnement de test.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire