Microsoft Researcher remporte la victoire sur le benchmark interne Perplexity : l’évaluation à double modèle entre en Frontier, Cowork synchronise l’ouverture des agents pour les longues tâches

BlockBeatNews

D’après le suivi de 1M AI News, Microsoft a ouvert en même temps deux nouvelles capacités de Microsoft 365 Copilot via Frontier (programme « early access » pour les utilisateurs professionnels, permettant aux participants d’essayer à l’avance des fonctionnalités Copilot qui ne sont pas encore officiellement lancées).

Researcher (agent de recherche approfondie intégré à Copilot) ajoute deux modes de collaboration multi-modèles : Critique et Conseil. Critique repose sur une collaboration entre des modèles d’Anthropic et d’OpenAI : l’un est chargé de la planification, de la recherche et de la rédaction, tandis que l’autre se spécialise dans l’examen et l’affinage ; le mode est activé par défaut lorsque Auto est sélectionné. Conseil fonctionne également en parallèle avec deux modèles : chacun génère un rapport complet, puis un modèle d’évaluation distinct consolide les différences et les points communs. Microsoft utilise GPT-5.2 comme modèle d’évaluation (la plus stricte des trois méthodes d’évaluation décrites dans l’article original). Sur le benchmark DRACO (100 questions complexes de recherche publiées par des chercheurs de Perplexity, couvrant 10 domaines), Microsoft teste Critique. Le score global dépasse de 7,0 points le meilleur système de référence Perplexity Deep Research (utilisant Claude Opus 4.6) et progresse de 13,88 % en relatif. L’article original sur DRACO n’inclut pas Critique : ce sont des données que Microsoft a obtenues en testant lui-même selon le même protocole d’évaluation.

Copilot Cowork s’adresse à des travaux plus longs et à plusieurs étapes : d’abord, il génère un plan en fonction de l’objectif, puis il avance progressivement en s’appuyant sur des outils et des fichiers, tout en affichant l’avancement ; l’utilisateur peut intervenir à tout moment. Microsoft, avec Capital Group comme exemple pilote, indique que cela a déjà été utilisé pour la planification de projet, l’établissement des plannings, la préparation des livrables et la préparation des retours/compte rendus pour les dirigeants.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire