Le premier AI à créer un AI dans l'histoire ! GPT-5.3 participe au développement de lui-même, la science-fiction devient réalité

MarketWhisper

2026-02-09 06:33:49

OpenAI a publié GPT-5.3-Codex, le premier modèle qui « participe à sa création » pour déboguer son propre code, gérer le déploiement et diagnostiquer les tests. Karpathy a qualifié la révision de « la plus proche de la scène de décollage de l’IA ».

L’IA a commencé à créer des singularités technologiques et des percées dans le domaine

Compte officiel d’OpenAI publié : GPT-5.3-Codex est officiellement lancé, qui est « le premier à participer à la création de son propre modèle ». Qu’est-ce que cela signifie ? En d’autres termes, pendant le processus de développement, cette IA a aidé à déboguer son propre code d’entraînement, à gérer son propre déploiement et à diagnostiquer ses propres résultats de tests. En termes humains, l’IA a commencé à créer l’IA.

Andrej Karpathy, ancien chercheur chez OpenAI et directeur de Tesla AI, a tweeté juste après l’avoir lu : « C’est la scène la plus proche que j’aie jamais vue d’une scène de décollage d’IA dans la science-fiction. » Cette évaluation des meilleurs chercheurs en IA est importante car Karpathy a personnellement vécu plusieurs étapes clés du développement de l’IA, et son jugement repose sur une compréhension technique approfondie.

L’IA se propage elle-même, ce n’est pas de la rhétorique marketing. Selon la divulgation interne d’OpenAI, GPT-5.3-Codex a fait ces choses pendant le processus de développement : analyser des tests qui ne signalaient pas les journaux d’entraînement, suggérer des correctifs pour les scripts et profils d’entraînement, générer des recettes de déploiement, et résumer et évaluer les anomalies pour une révision humaine. Qu’est-ce que cela signifie ? L’IA n’est plus seulement un outil, elle commence à faire partie de l’équipe de développement, et c’est le genre qui peut s’améliorer.

Cette capacité à participer au développement dépasse le positionnement traditionnel de l’IA. Par le passé, les modèles d’IA étaient entièrement conçus, entraînés et déployés par des humains, et l’IA était un produit passif. Aujourd’hui, GPT-5.3 a joué un rôle actif dans sa propre naissance, et bien qu’il soit encore sous supervision humaine, ce changement de rôle a des implications considérables. Cela suggère une possibilité : les futurs modèles d’IA pourraient être largement conçus et optimisés par l’IA elle-même, les humains ne fournissant que direction et examen final.

L’autonomie de GPT-5.3 dans le développement

Analyser les journaux d’entraînement: Signale automatiquement les tests échoués pour identifier les anomalies pendant l’entraînement

Plan de réparation recommandé: Suggérer des améliorations des scripts et profils d’entraînement

Générer la recette de déploiement: Automatiser le processus de déploiement et réduire les opérations manuelles

Anomalie d’évaluation sommaire: Organiser les résultats d’évaluations complexes en rapports compréhensibles pour l’humain

Un article récent sur SEAL publié par le MIT (arXiv :2506.10943) décrit une architecture d’IA qui apprend continuellement après le déploiement, évoluant elle-même sans réentraînement. Notamment, certains chercheurs SEAL ont désormais rejoint OpenAI. Cela signifie que l’IA est passée d’un « outil statique » à un « système dynamique », que l’apprentissage ne s’arrête plus au déploiement, et que les frontières de l’inférence et de l’entraînement fondent. GPT-5.3 pourrait être la première application commerciale de cette nouvelle architecture.

77,3 % ont écrasé le massacre de référence de Claude

Le 5 février, OpenAI et Anthropic ont tous deux publié une nouvelle génération de modèles à seulement 20 minutes d’intervalle. D’abord, Anthropic a publié Claude Opus 4.6, puis OpenAI a lancé GPT-5.3-Codex. Puisqu’OpenAI veut utiliser GPT-5.3-Codex pour éliminer les nouveaux modèles d’autres personnes, elle doit avoir une certaine capacité. Les données ne mentent pas, GPT-5.3-Codex a établi de nouveaux records dans plusieurs benchmarks industriels dès son lancement.

Terminal-Bench 2.0 teste les capacités opérationnelles de l’IA dans un environnement terminal réel, compilant du code, entraînant des modèles et configurant des serveurs. GPT-5.3-Codex a obtenu 77,3 %, GPT-5.2-Codex n’a obtenu que 64,0 % et Claude Opus 4,6 a rapporté 65,4 %. C’est une augmentation de 13 points de pourcentage entre les générations, ce qui constitue déjà un bond en avant considérable dans le domaine de l’IA. La comparaison entre 77,3 % et 65,4 % montre que GPT-5.3 établit un avantage significatif dans les tâches d’ingénierie réelles.

SWE-Bench Pro est un benchmark spécifiquement conçu pour tester les capacités réelles d’ingénierie logicielle, couvrant quatre langages de programmation : Python, JavaScript, Go et Ruby. GPT-5.3-Codex a obtenu 56,8 %, dépassant les 56,4 % de son prédécesseur, GPT-5.2-Codex, et a continué à conserver sa première place dans l’industrie. Plus important encore, OpenAI a révélé que GPT-5.3-Codex utilise le plus petit nombre de jetons de sortie de tous les modèles lorsqu’il atteint ce score, ce qui signifie qu’il est non seulement précis mais aussi efficace.

OSWorld-Verified teste la capacité de l’IA à accomplir des tâches de productivité dans un environnement de bureau visuel, en éditant des tableurs, créant des présentations, travaillant sur des documents, et plus encore. GPT-5.3-Codex a obtenu un score de 64,7 %, contre une moyenne humaine de 72 %. Cela signifie qu’elle a atteint la performance des gens ordinaires dans les tâches informatiques, presque doublant par rapport à son prédécesseur. Cette performance quasi humaine rend l’IA véritablement capable de travailler de bureau pour la première fois, plutôt qu’un simple outil auxiliaire.

Claude contre les équipes de jetons et agents de 100K

Ce qui est encore plus notable, c’est que Claude Opus 4.6 prend en charge pour la première fois une fenêtre de contexte de 100 000 jetons (bêta) dans le modèle Opus, qui peut traiter toute la base de code ou des centaines de pages de documents en même temps, et a lancé la fonction Agent Teams, où plusieurs agents IA peuvent collaborer simultanément à la programmation, aux tests et à la rédaction de documents.

Lorsque OpenAI et Anthropic lancent leurs modèles phares le même jour et au même moment, cette compétition n’est plus seulement une compétition technique, mais une bataille sur la future forme de l’IA : la voie « auto-évolution » d’OpenAI ou la voie de la « collaboration multi-agents » d’Anthropic ? La stratégie d’OpenAI est de rendre une IA unique plus puissante et même de s’améliorer. La stratégie d’Anthropic est de permettre à plusieurs IA de collaborer sur des tâches complexes par la division du travail et la collaboration.

Le contexte des jetons à 100 000 est une avancée technologique. Cela équivaut à environ 75 millions de mots anglais ou 300 caractères chinois, ce qui suffit à tenir l’intégralité du code d’un projet logiciel de taille moyenne ou à une documentation technique épaisse. Cette capacité permet à Claude de « voir » l’ensemble du projet plutôt qu’une compréhension fragmentaire. Pour l’analyse architecturale et la refactorisation de projets à grande échelle, cette vision globale est cruciale.

Agent Teams apporte le concept de collaboration à l’IA. Un agent écrit du code, un autre teste et un troisième écrit de la documentation, et ils peuvent communiquer et se coordonner entre eux. Ce schéma imite le fonctionnement des équipes logicielles humaines et peut être mieux adapté à certains scénarios qu’une seule super IA. Cependant, la collaboration multi-agents introduit également de nouvelles complexités : comment coordonner, comment éviter les conflits et comment assurer la cohérence.

Les deux voies ont leurs avantages et leurs inconvénients. La voie d’auto-évolution d’OpenAI est plus agressive et, si elle réussit, elle peut entraîner des améliorations exponentielles des capacités, mais elle pourrait aussi déraper. La voie multi-agents d’Anthropic est plus conservatrice, réduisant le point de risque unique en répartissant les capacités, mais les coûts de coordination peuvent limiter l’efficacité. À mesure que l’IA commence à évoluer dans la nature, les questions de gouvernance passeront de « quelle intelligence est-elle » à « comment gérer un système en constante évolution ? » Et lorsque deux grandes entreprises d’IA publient des modèles révolutionnaires consécutifs en moins de 20 minutes, la fenêtre temporelle restante pour la réflexion et la préparation humaine se réduit à une vitesse visible à l’œil nu.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.