D’après le suivi de 1M AI News, OpenAI, Anthropic et Google partagent des informations via l’organisation professionnelle à but non lucratif Frontier Model Forum, afin de procéder conjointement à la détection des « distillations adverses » qui violent leurs conditions de service. Cette organisation a été cofondée en 2023 par les trois sociétés susmentionnées et Microsoft. La distillation consiste à entraîner un nouveau modèle à partir des sorties d’un modèle existant, afin de reproduire les capacités du premier à moindre coût ; les entreprises du secteur de l’IA utilisent elles aussi souvent la distillation pour créer des versions plus petites et plus efficaces de leurs modèles, mais la distillation réalisée par des tiers non autorisés fait débat dans l’industrie.
OpenAI confirme sa participation à cette collaboration et cite un mémo qu’elle avait soumis auparavant au Congrès américain, affirmant que DeepSeek essaie de « se faire tirer par le bras » afin d’obtenir des capacités développées par OpenAI et d’autres laboratoires américains de pointe. Google, Anthropic et Frontier Model Forum refusent tous de faire tout commentaire. Des responsables du gouvernement américain estiment que la distillation non autorisée fait perdre chaque année aux laboratoires de la Silicon Valley des profits se chiffrant en milliards de dollars.
Cette collaboration s’inspire des pratiques de l’industrie de la cybersécurité qui consistent, entre entreprises, à partager des renseignements sur les attaques. Le plan d’action sur l’IA publié l’an dernier par l’administration Trump appelle également à la création de centres spécialisés de partage et d’analyse de l’information. Toutefois, comme les limites des contenus pouvant être partagés au regard des lois antitrust en vigueur restent incertaines pour chaque entreprise, le champ du partage d’informations demeure limité. Les trois sociétés n’ont pas encore fourni de preuves publiques montrant dans quelle mesure l’innovation des modèles chinois dépend de la distillation, mais elles indiquent que la fréquence de tels comportements peut être mesurée par le nombre de requêtes de données à grande échelle.