Google a trouvé un moyen de rendre l'IA locale jusqu'à 3 fois plus rapide—pas de nouveau matériel nécessaire

En résumé

  • Google a publié des brouillons de prédiction multi-token (MTP) pour Gemma 4, offrant jusqu’à 3 fois plus de rapidité lors de l’inférence sans aucune dégradation de la qualité de sortie.
  • La technique—appelée décodage spéculatif—utilise un modèle léger de “brouillon” pour prédire plusieurs tokens à la fois, que le modèle principal vérifie ensuite en parallèle, évitant ainsi le goulot d’étranglement d’un token à la fois.
  • Les brouillons MTP sont disponibles sur Hugging Face, Kaggle et Ollama sous la même licence Apache 2.0 que Gemma 4, et fonctionnent avec des outils comme vLLM, MLX et SGLang.

Exécuter un modèle d’IA sur votre propre ordinateur est génial—jusqu’à ce que ce ne le soit plus. La promesse est la confidentialité, pas de frais d’abonnement, et aucune donnée ne quitte votre machine. La réalité, pour la plupart des gens, c’est regarder un curseur clignoter pendant cinq secondes entre deux phrases. Ce goulot d’étranglement porte un nom : la vitesse d’inférence. Et cela n’a rien à voir avec l’intelligence du modèle. C’est un problème matériel. Les modèles d’IA standard génèrent du texte un fragment de mot—appelé un token—à la fois. Le matériel doit transférer des milliards de paramètres de la mémoire vers ses unités de calcul rien que pour produire un seul token. C’est lent par conception. Sur du matériel grand public, c’est pénible.

La solution de contournement à laquelle la plupart se tournent consiste à exécuter des modèles plus petits, plus faibles—ou des versions fortement compressées, appelées modèles quantifiés, qui sacrifient une partie de la qualité pour la vitesse. Aucune de ces solutions n’est idéale. Vous obtenez quelque chose qui fonctionne, mais ce n’est pas le modèle que vous vouliez réellement. Google a maintenant une idée différente. La société vient de publier des brouillons de prédiction multi-token (MTP) pour sa famille de modèles ouverts Gemma 4—une technique pouvant offrir jusqu’à 3 fois plus de rapidité sans toucher à la qualité ou à la capacité de raisonnement du modèle.

L’approche s’appelle décodage spéculatif, et cela existe comme concept depuis des années. Les chercheurs de Google ont publié le document fondateur en 2022. L’idée n’a pas été mainstream jusqu’à présent car elle nécessitait l’architecture adaptée pour fonctionner à grande échelle.

Voici la version courte de son fonctionnement. Au lieu de faire faire tout le travail au grand, puissant modèle seul, on le couple avec un petit modèle “brouillon”. Le brouillon est rapide et peu coûteux—il prédit plusieurs tokens en moins de temps que le modèle principal ne mettrait pour en produire un seul. Ensuite, le grand modèle vérifie toutes ces suppositions en une seule passe. Si les suppositions sont correctes, toute la séquence est générée pour le prix d’un seul passage en avant. Selon Google, “si le modèle cible est d’accord avec le brouillon, il accepte toute la séquence en un seul passage en avant—et génère même un token supplémentaire de son côté dans le processus.” Rien n’est sacrifié : le grand modèle—par exemple, la version dense de 31 milliards de Gemma 4—vérifie toujours chaque token, et la qualité de sortie est identique. Vous exploitez simplement la puissance de calcul inutilisée qui restait inactive durant les phases lentes.  Google indique que les modèles brouillons partagent le cache KV du modèle cible—une structure mémoire qui stocke le contexte déjà traité—pour ne pas perdre de temps à recalculer ce que le grand modèle connaît déjà. Pour les petits modèles d’appoint conçus pour les téléphones et Raspberry Pi, l’équipe a même développé une technique de clustering efficace pour réduire encore le temps de génération. Ce n’est pas la seule tentative dans le monde de l’IA pour paralléliser la génération de texte. Les modèles de langage basés sur la diffusion—comme Mercury d’Inception Labs—ont essayé une approche complètement différente : au lieu de prédire un token à la fois, ils commencent avec du bruit et affinent itérativement toute la sortie. C’est rapide sur le papier, mais les LLM de diffusion ont du mal à égaler la qualité des modèles transformeurs traditionnels, ce qui en fait plus une curiosité de recherche qu’un outil pratique. Le décodage spéculatif est différent car il ne modifie pas le modèle sous-jacent. C’est une optimisation de service, pas un remplacement d’architecture. Le même Gemma 4 que vous utilisez déjà devient plus rapide. L’avantage pratique est réel. Un modèle Gemma 4 de 26 milliards fonctionnant sur un GPU de bureau Nvidia RTX Pro 6000 atteint environ deux fois plus de tokens par seconde avec le brouillon MTP activé, selon les propres benchmarks de Google. Sur Apple Silicon, des lots de 4 à 8 requêtes permettent d’atteindre environ 2,2 fois plus de vitesse. Pas tout à fait le plafond de 3x dans tous les scénarios, mais une différence significative entre “à peine utilisable” et “suffisamment rapide pour fonctionner”.

Le contexte est important ici. Quand le modèle chinois DeepSeek a choqué le marché en janvier 2025—détruisant 600 milliards de dollars de la capitalisation de Nvidia en une seule journée—la leçon principale était que les gains d’efficacité peuvent avoir un impact plus fort que la puissance brute de calcul. Mieux vaut travailler intelligemment que de jeter plus de matériel sur le problème. Le brouillon MTP de Google est un autre mouvement dans cette direction, mais ciblant directement le marché grand public. L’ensemble de l’industrie de l’IA est actuellement un triangle qui considère l’inférence, la formation et la mémoire. Chaque avancée dans l’un de ces domaines tend à booster ou à bouleverser tout l’écosystème. La méthode de formation de DeepSeek (obtenir des modèles puissants avec du matériel moins performant) en était un exemple, tout comme le papier de Google sur TurboQuant (réduire la mémoire IA sans perdre de qualité). Les deux ont fait chuter les marchés alors que les entreprises cherchaient à comprendre quoi faire. Google affirme que le brouillon permet de “réduire considérablement la latence pour la messagerie en temps quasi réel, les applications vocales immersives et les flux de travail agentiques”—des tâches qui exigent une faible latence pour être réellement utiles. Les cas d’usage se précisent rapidement : un assistant de codage local qui ne lag pas ; une interface vocale qui répond avant que vous ayez oublié ce que vous avez demandé ; un flux de travail agentique qui ne vous fait pas attendre trois secondes entre chaque étape. Tout cela, sur du matériel que vous possédez déjà. Les brouillons MTP sont disponibles dès maintenant sur Hugging Face, Kaggle et Ollama, sous licence Apache 2.0. Ils fonctionnent avec vLLM, MLX, SGLang et Hugging Face Transformers dès la sortie de la boîte.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler