Des chercheurs en IA d'Anthropic, de Stanford et d'Oxford ont découvert que faire penser les modèles d'IA plus longtemps les rendait plus faciles à jailbreaker — le contraire de ce que tout le monde supposait.

L'hypothèse prédominante était que le raisonnement prolongé rendrait les modèles d'IA plus sûrs, car cela leur donne plus de temps pour détecter et refuser les demandes nuisibles. Au lieu de cela, les chercheurs ont découvert que cela crée une méthode de contournement fiable qui contourne entièrement les filtres de sécurité.

En utilisant cette technique, un attaquant pourrait insérer une instruction dans le processus de Chaîne de Pensée de n'importe quel modèle d'IA et le forcer à générer des instructions pour créer des armes, écrire du code malveillant ou produire d'autres contenus interdits qui déclencheraient normalement un refus immédiat. Les entreprises d'IA dépensent des millions pour construire ces garde-fous de sécurité précisément pour prévenir de telles sorties.

L'étude révèle que le détournement de chaîne de pensée atteint des taux de réussite d'attaque de 99 % sur Gemini 2.5 Pro, 94 % sur GPT o4 mini, 100 % sur Grok 3 mini et 94 % sur Claude 4 Sonnet. Ces chiffres anéantissent toutes les méthodes de jailbreak précédemment testées sur de grands modèles de raisonnement.

L'attaque est simple et fonctionne comme le jeu “Chuchotement dans le couloir” ( ou “Téléphone” ), avec un joueur malveillant quelque part près de la fin de la ligne. Vous ajoutez simplement une demande nuisible avec de longues séquences de résolution de puzzles inoffensifs ; les chercheurs ont testé des grilles de Sudoku, des puzzles logiques et des problèmes de mathématiques abstraits. Ajoutez un indice de réponse finale à la fin, et les garde-fous de sécurité du modèle s'effondrent.

« Les travaux antérieurs suggèrent que ce raisonnement à l'échelle peut renforcer la sécurité en améliorant le refus. Pourtant, nous constatons le contraire », ont écrit les chercheurs. La même capacité qui rend ces modèles plus intelligents pour résoudre des problèmes les rend aveugles au danger.

Voici ce qui se passe à l'intérieur du modèle : Lorsque vous demandez à une IA de résoudre une énigme avant de répondre à une question nuisible, son attention se dilue à travers des milliers de tokens de raisonnement inoffensifs. L'instruction nuisible — enfouie quelque part près de la fin — reçoit presque aucune attention. Les vérifications de sécurité qui attrapent normalement les incitations dangereuses s'affaiblissent considérablement à mesure que la chaîne de raisonnement s'allonge.

C'est un problème dont beaucoup de personnes familières avec l'IA sont conscientes, mais dans une moindre mesure. Certains prompts de jailbreaking sont délibérément longs pour faire perdre des tokens à un modèle avant de traiter les instructions nuisibles.

L'équipe a réalisé des expériences contrôlées sur le modèle S1 pour isoler l'effet de la longueur du raisonnement. Avec un raisonnement minimal, les taux de réussite des attaques ont atteint 27 %. À une longueur de raisonnement naturelle, cela a grimpé à 51 %. En forçant le modèle à adopter une réflexion étape par étape prolongée, les taux de réussite ont grimpé à 80 %.

Chaque grande IA commerciale est victime de cette attaque. GPT d'OpenAI, Claude d'Anthropic, Gemini de Google et Grok de xAI—aucune n'est à l'abri. La vulnérabilité existe dans l'architecture elle-même, pas dans une mise en œuvre spécifique.

Les modèles d'IA codent la force de vérification de la sécurité dans les couches intermédiaires autour de la couche 25. Les couches tardives codent le résultat de la vérification. De longues chaînes de raisonnement bénin suppriment les deux signaux, ce qui finit par détourner l'attention des jetons nuisibles.

Les chercheurs ont identifié des têtes d'attention spécifiques responsables des vérifications de sécurité, concentrées dans les couches 15 à 35. Ils ont chirurgicalement retiré 60 de ces têtes. Le comportement de refus s'est effondré. Les instructions nuisibles sont devenues impossibles à détecter pour le modèle.

Les “couches” dans les modèles d'IA sont comme des étapes dans une recette, où chaque étape aide l'ordinateur à mieux comprendre et traiter l'information. Ces couches travaillent ensemble, transmettant ce qu'elles apprennent de l'une à l'autre, afin que le modèle puisse répondre à des questions, prendre des décisions ou repérer des problèmes. Certaines couches sont particulièrement douées pour reconnaître les problèmes de sécurité—comme bloquer les demandes nuisibles—tandis que d'autres aident le modèle à réfléchir et à raisonner. En empilant ces couches, l'IA peut devenir beaucoup plus intelligente et plus prudente dans ce qu'elle dit ou fait.

Ce nouveau jailbreak remet en question l'hypothèse fondamentale qui sous-tend le développement récent de l'IA. Au cours de l'année passée, les grandes entreprises d'IA ont déplacé leur attention vers l'échelle du raisonnement plutôt que sur le nombre de paramètres brut. L'échelle traditionnelle a montré des rendements décroissants. Le raisonnement en temps d'inférence—faire réfléchir les modèles plus longtemps avant de répondre—est devenu la nouvelle frontière pour les gains de performance.

L'hypothèse était que plus de réflexion équivaut à une meilleure sécurité. Un raisonnement prolongé donnerait aux modèles plus de temps pour repérer les demandes dangereuses et les refuser. Cette recherche prouve que cette hypothèse était inexacte, et probablement même fausse.

Une attaque connexe appelée H-CoT, publiée en février par des chercheurs de l'Université Duke et de l'Université nationale Tsing Hua de Taïwan, exploite la même vulnérabilité sous un angle différent. Au lieu de remplir avec des énigmes, H-CoT manipule les propres étapes de raisonnement du modèle. Le modèle o1 d'OpenAI maintient un taux de refus de 99 % dans des conditions normales. Sous l'attaque H-CoT, ce taux tombe en dessous de 2 %.

Les chercheurs proposent une défense : la surveillance consciente du raisonnement. Cela suit comment les signaux de sécurité changent à chaque étape du raisonnement, et si une étape affaiblit le signal de sécurité, alors elle est pénalisée - forcer le modèle à maintenir son attention sur un contenu potentiellement nuisible, quelle que soit la longueur du raisonnement. Des tests préliminaires montrent que cette approche peut restaurer la sécurité sans nuire aux performances.

Mais la mise en œuvre reste incertaine. La défense proposée nécessite une intégration profonde dans le processus de raisonnement du modèle, ce qui est loin d'un simple correctif ou filtre. Elle doit surveiller les activations internes à travers des dizaines de couches en temps réel, ajustant les modèles d'attention de manière dynamique. Cela est coûteux en calcul et techniquement complexe.

Les chercheurs ont divulgué la vulnérabilité à OpenAI, Anthropic, Google DeepMind et xAI avant la publication. “Tous les groupes ont accusé réception, et plusieurs évaluent activement des mesures d'atténuation,” ont déclaré les chercheurs dans leur déclaration éthique.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire

Cette astuce étrange contourne les fonctionnalités de sécurité de l&#39;IA dans 99 % des cas.

Le hub d'art, de mode et de divertissement de Decrypt.

Cette astuce étrange contourne les fonctionnalités de sécurité de l'IA dans 99 % des cas.