D’après la surveillance de 1M AI News, un développeur a, via Ghidra, un proxy MITM et radare2, procédé au rétro-ingénierie d’un binaire autonome de 228MB pour Claude Code, et a découvert deux bugs de cache distincts pouvant augmenter les coûts d’API de 10 à 20 fois sans que l’utilisateur en ait connaissance. L’analyse correspondante a été soumise sur GitHub (issue #40524) ; Anthropic l’a classée comme bug de régression et l’a prise en charge.
Le premier bug se trouve dans le runtime Bun personnalisé utilisé par la version autonome. À chaque requête API, le runtime recherche un identifiant de facturation dans le corps de la requête et le remplace, mais la logique de remplacement correspond au premier élément correspondant dans le corps de la requête. Si l’historique de conversation contient exactement cette chaîne (par exemple, lorsqu’on discute du mécanisme interne de facturation de Claude Code), le remplacement s’effectue sur le contenu du message plutôt que sur l’invite de système, ce qui déclenche à chaque requête une reconstruction complète du cache. La méthode de contournement temporaire consiste à utiliser npx @anthropic-ai/claude-code pour exécuter le programme : la version de package npm ne contient pas cette logique de remplacement.
Le second bug affecte tous les utilisateurs qui reprennent une session avec --resume ou --continue, et il a été introduit à partir de la version v2.1.69. Lors de la reprise de session, la position d’injection des informations additionnelles du système diffère de celle d’une nouvelle session, ce qui entraîne un non-accord total du préfixe de cache : l’intégralité de l’historique de conversation est alors relue depuis le cache vers une réécriture complète. Les tours suivants reprennent ensuite normalement, mais l’opération de reprise elle-même a déjà généré d’importants surcoûts ; pour le moment, aucune solution de contournement externe n’est disponible.
Le développeur estime qu’à propos d’une longue conversation d’environ 500 000 tokens, le Bug 1 consomme à chaque requête environ 0,04 USD de plus, et le Bug 2 consomme environ 0,15 USD de plus à chaque reprise ; les deux combinés peuvent faire dépasser le coût d’une requête de plus de 0,20 USD. Auparavant, les ingénieurs d’Anthropic Lydia Hallie avaient confirmé que la vitesse à laquelle les utilisateurs atteignent la limite d’utilisation était « bien plus rapide que prévu ». Dans la section commentaires de Reddit, plusieurs utilisateurs estiment que ces deux bugs de cache seraient l’une des causes fondamentales de la consommation anormale de ressources.