استنادًا إلى مراقبة 1M AI News، قام مطوّر بفكّ تجزئة ملف ثنائي بحجم 228MB الخاص بالإصدار المستقل من Claude Code باستخدام Ghidra وMITM proxy وradare2، ووجد أخطاء تخزين مؤقت (caching) منفصلة. يمكن لهذه الأخطاء رفع تكلفة واجهة برمجة التطبيقات بمقدار 10-20 مرة دون علم المستخدمين. تم تقديم التحليل ذي الصلة إلى GitHub (issue #40524)، حيث وسمته Anthropic على أنه Bug تراجعي (regression Bug) وتم تكليف فريق بمعالجته.
الخطأ الأول موجود في وقت تشغيل Bun المُخصّص المستخدم في الإصدار المستقل. في كل مرة يتم فيها إجراء طلب إلى API، يقوم وقت التشغيل بالبحث عن مُعرّف فوتر/محاسبة داخل نص الطلب واستبداله، لكن منطق الاستبدال يطابق أول عنصر مطابق داخل نص الطلب. إذا كانت سجلات المحادثة تحتوي بالصدفة على هذه السلسلة (مثلًا عند مناقشة آلية الفوترة الداخلية الخاصة بـ Claude Code)، فإن الاستبدال يطابق محتوى الرسالة بدلًا من تعليمات النظام، مما يؤدي إلى تشغيل إعادة بناء شاملة للتخزين المؤقت مع كل طلب. تتمثل طريقة الالتفاف المؤقتة في استخدام npx @anthropic-ai/claude-code للتشغيل؛ إصدارات حزمة npm لا تتضمن منطق الاستبدال هذا.
الخطأ الثاني يؤثر على جميع المستخدمين الذين يستأنفون جلسات باستخدام --resume أو --continue، وقد تم إدخاله منذ v2.1.69. عند استئناف الجلسة، يختلف موضع إدخال المعلومات المضافة من النظام عن موضع جلسة جديدة، ما يؤدي إلى عدم تطابق بادئة التخزين المؤقت بالكامل؛ فتتحول قراءة سجل المحادثة بالكامل من ذاكرة التخزين المؤقت إلى إعادة كتابة شاملة. تعمل الدورات اللاحقة بشكل طبيعي، لكن عملية الاستئناف نفسها تولّد بالفعل قدرًا كبيرًا من التكلفة الإضافية، ولا توجد حاليًا أي طريقة التفاف خارجية.
قدّر المطوّر أن المحادثة الطويلة بحوالي 500 ألف token؛ ففي الخطأ 1 يتم استهلاك تكلفة إضافية تقارب 0.04 دولار لكل طلب، وفي الخطأ 2 يتم استهلاك تكلفة إضافية تقارب 0.15 دولار لكل استئناف. وبمجموعهما، قد تتجاوز تكلفة الطلب الواحد 0.20 دولار. أكد مهندس لدى Anthropic سابقًا، Lydia Hallie، أن سرعة وصول المستخدمين إلى حد الاستخدام «أسرع بكثير من المتوقع»، ويعتقد العديد من المستخدمين في قسم التعليقات في Reddit أن هذين خطأين التخزين المؤقت قد يكونان أحد الأسباب الجذرية لالاستهلاك غير الطبيعي لاستخدام الحصة.