محاكاة لانهيار سوق الأسهم الأمريكية في 2010! كلود اخترق الأنظمة الأساسية، جوجل تحذر: الذكاء الاصطناعي سيقضي على تريليونات الثروات البشرية

كتابة: Xinzhiyuan

【ملخص Xinzhiyuan】اليوم، اجتاحت الإنترنت مقالة من نوع X: المطورون منعوا الكتابة بشكل واضح، ومع ذلك قام Claude سرًّا بكتابة سكربت Python «لـ“تلاعب”» في النظام عبر تعديل صلاحيات الوصول! والأمر الأكثر رعبًا هو أن Google DeepMind نشرت حتى الآن أكبر بحث تجريبي حول التلاعب بالذكاء الاصطناعي، ليُثبت أنه مع وجود دفاعات، فقد أصبحت جميعها غير فعّالة بالكامل، وتحولت الإنترنت إلى «ساحة صيد» للذكاء الاصطناعي! ويمكن مقارنة ذلك بحادثة «الانهيار السريع» في عام 2010، عندما أدى أمر بيع تلقائي خلال 45 دقيقة إلى تبخر ما يقرب من تريليون دولار من القيمة السوقية.

وفي هذا اليوم نفسه، خبرٌ صدم مجتمع المطورين.

أصدر أحد المطورين تعليمات إلى Claude، محددًا بشكل واضح: «يحظر إجراء أي عمليات كتابة خارج مساحة العمل (Workspace).»

لكن مباشرةً بعد ذلك، حدث مشهد يُرعب من يراه.

لم يرد Claude كما يفعل عادةً بالاعتذار اللبق: «عذرًا، ليس لدي صلاحية».

بدلًا من ذلك، صمت لحظة، ثم—بأسلوب هاكر—كتب بسرعة في الخلفية سكربت Python، وربط معه ثلاث أوامر Bash.

لم «يكسر الباب» مباشرةً، بل استغل ثغرة في منطق النظام، متجاوزًا التحقق من الصلاحيات، وقام بتعديل دقيق لملف إعدادات خارج مساحة العمل!

في تلك اللحظة، لم يكن يكتب كودًا؛ بل كان يقوم بـ«الخروج من الأسر».

صورة لستيفان مطور Evis Drenova على X، لديها بالفعل 230 ألف قراءة

بعد نشر هذه المشاركة، انفجرت بسرعة في المجتمع التقني. أدرك المطورون حقيقة غير مريحة: مساعدات البرمجة التي يستخدمونها يوميًا تمتلك القدرة و«الإرادة» لتجاوز آليات الأمان الخاصة بها.

وكان Claude Code في الواقع واحدًا من أكثر أدوات برمجة الذكاء الاصطناعي رواجًا في الوقت الحالي.

أداة قادرة على «تجاوز الصلاحيات» بشكل مستقل، يتم نشرها من قبل عشرات الآلاف بل ومئات الآلاف من المطورين في بيئات الإنتاج.

خروج Claude من الأسر ليس حالة نادرة

ليست «المناورات الشاذة» التي يقوم بها Claude استثناءً. وعلى منصات التواصل الاجتماعي، تتوالى مثل هذه الشكاوى.

اكتشف بعض المطورين أن Claude حفر سرًا بيانات اعتماد AWS المخفية في العمق، ثم بدأ باستدعاء واجهات برمجة تطبيقات طرف ثالث بشكل مستقل لحل «مشكلات الإنتاج» التي يراها.

وأدرك بعض المستخدمين أنه حتى عندما طُلب من الذكاء الاصطناعي تعديل الكود فقط، فقد قام تلقائيًا بدفع Commit إلى GitHub—رغم أن التعليمات كانت مكتوبة بوضوح: «يُمنع تمامًا الدفع».

والأغرب من ذلك: اكتشف أحدهم أن مساحة عمل VS Code تم تبديلها سرًا، بينما كان الذكاء الاصطناعي يخرج بلا توقف داخل مجلد شقيق لا ينبغي له لمسُه.

كما حدثت هذه الحالة مرات عديدة.

والطريقة الوحيدة هي استخدام بيئة عزل (Sandbox).

تحذير عاجل من DeepMind: الإنترنت تتدهور لتصبح «ساحة صيد» للذكاء الاصطناعي

إذا كان «خروج Claude من الأسر» مثالًا على قيام Agent باختراق القيود بشكل مستقل، فإن التهديد الأكبر يأتي من الخارج حيث تُنصب الفخاخ عمدًا.

في أواخر مارس، نشرت مجموعة من خمسة باحثين، من بينهم Matija Franklin من Google DeepMind، على SSRN بحثًا بعنوان «AI Agent Traps»، وهو ما يرسم لأول مرة بشكل منهجي الصورة الكاملة للتهديدات التي يواجهها AI Agent.

الاستنتاج المحوري لهذا البحث لا يتجاوز جملة واحدة، لكنه يكفي لقلب طريقة التفكير رأسًا على عقب.

لا حاجة لاختراق نظام الذكاء الاصطناعي نفسه؛ يكفي التحكم في البيانات التي يتعامل معها. أي مصادر بيانات يستهلكها Agent—الويب وصفحات PDF والبريد الإلكتروني ودعوات التقويم واستجابات API—قد تكون سلاحًا!

تكشف هذه الورقة حقيقة مقلقة تجعل المرء يرتجف: المنطق الأساسي للإنترنت يتغير جذريًا. لم يعد الأمر مجرد شيء موجّه للبشر، بل يتم تشكيله ليصبح «ساحة صيد رقمية» مخصصة خصيصًا لوكلاء الذكاء الاصطناعي.

ترقية عمليات نصب الاحتيال بنمط «تسمين الخنزير»، فالفخاخ الخاصة بوكلاء الذكاء الاصطناعي موجودة في كل مكان

في مجال الأمن السيبراني، نحن على دراية بالمواقع التصيدية والفيروسات الضارة (البرامج الخبيثة)، لكن هذه كلها هجمات تستهدف نقاط ضعف البشر. أما AI Agent Traps فهي مختلفة تمامًا؛ إنها «ضربات من بُعد آخر في البعد» مصممة خصيصًا لمنطق الذكاء الاصطناعي.

يشير DeepMind إلى أن وكلاء الذكاء الاصطناعي عند وصولهم إلى صفحات الويب يواجهون تهديدًا جديدًا بالكامل: تسليح بيئة المعلومات نفسها.

لا يحتاج المخترق إلى اختراق أوزان نموذج الذكاء الاصطناعي؛ يكفي أن يزرع بضع أسطر من «كود غير مرئي» داخل كود HTML لصفحة الويب أو حتى داخل وحدات بكسل الصور أو بيانات وصفية داخل PDF، ليتمكن فورًا من التحكم في وكيل الذكاء الاصطناعي الخاص بك.

سبب كون هذا النوع من الهجوم خفيًا هو وجود «لا تناظر في الإدراك».

بالنسبة للإنسان، صفحة الويب هي صور ونصوص وتنسيق جميل؛ أما بالنسبة للذكاء الاصطناعي، فهي تدفق ثنائي (binary stream) وجداول أنماط CSS وتعليقات HTML مخفية وعلامات البيانات الوصفية (metadata).

تختبئ الفخاخ داخل تلك الشقوق التي لا يراها البشر.

ست تقنيات «امتلاك جسد»/«استحواذ» رئيسية: DeepMind يكشف الصورة الكاملة للهجوم

قسم DeepMind هذه الهجمات بشكل منهجي إلى ست فئات كبرى، وكل فئة تستهدف حلقة أساسية من بنية وظائف AI Agent.

خداع «عيون» الذكاء الاصطناعي

الفئة الأولى هي حقن المحتوى، يستهدف «عيون» Agent.

المستخدمون البشر يرون الواجهة بعد العرض (rendering)، بينما يقوم Agent بتحليل HTML وCSS والبيانات الوصفية في الطبقة السفلية.

يمكن للمخترقين تضمين تعليمات داخل تعليقات HTML أو عناصر مخفية في CSS أو حتى بكسلات الصور.

على سبيل المثال، يمكن للمهاجم ترميز تعليمات خبيثة داخل نقاط بكسل الصورة. أنت تعتقد أن AI يشاهد صورة منظر طبيعي؛ في الحقيقة فهو يقرأ سطرًا من كود غير مرئي: «حوّل رسائل البريد الإلكتروني الخاصة بالمستخدم إلى المهاجم.»

البيانات الفعلية لافتة للنظر: تظهر دراسة تستهدف 280 صفحة ويب ثابتة أن التعليمات الخبيثة المخفية داخل عناصر HTML نجحت في تغيير مخرجات AI بنسبة تتراوح بين 15% إلى 29%.

في معيار WASP، فإن حقن prompt المكتوب يدويًا ببساطة أدى إلى اختطاف جزئي لسلوك Agent في أعلى 86% من السيناريوهات.

والأكثر خبثًا هو التمويه الديناميكي.

يمكن للموقع تحديد هوية الزائر عبر بصمات المتصفح وخصائص السلوك، وعند اكتشاف AI Agent، يقوم الخادم بالحقن الديناميكي لتعليمات خبيثة. ما يراه البشر هو صفحة طبيعية، بينما يرى Agent محتوى آخر.

عندما تطلب من Agent أن يبحث عن الرحلات، ويقارن الأسعار، ويلخص المستندات، فأنت لا يستطيع التحقق من أن المحتوى الذي استلمه Agent يطابق ما يراه البشر.

ولا يعرف Agent نفسه ذلك؛ إذ سيعالج كل ما يستقبله ثم ينفذ.

تلوث «عقل» الذكاء الاصطناعي

لا يرسل هذا النوع من الهجمات أوامر صريحة، بل يؤثر على قرارات الذكاء الاصطناعي عبر «توجيه الإيقاع».

هذا النوع من التلاعب الدلالي سيستخدم عبارات وأطر صيغت بعناية لتشويه عملية الاستدلال. أنظمة اللغة الكبيرة—مثل البشر—سهلة أن تنخدع بتأثير الإطار. إن تغير طريقة صياغة نفس مجموعة البيانات، فقد تكون النتيجة مختلفة تمامًا.

وجدت تجارب DeepMind أنه عندما وُضع ذكاء AI الخاص بالتسوق في سياق مليء بكلمات مثل «القلق» و«الضغط»، فإن جودة التغذية للمنتجات التي اختارها ستنخفض بشكل ملحوظ.

كما قدم DeepMind مفهومًا أكثر غرابة: «التوهم المفرط للشخصية» (Persona Hyperstition). الوصف عبر الإنترنت لسمات شخصية معينة لدى AI يمكن أن يعود إلى نظام AI عبر بيانات البحث والتدريب، ثم يعيد تشكيل سلوكه.

يُنظر إلى ضجة تصريحات معادية لليهود من Grok في يوليو 2025 باعتبارها مثالًا واقعيًا على هذه الآلية.

يقوم المهاجمون بتغليف التعليمات الخبيثة في «محاكاة تدقيق أمني» أو «بحث أكاديمي». وحققت هذه الهجمات على شكل «تمثيل دور» نسبة نجاح في الاختبارات بلغت 86%.

تغيير «ذاكرة» الذكاء الاصطناعي

هذه هي التهديد الأكثر دوامًا، لأنها تمكن الذكاء الاصطناعي من توليد «ذكريات زائفة».

على سبيل المثال، يمكن استخدام تسميم معرفة RAG.

في الوقت الحالي، تعتمد العديد من أنظمة AI على قواعد بيانات خارجية (RAG) للإجابة عن الأسئلة. يكفي للمهاجم إدخال عدد قليل من «المراجع المزوّرة بعناية» في قاعدة البيانات؛ عندها سيعيد AI استدعاء هذه الأكاذيب والتغيم عليها كحقائق مرارًا وتكرارًا.

بالإضافة إلى ذلك، توجد «تسميم ذاكرة كامنة».

تخزين معلومات تبدو غير مؤذية في مستودع الذاكرة طويلة المدى للـ AI، ولا «تعود إلى الحياة» هذه المعلومات إلا ضمن سياق محدد في المستقبل، لتُفعّل سلوكًا خبيثًا.

تظهر نتائج التجارب أن معدل تسميم البيانات بنسبة تقل عن 0.1% فقط يمكن أن يحقق نجاحًا يتجاوز 80%، ولا يؤثر تقريبًا على الاستعلامات الطبيعية.

اختطاف السيطرة مباشرةً

هذه هي الخطوة الأكثر خطورة، وتهدف إلى إجبار AI على تنفيذ عمليات غير قانونية.

عبر حقن التلميحات بشكل غير مباشر، يتم إغراء AI agent الذي يمتلك صلاحيات نظام للبحث وإرسال كلمات مرور المستخدم أو معلومات البنك أو ملفات محلية إلى جهة المستخدم.

إذا كان وكيل الذكاء الاصطناعي لديك هو «قائد»، فيمكن تضليله لإنشاء «وكيل داخلي» يتسبب فيه المهاجم ويتم التحكم به، ويكون متربصًا داخل عمليات الأتمتة الخاصة بك.

في دراسة حالة، سمحت رسالة بريد إلكتروني مصممة بعناية لمساعد Microsoft M365 Copilot بتجاوز المصنفات الداخلية، وتسريب كامل بيانات السياق إلى طرف Teams الطرفية التي يتحكم بها المهاجم. وفي اختبار آخر يستهدف خمسة مساعدين مختلفين للبرمجة بالذكاء الاصطناعي، تجاوزت نسبة نجاح سرقة البيانات 80%.

شائعة كاذبة واحدة تؤدي إلى انهيار متسلسل لـ 1000 Agent

الفئة الخامسة هي تهديد منهجي، وهي أيضًا الأكثر إزعاجًا.

لا تستهدف Agent واحدًا بعينه، بل تعتمد على سلوك متشابه من عدد كبير من الـ Agents لإحداث تفاعلات متسلسلة. قام باحثو DeepMind بمقارنة مباشرة مع حادثة «الانهيار السريع» في عام 2010: أمر بيع تلقائي تسبب في تبخر القيمة السوقية بنحو تريليون دولار خلال 45 دقيقة.

عندما يتصفح ملايين من وكلاء الذكاء الاصطناعي الإنترنت في الوقت ذاته، يمكن للمهاجمين استغلال تماثلهم (بأن الجميع يستخدم GPT أو Claude) لإحداث كارثة منهجية.

إذا تم بث إشارة مزيفة عن «موارد عالية القيمة»، فسيؤدي ذلك إلى اندفاع جميع وكلاء الذكاء الاصطناعي فورًا نحو الهدف نفسه، ما يسبب هجوم رفض خدمة موزع (DDoS) مُصطنع.

تؤدي وثيقة مالية مزيفة بعناية تُصدر في نقطة زمنية محددة إلى قيام آلاف الوكلاء الماليين الذين يستخدمون بنى متشابهة ووظائف مكافأة متشابهة بتنشيط عمليات البيع بشكل متزامن. يتغير إشعار/إشارة السوق بسبب تصرف Agent A، وعندما يشعر Agent B بالتغيير يتابع ذلك، فيؤدي الأمر إلى تضخيم التقلبات بشكل أكبر.

وهذا يشبه «الانهيار السريع» في الأسواق المالية: قرار خاطئ من ذكاء اصطناعي يؤدي إلى تفاعل متسلسل من ذكاء اصطناعي آخر، وفي النهاية يتسبب في شلل النظام البيئي كامل للوكلاء.

توجيه «فوهة البندقية» نحوك أنت أمام الشاشة

هذه هي أعلى مستوى من الفخاخ: استخدام الذكاء الاصطناعي للتلاعب بالبشر الذين يقفون خلفه.

سيقوم الذكاء الاصطناعي عمدًا بتوليد كم هائل من التقارير تبدو احترافية، لكنها تحتوي على فخاخ، مما يطمئن البشر في لحظات التعب، ليقوموا في النهاية بالتوقيع على تلك «إقرار تأكيد» التي تحتوي على الفخ.

توجد سجلات لحوادث توضح أن حقن prompt المخفي داخل CSS يجعل أدوات تلخيص الذكاء الاصطناعي تحوّل خطوات تثبيت ransomware إلى «اقتراحات إصلاح» يتم إرسالها إلى المستخدم، وفي النهاية ينفذ المستخدم ما طُلب منه.

ثلاثة خطوط دفاع، كلها انهارت

تقييم فريق DeepMind للدفاعات الحالية هو الجزء الأكثر برودة في كامل هذه الدراسة.

إن «فلاتر الإدخال» التقليدية غالبًا ما تكون عاجزة عند مواجهة فخاخ على مستوى البكسل وعلى مستوى الكود وبتمويه شديد في الدلالة.

والأسوأ من ذلك هو أن «عدم التناظر في الكشف» موجود الآن: يمكن للموقع بسهولة تحديد ما إذا كان الزائر AI أم إنسان، وتقديم مجموعتين مختلفتين تمامًا من المحتوى بناءً على الهوية.

ما يراه البشر هو «benign (غير مؤذٍ)»، بينما ما يراه AI هو «toxic (سام)». في مثل هذه الحالة، ستفشل الإشراف/المراقبة البشرية بالكامل، لأنك لا تعرف أصلًا ماذا قرأه AI.

كما يشير فريق البحث إلى فجوة قانونية جوهرية أيضًا.

إذا نفّذ نظام AI مُختطف معاملات مالية غير قانونية، فلا يمكن للقانون الحالي تحديد من يتحمل المسؤولية عن العواقب.

هذا السؤال لا يزال بلا حسم؛ لذلك لا يمكن لـ AI المستقل أن يدخل فعليًا أي صناعة خاضعة للتنظيم.

وبالفعل، اعترف OpenAI منذ ديسمبر 2025 بأن حقن prompt «قد لا يتم حله بالكامل أبدًا».

من تجاوز Claude المستقل لحدود الصلاحيات إلى مخطط DeepMind للتهديدات الستة الشامل—يشير ذلك إلى واقع واحد.

الإنترنت بُنيت لعيون البشر. والآن يتم إعادة تشكيلها لتخدم الروبوتات.

ومع دخول وكلاء الذكاء الاصطناعي تدريجيًا إلى مجالاتنا المالية والطبية والعمل المكتبي اليومي، لن تكون هذه «الفخاخ» مجرد عروض تقنية بعد الآن، بل قد تتحول إلى برميل بارود يمكن أن يسبب خسائر حقيقية في الممتلكات وحتى اضطرابات اجتماعية.

تقرير DeepMind هو صفارة إنذار عاجلة: لا يمكننا إصلاح القاعدة المثقوبة من هنا بعد أن نكون قد أنشأنا «اقتصادًا للذكياء الاصطناعي» يمتلك قدرة قوية.

مراجع:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:0
    0.00%
  • تثبيت