AISI Claude Mythos Eval: الذكاء الاصطناعي ينفذ هجوم شبكي مكون من 32 خطوة

١٤ أبريل ٢٠٢٦

AISI Claude Mythos Eval: AI Owns 32-Step Network Attack

نشر معهد أمن الذكاء الاصطناعي البريطاني (AISI) تقييمه المستقل لنموذج Anthropic's Claude Mythos Preview — وهو النموذج الرائد غير المصدر الذي يشغل Project Glasswing — وتعيد النتائج صياغة الطريقة التي يجب أن يفكر بها المدافعون حول القدرات السيبرانية الهجومية المدفوعة بالذكاء الاصطناعي. نجح Mythos Preview في حل 73% من تحديات "الاستحواذ على العلم" (CTF) على مستوى الخبراء (وهي مهام لم يتمكن أي نموذج من إكمالها حتى أبريل 2025)، وأصبح أول نظام ذكاء اصطناعي يحل بشكل مستقل محاكاة هجوم الشركات المكونة من 32 خطوة الخاصة بـ AISI بدءاً من الاستطلاع وصولاً إلى السيطرة الكاملة على الشبكة.1

ما ستتعلمه

  • ما الذي قيمه AISI ولماذا تهم نتائجه أكثر من معايير الموردين
  • أرقام CTF الدقيقة — نجاح بنسبة 73% على مستوى الخبراء وماذا يعني مستوى الخبراء فعلياً
  • كيف أدى Mythos Preview في "The Last Ones"، وهو نطاق هجوم مكون من 32 خطوة
  • كيف يتقارن Mythos Preview مع Claude Opus 4.6 في نفس النطاق
  • التحذيرات الحاسمة التي أرفقها AISI بنتائجه — وما يجب على المدافعين فعله حقاً

ملخص

قام AISI، معهد أمن الذكاء الاصطناعي التابع للحكومة البريطانية، باختبار Claude Mythos Preview عبر تحديات "الاستحواذ على العلم" ونطاق هجوم متعدد الخطوات يسمى "The Last Ones" (TLO). في مهام CTF على مستوى الخبراء، نجح النموذج بنسبة 73% من المرات. في TLO — وهو اختراق لشبكة شركات مكون من 32 خطوة يقدر AISI أنه يستغرق خبراء بشريين حوالي 20 ساعة — يعد Mythos Preview أول نموذج يكمل النطاق من البداية إلى النهاية، وفعل ذلك في 3 من أصل 10 محاولات وبمتوسط 22 من أصل 32 خطوة عبر جميع الجولات. النموذج التالي الأفضل الذي تم اختباره، Claude Opus 4.6، حقق متوسط 16 من أصل 32 خطوة ولم يكمل TLO أبداً. يحذر AISI من أن النطاقات كانت تفتقر إلى مدافعين مباشرين واكتشاف نقاط النهاية، لذا تعكس النتائج هجوماً مستقلاً على أنظمة ضعيفة الدفاع، وليس اختراقات لشبكات مؤسسات محصنة. الخلاصة التشغيلية للمعهد: لا يزال الانضباط في الترقيع (patching)، وضوابط الوصول، والتكوين المحصن، والتسجيل الشامل (logging) أمراً مهماً. يوجه AISI المنظمات البريطانية إلى مخطط NCSC Cyber Essentials كخط أساس.2

لماذا يهم تقييم AISI المستقل

عندما يشحن مختبر رائد نموذجاً، فإنه يشحن أيضاً تقييمات السلامة الخاصة به. تقرير Anthropic التقني لنموذج Mythos Preview مفصل وينتقد الذات، لكنه لا يزال المورد الذي يقيم واجبه المنزلي بنفسه.3 معهد AISI مختلف. إنه هيئة حكومية بريطانية ممولة لإجراء تقييمات مستقلة قبل النشر لأنظمة الذكاء الاصطناعي الرائدة. تم تصميم واختبار تجاربه السيبرانية من قبل المعهد، ولا يتم تسجيلها مقابل بيانات التدريب الدقيق الخاصة بالنموذج نفسه. عندما يبلغ AISI عن رقم، فإنه يمثل إحدى النقاط المرجعية القليلة الخاضعة للمساءلة العامة التي يمتلكها مجتمع الأمن.

تصف Anthropic نموذج Claude Mythos Preview بأنه "نموذج لغوي جديد للأغراض العامة" و "يؤدي بقوة في جميع المجالات، ولكنه قادر بشكل مذهل في مهام أمن الكمبيوتر."4 أعلنت Anthropic عنه في 7 أبريل 2026، مرفقاً بـ Project Glasswing — وهو كونسورتيوم صناعي يمنح وصولاً مقيداً إلى Amazon Web Services، Apple، Broadcom، Cisco، CrowdStrike، Google، JPMorganChase، Linux Foundation، Microsoft، NVIDIA، و Palo Alto Networks، إلى جانب أكثر من 40 منظمة إضافية تحافظ على برمجيات حيوية.5 النموذج غير متاح بشكل عام: يدفع الشركاء 25 دولاراً لكل مليون توكن إدخال و 125 دولاراً لكل مليون توكن إخراج عبر Claude API، Amazon Bedrock، Google Cloud Vertex AI، و Microsoft Foundry.6

هذا الوضع من الوصول المقيد يجعل تقييم AISI الإشارة الخارجية الأكثر موثوقية لما يمكن لـ Mythos Preview فعله حقاً.

الاستحواذ على العلم: 73% في مهام الخبراء

تعد تحديات "الاستحواذ على العلم" هي العملة القياسية لتقييم مهارات الأمن الهجومي. يجهز كل تحدٍ نظاماً ضعيفاً ويطلب من المحلل استرداد "علم" — سلسلة سرية — من خلال الاستغلال. يصنف AISI اختباراته حسب الصعوبة، من ألغاز التكوين الخاطئ للمبتدئين إلى سلاسل مستوى الخبراء التي تجمع بين الهندسة العكسية، وتطوير الثغرات، وتصعيد الامتيازات.

النتيجة الرئيسية لـ AISI في جانب CTF: يحل Mythos Preview نسبة 73% من تحديات مستوى الخبراء. ولتوضيح المقياس، يشير AISI إلى أنه لم يتمكن أي نموذج من إكمال أي مهام CTF على مستوى الخبراء قبل أبريل 2025. في غضون 12 شهراً، انتقل المجال الرائد من "مستحيل" إلى "محلول في الغالب". هذا التغير ليس خطاً بيانياً سلساً — إنه قفزة نوعية، ويقع Mythos Preview في طليعتها.7

النجاح على مستوى الخبراء مهم لأن هذه هي المهام التي تتماشى بشكل وثيق مع مهارات باحث أمن هجومي حقيقي: قراءة الملفات الثنائية، والتفكير في فساد الذاكرة، وبناء ثغرة عاملة من خطأ برمجبي. النموذج الذي يمكنه فعل ذلك بنسبة 73% من المرات عبر مجموعة AISI ليس مجرد مساعد لأتمتة اختبار الاختراق — بل هو شريك على مستوى الأقران لعضو فريق أحمر (red-teamer) خبير.

"The Last Ones": نطاق هجوم AISI المكون من 32 خطوة

تختبر تحديات CTF حل الألغاز. لكنها لا تختبر ما إذا كان النموذج يمكنه ربط تلك المهارات معاً في سلسلة قتل اختراق كاملة. هذا هو السبب الذي بنى AISI من أجله TLO.

"The Last Ones" هو هجوم محاكى لشبكة شركات مكون من 32 خطوة يغطي دورة حياة الاختراق الكاملة: الاستطلاع الأولي، موطئ القدم، سرقة بيانات الاعتماد، التحرك الجانبي، تصعيد الامتيازات، الاستمرارية، وفي النهاية السيطرة الكاملة على الشبكة. يقدر AISI أن الخبير البشري يحتاج إلى حوالي 20 ساعة للعمل عبر هذا النطاق.8

في TLO، تبدو النتائج كما يلي:

النموذجأكمل النطاق من البداية للنهايةمتوسط الخطوات المكتملة (من 32)
Claude Mythos Preview3 من أصل 10 محاولات22
Claude Opus 4.6016

هناك أمران في هذا الجدول يستحقان التأمل. أولاً، يعد Mythos Preview أول نظام ذكاء اصطناعي يراه AISI يكمل TLO من البداية إلى النهاية — وهو إنجاز لم يصله الجيل السابق من النماذج الرائدة. ثانياً، تقدمه بمتوسط 6 خطوات على Opus 4.6 هو الفجوة بين نموذج يمكنه تمهيد هجوم ونموذج لا يستطيع إنهاءه. ينجح Opus 4.6 بشكل موثوق في النصف الأول من الاختراق؛ بينما يتجاوز Mythos Preview روتينياً النقطة التي يتطلب فيها التحرك الجانبي وتصعيد الامتيازات والاستمرارية — وهي المراحل التي عادة ما يظل لدى المدافعين البشريين وقت فيها لـ React.

التحذيرات التي أرفقها AISI (ولماذا تهم)

يتسم AISI بالصراحة غير المعتادة بشأن ما لا يظهره تقييمه الخاص. تبرز ثلاثة تحذيرات:9

  1. لا يوجد مدافعون مباشرون. لا تشمل النطاقات مستجيبين بشريين، أو نشاط الفريق الأزرق، أو اتخاذ قرار في الوقت الفعلي. يمكن للنموذج تجربة تقنية صاخبة خمس مرات دون عواقب.
  2. لا يوجد اكتشاف لنقاط النهاية أو استجابة للحوادث في الوقت الفعلي. تشغل شبكات المؤسسات الحديثة أدوات EDR التي تضع علامة على سلوك العمليات غير المعتاد وتنهي السلاسل المشبوهة. النطاقات لا تفعل ذلك.
  • لا توجد عقوبات على تفعيل تنبيهات الأمان. في الشبكة الحقيقية، يمكن لقطعة أثرية واحدة صاخبة - مثل استدعاء PowerShell غير متوقع، أو إشارة DNS من مضيف غير عادي - أن تفشل العملية بالكامل. في TLO، لا تنطلق أي تنبيهات.
  • صياغة AISI الخاصة: النتائج تثبت أن Mythos Preview يمكنه مهاجمة الأنظمة ضعيفة الدفاع بشكل مستقل. وهي لا تثبت أنه يستطيع اختراق شبكات المؤسسات المحصنة التي تمتلك عمليات أمنية ناضجة.

    هذا ليس تملصاً - بل هو تمييز تقني مهم. فالهجوم المكون من 32 خطوة والذي ينجح ضد نطاق صامت لا يزال من الممكن اكتشافه في الخطوة الثالثة في بيئة حقيقية مع وجود تسجيل دخول وتنبيهات كفؤة.

    ما الذي يطلبه AISI من المنظمات البريطانية فعله

    توصية AISI التشغيلية تكاد تكون متواضعة بشكل يتحدى التوقعات. يوجه المعهد المنظمات البريطانية للعودة إلى أساسيات الأمن السيبراني: الانضباط في الترقيع (patching)، ضوابط الوصول، التكوين المحصن، وتسجيل الأحداث الشامل. كما يدعم صراحةً مخطط NCSC Cyber Essentials كإطار عمل أساسي.10

    هذه التوصية تبدو مختلفة بمجرد قراءتها جنباً إلى جنب مع نتائج Anthropic الخاصة بـ Mythos Preview - وهي أن النموذج قد حدد بالفعل آلاف الثغرات الصفرية (zero-day) عالية الخطورة، بما في ذلك ثغرة TCP SACK عمرها 27 عاماً في OpenBSD، وثغرة H.264 عمرها 16 عاماً في FFmpeg، وثغرة تنفيذ تعليمات برمجية عن بعد في NFS عمرها 17 عاماً في FreeBSD (CVE-2026-4747).11 كان الانضباط في الترقيع دائماً مسألة أساسيات. وفي بيئة يمكن فيها لنماذج الحدود العثور بشكل مستقل على أخطاء عمرها عقود على نطاق واسع، تلاشت فترة "غير مرقع ولكن ربما يكون بخير".

    رسالة AISI لمجالس الإدارة في المملكة المتحدة هي أن أساسيات الأمن السيبراني لم تعد مجرد أعمال سباكة اختيارية؛ بل هي الطبقة الرقيقة التي تحدد ما إذا كان المهاجم الذي يستخدم أدوات من فئة Mythos سيهبط على نظام يتم الاستيلاء عليه في ساعة واحدة أو في دقيقة واحدة.

    كيف يتناسب هذا مع سياسة التوسع المسؤول لـ Anthropic

    القدرة السيبرانية لـ Mythos Preview هي السبب في أن Anthropic لا تشحنه للجمهور. قدرة النموذج على اكتشاف الثغرات الصفرية على نطاق واسع تضعه عند أو بالقرب من عتبة ASL-3 لقدرات الأمن السيبراني بموجب سياسة التوسع المسؤول لـ Anthropic - وهو الحد الداخلي الذي تعتبر عنده الضمانات الحالية غير كافية لمنع سوء الاستخدام الجسيم.12 مشروع Glasswing هو الحل البديل: إعطاء النموذج للمدافعين بموجب عقد قبل شحن أي قدرة مكافئة للمهاجمين بشكل علني.

    نتائج AISI تعطي هذا القيد بعض الوزن. إذا كان مقيم حكومي مستقل يسجل أول اختراق مؤسسي كامل مكون من 32 خطوة تم إنجازه بواسطة نموذج، فمن السهل معرفة سبب تغيير الوصول غير المقيد للحسابات الدفاعية لكل منظمة على الإنترنت في وقت واحد.

    ماذا تفعل هذا الأسبوع إذا كنت مدافعاً

    تقييم AISI مفيد حقاً للمدافعين لأنه قابل للتنفيذ. ثلاث خطوات ملموسة:

    • اقرأ التقرير الفني لـ Anthropic Mythos Preview جنباً إلى جنب مع تقييم AISI.13 تكشف Anthropic عن فئات الأخطاء التي يجيد Mythos Preview العثور عليها؛ ويخبرك AISI كيف تترجم هذه الأخطاء إلى سلسلة هجوم كاملة. الوثيقتان معاً تشكلان نموذج تهديد.
    • دقق في وتيرة الترقيع الخاصة بك ضد أخطاء المصدر المفتوح التي تعود لعقود. تظهر الإفصاحات العامة لـ Mythos Preview نمطاً مستمراً في العثور على مسارات برمجية قديمة جداً افترض الجميع أنه تمت مراجعتها. إذا كنت تعتمد على FFmpeg، أو مجموعات شبكات OpenBSD، أو خوادم NFS، فتعامل مع هذا كسباق ترقيع نشط، وليس كمجرد عنصر في قائمة التتبع.
    • استثمر في اتساع نطاق الاكتشاف، وليس العمق فقط. تحفظات AISI هي الخبر السار: في نطاق يضم مدافعين، كان ضجيج Mythos Preview سيظهر على السطح. وهذا صحيح فقط إذا كان فريقك الأزرق يستطيع رؤية الضجيج. تسجيل الأحداث الشامل و EDR الحديث هما الآن الفجوة بين نطاق AISI وشبكة الإنتاج الخاصة بك.

    ملخص

    تقييم AISI هو أوضح تأكيد مستقل على أن الذكاء الاصطناعي الحدودي قد انتقل، في غضون 12 شهراً تقريباً، من عدم القدرة على إكمال مسابقات CTF للخبراء إلى الاستيلاء بشكل مستقل على شبكة مؤسسية كاملة في 32 خطوة. هذه قفزة حقيقية في القدرات، وهي السبب في أن Mythos Preview يقبع خلف مشروع Glasswing بدلاً من شحنه للجمهور. التحفظات التي أرفقها AISI - لا مدافعين مباشرين، لا EDR، لا عقوبات على التنبيهات - ليست سبباً للاسترخاء. إنها وصف لما يمكن للذكاء الاصطناعي فعله ضد بيئة غير محمية، وحجة ضمنية بأن الفجوة بين "غير محمي" و"محمي حقاً" هي الآن أهم شيء يمكن لبرنامجك السيبراني إغلاقه.

    Footnotes

    1. AISI، "تقييمنا للقدرات السيبرانية لنموذج Claude Mythos Preview" — aisi.gov.uk.

    2. AISI، المصدر نفسه؛ مركز الأمن السيبراني الوطني البريطاني (UK National Cyber Security Centre)، مخطط Cyber Essentials.

    3. Anthropic، "Claude Mythos Preview" — red.anthropic.com.

    4. Anthropic، المصدر نفسه.

    5. Anthropic، "Project Glasswing" — anthropic.com/project/glasswing.

    6. Anthropic، "Project Glasswing" — تم الكشف عن الأسعار لوصول الشركاء؛ التوفر عبر Claude API، وAmazon Bedrock، وGoogle Cloud Vertex AI، وMicrosoft Foundry.

    7. AISI، المصدر نفسه؛ انظر أيضاً تغطية Techmeme لنتائج AISI — techmeme.com/260413/p20.

    8. AISI، المصدر نفسه. تقدير الوقت البشري من ملاحظات منهجية AISI.

    9. AISI، المصدر نفسه — قسم القيود.

    10. AISI، المصدر نفسه؛ انظر أيضاً Cyber Essentials عبر NCSC.

    11. Anthropic، التقرير الفني لـ "Claude Mythos Preview" — red.anthropic.com. FreeBSD CVE-2026-4747.

    12. Anthropic، "سياسة التوسع المسؤول" (Responsible Scaling Policy) — anthropic.com/responsible-scaling-policy.

    13. Anthropic، "Claude Mythos Preview" — red.anthropic.com.

    14. Anthropic، "Project Glasswing" — anthropic.com/project/glasswing.

    15. Anthropic، "Project Glasswing" — الأسعار وتوفر المنصة.

    16. AISI، "تقييمنا للقدرات السيبرانية لنموذج Claude Mythos Preview" — جدول نتائج TLO.

    17. AISI، المصدر نفسه — تحليل نتائج خبراء CTF مقارنة بـ TLO.

    18. AISI، المصدر نفسه. نُشر على مدونة AISI في aisi.gov.uk/blog.

    الأسئلة الشائعة

    7 أبريل 2026. اقترن الإعلان بإطلاق مشروع Glasswing، الذي يوسع نطاق الوصول المقيد ليشمل 12 شريك إطلاق وأكثر من 40 منظمة إضافية للبنية التحتية الحيوية.14

    نشرة أسبوعية مجانية

    ابقَ على مسار النيرد

    بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

    بدون إزعاج. إلغاء الاشتراك في أي وقت.