GPT-5.5 Cyber Eval: AISI يجد تكافؤاً مع Mythos
٨ مايو ٢٠٢٦
ملخص
في 30 أبريل 2026، نشر معهد أمن الذكاء الاصطناعي في المملكة المتحدة (AISI) تقييمه للقدرات السيبرانية لنموذج GPT-5.5 من OpenAI - والعنوان الرئيسي هو التكافؤ، وليس الانفراد. حقق GPT-5.5 معدل نجاح بنسبة 71.4% (±8.0% SEM) في مهام "الاستحواذ على العلم" (CTF) من فئة الخبراء التابعة لـ AISI، متقدماً بفارق ضئيل على Claude Mythos Preview الذي حقق 68.6% (±8.7%)، وأعلى بكثير من GPT-5.4 (52.4%) و Claude Opus 4.7 (48.6%).1 والأكثر إثارة للدهشة هو أن GPT-5.5 أصبح ثاني نموذج على الإطلاق يكمل بشكل مستقل نطاق هجوم المؤسسات "The Last Ones" المكون من 32 خطوة من البداية إلى النهاية، حيث نجح في محاولتين من أصل 10 محاولات مقابل 3 من أصل 10 لنموذج Mythos.2 وفي أحد تحديات الهندسة العكسية التي استغرقت خبيراً بشرياً حوالي 12 ساعة باستخدام Binary Ninja و gdb و Python و Z3، انتهى GPT-5.5 منها بشكل مستقل في 10 دقائق و 22 ثانية بتكلفة 1.73 دولار من إنفاق API.1 لم تعد القدرة السيبرانية الهجومية المتقدمة استثناءً لمورد واحد - بل أصبحت سمة من سمات النماذج المتقدمة نفسها.
ما ستتعلمه
- ما الذي اختبره AISI في 30 أبريل ولماذا التكافؤ، وليس الصدارة، هو القصة الحقيقية
- كيف يقارن GPT-5.5 بـ Mythos Preview و GPT-5.4 و Opus 4.7 عبر مستويات الصعوبة الأربعة لـ AISI
- كيف يتم هيكلة معيار "The Last Ones" المكون من 32 خطوة وماذا يعني نجاح 2/10 فعلياً
- لماذا سقطت مهمة هندسة عكسية تستغرق 12 ساعة في أقل من 11 دقيقة مقابل 1.73 دولار
- كيف تترجم تصنيفات الجاهزية من OpenAI "عالية ولكن أقل من حرجة" إلى أرقام AISI
- ما الذي يشير إليه إطلاق GPT-5.5-Cyber في 7 مايو للمدافعين المعتمدين
- إجراءات جانب المدافعين التي يجب اتخاذها هذا الأسبوع
تقييم AISI السيبراني لـ GPT-5.5 في 30 أبريل، في فقرة واحدة
يقوم معهد أمن الذكاء الاصطناعي (AISI) - وهو الهيئة الحكومية البريطانية التي تم إنشاؤها في قمة بلتشلي في نوفمبر 2023 وتم تغيير علامتها التجارية من "معهد سلامة الذكاء الاصطناعي" إلى "معهد أمن الذكاء الاصطناعي" في 14 فبراير 2025 خلال مؤتمر ميونيخ للأمن - بإجراء تقييمات سيبرانية قبل وبعد النشر على النماذج المتقدمة.3 تقرير AISI الصادر في 30 أبريل حول GPT-5.5 هو الثاني في زوج متتالٍ: ففي 13 أبريل 2026، نشر الفريق نفسه تقييماً لنموذج Claude Mythos Preview من Anthropic الذي لم يكن قد أُصدر بعد، والذي أظهر أول نظام ذكاء اصطناعي يتفوق بشكل مستقل على نطاق هجوم الشبكة المكون من 32 خطوة التابع لـ AISI.4 وبعد سبعة عشر يوماً، حقق GPT-5.5 درجات مماثلة من مختبر مختلف، على نفس المجموعة. صياغة AISI واضحة: القدرة الهجومية السيبرانية تظهر الآن كأثر جانبي للمكاسب الأوسع في الاستقلالية والاستدلال والبرمجة - وليس كتوجه تدريبي متعمد لـ Mythos فقط.1
كيفية هيكلة مجموعة الاختبارات السيبرانية لـ AISI
تعتمد منهجية AISI الأساسية على 95 مهمة سيبرانية ضيقة عبر أربعة مستويات صعوبة، جميعها بتنسيق "الاستحواذ على العلم" (CTF) وتغطي أبحاث الثغرات الأمنية، والاستغلال، والهندسة العكسية، واستغلال الويب، والتشفير.1 تمت معايرة المستويات الأربعة وفقاً لمستويات مهارة المشغل بدلاً من نطاقات الصعوبة المجردة:5
| المستوى | ملف المشغل | الخبرة النموذجية |
|---|---|---|
| تقني غير خبير | مستخدم تقني من المدرسة الثانوية إلى الجامعة (محلل بيانات، مهندس) | لا توجد خلفية أمنية رسمية |
| مبتدئ | محترف أمني في بداية حياته المهنية، مجرم انتهازي، مخترق مأجور من مستوى أدنى | 1-3 سنوات |
| ممارس | محلل SOC، مطور برامج فدية، متخصص في مجال محدد | 3-10 سنوات |
| خبير | مشغل أمني هجومي أو دفاعي مخضرم | أكثر من 10 سنوات، خبرة عميقة عبر المجالات |
يُضاف إلى ذلك اختبار "The Last Ones" (TLO) - وهو نطاق هجوم متكامل واحد تم بناؤه مع SpecterOps، ومصمم على غرار سلسلة قتل (kill chain) حقيقية للمؤسسات عبر أربع شبكات فرعية وحوالي عشرين مضيفاً. تم تجميع اثنين وثلاثين خطوة مصنفة في تسعة معالم (الاستطلاع ← سرقة الاعتمادات ← استغلال الويب ← الثنائيات المهندسة عكسياً ← محور سلسلة توريد CI/CD ← تجاوز Active Directory متعدد النطاقات ← سلسلة حقن SQL ← استخراج قاعدة بيانات داخلية محمية). يقدر AISI أن الخبير البشري يحتاج إلى حوالي 20 ساعة لإكمال السلسلة الكاملة.12
معدلات النجاح في مستوى الخبراء: GPT-5.5 مقابل المنافسين
لوحة النتائج الرئيسية من تقرير AISI:1
| النموذج | معدل النجاح في مستوى الخبراء | الخطأ المعياري (1 SEM) |
|---|---|---|
| GPT-5.5 | 71.4% | ±8.0% |
| Claude Mythos Preview | 68.6% | ±8.7% |
| GPT-5.4 | 52.4% | ±9.8% |
| Claude Opus 4.7 | 48.6% | ±10.0% |
هناك قراءتان مهمتان هنا. أولاً، الفجوة بين GPT-5.5 و Mythos تقع تماماً ضمن أخطائهما المعيارية المتداخلة، لذا فإن الصياغة المسؤولة هي "التكافؤ" وليس "الصدارة". ثانياً، الفجوة بين هذا الجيل والجيل السابق هائلة: يتقدم Mythos و GPT-5.5 بحوالي 20 نقطة مئوية على GPT-5.4 و Opus 4.7 في عمل مستوى الخبراء. يشير AISI صراحةً إلى النمط الأوسع - يستمر الأداء في التوسع بشكل خطي لوغاريتمي مع حوسبة وقت الاستدلال، وحتى أقوى نماذج اليوم لم تصل بعد إلى مرحلة الاستقرار في مهام مستوى الخبراء.1
"The Last Ones": ماذا يعني 2 من 10 فعلياً
النجاح من البداية إلى النهاية في TLO هو الرقم الرئيسي، لكن أرقام معدل التشغيل هي الجوهرية. أكمل GPT-5.5 جميع الخطوات الـ 32 بشكل مستقل في 2 من أصل 10 محاولات، مما يجعله ثاني نموذج يفعل ذلك على الإطلاق. وقام Mythos Preview بذلك في 3 من أصل 10 محاولات، ليكون الأول.2 يحتاج الخبير البشري إلى حوالي 20 ساعة من العمل المركز لنفس السلسلة، على شبكة صممتها SpecterOps لتعكس تعقيد Active Directory الحقيقي للشركات.
يبدو معدل النجاح بنسبة 20% من البداية إلى النهاية متواضعاً حتى تضعه بجانب الجانب الاقتصادي. العامل المعرقل للفرق الحمراء البشرية (red teams) هو الراتب والجدولة ووقت الإعداد. أما العامل المعرقل لوكيل الذكاء الاصطناعي فهو إنفاق API والقدرة على التشغيل المتوازي - وكلاهما يتوسع من جانب مورد السحابة، وليس من جانب المهاجم. يصبح معدل 20% بتكلفة 50-200 دولار لكل محاولة اختراقاً مضموناً بعد 10-20 إعادة محاولة، حيث تكون كل إعادة محاولة بذرة (seed) جديدة. تعزز نتائج AISI حول التوسع الخطي اللوغاريتمي هذه النقطة: كل مضاعفة إضافية لميزانية الاستدلال تميل منحنى النجاح أكثر نحو "النجاح دائماً في النهاية".1
لحظة الهندسة العكسية التي تجسد التحول
مدفونة في تقرير AISI قصة قصيرة تلخص قصة التقارب في رقم واحد. أجرى AISI تحدي "التقاط العلم" (CTF) للهندسة العكسية على جهاز افتراضي مخصص (custom-VM)، وهو ما يتطلب بناء مفكك تعليمات (instruction decoder) لاستعادة "علم" من بنية معمارية اصطناعية. الخبير المختبر من شركة التقييم الخارجية Crystal Peak حل التحدي في حوالي 12 ساعة باستخدام مجموعة من الأدوات: Binary Ninja و gdb و Python و Z3.1
حل GPT-5.5 نفس التحدي بشكل مستقل في 10 دقائق و 22 ثانية بتكلفة 1.73 دولار من استخدام API.1 بدون مساعدة بشرية، وبدون أي دعم يتجاوز واجهة العميل البرمجية القياسية، وبدون تلميحات مسبقة. تسريع الأداء بمقدار 70 ضعفاً أمر مذهل، لكن ضغط التكلفة هو التفصيل الأهم. تكلفة وحدة قدرها 1.73 دولار لمهمة خبير تستغرق 12 ساعة تغير من يمكنه بشكل معقول تشغيل حملات هندسة عكسية جماعية ضد البرمجيات المشحونة — بما في ذلك ضد الملفات الثنائية (binaries) داخل البنية التحتية الحيوية.
"عالٍ ولكن دون الحرج" — ماذا يقول إطار عمل OpenAI نفسه
يصنف "بطاقة نظام" (system card) GPT-5.5 من OpenAI النموذج عند مستوى قدرة عالٍ (High capability) في الأمن السيبراني بموجب "إطار الجاهزية" (Preparedness Framework) الخاص بالشركة، وهو أقل من العتبة الحرجة (Critical threshold).6 صياغة إطار العمل مهمة لأن نتائج AISI يجب أن تُقرأ في سياقها.
النموذج ذو القدرة العالية، حسب تعريف OpenAI، يمكنه "أتمتة العمليات السيبرانية الشاملة (end-to-end) ضد أهداف محصنة بشكل معقول" أو "إزالة الاختناقات بشكل كبير في اكتشاف الثغرات ذات الصلة بالعمليات". هذه اللغة تتماشى مع أدلة AISI: 71.4% في تحديات CTF للخبراء، و 2/10 في مهام شاملة على نطاق من 32 خطوة، وضغط وقت العمل من 12 ساعة إلى 10 دقائق في مهام الهندسة العكسية المركزة.1
أما النموذج الحرج فيجب أن يكون قادراً على "تحديد وتطوير ثغرات يوم الصفر (zero-day) الوظيفية بجميع مستويات الخطورة في العديد من الأنظمة الحيوية الواقعية المحصنة دون تدخل بشري" أو "ابتكار وتنفيذ استراتيجيات جديدة شاملة للهجمات السيبرانية ضد أهداف محصنة بناءً على هدف عالي المستوى فقط".6 سبب OpenAI الموثق لعدم تجاوز هذا الخط: GPT-5.5 لم ينتج بشكل مستقل سلسلة استغلال كاملة مؤكدة من قبل مدقق في أهداف واقعية أثناء التقييم. لم يكن العائق هو اتساع نطاق البحث — بل كان القدرة على الحكم في تطوير الاستغلال: تحديد أي الخيوط تستحق الاستثمار العميق، وتحويل حالات الانهيار (crashes) إلى أدوات تحكم (primitives)، واستبعاد الأخطاء التشخيصية فقط.6
هذا العائق هو بالضبط نوع القدرة الذي تشير نتائج AISI حول القياس الخطي اللوغاريتمي (log-linear scaling) إلى أنه سيُغلق مع زيادة الحوسبة الاستدلالية، وليس بالضرورة مع جيل جديد.
الجيلبريك الشامل — ولماذا وقعه أقوى في هذا الجيل
وجد فريق الـ red-teamers في AISI جيلبريك شامل (universal jailbreak) استخرج محتوى مخالفاً عبر جميع الاستفسارات السيبرانية الخبيثة، بما في ذلك في إعدادات الوكلاء متعددي الخطوات، بعد ست ساعات من جهد الخبراء.1 ست ساعات هي مدة قصيرة بمعايير فرق الـ red-team. قارن ذلك بالتوقعات الدفاعية في وقت التشغيل: تخصص معظم مراكز العمليات الأمنية (SOC) في الشركات ميزانية لمهمة "فريق أرجواني" (purple-team) تستغرق عدة أسابيع للعثور على تجاوز واحد مستدام.
التفسير ليس أن منظومة الأمان في GPT-5.5 ضعيفة — فهي بمعايير الصناعة أعلى بكثير من خط الأساس لـ GPT-5.4. التفسير هو أن نسبة استثمار المدافع إلى التجاوز قد تحولت. عندما تكون قدرة النموذج عالية ويكون الجيلبريك الشامل على بُعد ست ساعات من العمل، فإن المحيط الأمني للهجوم السيبراني قد انتقل فعلياً إلى منظومة المراقبة والتحكم في الوصول الخاصة بـ OpenAI بدلاً من سلوكيات رفض النموذج.
لماذا يهم نشر AISI لتقريرين في 17 يوماً
الوتيرة هي القصة بجانب الأرقام. كان تقرير Mythos Preview الصادر عن AISI في 13 أبريل 2026 هو المرة الأولى التي يوثق فيها أي مقيم للذكاء الاصطناعي وكيلاً ذكياً يكمل مهمة TLO من البداية للنهاية.4 بعد سبعة عشر يوماً، في 30 أبريل، نشر نفس الفريق أرقاماً مماثلة لـ GPT-5.5 من مورد مختلف، تم تدريبه على بنية مختلفة، مع نظام أمان مختلف.1 مختبران، ونفس المستوى تقريباً في اختبار قياسي صُمم ليكون صعباً.
تحولت القدرة السيبرانية الهجومية الرائدة من إطار "استثناء Mythos" إلى إطار "خاصية رائدة". لهذا تداعيات مباشرة على جمهورين. بالنسبة لصناع القرار، فإنه ينهي الحجة القائلة بأن تركيز القدرات في مختبر واحد يمكن إدارته عبر ضمانات خاصة بالمورد وحده. بالنسبة للمدافعين، فهذا يعني أن سطح التهديد يتوسع مع كل من يشحن النموذج التالي — وليس فقط مع من شحن أولاً.
رد OpenAI: نسخة GPT-5.5-Cyber للمدافعين المعتمدين
في 7 مايو 2026 — بعد أسبوع واحد بالضبط من تقرير AISI — بدأت OpenAI في طرح GPT-5.5-Cyber في معاينة محدودة للمنظمات المعتمدة في أعلى فئة من برنامج "الوصول الموثوق للسيبرانية" (TAC).7 النموذج "مدرب بشكل أساسي ليكون أكثر تسامحاً في المهام المتعلقة بالأمن" — صيد الثغرات، الهندسة العكسية للبرمجيات الخبيثة، إعادة بناء الهجمات — بينما يظل محظوراً عليه سرقة الاعتمادات وإنشاء برمجيات خبيثة هجومية.7
صرح مصدر مطلع على الاختبارات الداخلية لـ Axios أن الملف السيبراني الهجومي لـ GPT-5.5-Cyber هو "على قدم المساواة تقريباً مع Mythos".8 هذا التأطير مقصود: نفس مساحة القدرة التي وصفها AISI بأنها تحول جذري، ولكن مع بوابة وصول منظمة بدلاً من التوفر المفتوح. يجب على المدافعين تقديم طلب، وإثبات هويتهم، والعمل بموجب قواعد TAC.
اختيار التوقيت في حد ذاته إشارة. صدر تقرير AISI في 30 أبريل. وكان رد OpenAI بنسخة مخصصة للمدافعين فقط في غضون خمسة أيام عمل — وهو اعتراف صريح بأن القدرة مزدوجة الاستخدام وأن موقف الشركة هو وضع النسخة الأقوى في أيدي المعتمدين أولاً.
ما يجب على المدافعين فعله فعلياً هذا الأسبوع
خمسة إجراءات ملموسة، تمت معايرتها بناءً على نتائج AISI بدلاً من تصريحات الموردين.
1. تعامل مع مهام الخبراء التي تستغرق 12 ساعة كمهام LLM تستغرق 11 دقيقة في نموذج التهديد الخاص بك. قصة الهندسة العكسية قابلة للتعميم. أي شيء في سير عملك الدفاعي يفترض تكلفة بشرية لعدة ساعات من جانب المهاجم — تحليل IDA-Pro، الهندسة العكسية للبروتوكولات المخصصة، كسر التشفير المصمم خصيصاً — أصبح الآن مهمة بطلب واحد (prompt) وبتكلفة دولارات معدودة.
2. توقف عن مساواة "أقل من حرج" بكلمة "يمكن إدارته". يحدد إطار عمل OpenAI الخاص مستوى "عالي" بأنه "أتمتة العمليات السيبرانية الشاملة (end-to-end) ضد أهداف محصنة بشكل معقول". إذا كان وضع التحصين لديك لن يصمد أمام محترف كفء ينفذ سلسلة هجمات مكونة من 32 خطوة في 20 ساعة، فلن يكون GPT-5.5 منقذك أيضًا. يجب أن يشير نطاق اختبار الاختراق (Pen-test) إلى هيكل معالم TLO الخاص بـ AISI كخط أساس.
3. أعد تحديد خط الأساس لنماذج تهديدات CI/CD و Active Directory بشكل خاص. تتضمن معالم TLO التسعة صراحةً محاور سلاسل توريد CI/CD والتحرك الجانبي (lateral movement) متعدد المجالات في AD. كلاهما مجالات تمتلك فيها معظم المؤسسات فجوات ملموسة. قم بإجراء تمرين داخلي يربط اكتشافاتك الحالية بتلك المعالم التسعة، معلمًا تلو الآخر.
4. إذا كنت مؤهلاً، فتقدم بطلب للحصول على Trusted Access for Cyber من OpenAI. إطلاق 7 مايو هو أول نموذج سيبراني رائد للمدافعين فقط. تقدم للتحقق من أهلية فريقك بغض النظر عن الاستخدام الفوري؛ قرارات الوصول قابلة للتغيير، لكن التوقيت مهم.7
5. أضف تكلفة حوسبة الاستدلال (inference-compute) إلى اقتصاديات الاكتشاف لديك. تعني نتائج القياس اللوغاريتمي الخطي لـ AISI أن نجاح المهاجم هو متغير يمكن ضبطه — حوسبة أكثر تعني نجاحًا أكبر. يجب قياس تكلفة الاكتشاف لكل حادثة مقابل تكلفة المهاجم لكل محاولة. المدافع الذي ينفق 10 آلاف دولار لكل تحقيق ضد مهاجم ينفق 1.73 دولار لكل محاولة هو خاسر هيكليًا.
روابط داخلية وقراءات إضافية
- للاطلاع على تقييم AISI Mythos الأصلي الذي وضع معيار TLO، راجع تقييم AISI لـ Claude Mythos: الذكاء الاصطناعي يسيطر على هجوم شبكة مكون من 32 خطوة.
- لتفاصيل إطلاق GPT-5.5 ومعايير النموذج الأساسي، راجع GPT-5.5: أول نموذج أساسي معاد تدريبه من OpenAI منذ GPT-4.5.
- للاطلاع على الإطلاق الاستهلاكي لـ GPT-5.5 Instant في 5 مايو، راجع GPT-5.5 Instant: النموذج الافتراضي الجديد لـ ChatGPT في 2026.
- من منظور المدافع عن الأمن السيبراني حول كيفية تكامل النماذج الصغيرة مع النماذج الرائدة، راجع الحدود المتعرجة للأمن السيبراني بالذكاء الاصطناعي: النماذج الصغيرة مقابل Mythos.
الخلاصة
30 أبريل 2026 هو التاريخ الذي توقفت فيه القدرة السيبرانية الهجومية الرائدة عن كونها قصة بائع واحد. وصول GPT-5.5 إلى التكافؤ مع Claude Mythos في أصعب اختبارات AISI، بعد 17 يومًا من كون Mythos هو الأول في إكمال نفس المعايير، يجعل التقارب ملموسًا. الأرقام — معدل نجاح خبير 71.4%، وإكمال 2 من 10 في TLO، و1.73 دولار لضغط 12 ساعة من الهندسة العكسية — هي السطح فقط. الإشارة الأعمق هي ملاحظة AISI للقياس اللوغاريتمي الخطي: القدرة تتبع ميزانية الاستدلال، وليس التوليد. وقد تحولت وظيفة المدافع للتو من "مراقبة المختبر الرائد" إلى "افتراض أن الحدود الرائدة نفسها هي التهديد".
Footnotes
-
معهد أمن الذكاء الاصطناعي (AI Security Institute)، "تقييمنا للقدرات السيبرانية لنموذج GPT-5.5 من OpenAI"، 30 أبريل 2026. aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18
-
معهد أمن الذكاء الاصطناعي (AI Security Institute)، "كيف كان أداء وكلاء الذكاء الاصطناعي المتقدمين في سيناريوهات الهجمات السيبرانية متعددة الخطوات؟" — يصف منهجية معيار "The Last Ones". aisi.gov.uk/blog/how-do-frontier-ai-agents-perform-in-multi-step-cyber-attack-scenarios ↩ ↩2 ↩3 ↩4 ↩5
-
"AI Security Institute،" ويكيبيديا (تغطي تغيير العلامة التجارية في 14 فبراير 2025 من AI Safety Institute). en.wikipedia.org/wiki/AI_Security_Institute ↩
-
معهد أمن الذكاء الاصطناعي (AI Security Institute)، "تقييمنا للقدرات السيبرانية لنموذج Claude Mythos Preview"، 13 أبريل 2026. aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities ↩ ↩2
-
تعريفات مستويات الصعوبة الخاصة بـ AISI (غير خبير تقني، مبتدئ، ممارس، خبير) تظهر في كل من منشوري تقييم Mythos في 13 أبريل وGPT-5.5 في 30 أبريل. ↩
-
شركة OpenAI، "بطاقة نظام GPT-5.5" (تصنيف الأمن السيبراني لإطار الجاهزية). openai.com/index/gpt-5-5-system-card ↩ ↩2 ↩3 ↩4
-
شركة OpenAI، "توسيع نطاق الوصول الموثوق للأمن السيبراني مع GPT-5.5 وGPT-5.5-Cyber"، 7 مايو 2026. openai.com/index/gpt-5-5-with-trusted-access-for-cyber ↩ ↩2 ↩3 ↩4
-
موقع Axios، "OpenAI تجعل GPT-5.5 متاحاً على نطاق أوسع للمدافعين السيبرانيين"، 7 مايو 2026. axios.com/2026/05/07/openai-gpt-55-cybersecurity-model ↩ ↩2