نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام
١١ مايو ٢٠٢٦
ملخص
بين 7 أبريل و24 أبريل 2026، أطلقت ثلاثة مختبرات صينية نماذج برمجية مفتوحة الأوزان (open-weight) قلصت الفجوة بالكامل تقريبًا مع النماذج الرائدة الغربية. أصبح GLM-5.1 (Z.ai، 7 أبريل) أول نموذج مفتوح الأوزان يتصدر SWE-Bench Pro بنسبة 58.4%، متفوقًا على نسبة 57.7% لنموذج GPT-5.4.12 وبعد تسعة أيام، استعاد Claude Opus 4.7 (Anthropic، 16 أبريل) الصدارة بنسبة 64.3% ورفع سقف SWE-bench Verified إلى 87.6%.34 رد نموذج Kimi K2.6 (Moonshot AI، 20 أبريل) بنسبة 58.6% على SWE-Bench Pro و80.2% على SWE-bench Verified — وهو نموذج MoE بـ 1 تريليون معلمة يدير ما يصل إلى 300 وكيل فرعي في عملية برمجية واحدة.56 وبعد أربعة أيام، أطلق DeepSeek V4 Preview (24 أبريل) نموذج MoE بـ 1.6 تريليون معلمة مع سياق 1 مليون توكن، و80.6% على SWE-bench Verified، وتصنيف 3,206 على Codeforces (أعلى من 3,168 لنموذج GPT-5.4)، مع أوزان مرخصة بـ MIT بتكلفة مخرجات تبلغ تقريبًا سبع تكلفة Claude Opus 4.7.789 لم ينجح أي من الثلاثة في سد الفجوة مع Opus 4.7 على SWE-Bench Pro — ولكن من حيث التكلفة لكل مهمة، وتنظيم الوكلاء، وطول السياق، ووضوح الترخيص، أصبحت النماذج مفتوحة الأوزان الآن على مسافة قريبة جدًا من النماذج المغلقة.
ما ستتعلمه
- الجدول الزمني الدقيق للإصدارات خلال 17 يومًا — ولماذا يهم الترتيب
- كيف سجل كل نموذج في SWE-Bench Pro وSWE-bench Verified وLiveCodeBench وCodeforces
- فجوة السعر بين النماذج الصينية الثلاثة مفتوحة الأوزان وGPT-5.5 / Claude Opus 4.7
- لماذا تغير تراخيص MIT مقابل Modified MIT مقابل التراخيص غير التجارية من هوية من يمكنه فعليًا استخدام هذه الأوزان
- الرهانات الثلاثة المختلفة التي وضعها كل مختبر — وأيها يناسب عبء عملك
- أين لا تزال الفجوة المتبقية مع Claude Opus 4.7 مؤلمة، وأين لم تعد كذلك
نافذة الـ 17 يومًا التي غيرت آفاق النماذج مفتوحة الأوزان
قبل 7 أبريل، كانت لوحة صدارة البرمجة للنماذج مفتوحة الأوزان تتخلف كثيرًا عن النماذج المغلقة الرائدة. كان أفضل نموذج مفتوح الأوزان في SWE-Bench Pro يتخلف عن GPT-5.4 بعدة نقاط. وكانت الفجوة في SWE-bench Verified أوسع. ثم جاءت ثلاثة إصدارات في غضون سبعة عشر يومًا.
| التاريخ | الإصدار | المختبر | النتيجة الرئيسية |
|---|---|---|---|
| 7 أبريل 2026 | GLM-5.1 | Z.ai (Zhipu سابقًا) | أول نموذج مفتوح الأوزان يحتل المركز الأول في SWE-Bench Pro بنسبة 58.4%12 |
| 16 أبريل 2026 | Claude Opus 4.7 | Anthropic | يستعيد صدارة SWE-Bench Pro بنسبة 64.3%، ويحقق 87.6% في SWE-bench Verified34 |
| 20 أبريل 2026 | Kimi K2.6 | Moonshot AI | 58.6% في SWE-Bench Pro، و80.2% في SWE-bench Verified، مع سرب من 300 وكيل56 |
| 23 أبريل 2026 | GPT-5.5 | OpenAI | 58.6% في SWE-Bench Pro (تعادل مع Kimi K2.6) و88.7% في SWE-bench Verified — يأخذ صدارة Verified من Opus 4.71011 |
| 24 أبريل 2026 | DeepSeek V4 Preview | DeepSeek | نموذج MoE بـ 1.6 تريليون معلمة، 80.6% في SWE-bench Verified، و3,206 على Codeforces، وسياق 1 مليون789 |
القصة ليست في أن أي نموذج صيني واحد قد تفوق على النموذج الرائد من Anthropic. لم يفعل أي منهم ذلك في SWE-Bench Pro. القصة هي أنه في غضون ثلاثة أسابيع، عادلت أو هزمت النماذج مفتوحة الأوزان الرائدة كل مزود نماذج مغلقة آخر — بما في ذلك GPT-5.5 — في اختبار برمجي رئيسي واحد على الأقل، مع خفض السعر بمقدار 6 إلى 30 ضعفًا.
SWE-Bench Pro: أصعب اختبار برمجي عام
يقيم SWE-Bench Pro قدرة الوكيل على حل مشكلات GitHub الحقيقية من البداية إلى النهاية. إنه أصعب من SWE-bench Verified لأنه يتضمن تغييرات طويلة المدى ومتعددة الملفات. إليكم وضع الساحة اليوم.
| الموديل | SWE-Bench Pro | تاريخ الإصدار | الترخيص |
|---|---|---|---|
| Claude Opus 4.7 | 64.3% | ١٦ أبريل ٢٠٢٦ | مغلق4 |
| Kimi K2.6 | 58.6% | ٢٠ أبريل ٢٠٢٦ | MIT معدل56 |
| GPT-5.5 | 58.6% | ٢٣ أبريل ٢٠٢٦ | مغلق10 |
| GLM-5.1 | 58.4% | ٧ أبريل ٢٠٢٦ | MIT12 |
| GPT-5.4 | 57.7% | ٥ مارس ٢٠٢٦ | مغلق1 |
| DeepSeek V4-Pro (الحد الأقصى) | 55.4% | ٢٤ أبريل ٢٠٢٦ | MIT78 |
| Claude Opus 4.6 | 53.4% | ٥ فبراير ٢٠٢٦ | مغلق6 |
هناك أمران بارزان. أولاً، الفجوة بين الرائد مفتوح الأوزان (Kimi K2.6 بنسبة 58.6%) والرائد المغلق (Opus 4.7 بنسبة 64.3%) هي 5.7 نقطة مئوية — وهي فجوة أوسع من الفجوة بين GPT-5.5 و Kimi K2.6 (صفر). ثانياً، GPT-5.5 و Kimi K2.6 متعادلان في هذا الاختبار المرجعي، لكن GPT-5.5 يكلف 5 دولارات لكل مليون توكن مدخلات و30 دولاراً لكل مليون مخرجات، بينما يُدرج Kimi K2.6 بسعر 0.95 دولار للمدخلات / 4.00 دولارات للمخرجات على Moonshot API.121314
إذا قمت بالتقييم بناءً على SWE-Bench Pro وحده، فإن النماذج مفتوحة الأوزان قد عادلت GPT-5.5 بجزء بسيط من السعر. الفجوة المتبقية هي لصالح Opus 4.7 من Anthropic — وهذه الفجوة حقيقية ولكنها ضيقة بما يكفي بحيث لا تبرر، بالنسبة للعديد من أعباء العمل، دفع علاوة سعرية تتراوح بين 6 إلى 30 ضعفاً لتوكن المخرجات.
SWE-bench Verified و LiveCodeBench و Codeforces
يعد SWE-Bench Pro هو الاختبار المرجعي الرئيسي، ولكنه ليس الوحيد. تتفوق نماذج مختلفة في فئات مختلفة.
| الموديل | SWE-bench Verified | LiveCodeBench | Codeforces Elo |
|---|---|---|---|
| GPT-5.5 | 88.7% (OpenAI)11 | لم يتم الإبلاغ عنه كعنوان رئيسي | لم يتم الإبلاغ عنه رسمياً |
| Claude Opus 4.7 | 87.6%4 | 89.6%4 | لم يتم الإبلاغ عنه رسمياً |
| DeepSeek V4-Pro (الحد الأقصى) | 80.6%78 | 93.5%7 | 3,20678 |
| Kimi K2.6 | 80.2%5 | لم يتم الإبلاغ عنه كعنوان رئيسي | لم يتم الإبلاغ عنه كعنوان رئيسي |
| Claude Opus 4.6 | 80.8%7 | 88.8%7 | لم يتم الإبلاغ عنه رسمياً |
يتفوق DeepSeek V4-Pro في LiveCodeBench (93.5%) و Codeforces (3,206 — متقدماً على 3,168 لـ GPT-5.4). ويقع Kimi K2.6 ضمن جزء بسيط من النقطة من Opus 4.6 في SWE-bench Verified. يتصدر GPT-5.5 بفارق ضئيل في SWE-bench Verified بنسبة 88.7% (حسب تقرير OpenAI)، مع تقارب Claude Opus 4.7 بنسبة 87.6%. كلاهما يتصدر النماذج مفتوحة الأوزان (DeepSeek V4-Pro بنسبة 80.6%) بحوالي 7 إلى 8 نقاط في ذلك الاختبار المرجعي.
لاحظ أن أرقام SWE-bench Verified التي أبلغ عنها الموردون تستخدم إطار العمل (scaffold) وميزانية الأدوات الخاصة بكل مختبر؛ في لوحة المتصدرين المستقلة vals.ai، التي تثبت إطار عمل محايداً، يستقر GPT-5.5 عند ~82.6%، وهو أقرب إلى مجموعة النماذج مفتوحة الأوزان.15 المقارنة العادلة بين المختبرات أصعب مما توحي به الأرقام الرئيسية.
النمط العام: النماذج مفتوحة الأوزان تنافسية في مهام البرمجة التنافسية وتوليد الأكواد (LiveCodeBench، Codeforces) وهي قريبة جداً في مهام حل المشكلات (SWE-bench Verified). تظل حلول الوكلاء الذكية طويلة المدى (SWE-Bench Pro) هي المجال الذي تحتفظ فيه Anthropic بأوضح تقدم.
فجوة السعر التي تهم حقاً
يحكي تسعير التوكن الواحد قصة سبب قيام هذه الإصدارات بإعادة تشكيل عمليات النشر في بيئات الإنتاج.
| الموديل | المدخلات (دولار/مليون) | المخرجات (دولار/مليون) | ملاحظات |
|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | مغلق12 |
| GPT-5.5 | $5.00 | $30.00 | مغلق؛ تضاعف تقريباً مقارنة بـ GPT-5.4 ($2.50/$15)13 |
| Kimi K2.6 (Moonshot API) | $0.95 | $4.00 | MIT معدل، الاستضافة الذاتية متاحة14 |
| DeepSeek V4-Pro (قائمة الأسعار) | $1.74 | $3.48 | MIT9 |
| DeepSeek V4-Pro (عرض ترويجي) | $0.435 | $0.87 | خصم 75% حتى ٣١ مايو ٢٠٢٦9 |
| GLM-5.1 (OpenRouter) | $1.05 | $3.50 | MIT، يختلف حسب المزود16 |
بناءً على تكلفة المخرجات وحدها:
- Kimi K2.6 أرخص بحوالي 6 مرات من Claude Opus 4.7 وأرخص بحوالي 7.5 مرة من GPT-5.5.
- DeepSeek V4-Pro (قائمة الأسعار) أرخص بحوالي 7 مرات من Opus 4.7 وأرخص بحوالي 8.6 مرة من GPT-5.5.
- DeepSeek V4-Pro (عرض ترويجي) أرخص بحوالي 29 مرة من Opus 4.7 — حتى ٣١ مايو.
وهذه هي أسعار استدلال الـ API. تعني تراخيص MIT للأوزان أنه يمكنك استضافة DeepSeek V4 أو GLM-5.1 ذاتياً بتكلفة صفرية لكل توكن. بالنسبة لضغط عمل برمجِي ثقيل يُنتج ملايين التوكنات يومياً، تصبح الحسابات غير مريحة بسرعة للمنافسين ذوي المصادر المغلقة.
ثلاثة رهان مختلفة
لم تبنِ المختبرات الصينية الثلاثة نفس النوع من النماذج. قام كل منهم برهان معماري ومنتجي متميز.
GLM-5.1: رهان الأفق الطويل المرخص بـ MIT
نموذج GLM-5.1 هو MoE بـ 754 مليار معامل مع 40 مليار معامل نشط لكل توكن، مرخص بـ MIT، مع نافذة سياق 200 ألف وتوكنات مخرجات قصوى 128 ألف.17 ترويج شركة Z.ai يركز على البرمجة الوكيلية ذات الأفق الطويل: تم تصميم النموذج ليعمل بشكل مستقل لمدة تصل إلى ثماني ساعات من تنفيذ المهام المستمر دون نقاط تفتيش بشرية.2 تم تدريبه على 100,000 شريحة Huawei Ascend 910B — وهي إشارة متعمدة إلى أن المختبرات الصينية يمكنها تدريب نماذج رائدة بدون أجهزة NVIDIA.2
الأفضل لـ: سير عمل الهندسة الوكيلية حيث يحتاج النموذج إلى التخطيط والتنفيذ والتحقق والمراجعة عبر ملفات ومهام فرعية متعددة دون إشراف.
Kimi K2.6: رهان سرب الـ 300 وكيل
نموذج Kimi K2.6 هو MoE بـ 1 تريليون معامل مع 32 مليار معامل نشط لكل توكن، مرخص بـ MIT معدل، مع نافذة سياق 256 ألف.56 الميزة المعمارية الرئيسية لشركة Moonshot هي سرب الوكلاء (Agent Swarm): حيث يمكن لعملية برمجة واحدة تنسيق ما يصل إلى 300 وكيل فرعي ينفذون 4,000 خطوة منسقة.6 استعرضت Moonshot مدة 13 ساعة من البرمجة المستقلة المستمرة على محرك مطابقة مالي مفتوح المصدر أثناء الإطلاق.5
الأفضل لـ: أعباء العمل التي تتحلل بشكل طبيعي إلى مهام فرعية متوازية — إعادة هيكلة الكود (refactoring) عبر مئات الملفات، توليد الاختبارات، والتحويل بين اللغات المتعددة.
DeepSeek V4: رهان التكلفة المدفوع بالمعمارية
يأتي DeepSeek V4 في شكل نموذجين: V4-Pro (إجمالي 1.6 تريليون / 49 مليار نشط) و V4-Flash (إجمالي 284 مليار / 13 مليار نشط)، كلاهما تحت ترخيص MIT مع نافذة سياق مليون توكن و 384 ألف توكن مخرجات كحد أقصى.89 العنوان المعماري الأبرز هو الانتباه الهجين (Hybrid Attention) — طبقات الانتباه المتناثر المضغوط والانتباه المضغوط بشدة التي تخفض عمليات الـ FLOPs للاستدلال لكل توكن إلى 27% من V3.2 وذاكرة التخزين المؤقت KV إلى 10% عند سياق مليون توكن.8 يعد V4 النموذج الوحيد في هذه الموجة الذي يمتلك نافذة سياق تصل لمليون توكن.
الأفضل لـ: العمل على قواعد الأكواد الكبيرة حيث يكون طول السياق هو القيد الأساسي — المستودعات الكاملة، جلسات تصحيح الأخطاء الطويلة، ومراجعة الأكواد متعددة المستندات.
اختلافات التراخيص التي تهم في الإنتاج
تختلف كلمة "مفتوح" في "مفتوح الأوزان" بشكل ملموس عبر النماذج الثلاثة.
| النموذج | الترخيص | الاستخدام التجاري | الاستضافة الذاتية |
|---|---|---|---|
| GLM-5.1 | MIT | نعم، غير مقيد17 | نعم |
| DeepSeek V4 | MIT | نعم، غير مقيد8 | نعم |
| Kimi K2.6 | MIT معدل | نعم — يتطلب الإسناد لعمليات النشر التي تتجاوز 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار إيرادات شهرية14 | نعم |
| MiniMax M2.7 (سابق، 18 مارس) | MIT معدل تقييدي | "مطلوب تصريح كتابي للاستخدام التجاري"18 | مسموح لغير التجاري |
إن شحن GLM-5.1 و DeepSeek V4 تحت ترخيص MIT القياسي هو الحالة القانونية النهائية التي يريدها معظم مشتري المؤسسات. يعمل ترخيص MIT المعدل لـ Kimi K2.6 كترخيص MIT قياسي لغالبية الفرق — حيث يتطلب بند واحد مضاف إسناداً بارزاً لـ "Kimi K2" فقط لعمليات النشر التي تتجاوز 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار من الإيرادات الشهرية.14 أما MiniMax M2.7 — الذي تم إصداره سابقاً في 18 مارس 2026، قبل موجة أبريل — فيوضح النمط الذي لم يترسخ: "MIT معدل" مع قيود غير تجارية تتطلب تفويضاً كتابياً مسبقاً لأي استخدام تجاري.18
بالنسبة للمشتريات المؤسسية، التسلسل الهرمي العملي هو: GLM-5.1 ≈ DeepSeek V4 (بدون عوائق) ← Kimi K2.6 (مراجعة خفيفة) ← MiniMax M2.7 (ترخيص منفصل).
ما يتفوق فيه كل نموذج فعلياً
مقارنة النماذج الصينية الثلاثة مفتوحة الأوزان وجهاً لوجه — وضد النماذج المغلقة الرائدة عند الاقتضاء:
- أفضل SWE-Bench Pro مفتوح الأوزان: Kimi K2.6 (58.6%)، متقدماً بفارق ضئيل على GLM-5.1 (58.4%)؛ كما يتساوى مع GPT-5.5 مغلق المصدر (58.6%)
- أفضل LiveCodeBench (حسب تقرير المورد): DeepSeek V4-Pro (93.5%)
- أفضل Codeforces: DeepSeek V4-Pro (3,206 Elo)
- أفضل برمجة مستقلة طويلة الأمد: GLM-5.1 (تنفيذ مهام مستمر لمدة 8 ساعات)
- أفضل تنسيق للمهام الفرعية المتوازية: Kimi K2.6 (سرب من 300 وكيل)
- أفضل سياق لقواعد الأكواد الكبيرة (بين الثلاثة): DeepSeek V4 (مليون توكن)
- أفضل سعر لكل توكن مخرجات: عرض DeepSeek V4-Pro الترويجي (حتى 31 مايو)
- أنظف ترخيص للمشتريات المؤسسية: GLM-5.1 أو DeepSeek V4 (ترخيص MIT القياسي)
لا تزال الفجوة مع Claude Opus 4.7 في SWE-Bench Pro (5.7 نقطة) و SWE-bench Verified (حوالي 7 نقاط) حقيقية. بالنسبة لوكلاء البرمجة المستقلين في المهام الحرجة حيث تهم كل نقطة مئوية من دقة حل المشكلات، لا يزال Opus 4.7 يحتفظ بالصدارة — بتكلفة توكن مخرجات تزيد من 6 إلى 30 ضعفاً اعتماداً على النموذج مفتوح الأوزان وفئة التسعير التي تقارنه بها.
الفجوة التي لا تزال قائمة
سيكون من الخطأ القول إن النماذج الرائدة مفتوحة الأوزان قد لحقت بالنماذج المغلقة. إن نتيجة Claude Opus 4.7 البالغة 64.3% في SWE-Bench Pro هي أعلى نتيجة تم الإبلاغ عنها علناً في ذلك الاختبار المرجعي، وفي SWE-bench Verified لا تزال النماذج المغلقة الرائدة — GPT-5.5 بنسبة 88.7% و Opus 4.7 بنسبة 87.6% — تتفوق بنحو 7-8 نقاط على قادة النماذج مفتوحة الأوزان. في المهام الوكيلية ذات الأفق الطويل التي تتضمن حل ملفات متعددة في ظل وجود غموض، يتفوق Opus 4.7 حالياً.
ولكن في معظم مهام البرمجة التي لا تقع عند أقصى حدود الصعوبة، أصبحت النماذج مفتوحة الأوزان الآن ضمن نطاق الضوضاء الإحصائية لنموذج GPT-5.5 — وهي أرخص بكثير. السؤال المثير للاهتمام لم يعد "هل يمكن للنماذج مفتوحة الأوزان اللحاق بالنماذج المغلقة الرائدة؟" بل "لأي مجموعة فرعية من أعباء عمل البرمجة لا تزال التكلفة الإضافية للنماذج المغلقة الرائدة تستحق الدفع؟"
بالنسبة للحلول البرمجية القائمة على الوكلاء (agentic resolution) ذات المخاطر العالية من محاولة واحدة — نعم. أما بالنسبة لتوليد الكود بكميات كبيرة، وإعادة الهيكلة (refactoring)، وكتابة الاختبارات، وتحرير الملفات المتعددة، وحلقات تكامل CI — فبشكل متزايد، لا.
ملخص
في نافذة مدتها 17 يوماً من 7 أبريل إلى 24 أبريل 2026، نجحت ثلاثة نماذج برمجة صينية مفتوحة الأوزان — GLM-5.1 و Kimi K2.6 و DeepSeek V4 — في سد فجوة الأداء بالكامل تقريباً مع GPT-5.5 مع التفوق عليه وعلى Claude Opus 4.7 في السعر بمقدار 6 إلى 30 ضعفاً. لا يزال Claude Opus 4.7 من Anthropic يتصدر في أصعب اختبارات البرمجة القائمة على الوكلاء (SWE-Bench Pro بنسبة 64.3%)، ولكن بالنسبة للفئة الأوسع من أعباء عمل البرمجة، أصبحت النماذج مفتوحة الأوزان المرخصة بترخيص MIT مع نوافذ سياق تتراوح من 200 ألف إلى مليون توكن خياراً افتراضياً موثوقاً للإنتاج. إن ريادة نماذج البرمجة اللغوية الكبيرة في عام 2026 ليست خطاً واحداً، بل هي تكتل — وقد أصبح الجانب مفتوح الأوزان من هذا التكتل، ولأول مرة، منافساً في كل الأبعاد باستثناء المهام الأكثر صعوبة على الإطلاق.
Footnotes
Footnotes
-
Winbuzzer, Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro, April 9, 2026. https://winbuzzer.com/2026/04/09/z-ai-releases-glm-5-1-754b-model-tops-swe-bench-pro-xcxwbn/ ↩ ↩2 ↩3 ↩4
-
نيرد ليفل تك, GLM-5.1: The Open-Source Model That Beat GPT-5.4, April 19, 2026. /glm-5-1-open-source-beats-gpt-coding-benchmarks ↩ ↩2 ↩3 ↩4 ↩5
-
TheNextWeb, Claude Opus 4.7 leads on SWE-bench and agentic reasoning, April 16, 2026. https://thenextweb.com/news/anthropic-claude-opus-4-7-coding-agentic-benchmarks-release ↩ ↩2
-
LLM-Stats, Claude Opus 4.7 Benchmarks, Pricing & Context Window. https://llm-stats.com/models/claude-opus-4-7 ↩ ↩2 ↩3 ↩4 ↩5
-
Kimi.com Blog, Kimi K2.6 Tech Blog: Advancing Open-Source Coding. https://www.kimi.com/blog/kimi-k2-6 ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
نيرد ليفل تك, Kimi K2.6: Open-Weight 300-Agent Swarm Tops GPT-5.4, April 27, 2026. /kimi-k2-6-300-agent-swarm-open-weight-frontier-coding ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
وثائق DeepSeek API، إصدار معاينة DeepSeek V4، 24 أبريل 2026. https://API-docs.deepseek.com/news/news260424 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
نيرد ليفل تك، DeepSeek V4: آفاق الأوزان المفتوحة بـ 1/7 التكلفة، 2 مايو 2026. /deepseek-v4-open-source-frontier-million-token-context ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
وثائق DeepSeek API، النماذج والأسعار. https://API-docs.deepseek.com/quick_start/pricing/ ↩ ↩2 ↩3 ↩4 ↩5
-
OpenAI، تقديم GPT-5.5، 23 أبريل 2026. https://openai.com/index/introducing-gpt-5-5/ ↩ ↩2
-
TokenMix، مراجعة GPT-5.5: 88.7% SWE-Bench، 92.4% MMLU، ضعف السعر (2026). https://tokenmix.ai/blog/gpt-5-5-spud-review-88-swe-bench-2026 ؛ إعلان OpenAI، 23 أبريل 2026. ↩ ↩2
-
أسعار Anthropic. https://www.anthropic.com/claude/opus ↩ ↩2
-
أسعار OpenAI API. https://openai.com/API/pricing/ ↩ ↩2
-
Moonshot AI على Hugging Face، بطاقة نموذج Kimi-K2.6. https://huggingface.co/moonshotai/Kimi-K2.6 ↩ ↩2 ↩3 ↩4
-
لوحة صدارة vals.ai SWE-bench، مايو 2026. ↩
-
OpenRouter، أسعار ومعايير GLM-5.1 API. https://openrouter.ai/z-ai/glm-5.1 ↩
-
LLM-Stats، معايير GLM-5.1، الأسعار ونافذة السياق. https://llm-stats.com/models/glm-5.1 ↩ ↩2
-
MarkTechPost، MiniMax تطلق للتو MiniMax M2.7 مفتوح المصدر، 12 أبريل 2026. https://www.marktechpost.com/2026/04/12/minimax-just-open-sourced-minimax-m2-7-a-self-evolving-agent-model-that-scores-56-22-on-swe-pro-and-57-0-on-terminal-bench-2/ ↩ ↩2