كيف تقارن هذه النماذج بـ Claude Opus 4.7؟

يتصدر Claude Opus 4.7 لوحة المتصدرين العامة لـ SWE-Bench Pro بنسبة 64.3% — أي حوالي 5.7 نقطة فوق أفضل رقم للنماذج مفتوحة الأوزان في هذه الموجة. لكن تسعير رموز المخرجات (output tokens) يحكي قصة مختلفة: كل النماذج الصينية مفتوحة الأوزان في هذه المجموعة تُسعّر بنسبة 14% أو أقل من سعر مخرجات Opus 4.7، بينما يقترب DeepSeek V4-Flash من 1%. (يتصدر Claude Mythos Preview من Anthropic لوحة المتصدرين الإجمالية بنسبة 77.8% ولكنه متاح بدعوات فقط عبر Project Glasswing.)

ماذا يعني "مفتوح الأوزان" (open-weight) هنا؟

يعني أن أوزان النموذج قابلة للتنزيل من Hugging Face ويمكن استخدامها بموجب الترخيص المرفق (MIT لـ GLM-5.1 و DeepSeek V4؛ و Modified MIT لـ Kimi K2.6 و MiniMax M2.7). يمكن استضافة جميع النماذج الأربعة في هذه الموجة ذاتيًا على أجهزة مناسبة. بيانات التدريب وكود التدريب ليس بالضرورة أن يتم إصدارهما — فهذه النماذج "مفتوحة الأوزان" وليست "مفتوحة المصدر" بالكامل. كما أن ترخيص Modified-MIT الخاص بـ MiniMax M2.7 يقيد الاستخدام التجاري دون تصريح مسبق.

لماذا أصدرت أربعة مختبرات صينية نماذجها خلال 18 يومًا فقط؟

تحيط هذه الإصدارات بموعد إطلاق Claude Opus 4.7 من Anthropic في 16 أبريل 2026، مما يشير إلى توقيت تنافسي جزئي على الأقل. يستهدف كل مختبر فئة مختلفة قليلاً — Z.ai تركز على الهندسة الوكيلية (agentic engineering) بترخيص مرن، و MiniMax على الهياكل ذاتية التحسين، و Moonshot على أسراب الوكلاء (agent swarms)، و DeepSeek على كفاءة الاستدلال — لذا فإن هذا التجمع أقل تجانسًا مما يوحي به الجدول الزمني.

هل DeepSeek V4-Flash أرخص فعليًا من تشغيل وحدة معالجة الرسومات (GPU) الخاصة بي؟

بسعر 0.14 دولار للمدخلات / 0.28 دولار للمخرجات لكل مليون رمز (في حالة عدم وجود ذاكرة تخزين مؤقت)، يعد DeepSeek V4-Flash أقل من التكلفة الهامشية لتشغيل معظم إعدادات MoE المستضافة ذاتيًا لأحجام العمل المنخفضة. تنعكس المعادلة الاقتصادية لصالح الاستضافة الذاتية عند أحجام الطلبات العالية جدًا أو عندما تتطلب خصوصية البيانات استدلالاً داخل VPC. كما أن التسعير الترويجي لـ V4-Pro يستمر فقط حتى 31 مايو 2026.

هل ستسد النماذج الرائدة الغربية فجوة الأسعار؟

النمط الحالي هو أن النماذج الرائدة مغلقة المصدر تحتفظ بتفوق في القدرات وتفرض رسومًا بناءً على ذلك، بينما تضع النماذج مفتوحة الأوزان من المختبرات الصينية أسعارًا هجومية لمنافسة تلك الفجوة في القدرات. لا توجد إشارة عامة إلى أن Anthropic أو OpenAI أو Google تخطط لخفض أسعار Opus/GPT/Gemini بالقدر اللازم لمطابقة أسعار النماذج الصينية مفتوحة الأوزان.

ai-ml

موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج، ١٨ يومًا

١٧ مايو ٢٠٢٦

#open-weight LLM #DeepSeek V4 #GLM-5.1 #Kimi K2.6 #MiniMax M2.7 #agentic coding #Chinese AI models #SWE-Bench Pro #LLM pricing #mixture of experts

China's Open-Weight Coding Wave: 4 Models, 18 Days

ملخص

بين 7 أبريل و24 أبريل 2026، أطلقت أربعة مختبرات صينية للذكاء الاصطناعي نماذج برمجة مفتوحة الأوزان في تتابع سريع: نموذج GLM-5.1 من Z.ai، ونموذج M2.7 من MiniMax (تم فتحه في 12 أبريل بعد إعلان في مارس)، ونموذج Kimi K2.6 من Moonshot، ونموذج DeepSeek V4 (بنسختي Pro و Flash). تستهدف جميعها سير عمل الهندسة المعتمد على الوكلاء (agentic engineering)، وتعتمد جميعها على بنية خليط الخبراء (mixture-of-experts)، وتُسعر جميعها بنحو عشر تكلفة Claude Opus 4.7 — الذي يتصدر قائمة متصدرين SWE-Bench Pro المتاحة للجمهور بنسبة 64.3% مقابل أعلى علامة للأوزان المفتوحة وهي 58.6% من Kimi K2.6 (متعادلًا بنسبة 58.6% مع GPT-5.5 من OpenAI). يتفوق نموذج Claude Mythos Preview من Anthropic المتاح بدعوة فقط على كل هؤلاء بنسبة 77.8% ولكنه غير متاح بشكل عام. القصة ليست أن الأوزان المفتوحة تجاوزت النماذج الرائدة (frontier models)، بل هي أن الحد الأدنى لتكلفة الاستنتاج للبرمجة المعتمدة على الوكلاء "الجيدة بما يكفي" قد انهار للتو.

ما ستتعلمه

الجدول الزمني للإصدار والمواصفات لنماذج GLM-5.1 و MiniMax M2.7 و Kimi K2.6 و DeepSeek V4
موقع كل نموذج في اختبارات SWE-Bench Pro و SWE-Bench Verified
كيفية مقارنة أسعار القائمة بـ Claude Opus 4.7 وما يعنيه ذلك لميزانيات الإنتاج
التحركات المعمارية التي جعلت هذه النماذج ممكنة — محسن Muon، والانتباه المضغوط (compressed attention)، وأسراب الوكلاء (agent swarms)، والهياكل ذاتية التحسين (self-improving scaffolds)
المجالات التي لا تزال فيها النماذج الرائدة الغربية تحتفظ بتقدم حقيقي

نافذة الإصدار التي استمرت 18 يومًا

الجدول الزمني المضغوط هو العنوان الرئيسي. أطلقت أربعة مختبرات صينية كبرى نماذج برمجة مفتوحة الأوزان خلال نافذة مدتها 18 يومًا، كل منها مصمم للمنافسة في الهندسة المعتمدة على الوكلاء بدلاً من الدردشة¹:

التاريخ	النموذج	المختبر	الترخيص
7 أبريل 2026	GLM-5.1	Z.ai	MIT²
12 أبريل 2026	MiniMax M2.7 (مفتوح)	MiniMax	Modified-MIT (غير تجاري)³
20 أبريل 2026	Kimi K2.6	Moonshot AI	Modified MIT⁴
24 أبريل 2026	DeepSeek V4 (Pro + Flash)	DeepSeek	MIT⁵

تم الإعلان عن MiniMax M2.7 في الأصل في 18 مارس 2026 كنموذج مغلق ثم تم إصداره بأوزان مفتوحة على Hugging Face في 12 أبريل³. أما النماذج الثلاثة الأخرى فقد شُحنت كأوزان مفتوحة منذ اليوم الأول.

في نفس النافذة، شحنت Anthropic نموذج Claude Opus 4.7 في 16 أبريل 2026، والذي يتصدر قائمة متصدرين SWE-Bench Pro المتاحة للجمهور بنسبة 64.3%⁶. ثم أصدرت OpenAI نموذج GPT-5.5 في 23 أبريل، مسجلاً 58.6% في SWE-Bench Pro⁷. يقع نموذج Claude Mythos Preview من Anthropic (مشروع Glasswing، المتاح بدعوة فقط وغير متاح بشكل عام) في مرتبة متقدمة على كليهما بنسبة 77.8% ولكنه مقتصر على حوالي 40 مؤسسة شريكة محددة⁸. لذا فإن إصدارات الأوزان المفتوحة الأربعة تحيط بإطلاقين لنماذج رائدة — وهو سياق مفيد للمقارنة التي تلي ذلك.

النماذج

GLM-5.1 (Z.ai) — 7 أبريل

نموذج GLM-5.1 هو نموذج خليط الخبراء (MoE) يحتوي على حوالي 744–754 مليار معلمة إجمالية (تختلف المصادر حول الرقم الدقيق، مع الاستشهاد بكليهما على نطاق واسع)، و40 مليار معلمة نشطة لكل توكن، ونافذة سياق 200K، وترخيص MIT². عند الإطلاق، ادعت Z.ai الحصول على أعلى درجة في SWE-Bench Pro بنسبة 58.4% بناءً على الأرقام المنشورة من قبل الشركة — وهي أعلى قليلاً من GPT-5.4 (57.7%) و Claude Opus 4.6 (57.3% حسب قياس Z.ai)، مما يجعله أول نموذج مفتوح الأوزان يطالب بصدارة قائمة المتصدرين تلك قبل إصدار Claude Opus 4.7 من Anthropic بعد تسعة أيام². يبلغ سعر القائمة على API المباشر لـ Z.ai هو 1.05 دولار لكل مليون توكن إدخال و3.50 دولار لكل مليون توكن إخراج⁹.

تكمن جاذبية GLM-5.1 في الجمع بين الترخيص المتساهل، ودرجات الهندسة المعتمدة على الوكلاء القوية، وسعر الاستنتاج الذي يقل بكثير عن معدلات النماذج الرائدة مغلقة المصدر. للحصول على تحليل أعمق للنموذج ومجموعة تدريب Huawei Ascend الخاصة به، راجع منشور معايير GLM-5.1.

MiniMax M2.7 — 12 أبريل (مفتوح)

نموذج MiniMax M2.7 هو MoE بـ 230 مليار معلمة مع 10 مليار معلمة نشطة لكل توكن، ونافذة سياق 200K (تقنيًا 204,800 توكن)، وأوزان تم إصدارها على Hugging Face بموجب ترخيص "Modified-MIT" والذي — على عكس ترخيص MIT القياسي الذي استخدمته MiniMax لنماذج M2 و M2.5 — يقيد الاستخدام التجاري دون تصريح كتابي مسبق³. كان تغيير الترخيص مثيرًا للجدل عند الإعلان عنه؛ حيث وصفت تعليقات المجتمع تسمية "Modified-MIT" بأنها مضللة. يسجل النموذج 56.22% في SWE-Pro و 57.0% في Terminal Bench 2³. يأتي تسعير MiniMax عند 0.30 دولار للإدخال / 1.20 دولار للإخراج لكل مليون توكن¹⁰.

ترويج المختبر يعتمد على التطور الذاتي: تقول MiniMax أن M2.7 شارك بنشاط في تطويره الخاص، حيث أجرى أكثر من 100 جولة ذاتية من تحسين الهياكل (scaffold optimization) وسجل تحسنًا في الأداء بنسبة ~30% من تلك الحلقة³. هذا الإطار مبتكر، على الرغم من أن التحقق المستقل من مكاسب "التطور الذاتي" لا يزال محدودًا.

Kimi K2.6 (Moonshot AI) — 20 أبريل

نموذج Kimi K2.6 هو MoE بـ 1 تريليون معلمة مع 32 مليار معلمة نشطة لكل توكن، ونافذة سياق 256K، وترخيص Modified MIT⁴. تشمل التفاصيل المعمارية التي نشرتها Moonshot وجود 384 خبيرًا (8 موجهين بالإضافة إلى 1 مشترك)، و61 طبقة، و64 رأس انتباه، و Multi-head Latent Attention (MLA)⁴. في SWE-Bench Pro، يسجل Kimi K2.6 نسبة 58.6% — أعلى قليلاً من رقم شركة GLM-5.1 ومرتفع بما يكفي للاحتفاظ لفترة وجيزة بالمركز الأول للأوزان المفتوحة عند شحنه⁴. وفي SWE-Bench Verified يصل إلى 80.2%⁴.

يقدم Kimi K2.6 أيضاً نموذج Agent Swarm الأولي الذي يوزع مهمة واحدة على ما يصل إلى 300 عميل فرعي عبر 4,000 خطوة منسقة — وهو ما يمثل ثلاثة أضعاف الحد الأقصى لـ K2.5 البالغ 100 عميل وقفزة تقارب 2.7 ضعف في أفق الخطوات، ورهان متعمد على اتجاه الأنظمة متعددة العملاء (multi-agent) التي تستثمر فيها الآن عدة مختبرات صينية⁴. يبلغ السعر على API الرسمي لشركة Moonshot حوالي 0.60 دولار للمدخلات / 2.50 دولار للمخرجات لكل مليون توكن؛ بينما تدرج الشركات الخارجية أسعاراً في نطاق 0.73 دولار إلى 0.95 دولار للمدخلات¹¹. لمزيد من المعلومات حول بنية السرب في K2.6 ونقطة التحقق الأصلية INT4، راجع تغطيتنا لـ Kimi K2.6 Agent Swarm.

DeepSeek V4 — 24 أبريل

أطلقت DeepSeek نسختين في نفس اليوم تحت ترخيص MIT للأوزان ونافذة سياق تبلغ مليون توكن⁵:

V4-Pro: إجمالي 1.6 تريليون معامل، 49 مليار معامل نشط، تم تدريبه مسبقاً على 33 تريليون توكن
V4-Flash: إجمالي 284 مليار معامل، 13 مليار معامل نشط، تم تدريبه مسبقاً على 32 تريليون توكن

يصل V4-Pro إلى 80.6% في SWE-Bench Verified و 55.4% في SWE-Bench Pro¹². يتأخر V4-Flash عن Pro بنحو 1.6 نقطة في Verified بنسبة 79.0% في أقوى مستوياته¹². تضع DeepSeek طراز Pro لأقصى قدرة و Flash لاقتصاديات الاستدلال في بيئات الإنتاج.

تعتبر البنية هي الأكثر جرأة بين الأربعة. يقدم V4 تقنية Compressed Sparse Attention (CSA) مقترنة بـ Heavily Compressed Attention (HCA)، والتي تفيد DeepSeek بأنها تخفض عمليات FLOPs للاستدلال للتوكن الواحد إلى حوالي 27% مقارنة بـ V3.2 وبصمة ذاكرة التخزين المؤقت KV إلى حوالي 10% عند سياق مليون توكن¹². استخدم التدريب المسبق محسن Muon بدلاً من AdamW، مع تطبيق تكرارات Newton-Schulz لتعامد تحديثات التدرج تقريباً قبل كل خطوة وزن — تم اختياره لسرعة التقارب والاستقرار عند مقياس 33 تريليون توكن¹².

تجري DeepSeek أيضاً عرضاً ترويجياً للإطلاق: يبلغ سعر V4-Pro حوالي 0.435 دولار للمدخلات / 0.87 دولار للمخرجات لكل مليون توكن حتى 31 مايو 2026، مقابل سعر القائمة البالغ 1.74 دولار للمدخلات / 3.48 دولار للمخرجات¹³. يبلغ سعر V4-Flash حوالي 0.14 دولار للمدخلات / 0.28 دولار للمخرجات في حالة عدم وجود ذاكرة تخزين مؤقت (cache miss)، مع تسعير ضربات الذاكرة التخزين المؤقت (cache hits) بسعر 0.0028 دولار لكل مليون توكن — بخصم 98%¹³. للحصول على تحليل كامل لبنية CSA و HCA واقتصاديات المليون توكن، راجع تحليلنا العميق لـ DeepSeek V4.

لقطة من الاختبارات القياسية

وضع الإصدارات الأربعة على نفس المحور، جنباً إلى جنب مع Claude Opus 4.7 كنقطة مرجعية مغلقة المصدر:

النموذج	SWE-Bench Pro	SWE-Bench Verified
Claude Opus 4.7	64.3%⁶	87.6%⁶
Kimi K2.6	58.6%⁴	80.2%⁴
GLM-5.1	58.4% (المورد)²	—
MiniMax M2.7	56.22% (SWE-Pro)³	—
DeepSeek V4-Pro	55.4%¹²	80.6%¹²
DeepSeek V4-Flash (الأقصى)	—	79.0%¹²

ثلاث ملاحظات على قراءة هذا الجدول:

أولاً، "SWE-Pro" و "SWE-Bench Pro" هما نفس الاختبار القياسي — MiniMax فقط تحذف كلمة "Bench" في تقاريرها. ومع ذلك، فإن التعقيدات المنهجية حقيقية: يستخدم كل مختبر هيكله الخاص، وأحياناً مجموعته الفرعية من المهام، وتختلف اتفاقيات عدد مرات التشغيل. المقارنات بين المختبرات صحيحة من حيث الاتجاه ولكن لا ينبغي قراءتها كقياسات مهيأة بشكل متطابق.

ثانياً، يحتفظ Claude Opus 4.7 بصدارة SWE-Bench Pro المتاحة علناً بنحو 5.7 نقطة على Kimi K2.6 وبصدارة Verified بأكثر من 7 نقاط على كل من DeepSeek V4-Pro و Kimi K2.6. لم ينهر التقدم الغربي في أبريل — فقد وسع Opus 4.7 الصدارة المتاحة علناً في البرمجة في نفس الأسبوع الذي ضربت فيه موجة الأوزان المفتوحة⁶. يتعادل GPT-5.5 (23 أبريل) مع Kimi K2.6 بنسبة 58.6% في SWE-Bench Pro، لذا فإن التقدم الغربي وتقدم الأوزان المفتوحة متداخلان الآن تحت Opus 4.7 بدلاً من كونهما منفصلين بوضوح⁷.

ثالثاً، مجموعة الأوزان المفتوحة متقاربة جداً. تفصل حوالي 3.2 نقطة مئوية بين أفضل نتيجة (Kimi K2.6 بنسبة 58.6%) وأسوأ نتيجة (DeepSeek V4-Pro بنسبة 55.4%) في اختبار SWE-Bench Pro بين النماذج الصينية الأربعة. من وجهة نظر المشتريات، فإن عوامل التمييز هي السعر، والترخيص، ونافذة السياق، والملاءمة الهيكلية — وليس الترتيب الخام للاختبارات القياسية.

للحصول على صورة أكمل لكيفية ارتفاع درجات البرمجة في التقدم الغربي بالتوازي، راجع تحليل اختبارات Claude Opus 4.7 و تحليل GPT-5.4 لاستخدام الكمبيوتر.

القصة الحقيقية هي الحد الأدنى للسعر

قصة القدرات هي أن "الأوزان المفتوحة متجمعة خلف التقدم بنحو 6 نقاط في البرمجة". قصة التكلفة أكثر وضوحاً بكثير. أسعار القائمة لكل مليون توكن، مدخلات/مخرجات⁹¹⁰¹¹¹³⁶:

الموديل	المدخلات (Input)	المخرجات (Output)	مقابل Opus 4.7 (المخرجات)
Claude Opus 4.7	$5.00	$25.00	—
GLM-5.1	$1.05	$3.50	14%
Kimi K2.6 (رسمي)	$0.60	$2.50	10%
MiniMax M2.7	$0.30	$1.20	5%
DeepSeek V4-Pro (عرض حتى 31 مايو)	$0.435	$0.87	3.5%
DeepSeek V4-Flash (فشل التخزين المؤقت)	$0.14	$0.28	1.1%

كل موديل مفتوح الأوزان في هذه الموجة يسعر بأقل من 15% من سعر مخرجات Claude Opus 4.7، بينما يقترب DeepSeek V4-Flash الترويجي من 1% على نفس المحور. بالنسبة للحلقات الوكيلية (agentic loops) — حيث تهيمن توكنز المخرجات على الفاتورة لأن الموديل يولد تتبعات عمل طويلة — هنا يغير الحساب قرارات الإنتاج فعلياً¹³.

بعض التنبيهات. ينتهي السعر الترويجي لـ DeepSeek V4-Pro في 31 مايو 2026؛ وعند السعر المدرج البالغ $1.74/$3.48، يقترب V4-Pro من فئة GLM-5.1 — لا يزال رخيصاً، لكنه أقل إثارة¹³. يختلف تسعير Kimi K2.6 بشكل ملموس عبر المزودين؛ رقم $0.60/$2.50 هو الـ API المباشر من Moonshot، مع إدراج أطراف ثالثة لمدخلات تتراوح بين $0.73–$0.95¹¹. ويستخدم Claude Opus 4.7 أداة ترميز (tokenizer) جديدة تستهلك ما يصل إلى 35% توكنز أكثر لنفس النص، مما يرفع تكاليف Opus في العالم الحقيقي فوق ما تقترحه أسعار التوكن الواحد⁶.

إن صياغة "لا تزيد عن ثلث Claude Opus 4.7" التي طبقها بعض المعلقين على هذه الموجة تقلل من شأن الفجوة. فمن حيث سعر المخرجات وحده، يتم تسعير كل موديل صيني مفتوح الأوزان في هذه المجموعة عند أو أقل من 14% من Opus، مع وجود Kimi K2.6 و MiniMax M2.7 تحت 10% ونسخة Flash من DeepSeek بالقرب من 1%.

المعمارية: أين تحركت الحدود

هناك بضع خطوات تقنية تستحق الإشارة إليها لأنها تظهر أين تتنافس الفرق الصينية للموديلات مفتوحة الأوزان الآن على الجوهر بدلاً من الحجم.

محسن Muon (DeepSeek V4). استبدال AdamW بـ Muon — الذي يجعل تحديثات التدرج متعامدة تقريباً عبر تكرارات Newton-Schulz — سمح لـ DeepSeek بدفع التدريب المسبق إلى 33 تريليون توكن على V4-Pro دون انهيار التدرج الذي يعيب عادةً عمليات التدريب بهذا الحجم¹². استخدمت عملية التدريب المسبق السابقة لـ Kimi K2 من Moonshot أيضاً Muon (تحديداً متغير MuonClip المصمم للتعامل مع عدم الاستقرار في الأحجام الكبيرة)، لذا فإن DeepSeek ليس أول مختبر بمقياس حدودي هنا — لكن V4 هو أكبر موديل تم الكشف عنه علناً ومدرب بـ Muon حتى الآن.

الانتباه المضغوط (DeepSeek V4). يقلل CSA + HCA من ذاكرة التخزين المؤقت KV إلى حوالي 10% وعمليات FLOPs لكل توكن إلى حوالي 27% من V3.2 عند سياق 1 مليون توكن¹². هذا هو نوع التحرك في كفاءة الاستدلال الذي يفسر كيف يمكن لـ DeepSeek تشغيل V4-Flash بتكلفة مدخلات $0.14 لكل مليون توكن على الإطلاق. لمزيد من المعلومات حول طفرات اقتصاديات الاستدلال، راجع تغطيتنا لـ ضغط ذاكرة التخزين المؤقت TurboQuant KV.

أسراب الوكلاء (Kimi K2.6). تشغل ميزة Agent Swarm من Moonshot مهمة واحدة عبر ما يصل إلى 300 وكيل فرعي على مدار 4,000 خطوة منسقة — أي 3 أضعاف عدد الوكلاء وحوالي 2.7 ضعف أفق الخطوات في K2.5⁴. ما إذا كان هذا يتفوق على سير عمل الوكيل الواحد جيد الهيكلة في مهام الإنتاج هو سؤال تجريبي مفتوح، ولكنه من بين أكثر الميزات متعددة الوكلاء جرأة التي تم شحنها في الحدود المفتوحة الأوزان حتى الآن في عام 2026.

الهياكل ذاتية التحسين (MiniMax M2.7). تصف MiniMax موديل M2.7 بأنه شارك بنشاط في تطويره الخاص عبر أكثر من 100 جولة مستقلة من تحسين الهياكل (scaffold optimization)، مسجلاً زيادة بنسبة 30% تقريباً من هذه الحلقة³. رواية "الموديل يدرب نفسه" مبالغ فيها — فالبشر لا يزالون يمتلكون عملية التدريب — لكن ضبط الهياكل بوجود مقيم في الحلقة (evaluator-in-the-loop) هو تقنية حقيقية و M2.7 هو الرهان الأكثر التزاماً بها علناً بين الأربعة.

الترخيص المتساهل (غالباً). يتم شحن GLM-5.1 و DeepSeek V4-Pro/Flash تحت رخصة MIT القياسية²⁵. يستخدم Kimi K2.6 رخصة MIT معدلة تضيف متطلبات الإسناد فقط فوق 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار إيرادات شهرية — وهي فعلياً رخصة MIT قياسية لمعظم المستخدمين⁴. يعد MiniMax M2.7 هو الاستثناء: حيث تقيد رخصة MIT المعدلة الخاصة به الاستخدام التجاري دون إذن كتابي مسبق، وهو تراجع ملموس عن ترخيص MIT القياسي الذي استخدمته MiniMax لـ M2 و M2.5³. بالنسبة للمؤسسات التي لديها مراجعات امتثال صارمة، فإن GLM-5.1 و DeepSeek V4 هما الخيار الأسهل.

أين لا تزال الحدود صامدة

لتحقيق التوازن: لم تفقد الحدود الغربية أي أرضية في القدرات خلال موجة أبريل.

اتسعت ريادة البرمجة المتاحة علناً. يتصدر Claude Opus 4.7 لوحة متصدرين SWE-Bench Pro المتاحة علناً بفارق 5.7 نقطة عن أفضل رقم مفتوح الأوزان من هذه المجموعة، وبفارق 7+ نقاط في SWE-Bench Verified⁶. ويحتل Claude Mythos Preview من Anthropic المتاح بالدعوة فقط مرتبة أعلى عند 77.8% في SWE-Bench Pro ولكنه مقتصر على شركاء Project Glasswing⁸.
استخدام الكمبيوتر. لم يتم نشر نتائج OSWorld-Verified للإصدارات الصينية الأربعة بشكل متسق؛ بينما يحافظ Opus 4.7 على 78.0% مع خط الأساس البشري عند ~72.4%⁶.
عمق تكامل الأدوات. تظل عناصر التحكم في الحلقة الوكيلية task-budgets من Anthropic، وتكامل Microsoft Foundry، والتفكير التكيفي ميزات تضاهيها مجموعة الموديلات مفتوحة الأوزان بشكل جزئي فقط.

إذا كنت بحاجة إلى أعلى دقة في جلسات البرمجة المستقلة التي تستغرق ساعات اليوم، فإن Opus 4.7 هو الخيار الأوضح. إذا كنت بحاجة إلى تشغيل نفس سير العمل بـ 1/10 من تكلفة توكن المخرجات ويمكنك استيعاب فجوة قدرات تتراوح بين 5-9 نقاط، فإن مجموعة الموديلات الصينية مفتوحة الأوزان هي الحد الأدنى الجديد.

لسياق أوسع حول فجوة قدرات الذكاء الاصطناعي بين الصين والولايات المتحدة ومنحنيات الاعتماد، راجع تغطيتنا لـ تقرير مؤشر ستانفورد للذكاء الاصطناعي 2026.

ماذا يعني هذا لفرق الإنتاج

بعض الاستنتاجات المستخلصة من البيانات بدلاً من الضجيج الإعلامي:

تغيرت اقتصاديات الاستدلال بشكل أسرع من تغير القدرات. الرقم المثير للاهتمام هذا الشهر ليس دلتا SWE-Bench — بل هو دلتا السعر لكل توكن مخرجات.
أصبح الاستضافة الذاتية للموديلات مفتوحة الأوزان الآن مبررة لوكلاء البرمجة. يتم شحن GLM-5.1 و DeepSeek V4 تحت رخصة MIT مع نتائج وكيلية قوية؛ الفرق التي لديها أسباب تتعلق بالامتثال للاحتفاظ بالأوزان داخل سحابتها الخاصة (VPC) لديها الآن حزمة تقنية تعمل.
تقاربت الحدود الصينية. تتجمع موديلات GLM-5.1 و Kimi K2.6 و MiniMax M2.7 و DeepSeek V4 ضمن نطاق ~3.2 نقطة في SWE-Bench Pro. التمايز الآن يكمن في نافذة السياق، والترخيص، وتكلفة الخدمة بدلاً من المعايير الخام.

الأنظمة متعددة الوكلاء (Multi-agent) والتحسين الذاتي لم تعد مجرد تقنيات هامشية. نظام Agent Swarm من Kimi وهيكل التطوير الذاتي من MiniMax يعتمدان على نماذج أساسية قوية، وليسا مجرد عروض أكاديمية.

نافذة الأسعار الترويجية مهمة. ينتهي السعر الترويجي لـ DeepSeek V4-Pro في 31 مايو 2026؛ لذا يجب على خطط الميزانية التي تفترض السعر الترويجي أن تضع في اعتبارها السعر الرسمي بعد 31 مايو¹³.

الخلاصة

لم تنجح موجة أبريل 2026 في إزاحة نماذج البرمجة الرائدة مغلقة المصدر — لا يزال Claude Opus 4.7 يتصدر لوحة متصدري SWE-Bench Pro المتاحة للجمهور بفارق واضح، ويحتل Mythos Preview من Anthropic (المتاح بالدعوات فقط) مرتبة أعلى. ما فعلته هذه الموجة هو تحطيم الحد الأدنى لأسعار البرمجة الوكيلية "الجيدة بما يكفي" لتصل إلى حوالي عُشر أسعار النماذج الرائدة. بالنسبة للفرق التي تشغل وكلاء برمجة في بيئات الإنتاج، تحول السؤال من "أي نموذج مغلق المصدر نشتريه؟" إلى "أي نموذج مفتوح الأوزان نستضيفه ذاتيًا، وما هي تكلفة فجوة القدرات لكل مهمة؟"

أصبح السباق الآن في مسارين متوازيين: سباق القدرات في القمة، وتقوده Anthropic و OpenAI و Google؛ وسباق تكلفة الاستدلال في فئة النماذج مفتوحة الأوزان، وتقوده Z.ai و MiniMax و Moonshot و DeepSeek. ثمانية عشر يومًا في أبريل جعلت السباق الثاني حقيقة واقعة.

المراجع

Digital Bright Future, "China's AI Labs Released 4 Open-Weight Coding Models in 12 Days," April 2026: https://digitalbrightfuture.com/best-open-source-coding-models-2026/ ↩
Z.ai GLM-5.1 release coverage, llm-stats.com benchmarks page and Dataconomy launch coverage, April 7, 2026: https://llm-stats.com/models/glm-5.1 and https://dataconomy.com/2026/04/08/z-ais-glm-5-1-tops-swe-bench-pro-beating-major-ai-rivals/ ↩ ↩² ↩³ ↩⁴ ↩⁵
MiniMax M2.7 release announcement and MarkTechPost coverage, April 12, 2026: https://www.minimax.io/news/minimax-m27-en and https://www.marktechpost.com/2026/04/12/minimax-just-open-sourced-minimax-m2-7-a-self-evolving-agent-model-that-scores-56-22-on-swe-pro-and-57-0-on-terminal-bench-2/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
تغطية إصدار Moonshot AI Kimi K2.6، مدونة Moonshot ومقاييس llm-stats، ٢٠ أبريل ٢٠٢٦: https://www.kimi.com/blog/kimi-k2-6 و https://llm-stats.com/models/kimi-k2.6 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
ملاحظات إصدار DeepSeek V4 Preview، ٢٤ أبريل ٢٠٢٦: https://API-docs.deepseek.com/news/news260424 ↩ ↩² ↩³
تغطية إصدار Claude Opus 4.7، Anthropic وأسعار المنصة، ١٦ أبريل ٢٠٢٦: https://www.anthropic.com/news/claude-opus-4-7 و https://platform.claude.com/docs/en/about-claude/pricing ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
إصدار GPT-5.5 والمقاييس، تغطية إطلاق OpenAI ولوحة صدارة SWE-Bench Pro، ٢٣ أبريل ٢٠٢٦: https://openai.com/index/introducing-gpt-5-5/ و https://llm-stats.com/benchmarks/swe-bench-pro ↩ ↩²
أداء لوحة صدارة Claude Mythos Preview، لوحة صدارة SWE-Bench Pro العامة من OfficeChai و Scale AI: https://officechai.com/ai/claude-mythos-preview-benchmarks-swe-bench-pro/ و https://labs.scale.com/leaderboard/swe_bench_pro_public ↩ ↩²
أسعار GLM-5.1 API، قوائم Artificial Analysis و pricepertoken.com، ٢٠٢٦: https://artificialanalysis.ai/models/glm-5-1 و https://pricepertoken.com/pricing-page/model/z-ai-glm-5.1 ↩ ↩²
أسعار MiniMax M2.7، قائمة Artificial Analysis، ٢٠٢٦: https://artificialanalysis.ai/models/minimax-m2-7 ↩ ↩²
أسعار Kimi K2.6 الرسمية API، وثائق منصة Moonshot وقوائم DeepInfra/OpenRouter: https://platform.kimi.ai/docs/pricing/chat-k2 و https://openrouter.ai/moonshotai/kimi-k2.6 ↩ ↩² ↩³
بنية ومقاييس DeepSeek V4، ملخص التقرير الفني من Hugging Face وتغطية DataCamp، أبريل ٢٠٢٦: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro و https://www.datacamp.com/blog/deepseek-v4 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹
أسعار API الرسمية لـ DeepSeek V4، ووثائق منصة DeepSeek وتغطية TheNextWeb لخفض الأسعار، 2026: https://API-docs.deepseek.com/quick_start/pricing و https://thenextweb.com/news/deepseek-v4-pro-price-cut-75-percent ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶

الأسئلة الشائعة

بناءً على نتائج SWE-Bench Pro المنشورة من قبل الموردين، يتصدر Kimi K2.6 النماذج الأربعة بنسبة 58.6%، متفوقًا بفارق ضئيل على GLM-5.1 الذي حقق 58.4%. أما في SWE-Bench Verified، فيصل DeepSeek V4-Pro إلى 80.6% وKimi K2.6 إلى 80.2%. الفروقات صغيرة بما يكفي لجعل الترخيص، ونافذة السياق (context window)، والتسعير هي العوامل الحاسمة لفرق الإنتاج.