موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج، ١٨ يومًا
١٧ مايو ٢٠٢٦
ملخص
بين 7 أبريل و24 أبريل 2026، أطلقت أربعة مختبرات صينية للذكاء الاصطناعي نماذج برمجة مفتوحة الأوزان في تتابع سريع: نموذج GLM-5.1 من Z.ai، ونموذج M2.7 من MiniMax (تم فتحه في 12 أبريل بعد إعلان في مارس)، ونموذج Kimi K2.6 من Moonshot، ونموذج DeepSeek V4 (بنسختي Pro و Flash). تستهدف جميعها سير عمل الهندسة المعتمد على الوكلاء (agentic engineering)، وتعتمد جميعها على بنية خليط الخبراء (mixture-of-experts)، وتُسعر جميعها بنحو عشر تكلفة Claude Opus 4.7 — الذي يتصدر قائمة متصدرين SWE-Bench Pro المتاحة للجمهور بنسبة 64.3% مقابل أعلى علامة للأوزان المفتوحة وهي 58.6% من Kimi K2.6 (متعادلًا بنسبة 58.6% مع GPT-5.5 من OpenAI). يتفوق نموذج Claude Mythos Preview من Anthropic المتاح بدعوة فقط على كل هؤلاء بنسبة 77.8% ولكنه غير متاح بشكل عام. القصة ليست أن الأوزان المفتوحة تجاوزت النماذج الرائدة (frontier models)، بل هي أن الحد الأدنى لتكلفة الاستنتاج للبرمجة المعتمدة على الوكلاء "الجيدة بما يكفي" قد انهار للتو.
ما ستتعلمه
- الجدول الزمني للإصدار والمواصفات لنماذج GLM-5.1 و MiniMax M2.7 و Kimi K2.6 و DeepSeek V4
- موقع كل نموذج في اختبارات SWE-Bench Pro و SWE-Bench Verified
- كيفية مقارنة أسعار القائمة بـ Claude Opus 4.7 وما يعنيه ذلك لميزانيات الإنتاج
- التحركات المعمارية التي جعلت هذه النماذج ممكنة — محسن Muon، والانتباه المضغوط (compressed attention)، وأسراب الوكلاء (agent swarms)، والهياكل ذاتية التحسين (self-improving scaffolds)
- المجالات التي لا تزال فيها النماذج الرائدة الغربية تحتفظ بتقدم حقيقي
نافذة الإصدار التي استمرت 18 يومًا
الجدول الزمني المضغوط هو العنوان الرئيسي. أطلقت أربعة مختبرات صينية كبرى نماذج برمجة مفتوحة الأوزان خلال نافذة مدتها 18 يومًا، كل منها مصمم للمنافسة في الهندسة المعتمدة على الوكلاء بدلاً من الدردشة1:
| التاريخ | النموذج | المختبر | الترخيص |
|---|---|---|---|
| 7 أبريل 2026 | GLM-5.1 | Z.ai | MIT2 |
| 12 أبريل 2026 | MiniMax M2.7 (مفتوح) | MiniMax | Modified-MIT (غير تجاري)3 |
| 20 أبريل 2026 | Kimi K2.6 | Moonshot AI | Modified MIT4 |
| 24 أبريل 2026 | DeepSeek V4 (Pro + Flash) | DeepSeek | MIT5 |
تم الإعلان عن MiniMax M2.7 في الأصل في 18 مارس 2026 كنموذج مغلق ثم تم إصداره بأوزان مفتوحة على Hugging Face في 12 أبريل3. أما النماذج الثلاثة الأخرى فقد شُحنت كأوزان مفتوحة منذ اليوم الأول.
في نفس النافذة، شحنت Anthropic نموذج Claude Opus 4.7 في 16 أبريل 2026، والذي يتصدر قائمة متصدرين SWE-Bench Pro المتاحة للجمهور بنسبة 64.3%6. ثم أصدرت OpenAI نموذج GPT-5.5 في 23 أبريل، مسجلاً 58.6% في SWE-Bench Pro7. يقع نموذج Claude Mythos Preview من Anthropic (مشروع Glasswing، المتاح بدعوة فقط وغير متاح بشكل عام) في مرتبة متقدمة على كليهما بنسبة 77.8% ولكنه مقتصر على حوالي 40 مؤسسة شريكة محددة8. لذا فإن إصدارات الأوزان المفتوحة الأربعة تحيط بإطلاقين لنماذج رائدة — وهو سياق مفيد للمقارنة التي تلي ذلك.
النماذج
GLM-5.1 (Z.ai) — 7 أبريل
نموذج GLM-5.1 هو نموذج خليط الخبراء (MoE) يحتوي على حوالي 744–754 مليار معلمة إجمالية (تختلف المصادر حول الرقم الدقيق، مع الاستشهاد بكليهما على نطاق واسع)، و40 مليار معلمة نشطة لكل توكن، ونافذة سياق 200K، وترخيص MIT2. عند الإطلاق، ادعت Z.ai الحصول على أعلى درجة في SWE-Bench Pro بنسبة 58.4% بناءً على الأرقام المنشورة من قبل الشركة — وهي أعلى قليلاً من GPT-5.4 (57.7%) و Claude Opus 4.6 (57.3% حسب قياس Z.ai)، مما يجعله أول نموذج مفتوح الأوزان يطالب بصدارة قائمة المتصدرين تلك قبل إصدار Claude Opus 4.7 من Anthropic بعد تسعة أيام2. يبلغ سعر القائمة على API المباشر لـ Z.ai هو 1.05 دولار لكل مليون توكن إدخال و3.50 دولار لكل مليون توكن إخراج9.
تكمن جاذبية GLM-5.1 في الجمع بين الترخيص المتساهل، ودرجات الهندسة المعتمدة على الوكلاء القوية، وسعر الاستنتاج الذي يقل بكثير عن معدلات النماذج الرائدة مغلقة المصدر. للحصول على تحليل أعمق للنموذج ومجموعة تدريب Huawei Ascend الخاصة به، راجع منشور معايير GLM-5.1.
MiniMax M2.7 — 12 أبريل (مفتوح)
نموذج MiniMax M2.7 هو MoE بـ 230 مليار معلمة مع 10 مليار معلمة نشطة لكل توكن، ونافذة سياق 200K (تقنيًا 204,800 توكن)، وأوزان تم إصدارها على Hugging Face بموجب ترخيص "Modified-MIT" والذي — على عكس ترخيص MIT القياسي الذي استخدمته MiniMax لنماذج M2 و M2.5 — يقيد الاستخدام التجاري دون تصريح كتابي مسبق3. كان تغيير الترخيص مثيرًا للجدل عند الإعلان عنه؛ حيث وصفت تعليقات المجتمع تسمية "Modified-MIT" بأنها مضللة. يسجل النموذج 56.22% في SWE-Pro و 57.0% في Terminal Bench 23. يأتي تسعير MiniMax عند 0.30 دولار للإدخال / 1.20 دولار للإخراج لكل مليون توكن10.
ترويج المختبر يعتمد على التطور الذاتي: تقول MiniMax أن M2.7 شارك بنشاط في تطويره الخاص، حيث أجرى أكثر من 100 جولة ذاتية من تحسين الهياكل (scaffold optimization) وسجل تحسنًا في الأداء بنسبة ~30% من تلك الحلقة3. هذا الإطار مبتكر، على الرغم من أن التحقق المستقل من مكاسب "التطور الذاتي" لا يزال محدودًا.
Kimi K2.6 (Moonshot AI) — 20 أبريل
نموذج Kimi K2.6 هو MoE بـ 1 تريليون معلمة مع 32 مليار معلمة نشطة لكل توكن، ونافذة سياق 256K، وترخيص Modified MIT4. تشمل التفاصيل المعمارية التي نشرتها Moonshot وجود 384 خبيرًا (8 موجهين بالإضافة إلى 1 مشترك)، و61 طبقة، و64 رأس انتباه، و Multi-head Latent Attention (MLA)4. في SWE-Bench Pro، يسجل Kimi K2.6 نسبة 58.6% — أعلى قليلاً من رقم شركة GLM-5.1 ومرتفع بما يكفي للاحتفاظ لفترة وجيزة بالمركز الأول للأوزان المفتوحة عند شحنه4. وفي SWE-Bench Verified يصل إلى 80.2%4.
يقدم Kimi K2.6 أيضاً نموذج Agent Swarm الأولي الذي يوزع مهمة واحدة على ما يصل إلى 300 عميل فرعي عبر 4,000 خطوة منسقة — وهو ما يمثل ثلاثة أضعاف الحد الأقصى لـ K2.5 البالغ 100 عميل وقفزة تقارب 2.7 ضعف في أفق الخطوات، ورهان متعمد على اتجاه الأنظمة متعددة العملاء (multi-agent) التي تستثمر فيها الآن عدة مختبرات صينية4. يبلغ السعر على API الرسمي لشركة Moonshot حوالي 0.60 دولار للمدخلات / 2.50 دولار للمخرجات لكل مليون توكن؛ بينما تدرج الشركات الخارجية أسعاراً في نطاق 0.73 دولار إلى 0.95 دولار للمدخلات11. لمزيد من المعلومات حول بنية السرب في K2.6 ونقطة التحقق الأصلية INT4، راجع تغطيتنا لـ Kimi K2.6 Agent Swarm.
DeepSeek V4 — 24 أبريل
أطلقت DeepSeek نسختين في نفس اليوم تحت ترخيص MIT للأوزان ونافذة سياق تبلغ مليون توكن5:
- V4-Pro: إجمالي 1.6 تريليون معامل، 49 مليار معامل نشط، تم تدريبه مسبقاً على 33 تريليون توكن
- V4-Flash: إجمالي 284 مليار معامل، 13 مليار معامل نشط، تم تدريبه مسبقاً على 32 تريليون توكن
يصل V4-Pro إلى 80.6% في SWE-Bench Verified و 55.4% في SWE-Bench Pro12. يتأخر V4-Flash عن Pro بنحو 1.6 نقطة في Verified بنسبة 79.0% في أقوى مستوياته12. تضع DeepSeek طراز Pro لأقصى قدرة و Flash لاقتصاديات الاستدلال في بيئات الإنتاج.
تعتبر البنية هي الأكثر جرأة بين الأربعة. يقدم V4 تقنية Compressed Sparse Attention (CSA) مقترنة بـ Heavily Compressed Attention (HCA)، والتي تفيد DeepSeek بأنها تخفض عمليات FLOPs للاستدلال للتوكن الواحد إلى حوالي 27% مقارنة بـ V3.2 وبصمة ذاكرة التخزين المؤقت KV إلى حوالي 10% عند سياق مليون توكن12. استخدم التدريب المسبق محسن Muon بدلاً من AdamW، مع تطبيق تكرارات Newton-Schulz لتعامد تحديثات التدرج تقريباً قبل كل خطوة وزن — تم اختياره لسرعة التقارب والاستقرار عند مقياس 33 تريليون توكن12.
تجري DeepSeek أيضاً عرضاً ترويجياً للإطلاق: يبلغ سعر V4-Pro حوالي 0.435 دولار للمدخلات / 0.87 دولار للمخرجات لكل مليون توكن حتى 31 مايو 2026، مقابل سعر القائمة البالغ 1.74 دولار للمدخلات / 3.48 دولار للمخرجات13. يبلغ سعر V4-Flash حوالي 0.14 دولار للمدخلات / 0.28 دولار للمخرجات في حالة عدم وجود ذاكرة تخزين مؤقت (cache miss)، مع تسعير ضربات الذاكرة التخزين المؤقت (cache hits) بسعر 0.0028 دولار لكل مليون توكن — بخصم 98%13. للحصول على تحليل كامل لبنية CSA و HCA واقتصاديات المليون توكن، راجع تحليلنا العميق لـ DeepSeek V4.
لقطة من الاختبارات القياسية
وضع الإصدارات الأربعة على نفس المحور، جنباً إلى جنب مع Claude Opus 4.7 كنقطة مرجعية مغلقة المصدر:
| النموذج | SWE-Bench Pro | SWE-Bench Verified |
|---|---|---|
| Claude Opus 4.7 | 64.3%6 | 87.6%6 |
| Kimi K2.6 | 58.6%4 | 80.2%4 |
| GLM-5.1 | 58.4% (المورد)2 | — |
| MiniMax M2.7 | 56.22% (SWE-Pro)3 | — |
| DeepSeek V4-Pro | 55.4%12 | 80.6%12 |
| DeepSeek V4-Flash (الأقصى) | — | 79.0%12 |
ثلاث ملاحظات على قراءة هذا الجدول:
أولاً، "SWE-Pro" و "SWE-Bench Pro" هما نفس الاختبار القياسي — MiniMax فقط تحذف كلمة "Bench" في تقاريرها. ومع ذلك، فإن التعقيدات المنهجية حقيقية: يستخدم كل مختبر هيكله الخاص، وأحياناً مجموعته الفرعية من المهام، وتختلف اتفاقيات عدد مرات التشغيل. المقارنات بين المختبرات صحيحة من حيث الاتجاه ولكن لا ينبغي قراءتها كقياسات مهيأة بشكل متطابق.
ثانياً، يحتفظ Claude Opus 4.7 بصدارة SWE-Bench Pro المتاحة علناً بنحو 5.7 نقطة على Kimi K2.6 وبصدارة Verified بأكثر من 7 نقاط على كل من DeepSeek V4-Pro و Kimi K2.6. لم ينهر التقدم الغربي في أبريل — فقد وسع Opus 4.7 الصدارة المتاحة علناً في البرمجة في نفس الأسبوع الذي ضربت فيه موجة الأوزان المفتوحة6. يتعادل GPT-5.5 (23 أبريل) مع Kimi K2.6 بنسبة 58.6% في SWE-Bench Pro، لذا فإن التقدم الغربي وتقدم الأوزان المفتوحة متداخلان الآن تحت Opus 4.7 بدلاً من كونهما منفصلين بوضوح7.
ثالثاً، مجموعة الأوزان المفتوحة متقاربة جداً. تفصل حوالي 3.2 نقطة مئوية بين أفضل نتيجة (Kimi K2.6 بنسبة 58.6%) وأسوأ نتيجة (DeepSeek V4-Pro بنسبة 55.4%) في اختبار SWE-Bench Pro بين النماذج الصينية الأربعة. من وجهة نظر المشتريات، فإن عوامل التمييز هي السعر، والترخيص، ونافذة السياق، والملاءمة الهيكلية — وليس الترتيب الخام للاختبارات القياسية.
للحصول على صورة أكمل لكيفية ارتفاع درجات البرمجة في التقدم الغربي بالتوازي، راجع تحليل اختبارات Claude Opus 4.7 و تحليل GPT-5.4 لاستخدام الكمبيوتر.
القصة الحقيقية هي الحد الأدنى للسعر
قصة القدرات هي أن "الأوزان المفتوحة متجمعة خلف التقدم بنحو 6 نقاط في البرمجة". قصة التكلفة أكثر وضوحاً بكثير. أسعار القائمة لكل مليون توكن، مدخلات/مخرجات91011136:
| الموديل | المدخلات (Input) | المخرجات (Output) | مقابل Opus 4.7 (المخرجات) |
|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | — |
| GLM-5.1 | $1.05 | $3.50 | 14% |
| Kimi K2.6 (رسمي) | $0.60 | $2.50 | 10% |
| MiniMax M2.7 | $0.30 | $1.20 | 5% |
| DeepSeek V4-Pro (عرض حتى 31 مايو) | $0.435 | $0.87 | 3.5% |
| DeepSeek V4-Flash (فشل التخزين المؤقت) | $0.14 | $0.28 | 1.1% |
كل موديل مفتوح الأوزان في هذه الموجة يسعر بأقل من 15% من سعر مخرجات Claude Opus 4.7، بينما يقترب DeepSeek V4-Flash الترويجي من 1% على نفس المحور. بالنسبة للحلقات الوكيلية (agentic loops) — حيث تهيمن توكنز المخرجات على الفاتورة لأن الموديل يولد تتبعات عمل طويلة — هنا يغير الحساب قرارات الإنتاج فعلياً13.
بعض التنبيهات. ينتهي السعر الترويجي لـ DeepSeek V4-Pro في 31 مايو 2026؛ وعند السعر المدرج البالغ $1.74/$3.48، يقترب V4-Pro من فئة GLM-5.1 — لا يزال رخيصاً، لكنه أقل إثارة13. يختلف تسعير Kimi K2.6 بشكل ملموس عبر المزودين؛ رقم $0.60/$2.50 هو الـ API المباشر من Moonshot، مع إدراج أطراف ثالثة لمدخلات تتراوح بين $0.73–$0.9511. ويستخدم Claude Opus 4.7 أداة ترميز (tokenizer) جديدة تستهلك ما يصل إلى 35% توكنز أكثر لنفس النص، مما يرفع تكاليف Opus في العالم الحقيقي فوق ما تقترحه أسعار التوكن الواحد6.
إن صياغة "لا تزيد عن ثلث Claude Opus 4.7" التي طبقها بعض المعلقين على هذه الموجة تقلل من شأن الفجوة. فمن حيث سعر المخرجات وحده، يتم تسعير كل موديل صيني مفتوح الأوزان في هذه المجموعة عند أو أقل من 14% من Opus، مع وجود Kimi K2.6 و MiniMax M2.7 تحت 10% ونسخة Flash من DeepSeek بالقرب من 1%.
المعمارية: أين تحركت الحدود
هناك بضع خطوات تقنية تستحق الإشارة إليها لأنها تظهر أين تتنافس الفرق الصينية للموديلات مفتوحة الأوزان الآن على الجوهر بدلاً من الحجم.
محسن Muon (DeepSeek V4). استبدال AdamW بـ Muon — الذي يجعل تحديثات التدرج متعامدة تقريباً عبر تكرارات Newton-Schulz — سمح لـ DeepSeek بدفع التدريب المسبق إلى 33 تريليون توكن على V4-Pro دون انهيار التدرج الذي يعيب عادةً عمليات التدريب بهذا الحجم12. استخدمت عملية التدريب المسبق السابقة لـ Kimi K2 من Moonshot أيضاً Muon (تحديداً متغير MuonClip المصمم للتعامل مع عدم الاستقرار في الأحجام الكبيرة)، لذا فإن DeepSeek ليس أول مختبر بمقياس حدودي هنا — لكن V4 هو أكبر موديل تم الكشف عنه علناً ومدرب بـ Muon حتى الآن.
الانتباه المضغوط (DeepSeek V4). يقلل CSA + HCA من ذاكرة التخزين المؤقت KV إلى حوالي 10% وعمليات FLOPs لكل توكن إلى حوالي 27% من V3.2 عند سياق 1 مليون توكن12. هذا هو نوع التحرك في كفاءة الاستدلال الذي يفسر كيف يمكن لـ DeepSeek تشغيل V4-Flash بتكلفة مدخلات $0.14 لكل مليون توكن على الإطلاق. لمزيد من المعلومات حول طفرات اقتصاديات الاستدلال، راجع تغطيتنا لـ ضغط ذاكرة التخزين المؤقت TurboQuant KV.
أسراب الوكلاء (Kimi K2.6). تشغل ميزة Agent Swarm من Moonshot مهمة واحدة عبر ما يصل إلى 300 وكيل فرعي على مدار 4,000 خطوة منسقة — أي 3 أضعاف عدد الوكلاء وحوالي 2.7 ضعف أفق الخطوات في K2.54. ما إذا كان هذا يتفوق على سير عمل الوكيل الواحد جيد الهيكلة في مهام الإنتاج هو سؤال تجريبي مفتوح، ولكنه من بين أكثر الميزات متعددة الوكلاء جرأة التي تم شحنها في الحدود المفتوحة الأوزان حتى الآن في عام 2026.
الهياكل ذاتية التحسين (MiniMax M2.7). تصف MiniMax موديل M2.7 بأنه شارك بنشاط في تطويره الخاص عبر أكثر من 100 جولة مستقلة من تحسين الهياكل (scaffold optimization)، مسجلاً زيادة بنسبة 30% تقريباً من هذه الحلقة3. رواية "الموديل يدرب نفسه" مبالغ فيها — فالبشر لا يزالون يمتلكون عملية التدريب — لكن ضبط الهياكل بوجود مقيم في الحلقة (evaluator-in-the-loop) هو تقنية حقيقية و M2.7 هو الرهان الأكثر التزاماً بها علناً بين الأربعة.
الترخيص المتساهل (غالباً). يتم شحن GLM-5.1 و DeepSeek V4-Pro/Flash تحت رخصة MIT القياسية25. يستخدم Kimi K2.6 رخصة MIT معدلة تضيف متطلبات الإسناد فقط فوق 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار إيرادات شهرية — وهي فعلياً رخصة MIT قياسية لمعظم المستخدمين4. يعد MiniMax M2.7 هو الاستثناء: حيث تقيد رخصة MIT المعدلة الخاصة به الاستخدام التجاري دون إذن كتابي مسبق، وهو تراجع ملموس عن ترخيص MIT القياسي الذي استخدمته MiniMax لـ M2 و M2.53. بالنسبة للمؤسسات التي لديها مراجعات امتثال صارمة، فإن GLM-5.1 و DeepSeek V4 هما الخيار الأسهل.
أين لا تزال الحدود صامدة
لتحقيق التوازن: لم تفقد الحدود الغربية أي أرضية في القدرات خلال موجة أبريل.
- اتسعت ريادة البرمجة المتاحة علناً. يتصدر Claude Opus 4.7 لوحة متصدرين SWE-Bench Pro المتاحة علناً بفارق 5.7 نقطة عن أفضل رقم مفتوح الأوزان من هذه المجموعة، وبفارق 7+ نقاط في SWE-Bench Verified6. ويحتل Claude Mythos Preview من Anthropic المتاح بالدعوة فقط مرتبة أعلى عند 77.8% في SWE-Bench Pro ولكنه مقتصر على شركاء Project Glasswing8.
- استخدام الكمبيوتر. لم يتم نشر نتائج OSWorld-Verified للإصدارات الصينية الأربعة بشكل متسق؛ بينما يحافظ Opus 4.7 على 78.0% مع خط الأساس البشري عند ~72.4%6.
- عمق تكامل الأدوات. تظل عناصر التحكم في الحلقة الوكيلية
task-budgetsمن Anthropic، وتكامل Microsoft Foundry، والتفكير التكيفي ميزات تضاهيها مجموعة الموديلات مفتوحة الأوزان بشكل جزئي فقط.
إذا كنت بحاجة إلى أعلى دقة في جلسات البرمجة المستقلة التي تستغرق ساعات اليوم، فإن Opus 4.7 هو الخيار الأوضح. إذا كنت بحاجة إلى تشغيل نفس سير العمل بـ 1/10 من تكلفة توكن المخرجات ويمكنك استيعاب فجوة قدرات تتراوح بين 5-9 نقاط، فإن مجموعة الموديلات الصينية مفتوحة الأوزان هي الحد الأدنى الجديد.
لسياق أوسع حول فجوة قدرات الذكاء الاصطناعي بين الصين والولايات المتحدة ومنحنيات الاعتماد، راجع تغطيتنا لـ تقرير مؤشر ستانفورد للذكاء الاصطناعي 2026.
ماذا يعني هذا لفرق الإنتاج
بعض الاستنتاجات المستخلصة من البيانات بدلاً من الضجيج الإعلامي:
- تغيرت اقتصاديات الاستدلال بشكل أسرع من تغير القدرات. الرقم المثير للاهتمام هذا الشهر ليس دلتا SWE-Bench — بل هو دلتا السعر لكل توكن مخرجات.
- أصبح الاستضافة الذاتية للموديلات مفتوحة الأوزان الآن مبررة لوكلاء البرمجة. يتم شحن GLM-5.1 و DeepSeek V4 تحت رخصة MIT مع نتائج وكيلية قوية؛ الفرق التي لديها أسباب تتعلق بالامتثال للاحتفاظ بالأوزان داخل سحابتها الخاصة (VPC) لديها الآن حزمة تقنية تعمل.
- تقاربت الحدود الصينية. تتجمع موديلات GLM-5.1 و Kimi K2.6 و MiniMax M2.7 و DeepSeek V4 ضمن نطاق ~3.2 نقطة في SWE-Bench Pro. التمايز الآن يكمن في نافذة السياق، والترخيص، وتكلفة الخدمة بدلاً من المعايير الخام.
الخلاصة
لم تنجح موجة أبريل 2026 في إزاحة نماذج البرمجة الرائدة مغلقة المصدر — لا يزال Claude Opus 4.7 يتصدر لوحة متصدري SWE-Bench Pro المتاحة للجمهور بفارق واضح، ويحتل Mythos Preview من Anthropic (المتاح بالدعوات فقط) مرتبة أعلى. ما فعلته هذه الموجة هو تحطيم الحد الأدنى لأسعار البرمجة الوكيلية "الجيدة بما يكفي" لتصل إلى حوالي عُشر أسعار النماذج الرائدة. بالنسبة للفرق التي تشغل وكلاء برمجة في بيئات الإنتاج، تحول السؤال من "أي نموذج مغلق المصدر نشتريه؟" إلى "أي نموذج مفتوح الأوزان نستضيفه ذاتيًا، وما هي تكلفة فجوة القدرات لكل مهمة؟"
أصبح السباق الآن في مسارين متوازيين: سباق القدرات في القمة، وتقوده Anthropic و OpenAI و Google؛ وسباق تكلفة الاستدلال في فئة النماذج مفتوحة الأوزان، وتقوده Z.ai و MiniMax و Moonshot و DeepSeek. ثمانية عشر يومًا في أبريل جعلت السباق الثاني حقيقة واقعة.
المراجع
Footnotes
-
Digital Bright Future, "China's AI Labs Released 4 Open-Weight Coding Models in 12 Days," April 2026: https://digitalbrightfuture.com/best-open-source-coding-models-2026/ ↩
-
Z.ai GLM-5.1 release coverage, llm-stats.com benchmarks page and Dataconomy launch coverage, April 7, 2026: https://llm-stats.com/models/glm-5.1 and https://dataconomy.com/2026/04/08/z-ais-glm-5-1-tops-swe-bench-pro-beating-major-ai-rivals/ ↩ ↩2 ↩3 ↩4 ↩5
-
MiniMax M2.7 release announcement and MarkTechPost coverage, April 12, 2026: https://www.minimax.io/news/minimax-m27-en and https://www.marktechpost.com/2026/04/12/minimax-just-open-sourced-minimax-m2-7-a-self-evolving-agent-model-that-scores-56-22-on-swe-pro-and-57-0-on-terminal-bench-2/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
تغطية إصدار Moonshot AI Kimi K2.6، مدونة Moonshot ومقاييس llm-stats، ٢٠ أبريل ٢٠٢٦: https://www.kimi.com/blog/kimi-k2-6 و https://llm-stats.com/models/kimi-k2.6 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10
-
ملاحظات إصدار DeepSeek V4 Preview، ٢٤ أبريل ٢٠٢٦: https://API-docs.deepseek.com/news/news260424 ↩ ↩2 ↩3
-
تغطية إصدار Claude Opus 4.7، Anthropic وأسعار المنصة، ١٦ أبريل ٢٠٢٦: https://www.anthropic.com/news/claude-opus-4-7 و https://platform.claude.com/docs/en/about-claude/pricing ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
إصدار GPT-5.5 والمقاييس، تغطية إطلاق OpenAI ولوحة صدارة SWE-Bench Pro، ٢٣ أبريل ٢٠٢٦: https://openai.com/index/introducing-gpt-5-5/ و https://llm-stats.com/benchmarks/swe-bench-pro ↩ ↩2
-
أداء لوحة صدارة Claude Mythos Preview، لوحة صدارة SWE-Bench Pro العامة من OfficeChai و Scale AI: https://officechai.com/ai/claude-mythos-preview-benchmarks-swe-bench-pro/ و https://labs.scale.com/leaderboard/swe_bench_pro_public ↩ ↩2
-
أسعار GLM-5.1 API، قوائم Artificial Analysis و pricepertoken.com، ٢٠٢٦: https://artificialanalysis.ai/models/glm-5-1 و https://pricepertoken.com/pricing-page/model/z-ai-glm-5.1 ↩ ↩2
-
أسعار MiniMax M2.7، قائمة Artificial Analysis، ٢٠٢٦: https://artificialanalysis.ai/models/minimax-m2-7 ↩ ↩2
-
أسعار Kimi K2.6 الرسمية API، وثائق منصة Moonshot وقوائم DeepInfra/OpenRouter: https://platform.kimi.ai/docs/pricing/chat-k2 و https://openrouter.ai/moonshotai/kimi-k2.6 ↩ ↩2 ↩3
-
بنية ومقاييس DeepSeek V4، ملخص التقرير الفني من Hugging Face وتغطية DataCamp، أبريل ٢٠٢٦: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro و https://www.datacamp.com/blog/deepseek-v4 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9
-
أسعار API الرسمية لـ DeepSeek V4، ووثائق منصة DeepSeek وتغطية TheNextWeb لخفض الأسعار، 2026: https://API-docs.deepseek.com/quick_start/pricing و https://thenextweb.com/news/deepseek-v4-pro-price-cut-75-percent ↩ ↩2 ↩3 ↩4 ↩5 ↩6