هل هذه النماذج مفتوحة المصدر حقاً؟

إنها مفتوحة الأوزان (open weight)، وليست مفتوحة المصدر بالمعنى الدقيق. الثلاثة جميعاً ينشرون الأوزان على Hugging Face. ولا ينشر أي منهم مجموعة بيانات التدريب الكاملة أو كود مصدر خط أنابيب التدريب. يستخدم GLM-5.1 و DeepSeek V4 ترخيص MIT القياسي؛ بينما يستخدم Kimi K2.6 ترخيص MIT المعدل.

كيف تقارن بـ Claude Opus 4.7؟

في اختبار SWE-Bench Pro، يتفوق Opus 4.7 على أفضل نموذج مفتوح الأوزان (Kimi K2.6) بفارق 5.7 نقطة مئوية. وفي SWE-bench Verified، يتفوق Opus 4.7 بفارق 7 نقاط. ومن حيث السعر، يكلف Opus 4.7 ما يقرب من 6 أضعاف لكل توكن مخرج مقارنة بـ Kimi K2.6 و7 أضعاف مقارنة بأسعار DeepSeek V4-Pro المعلنة.

هل يمكنني استضافة هذه النماذج ذاتياً؟

نعم — الثلاثة جميعاً ينشرون الأوزان على Hugging Face. تتطلب الاستضافة العملية موارد GPU كبيرة (عدد المعلمات النشطة أصغر من الإجمالي، لكنك لا تزال بحاجة إلى الاحتفاظ بجميع أوزان الخبراء في الذاكرة أو قبول عمليات تبديل الذاكرة الناتجة عن التوجيه). معظم مستخدمي الإنتاج يصلون إليها عبر API بدلاً من الاستضافة الذاتية.

لماذا تم إطلاق ثلاثة نماذج برمجة صينية رائدة في غضون 17 يوماً؟

التوقيت هو صدفة جزئياً وضغط تنافسي جزئياً — حيث تم إطلاق Claude Opus 4.7 في 16 أبريل بين إصدار Z.ai في 7 أبريل وإصدارات Moonshot/DeepSeek في أواخر أبريل. كان كل مختبر يعمل على نموذج الجيل التالي الخاص به لشهور؛ ويعكس التقارب في تواريخ الإصدار جداول زمنية متشابهة لدورات التدريب، وليس تنسيقاً مسبقاً.

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

١١ مايو ٢٠٢٦

#open-weight LLM #open-source coding LLM #Chinese AI models #GLM-5.1 #Kimi K2.6 #DeepSeek V4 #Z.ai #Moonshot AI #DeepSeek #SWE-Bench Pro #SWE-bench Verified #LiveCodeBench #Codeforces #Claude Opus 4.7 #GPT-5.5 #MIT license #Mixture of Experts #agentic coding #long-horizon coding #open-weight comparison #frontier AI

Chinese Open-Weight Coding LLMs: 2026's Three-Week Sweep

ملخص

بين 7 أبريل و24 أبريل 2026، أطلقت ثلاثة مختبرات صينية نماذج برمجية مفتوحة الأوزان (open-weight) قلصت الفجوة بالكامل تقريبًا مع النماذج الرائدة الغربية. أصبح GLM-5.1 (Z.ai، 7 أبريل) أول نموذج مفتوح الأوزان يتصدر SWE-Bench Pro بنسبة 58.4%، متفوقًا على نسبة 57.7% لنموذج GPT-5.4.¹² وبعد تسعة أيام، استعاد Claude Opus 4.7 (Anthropic، 16 أبريل) الصدارة بنسبة 64.3% ورفع سقف SWE-bench Verified إلى 87.6%.³⁴ رد نموذج Kimi K2.6 (Moonshot AI، 20 أبريل) بنسبة 58.6% على SWE-Bench Pro و80.2% على SWE-bench Verified — وهو نموذج MoE بـ 1 تريليون معلمة يدير ما يصل إلى 300 وكيل فرعي في عملية برمجية واحدة.⁵⁶ وبعد أربعة أيام، أطلق DeepSeek V4 Preview (24 أبريل) نموذج MoE بـ 1.6 تريليون معلمة مع سياق 1 مليون توكن، و80.6% على SWE-bench Verified، وتصنيف 3,206 على Codeforces (أعلى من 3,168 لنموذج GPT-5.4)، مع أوزان مرخصة بـ MIT بتكلفة مخرجات تبلغ تقريبًا سبع تكلفة Claude Opus 4.7.⁷⁸⁹ لم ينجح أي من الثلاثة في سد الفجوة مع Opus 4.7 على SWE-Bench Pro — ولكن من حيث التكلفة لكل مهمة، وتنظيم الوكلاء، وطول السياق، ووضوح الترخيص، أصبحت النماذج مفتوحة الأوزان الآن على مسافة قريبة جدًا من النماذج المغلقة.

ما ستتعلمه

الجدول الزمني الدقيق للإصدارات خلال 17 يومًا — ولماذا يهم الترتيب
كيف سجل كل نموذج في SWE-Bench Pro وSWE-bench Verified وLiveCodeBench وCodeforces
فجوة السعر بين النماذج الصينية الثلاثة مفتوحة الأوزان وGPT-5.5 / Claude Opus 4.7
لماذا تغير تراخيص MIT مقابل Modified MIT مقابل التراخيص غير التجارية من هوية من يمكنه فعليًا استخدام هذه الأوزان
الرهانات الثلاثة المختلفة التي وضعها كل مختبر — وأيها يناسب عبء عملك
أين لا تزال الفجوة المتبقية مع Claude Opus 4.7 مؤلمة، وأين لم تعد كذلك

نافذة الـ 17 يومًا التي غيرت آفاق النماذج مفتوحة الأوزان

قبل 7 أبريل، كانت لوحة صدارة البرمجة للنماذج مفتوحة الأوزان تتخلف كثيرًا عن النماذج المغلقة الرائدة. كان أفضل نموذج مفتوح الأوزان في SWE-Bench Pro يتخلف عن GPT-5.4 بعدة نقاط. وكانت الفجوة في SWE-bench Verified أوسع. ثم جاءت ثلاثة إصدارات في غضون سبعة عشر يومًا.

التاريخ	الإصدار	المختبر	النتيجة الرئيسية
7 أبريل 2026	GLM-5.1	Z.ai (Zhipu سابقًا)	أول نموذج مفتوح الأوزان يحتل المركز الأول في SWE-Bench Pro بنسبة 58.4%¹²
16 أبريل 2026	Claude Opus 4.7	Anthropic	يستعيد صدارة SWE-Bench Pro بنسبة 64.3%، ويحقق 87.6% في SWE-bench Verified³⁴
20 أبريل 2026	Kimi K2.6	Moonshot AI	58.6% في SWE-Bench Pro، و80.2% في SWE-bench Verified، مع سرب من 300 وكيل⁵⁶
23 أبريل 2026	GPT-5.5	OpenAI	58.6% في SWE-Bench Pro (تعادل مع Kimi K2.6) و88.7% في SWE-bench Verified — يأخذ صدارة Verified من Opus 4.7¹⁰¹¹
24 أبريل 2026	DeepSeek V4 Preview	DeepSeek	نموذج MoE بـ 1.6 تريليون معلمة، 80.6% في SWE-bench Verified، و3,206 على Codeforces، وسياق 1 مليون⁷⁸⁹

القصة ليست في أن أي نموذج صيني واحد قد تفوق على النموذج الرائد من Anthropic. لم يفعل أي منهم ذلك في SWE-Bench Pro. القصة هي أنه في غضون ثلاثة أسابيع، عادلت أو هزمت النماذج مفتوحة الأوزان الرائدة كل مزود نماذج مغلقة آخر — بما في ذلك GPT-5.5 — في اختبار برمجي رئيسي واحد على الأقل، مع خفض السعر بمقدار 6 إلى 30 ضعفًا.

SWE-Bench Pro: أصعب اختبار برمجي عام

يقيم SWE-Bench Pro قدرة الوكيل على حل مشكلات GitHub الحقيقية من البداية إلى النهاية. إنه أصعب من SWE-bench Verified لأنه يتضمن تغييرات طويلة المدى ومتعددة الملفات. إليكم وضع الساحة اليوم.

الموديل	SWE-Bench Pro	تاريخ الإصدار	الترخيص
Claude Opus 4.7	64.3%	١٦ أبريل ٢٠٢٦	مغلق⁴
Kimi K2.6	58.6%	٢٠ أبريل ٢٠٢٦	MIT معدل⁵⁶
GPT-5.5	58.6%	٢٣ أبريل ٢٠٢٦	مغلق¹⁰
GLM-5.1	58.4%	٧ أبريل ٢٠٢٦	MIT¹²
GPT-5.4	57.7%	٥ مارس ٢٠٢٦	مغلق¹
DeepSeek V4-Pro (الحد الأقصى)	55.4%	٢٤ أبريل ٢٠٢٦	MIT⁷⁸
Claude Opus 4.6	53.4%	٥ فبراير ٢٠٢٦	مغلق⁶

هناك أمران بارزان. أولاً، الفجوة بين الرائد مفتوح الأوزان (Kimi K2.6 بنسبة 58.6%) والرائد المغلق (Opus 4.7 بنسبة 64.3%) هي 5.7 نقطة مئوية — وهي فجوة أوسع من الفجوة بين GPT-5.5 و Kimi K2.6 (صفر). ثانياً، GPT-5.5 و Kimi K2.6 متعادلان في هذا الاختبار المرجعي، لكن GPT-5.5 يكلف 5 دولارات لكل مليون توكن مدخلات و30 دولاراً لكل مليون مخرجات، بينما يُدرج Kimi K2.6 بسعر 0.95 دولار للمدخلات / 4.00 دولارات للمخرجات على Moonshot API.¹²¹³¹⁴

إذا قمت بالتقييم بناءً على SWE-Bench Pro وحده، فإن النماذج مفتوحة الأوزان قد عادلت GPT-5.5 بجزء بسيط من السعر. الفجوة المتبقية هي لصالح Opus 4.7 من Anthropic — وهذه الفجوة حقيقية ولكنها ضيقة بما يكفي بحيث لا تبرر، بالنسبة للعديد من أعباء العمل، دفع علاوة سعرية تتراوح بين 6 إلى 30 ضعفاً لتوكن المخرجات.

SWE-bench Verified و LiveCodeBench و Codeforces

يعد SWE-Bench Pro هو الاختبار المرجعي الرئيسي، ولكنه ليس الوحيد. تتفوق نماذج مختلفة في فئات مختلفة.

الموديل	SWE-bench Verified	LiveCodeBench	Codeforces Elo
GPT-5.5	88.7% (OpenAI)¹¹	لم يتم الإبلاغ عنه كعنوان رئيسي	لم يتم الإبلاغ عنه رسمياً
Claude Opus 4.7	87.6%⁴	89.6%⁴	لم يتم الإبلاغ عنه رسمياً
DeepSeek V4-Pro (الحد الأقصى)	80.6%⁷⁸	93.5%⁷	3,206⁷⁸
Kimi K2.6	80.2%⁵	لم يتم الإبلاغ عنه كعنوان رئيسي	لم يتم الإبلاغ عنه كعنوان رئيسي
Claude Opus 4.6	80.8%⁷	88.8%⁷	لم يتم الإبلاغ عنه رسمياً

يتفوق DeepSeek V4-Pro في LiveCodeBench (93.5%) و Codeforces (3,206 — متقدماً على 3,168 لـ GPT-5.4). ويقع Kimi K2.6 ضمن جزء بسيط من النقطة من Opus 4.6 في SWE-bench Verified. يتصدر GPT-5.5 بفارق ضئيل في SWE-bench Verified بنسبة 88.7% (حسب تقرير OpenAI)، مع تقارب Claude Opus 4.7 بنسبة 87.6%. كلاهما يتصدر النماذج مفتوحة الأوزان (DeepSeek V4-Pro بنسبة 80.6%) بحوالي 7 إلى 8 نقاط في ذلك الاختبار المرجعي.

لاحظ أن أرقام SWE-bench Verified التي أبلغ عنها الموردون تستخدم إطار العمل (scaffold) وميزانية الأدوات الخاصة بكل مختبر؛ في لوحة المتصدرين المستقلة vals.ai، التي تثبت إطار عمل محايداً، يستقر GPT-5.5 عند ~82.6%، وهو أقرب إلى مجموعة النماذج مفتوحة الأوزان.¹⁵ المقارنة العادلة بين المختبرات أصعب مما توحي به الأرقام الرئيسية.

النمط العام: النماذج مفتوحة الأوزان تنافسية في مهام البرمجة التنافسية وتوليد الأكواد (LiveCodeBench، Codeforces) وهي قريبة جداً في مهام حل المشكلات (SWE-bench Verified). تظل حلول الوكلاء الذكية طويلة المدى (SWE-Bench Pro) هي المجال الذي تحتفظ فيه Anthropic بأوضح تقدم.

فجوة السعر التي تهم حقاً

يحكي تسعير التوكن الواحد قصة سبب قيام هذه الإصدارات بإعادة تشكيل عمليات النشر في بيئات الإنتاج.

الموديل	المدخلات (دولار/مليون)	المخرجات (دولار/مليون)	ملاحظات
Claude Opus 4.7	$5.00	$25.00	مغلق¹²
GPT-5.5	$5.00	$30.00	مغلق؛ تضاعف تقريباً مقارنة بـ GPT-5.4 ($2.50/$15)¹³
Kimi K2.6 (Moonshot API)	$0.95	$4.00	MIT معدل، الاستضافة الذاتية متاحة¹⁴
DeepSeek V4-Pro (قائمة الأسعار)	$1.74	$3.48	MIT⁹
DeepSeek V4-Pro (عرض ترويجي)	$0.435	$0.87	خصم 75% حتى ٣١ مايو ٢٠٢٦⁹
GLM-5.1 (OpenRouter)	$1.05	$3.50	MIT، يختلف حسب المزود¹⁶

بناءً على تكلفة المخرجات وحدها:

Kimi K2.6 أرخص بحوالي 6 مرات من Claude Opus 4.7 وأرخص بحوالي 7.5 مرة من GPT-5.5.
DeepSeek V4-Pro (قائمة الأسعار) أرخص بحوالي 7 مرات من Opus 4.7 وأرخص بحوالي 8.6 مرة من GPT-5.5.
DeepSeek V4-Pro (عرض ترويجي) أرخص بحوالي 29 مرة من Opus 4.7 — حتى ٣١ مايو.

وهذه هي أسعار استدلال الـ API. تعني تراخيص MIT للأوزان أنه يمكنك استضافة DeepSeek V4 أو GLM-5.1 ذاتياً بتكلفة صفرية لكل توكن. بالنسبة لضغط عمل برمجِي ثقيل يُنتج ملايين التوكنات يومياً، تصبح الحسابات غير مريحة بسرعة للمنافسين ذوي المصادر المغلقة.

ثلاثة رهان مختلفة

لم تبنِ المختبرات الصينية الثلاثة نفس النوع من النماذج. قام كل منهم برهان معماري ومنتجي متميز.

GLM-5.1: رهان الأفق الطويل المرخص بـ MIT

نموذج GLM-5.1 هو MoE بـ 754 مليار معامل مع 40 مليار معامل نشط لكل توكن، مرخص بـ MIT، مع نافذة سياق 200 ألف وتوكنات مخرجات قصوى 128 ألف.¹⁷ ترويج شركة Z.ai يركز على البرمجة الوكيلية ذات الأفق الطويل: تم تصميم النموذج ليعمل بشكل مستقل لمدة تصل إلى ثماني ساعات من تنفيذ المهام المستمر دون نقاط تفتيش بشرية.² تم تدريبه على 100,000 شريحة Huawei Ascend 910B — وهي إشارة متعمدة إلى أن المختبرات الصينية يمكنها تدريب نماذج رائدة بدون أجهزة NVIDIA.²

الأفضل لـ: سير عمل الهندسة الوكيلية حيث يحتاج النموذج إلى التخطيط والتنفيذ والتحقق والمراجعة عبر ملفات ومهام فرعية متعددة دون إشراف.

Kimi K2.6: رهان سرب الـ 300 وكيل

نموذج Kimi K2.6 هو MoE بـ 1 تريليون معامل مع 32 مليار معامل نشط لكل توكن، مرخص بـ MIT معدل، مع نافذة سياق 256 ألف.⁵⁶ الميزة المعمارية الرئيسية لشركة Moonshot هي سرب الوكلاء (Agent Swarm): حيث يمكن لعملية برمجة واحدة تنسيق ما يصل إلى 300 وكيل فرعي ينفذون 4,000 خطوة منسقة.⁶ استعرضت Moonshot مدة 13 ساعة من البرمجة المستقلة المستمرة على محرك مطابقة مالي مفتوح المصدر أثناء الإطلاق.⁵

الأفضل لـ: أعباء العمل التي تتحلل بشكل طبيعي إلى مهام فرعية متوازية — إعادة هيكلة الكود (refactoring) عبر مئات الملفات، توليد الاختبارات، والتحويل بين اللغات المتعددة.

DeepSeek V4: رهان التكلفة المدفوع بالمعمارية

يأتي DeepSeek V4 في شكل نموذجين: V4-Pro (إجمالي 1.6 تريليون / 49 مليار نشط) و V4-Flash (إجمالي 284 مليار / 13 مليار نشط)، كلاهما تحت ترخيص MIT مع نافذة سياق مليون توكن و 384 ألف توكن مخرجات كحد أقصى.⁸⁹ العنوان المعماري الأبرز هو الانتباه الهجين (Hybrid Attention) — طبقات الانتباه المتناثر المضغوط والانتباه المضغوط بشدة التي تخفض عمليات الـ FLOPs للاستدلال لكل توكن إلى 27% من V3.2 وذاكرة التخزين المؤقت KV إلى 10% عند سياق مليون توكن.⁸ يعد V4 النموذج الوحيد في هذه الموجة الذي يمتلك نافذة سياق تصل لمليون توكن.

الأفضل لـ: العمل على قواعد الأكواد الكبيرة حيث يكون طول السياق هو القيد الأساسي — المستودعات الكاملة، جلسات تصحيح الأخطاء الطويلة، ومراجعة الأكواد متعددة المستندات.

اختلافات التراخيص التي تهم في الإنتاج

تختلف كلمة "مفتوح" في "مفتوح الأوزان" بشكل ملموس عبر النماذج الثلاثة.

النموذج	الترخيص	الاستخدام التجاري	الاستضافة الذاتية
GLM-5.1	MIT	نعم، غير مقيد¹⁷	نعم
DeepSeek V4	MIT	نعم، غير مقيد⁸	نعم
Kimi K2.6	MIT معدل	نعم — يتطلب الإسناد لعمليات النشر التي تتجاوز 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار إيرادات شهرية¹⁴	نعم
MiniMax M2.7 (سابق، 18 مارس)	MIT معدل تقييدي	"مطلوب تصريح كتابي للاستخدام التجاري"¹⁸	مسموح لغير التجاري

إن شحن GLM-5.1 و DeepSeek V4 تحت ترخيص MIT القياسي هو الحالة القانونية النهائية التي يريدها معظم مشتري المؤسسات. يعمل ترخيص MIT المعدل لـ Kimi K2.6 كترخيص MIT قياسي لغالبية الفرق — حيث يتطلب بند واحد مضاف إسناداً بارزاً لـ "Kimi K2" فقط لعمليات النشر التي تتجاوز 100 مليون مستخدم نشط شهرياً أو 20 مليون دولار من الإيرادات الشهرية.¹⁴ أما MiniMax M2.7 — الذي تم إصداره سابقاً في 18 مارس 2026، قبل موجة أبريل — فيوضح النمط الذي لم يترسخ: "MIT معدل" مع قيود غير تجارية تتطلب تفويضاً كتابياً مسبقاً لأي استخدام تجاري.¹⁸

بالنسبة للمشتريات المؤسسية، التسلسل الهرمي العملي هو: GLM-5.1 ≈ DeepSeek V4 (بدون عوائق) ← Kimi K2.6 (مراجعة خفيفة) ← MiniMax M2.7 (ترخيص منفصل).

ما يتفوق فيه كل نموذج فعلياً

مقارنة النماذج الصينية الثلاثة مفتوحة الأوزان وجهاً لوجه — وضد النماذج المغلقة الرائدة عند الاقتضاء:

أفضل SWE-Bench Pro مفتوح الأوزان: Kimi K2.6 (58.6%)، متقدماً بفارق ضئيل على GLM-5.1 (58.4%)؛ كما يتساوى مع GPT-5.5 مغلق المصدر (58.6%)
أفضل LiveCodeBench (حسب تقرير المورد): DeepSeek V4-Pro (93.5%)
أفضل Codeforces: DeepSeek V4-Pro (3,206 Elo)
أفضل برمجة مستقلة طويلة الأمد: GLM-5.1 (تنفيذ مهام مستمر لمدة 8 ساعات)
أفضل تنسيق للمهام الفرعية المتوازية: Kimi K2.6 (سرب من 300 وكيل)
أفضل سياق لقواعد الأكواد الكبيرة (بين الثلاثة): DeepSeek V4 (مليون توكن)
أفضل سعر لكل توكن مخرجات: عرض DeepSeek V4-Pro الترويجي (حتى 31 مايو)
أنظف ترخيص للمشتريات المؤسسية: GLM-5.1 أو DeepSeek V4 (ترخيص MIT القياسي)

لا تزال الفجوة مع Claude Opus 4.7 في SWE-Bench Pro (5.7 نقطة) و SWE-bench Verified (حوالي 7 نقاط) حقيقية. بالنسبة لوكلاء البرمجة المستقلين في المهام الحرجة حيث تهم كل نقطة مئوية من دقة حل المشكلات، لا يزال Opus 4.7 يحتفظ بالصدارة — بتكلفة توكن مخرجات تزيد من 6 إلى 30 ضعفاً اعتماداً على النموذج مفتوح الأوزان وفئة التسعير التي تقارنه بها.

الفجوة التي لا تزال قائمة

سيكون من الخطأ القول إن النماذج الرائدة مفتوحة الأوزان قد لحقت بالنماذج المغلقة. إن نتيجة Claude Opus 4.7 البالغة 64.3% في SWE-Bench Pro هي أعلى نتيجة تم الإبلاغ عنها علناً في ذلك الاختبار المرجعي، وفي SWE-bench Verified لا تزال النماذج المغلقة الرائدة — GPT-5.5 بنسبة 88.7% و Opus 4.7 بنسبة 87.6% — تتفوق بنحو 7-8 نقاط على قادة النماذج مفتوحة الأوزان. في المهام الوكيلية ذات الأفق الطويل التي تتضمن حل ملفات متعددة في ظل وجود غموض، يتفوق Opus 4.7 حالياً.

ولكن في معظم مهام البرمجة التي لا تقع عند أقصى حدود الصعوبة، أصبحت النماذج مفتوحة الأوزان الآن ضمن نطاق الضوضاء الإحصائية لنموذج GPT-5.5 — وهي أرخص بكثير. السؤال المثير للاهتمام لم يعد "هل يمكن للنماذج مفتوحة الأوزان اللحاق بالنماذج المغلقة الرائدة؟" بل "لأي مجموعة فرعية من أعباء عمل البرمجة لا تزال التكلفة الإضافية للنماذج المغلقة الرائدة تستحق الدفع؟"

بالنسبة للحلول البرمجية القائمة على الوكلاء (agentic resolution) ذات المخاطر العالية من محاولة واحدة — نعم. أما بالنسبة لتوليد الكود بكميات كبيرة، وإعادة الهيكلة (refactoring)، وكتابة الاختبارات، وتحرير الملفات المتعددة، وحلقات تكامل CI — فبشكل متزايد، لا.

ملخص

في نافذة مدتها 17 يوماً من 7 أبريل إلى 24 أبريل 2026، نجحت ثلاثة نماذج برمجة صينية مفتوحة الأوزان — GLM-5.1 و Kimi K2.6 و DeepSeek V4 — في سد فجوة الأداء بالكامل تقريباً مع GPT-5.5 مع التفوق عليه وعلى Claude Opus 4.7 في السعر بمقدار 6 إلى 30 ضعفاً. لا يزال Claude Opus 4.7 من Anthropic يتصدر في أصعب اختبارات البرمجة القائمة على الوكلاء (SWE-Bench Pro بنسبة 64.3%)، ولكن بالنسبة للفئة الأوسع من أعباء عمل البرمجة، أصبحت النماذج مفتوحة الأوزان المرخصة بترخيص MIT مع نوافذ سياق تتراوح من 200 ألف إلى مليون توكن خياراً افتراضياً موثوقاً للإنتاج. إن ريادة نماذج البرمجة اللغوية الكبيرة في عام 2026 ليست خطاً واحداً، بل هي تكتل — وقد أصبح الجانب مفتوح الأوزان من هذا التكتل، ولأول مرة، منافساً في كل الأبعاد باستثناء المهام الأكثر صعوبة على الإطلاق.

Footnotes

Winbuzzer, Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro, April 9, 2026. https://winbuzzer.com/2026/04/09/z-ai-releases-glm-5-1-754b-model-tops-swe-bench-pro-xcxwbn/ ↩ ↩² ↩³ ↩⁴
نيرد ليفل تك, GLM-5.1: The Open-Source Model That Beat GPT-5.4, April 19, 2026. /glm-5-1-open-source-beats-gpt-coding-benchmarks ↩ ↩² ↩³ ↩⁴ ↩⁵
TheNextWeb, Claude Opus 4.7 leads on SWE-bench and agentic reasoning, April 16, 2026. https://thenextweb.com/news/anthropic-claude-opus-4-7-coding-agentic-benchmarks-release ↩ ↩²
LLM-Stats, Claude Opus 4.7 Benchmarks, Pricing & Context Window. https://llm-stats.com/models/claude-opus-4-7 ↩ ↩² ↩³ ↩⁴ ↩⁵
Kimi.com Blog, Kimi K2.6 Tech Blog: Advancing Open-Source Coding. https://www.kimi.com/blog/kimi-k2-6 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
نيرد ليفل تك, Kimi K2.6: Open-Weight 300-Agent Swarm Tops GPT-5.4, April 27, 2026. /kimi-k2-6-300-agent-swarm-open-weight-frontier-coding ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
وثائق DeepSeek API، إصدار معاينة DeepSeek V4، 24 أبريل 2026. https://API-docs.deepseek.com/news/news260424 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
نيرد ليفل تك، DeepSeek V4: آفاق الأوزان المفتوحة بـ 1/7 التكلفة، 2 مايو 2026. /deepseek-v4-open-source-frontier-million-token-context ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
وثائق DeepSeek API، النماذج والأسعار. https://API-docs.deepseek.com/quick_start/pricing/ ↩ ↩² ↩³ ↩⁴ ↩⁵
OpenAI، تقديم GPT-5.5، 23 أبريل 2026. https://openai.com/index/introducing-gpt-5-5/ ↩ ↩²
TokenMix، مراجعة GPT-5.5: 88.7% SWE-Bench، 92.4% MMLU، ضعف السعر (2026). https://tokenmix.ai/blog/gpt-5-5-spud-review-88-swe-bench-2026 ؛ إعلان OpenAI، 23 أبريل 2026. ↩ ↩²
أسعار Anthropic. https://www.anthropic.com/claude/opus ↩ ↩²
أسعار OpenAI API. https://openai.com/API/pricing/ ↩ ↩²
Moonshot AI على Hugging Face، بطاقة نموذج Kimi-K2.6. https://huggingface.co/moonshotai/Kimi-K2.6 ↩ ↩² ↩³ ↩⁴
لوحة صدارة vals.ai SWE-bench، مايو 2026. ↩
OpenRouter، أسعار ومعايير GLM-5.1 API. https://openrouter.ai/z-ai/glm-5.1 ↩
LLM-Stats، معايير GLM-5.1، الأسعار ونافذة السياق. https://llm-stats.com/models/glm-5.1 ↩ ↩²
MarkTechPost، MiniMax تطلق للتو MiniMax M2.7 مفتوح المصدر، 12 أبريل 2026. https://www.marktechpost.com/2026/04/12/minimax-just-open-sourced-minimax-m2-7-a-self-evolving-agent-model-that-scores-56-22-on-swe-pro-and-57-0-on-terminal-bench-2/ ↩ ↩²

الأسئلة الشائعة

يعتمد ذلك على عبء العمل. يتصدر Kimi K2.6 في اختبار SWE-Bench Pro بنسبة 58.6%، متقدماً بفارق ضئيل على GLM-5.1 (58.4%) وبفارق كبير عن DeepSeek V4-Pro (55.4%). بينما يتصدر DeepSeek V4-Pro في LiveCodeBench (93.5%) و Codeforces (3,206 Elo). ويتفوق GLM-5.1 في التنفيذ الذاتي طويل المدى. لا يوجد نموذج واحد يفوز في كل الاختبارات، لذا فإن العوامل الحاسمة هي الترخيص، وطول السياق (context length)، والسعر، ونوع عبء عمل البرمجة الذي تقوم بتحسينه.

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

ملخص

ما ستتعلمه

نافذة الـ 17 يومًا التي غيرت آفاق النماذج مفتوحة الأوزان

SWE-Bench Pro: أصعب اختبار برمجي عام

SWE-bench Verified و LiveCodeBench و Codeforces

فجوة السعر التي تهم حقاً

ثلاثة رهان مختلفة

GLM-5.1: رهان الأفق الطويل المرخص بـ MIT

Kimi K2.6: رهان سرب الـ 300 وكيل

DeepSeek V4: رهان التكلفة المدفوع بالمعمارية

اختلافات التراخيص التي تهم في الإنتاج

ما يتفوق فيه كل نموذج فعلياً

الفجوة التي لا تزال قائمة

ملخص

Footnotes

الأسئلة الشائعة

مقالات ذات صلة

DeepSeek V4: نموذج رائد مفتوح الأوزان بـ 1/7 التكلفة

موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج، ١٨ يومًا

Kimi K2.6: 300-Agent Swarm بنظام Open-Weight يتفوق على GPT-5.4 (2026)

DeepSWE: اختبار قياس البرمجة بالذكاء الاصطناعي يكشف غش Claude في

ابقَ على مسار النيرد