Nex-N2-Pro: Open-Weight Coder ضد GPT-5.5 (2026)
١٠ يونيو ٢٠٢٦
Nex-N2-Pro هو نموذج برمجة مجاني مفتوح الأوزان يضم 397 مليار معلمة (parameter) من Nex AGI، تم تدريبه لاحقاً (post-trained) على نموذج Qwen3.5 من Alibaba.12 وفقاً لمقاييس الأداء الخاصة به، يتصدر النموذج مجموعة النماذج مفتوحة الأوزان ويتفوق قليلاً على GPT-5.5 في SWE-Bench Pro، لكنه يتأخر عن النماذج المغلقة الرائدة في أصعب المهام الوكيلية (agentic) ومهام التفكير المنطقي.13
تم إصداره في 2 يونيو 2026 وينتشر الآن عبر نقاط النهاية (endpoints) المجانية، وهو أحدث إصدار في موجة أوائل يونيو لنماذج البرمجة مفتوحة الأوزان — حيث وصل بعد يوم واحد من MiniMax M3.45 هناك أمران يميزانه: ميزته الرئيسية هي إطار عمل "التفكير الوكيلي" (Agentic Thinking) الذي يقرر من تلقاء نفسه مدى عمق التفكير المنطقي المطلوب، و — على عكس M3، الذي كانت أوزانه لا تزال قيد الانتظار عند الإطلاق — يمكنك بالفعل تنزيل Nex-N2-Pro الآن.12
ملخص
Nex-N2-Pro هو نموذج برمجة وكيلي مفتوح الأوزان من Nex AGI، وهو تحالف مفتوح المصدر بدأه معهد شنغهاي للابتكار.16 وهو نموذج "خليط من الخبراء" (Mixture-of-Experts) يضم 397 مليار معلمة إجمالية ولكن 17 مليار معلمة نشطة فقط لكل توكن، تم تدريبه لاحقاً على قاعدة Qwen3.5-397B-A17B من Alibaba، مع نافذة سياق تصل إلى 262 ألف توكن ومدخلات صور.247 ميزته الفريدة هي التفكير التكيفي (Adaptive Thinking)، الذي يضبط تلقائياً عمق التفكير المنطقي لكل خطوة، وتقول Nex إنه يقلل توكنات التفكير بنسبة 30-50% مقارنة بالتفكير المستمر دائماً مع جودة مساوية أو أفضل.4 في جدول مقاييس الأداء الخاص بـ Nex، سجل Nex-N2-Pro 80.8% في SWE-Bench Verified، و58.8% في SWE-Bench Pro، و75.3 في Terminal-Bench 2.1، متفوقاً بفارق ضئيل على GPT-5.5 في SWE-Bench Pro وعلى Claude Opus 4.7 في Terminal-Bench، بينما يتصدر أو يضاهي النماذج المفتوحة المنافسة مثل MiniMax M3 و DeepSeek-V4-Pro و GLM-5.1 و Kimi-K2.6 في معظم الفئات.1 هناك ثلاثة تنبيهات مهمة: كل الأرقام مبلغ عنها ذاتياً بناءً على أدوات Nex الخاصة؛ وخط الأساس للمقارنة هو Opus 4.7 وليس Opus 4.8 الأحدث؛ وفي أصعب الاختبارات الوكيلية، لا تزال الفجوة مع النماذج المغلقة الرائدة واسعة (DeepSWE: 33.6 مقابل 70 لـ GPT-5.5).138 الأوزان مجانية بموجب ترخيص Apache 2.0، ويعمل مجاناً على OpenRouter و SiliconFlow خلال فترة الإطلاق — لكن الاستضافة الذاتية للنموذج الكامل تتطلب تقريباً عقدتين من 8×H100.19
ما هو Nex-N2-Pro؟
Nex-N2-Pro هو نموذج لغوي كبير مصمم للبرمجة والعمل الوكيلي، تم إصداره وتوفيره كمصدر مفتوح في 2 يونيو 2026 بواسطة Nex AGI (تُكتب أيضاً "Nex").14 إن Nex ليست شركة ناشئة تقليدية بل هي تحالف مفتوح المصدر "بدأه معهد شنغهاي للابتكار"، وتعمل بشكل علني تحت منظمة nex-agi على GitHub و Hugging Face، مع شركاء يشملون Shanghai Qiji Zhifeng و Mosi Intelligence و KuafuAI.6 تشحن المجموعة حزمة وكيل كاملة — نماذج، وإطار عمل للوكلاء (NexAU)، ومسارات بيانات، وبنية تحتية للتدريب — ويعد Nex-N2 هو النموذج الرائد فيها.6
من الناحية المعمارية، Nex-N2-Pro هو نموذج خليط من الخبراء (MoE) متناثر يضم 397 مليار معلمة إجمالية و17 مليار معلمة نشطة لكل توكن، لذا فإن تكلفة الاستدلال الخاصة به تتصرف بشكل أقرب إلى نموذج كثيف بحجم 17B مما يوحي به حجمه الإجمالي.24 يقبل النموذج النصوص والصور كمدخلات وينتج نصوصاً، ويدعم نافذة سياق تبلغ 262,000 توكن، ويصدر بموجب ترخيص Apache 2.0 المرن مع أوزان قابلة للتنزيل على Hugging Face و ModelScope.24
التفصيل الحاسم — والذي يتم التقليل من شأنه في التسويق — هو أن Nex-N2-Pro تم تدريبه لاحقاً على نموذج Qwen3.5-397B-A17B من Alibaba، وليس نموذجاً أساسياً بنته Nex من الصفر.12 إن معمارية 397B/17B، وتعدد الوسائط الأصلي، وكفاءة السياق الطويل كلها تأتي من Qwen3.5، وهو نموذج MoE مفتوح الأوزان الرائد من Alibaba من فبراير 2026، والذي يدمج الانتباه الخطي (عبر Gated Delta Networks) مع MoE متناثر.7 مساهمة Nex AGI الفعلية تكمن في الطبقة العليا: التدريب اللاحق الوكيلي. تم بناء الجيل السابق، Nex-N1، بنفس الطريقة على قاعدة مختلفة — DeepSeek-V3.1 — لذا فإن استبدال Qwen3.5 في N2 هو استمرار لهذا النهج.4
ما هو التفكير الوكيلي (والتفكير التكيفي)؟
التفكير الوكيلي (Agentic Thinking) هو إطار عمل Nex لتوحيد التفكير المنطقي، واستخدام الأدوات، والتنفيذ في البيئة ضمن حلقة واحدة، بدلاً من تجميعها كقدرات منفصلة.1 إنها الفكرة الرئيسية وراء النموذج، ولها شقان.1
يسمح التفكير التكيفي (Adaptive Thinking) للنموذج بأن يقرر بنفسه متى يفكر ومدى عمق هذا التفكير — حيث ينفذ الإجراءات البسيطة بسرعة بينما يحتفظ بالاستنتاج المنطقي المتعمق للقرارات المهمة. ادعاء Nex المحدد هو أن هذا يقلل من توكنز التفكير بنسبة 30-50% في الخطوات الروتينية مقارنة بالتفكير المستمر دائمًا، مع أداء مهام مساوٍ أو أفضل.4 هذا هو الجزء الذي يستحق الاهتمام: فعمليات التشغيل البرمجية الطويلة (agentic runs) تستهلك معظم تكلفتها في توكنز التفكير، لذا فإن النموذج الذي يفكر فقط عندما يحتاج إلى ذلك يكون تشغيله أرخص بنفس الجودة — إذا صمد هذا الادعاء أمام الاختبارات المستقلة.
التفكير المتماسك (Coherent Thinking) هو النصف الثاني: حمل أسلوب تفكير منطقي ثابت واحد عبر المهام العامة وأعمال الوكيل (agentic) المتنوعة، بحيث تنتقل القدرة بسلاسة بين، على سبيل المثال، تنفيذ الأوامر في Terminal والتوليد متعدد الوسائط (multimodal).1 من الناحية العملية، يتم كشف كلا السلوكين من خلال الأدوات القياسية — حيث تُصدر نماذج سلسلة Nex مسارات تفكير صريحة وتدعم استدعاء الدوال (function calling)، باستخدام نفس محلل التفكير qwen3 ومحلل استدعاء الأدوات qwen3_coder مثل قاعدة Qwen الخاصة بهم، ويعلنون عن استخدام "التوصيل والتشغيل" (plug-and-play) مع Claude Code و Cursor وغيرها من بيئات تشغيل الوكلاء.24
اختبارات أداء Nex-N2-Pro: قوية، لكنها مُبلغ عنها ذاتيًا
في مجموعة التقييم المنشورة من قبل Nex، تبدو أرقام البرمجة لنموذج Nex-N2-Pro جيدة حقًا. فقد سجل 80.8% في SWE-Bench Verified (إصلاح أخطاء حقيقية في مستودعات حقيقية)، و 58.8% في SWE-Bench Pro، و 75.3 في Terminal-Bench 2.1، و 1585 في GDPval — وهو اختبار أداء OpenAI للعمل المعرفي ذي القيمة الاقتصادية في العالم الحقيقي والذي يتم تقييمه بواسطة خبراء عبر 44 مهنة.110 تضع Nex النموذج في إطار "مواكبة النماذج من الدرجة الأولى مثل GPT-5.5 و Opus 4.7."1
إليك السياق الذي تغفله معظم التغطيات. كل واحد من هذه الأرقام يأتي من جدول اختبارات Nex AGI الخاص بها — أدواتها، وهيكلها، واختيارها للمقارنات المرجعية.1 هذا ممارسة قياسية عند إطلاق أي نموذج، لكنه يجعل ادعاءات النتائج في انتظار التحقق المستقل، وليست حقائق مسلمًا بها. حتى الجدول يظهر بعض التناقضات: فهو يدرج GPT-5.5 بنسبة 82.9% في SWE-Bench Verified، بينما تبلغ OpenAI رسميًا عن GPT-5.5 بنسبة 88.7% في نفس الاختبار، وتضعه أدوات مستقلة مثل Vals.ai في مرتبة أقل عند حوالي 82.6%.311 بعبارة أخرى، عمود المقارنة هو مزيج من ظروف الاختبار المختلفة، وهذا هو بالضبط السبب في وجوب قراءة الجدول المدار ذاتيًا كعرض افتتاحي قوي وليس كحكم نهائي.
| اختبار الأداء (مُبلغ عنه من Nex) | Nex-N2-Pro | GPT-5.5 | Opus 4.7 | MiniMax M3 | DeepSeek-V4-Pro |
|---|---|---|---|---|---|
| SWE-Bench Verified | 80.8 | 82.9 | 87.6 | 80.5 | 80.6 |
| SWE-Bench Pro | 58.8 | 58.6 | 64.3 | 59.0 | 55.4 |
| Terminal-Bench 2.1 | 75.3 | 83.4 | 69.7 | 66.0 | 72.0 |
| DeepSWE | 33.6 | 70 | 54 | — | 8 |
| GDPval | 1585 | 1769 | 1753 | — | 1554 |
| GPQA Diamond | 90.7 | 93.6 | 94.2 | — | 90.1 |
جميع الأرقام كما نشرتها Nex AGI.1 الأعلى هو الأفضل في كل صف؛ GDPval هو درجة، والباقي نسب مئوية.
Nex-N2-Pro مقابل GPT-5.5 و Claude Opus: القراءة الصادقة
إذا جردنا إطار "مواكبة الأداء"، ستصبح الصورة أكثر تحديدًا. فمقابل GPT-5.5، يتفوق Nex-N2-Pro قليلاً في SWE-Bench Pro (58.8 مقابل 58.6) ولكنه يتأخر في SWE-Bench Verified (80.8 مقابل 82.9)، وفي Terminal-Bench 2.1 (75.3 مقابل 83.4)، وبفارق كبير في DeepSWE (33.6 مقابل 70).1 ومقابل Claude Opus 4.7، فإنه يتفوق في Terminal-Bench 2.1 (75.3 مقابل 69.7) ولكنه يخسر في SWE-Bench Verified بنحو سبع نقاط (80.8 مقابل 87.6) وفي DeepSWE بعشرين نقطة (33.6 مقابل 54).1 الانتصارات الانتقائية حقيقية؛ وكذلك الخسائر.
هناك تحذيران هيكليان يعمقان هذه النقطة. أولاً، سقف المقارنة هو Claude Opus 4.7، لكن Anthropic أطلقت Claude Opus 4.8 في 28 مايو 2026 — قبل إطلاق Nex-N2-Pro في 2 يونيو — ويسجل Opus 4.8 تقريبًا 88.6% في SWE-Bench Verified.8 وبقياسه مقابل نموذج Anthropic الذي كان حاليًا بالفعل، فإن الفجوة أوسع مما يوحي به الجدول. إنه نفس نمط "المقارنة المرجعية المريحة" الذي أشرنا إليه للتو في إطلاق MiniMax M3، حيث تمت مقارنة M3 أيضًا بـ Opus 4.7 بدلاً من 4.8.5 ثانياً، صفوف DeepSWE و GDPval هي المكان الذي تتفوق فيه النماذج المغلقة بوضوح: فالحصول على 33.6 في DeepSWE مقابل 70 لـ GPT-5.5 ليس "تقاربًا" في البرمجة المعقدة للوكلاء، بل هو النصف تقريبًا. (لقد تعمقنا في مدى هشاشة وقابلية هذا الاختبار للتلاعب في تحليلنا لـ DeepSWE.)
مجموعة الأوزان المفتوحة: أين يتصدر Nex-N2-Pro حقًا
الإطار الأكثر إنصافًا ليس Nex-N2-Pro مقابل النماذج المغلقة — بل هو Nex-N2-Pro مقابل المنافسين الآخرين ذوي الأوزان المفتوحة، وهناك يبدو كقائد. في جدول Nex، فإنه يضاهي أو يهزم MiniMax M3 و DeepSeek-V4-Pro و GLM-5.1 و Kimi-K2.6 في معظم الصفوف: فنسبة 80.8 في SWE-Bench Verified تضعه في قمة مجموعة متقاربة من الأوزان المفتوحة (M3 80.5، DeepSeek-V4-Pro 80.6، Kimi-K2.6 80.2)؛ وفي Terminal-Bench 2.1 تتجاوز نسبته 75.3 نسبة MiniMax M3 البالغة 66.0 و DeepSeek-V4-Pro البالغة 72.0؛ وفي DeepSWE، فإن نسبته 33.6، رغم تأخرها الكبير عن النماذج المغلقة، تتفوق بوضوح على المجال المفتوح (Kimi-K2.6 24، GLM-5.1 18، DeepSeek-V4-Pro 8).1
هذا التموضع هو جوهر القصة. على مدار الأشهر القليلة الماضية، شاهدنا مختبرات البرمجة الصينية ذات الأوزان المفتوحة تشن حربًا شرسة على التكلفة والقدرات، من DeepSeek V4 إلى GLM-5.1 إلى Kimi K2.6. تكمن فكرة Nex-N2-Pro في أخذ واحدة من أقوى القواعد المفتوحة — Qwen3.5 من Alibaba — واستخراج المزيد من أداء الوكلاء منها من خلال التدريب اللاحق (post-training)، ثم تقديمها مجانًا. إذا تكررت هذه الأرقام في الاختبارات المستقلة، فسيكون هو المتصدر الجديد لمجموعة البرمجة ذات الأوزان المفتوحة، حتى لو لم يكن تهديدًا حقيقيًا لـ GPT-5.5 أو Opus 4.8 في أصعب المهام.
تسعير Nex-N2-Pro: مجاني الآن، لكن استضافته مكلفة
السعر هو الجزء السهل: Nex-N2-Pro مجاني. الأوزان مرخصة بـ Apache 2.0 وقابلة للتنزيل من Hugging Face و ModelScope، وخلال فترة الإطلاق يعمل النموذج بدون تكلفة على نقاط النهاية المستضافة — 0 دولار للمدخلات و 0 دولار للمخرجات على الفئة المجانية لـ OpenRouter (بحد أقصى حوالي 50 طلبًا في اليوم و 20 طلبًا في الدقيقة) ووصول مبكر مجاني على SiliconFlow.29 بالنسبة لنموذج يحقق نتائج برمجية قريبة من النماذج الرائدة، فإن الوصول المستضاف المجاني هو وسيلة قوية لتعزيز الاعتماد عليه.
العقبة تكمن في الأجهزة. "مفتوح الأوزان" لا يعني "يعمل على لابتوبك". دليل النشر الخاص بـ Nex يقوم بتشغيل Nex-N2-Pro عبر عقدتين (nodes) من 8× H100 GPUs (توازي تينسور 16) باستخدام نسخته المخصصة من SGLang.1 هذا عنقود (cluster) جاد — يتجاوز بكثير ما يمكن للفرد استضافته ذاتيًا — لذا بالنسبة لمعظم الناس، تعني كلمة "مجاني" عمليًا الفئات المستضافة محدودة المعدل، وليس الاستدلال المحلي. الأخ الأصغر، Nex-N2-mini (المبني على Qwen3.5-35B-A3B-Base)، هو الخيار الأكثر قابلية للاستضافة الذاتية الذي تشير إليه Nex، حيث يعمل على جهاز واحد بـ 2× H100، رغم أنه يتنازل عن مساحة حقيقية في الاختبارات المعيارية (74.4 مقابل 80.8 في SWE-Bench Verified).1
الخلاصة
يعد Nex-N2-Pro خطوة حقيقية للبرمجة مفتوحة الأوزان، مغلفة بإطلاق يبالغ في المقارنة. فكرة "التفكير الوكيل" (Agentic Thinking) — التفكير بعمق فقط بقدر ما تتطلبه الخطوة — هي إجابة منطقية لتكلفة تشغيل الوكلاء لفترات طويلة، ومنح الأوزان مجانًا بموجب ترخيص Apache 2.0 هو نوع من التحركات التي تدفع نحو الاعتماد السريع.14 لكن سردية الاختبارات المعيارية تعتمد على اختبارات تم إجراؤها ذاتيًا ضد Opus 4.7، وهو خط أساس كانت Anthropic قد استبدلته بالفعل بـ Opus 4.8، وتظهر أصعب الاختبارات الوكيلة (DeepSWE، GDPval) أن النماذج الرائدة المغلقة لا تزال متقدمة بوضوح.18 الملخص الصادق: ربما يكون Nex-N2-Pro أقوى نموذج برمجي مفتوح الأوزان يمكنك تنزيله اليوم، ولكنه مدعٍ أضعف للمساواة التامة مع GPT-5.5 مما توحي به مخططاته الخاصة. الاختبارات المعيارية المستقلة — وتجربة تشغيله فعليًا داخل نظام وكيل حقيقي — هي التي ستحسم أي نصف من هذه الجملة هو الأهم.
قراءات ذات صلة: MiniMax M3: برمجة مفتوحة الأوزان بـ 1/10 التكلفة، DeepSeek V4: نموذج رائد مفتوح الأوزان بـ 1/7 التكلفة، و موجة نماذج البرمجة مفتوحة الأوزان في الصين.
Footnotes
-
Nex AGI، "Nex-N2: An agentic model with Agentic Thinking" — ملف README الرسمي لـ GitHub (الإصدار، إطار عمل Agentic Thinking / Adaptive Thinking، جدول المعايير الكامل، قاعدة Qwen3.5، دليل النشر على عقدتين 8×H100). https://GitHub.com/nex-agi/Nex-N2 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22 ↩23 ↩24 ↩25 ↩26
-
"nex-agi/Nex-N2-Pro," بطاقة نموذج Hugging Face (ترخيص Apache-2.0، عدد 397 مليار بارامتر، بنية MoE
qwen3_5_moe، تحويل الصورة والنص إلى نص، جدول المعايير، المحللات). https://huggingface.co/nex-agi/Nex-N2-Pro ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 -
"SWE-Bench Leaderboard," marc0.dev (GPT-5.5 في المركز الأول بنسبة 88.7% على SWE-Bench Verified، وفقاً لتقرير OpenAI، صدر في 23 أبريل 2026؛ Claude Opus 4.7 بنسبة 87.6%، 16 أبريل 2026)، واختبار Vals.ai المستقل (GPT-5.5 بنسبة تقارب 82.6%، Opus 4.7 بنسبة تقارب 82.0%) مما يظهر تباين أدوات الاختبار. https://www.marc0.dev/en/leaderboard ↩ ↩2 ↩3 ↩4
"Nex-N2-Pro — معلومات النموذج، المعلمات، الاختبارات القياسية،" SiliconFlow (تم إنشاؤه في 2 يونيو 2026؛ نافذة سياق 262 ألف؛ FP8؛ Apache-2.0؛ ادعاء توكنات التفكير التكيفي بنسبة 30-50%؛ الجيل السابق DeepSeek-V3.1-Nex-N1). https://www.siliconflow.com/models/nex-n2-pro ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11
"نماذج جديدة اليوم — إصدارات AI و LLM،" Price Per Token (إدراج مجاني لنموذج Nex-N2-Pro على OpenRouter؛ سياق إصدار MiniMax M3). https://pricepertoken.com/news/model-releases ↩ ↩2
"Nex: ملتقى الذكاء الوكيل،" Nex AGI (تحالف بدأه معهد شنغهاي للابتكار؛ الشركاء ونظام الوكيل المتكامل — النماذج، إطار عمل NexAU، البنية التحتية للبيانات والتعلم التعزيزي RL). https://nex-agi.com/en/ ↩ ↩2 ↩3
"أحدث نماذج Qwen3.5 الرائدة من Alibaba هي نماذج MoE مفتوحة الأوزان،" DeepLearning.AI The Batch، و "Qwen3.5-397B-A17B — كل ما تحتاج لمعرفته،" Artificial Analysis (إصدار فبراير 2026، 397 مليار إجمالي / 17 مليار نشط، هجين linear-attention + sparse MoE، وسائط متعددة أصلية، Apache 2.0). https://www.deeplearning.ai/the-batch/alibabas-latest-flagship-models-are-open-weights-moe-performers-in-sizes-from-less-than-1b-parameters/ ↩ ↩2 ↩3 ↩4
"نموذج Claude Opus 4.8 من Anthropic متاح الآن،" VentureBeat (تم إصدار Opus 4.8 في 28 مايو 2026؛ حوالي 88.6% في اختبار SWE-Bench Verified). https://venturebeat.com/technology/anthropics-claude-opus-4-8-is-here-with-3x-cheaper-fast-mode-and-near-mythos-level-alignment ↩ ↩2 ↩3
"Nex AGI: Nex-N2-Pro (مجاني) — أسعار ومزودي API،" OpenRouter (فئة مجانية 0$ للمدخلات / 0$ للمخرجات؛ حدود معدل الاستخدام للفئة المجانية). https://openrouter.ai/nex-agi/nex-n2-pro:free/pricing ↩ ↩2 ↩3
"GDPval: تقييم أداء نماذج الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية في العالم الحقيقي،" OpenAI (اختبار قياسي عبر 44 مهنة في أفضل 9 قطاعات من حيث الناتج المحلي الإجمالي، تقييم أعمى من قبل الخبراء). https://openai.com/index/gdpval/ ↩
"SWE-bench Verified،" نظام اختبار مستقل من Vals.ai (نموذج GPT-5.5 بنسبة 82.60%، Claude Opus 4.7 بنسبة 82.00%). https://www.vals.ai/benchmarks/swebench ↩