DeepSeek V4: نموذج رائد مفتوح الأوزان بـ 1/7 التكلفة
٢ مايو ٢٠٢٦
ملخص
في 24 أبريل 2026، أصدرت شركة DeepSeek نموذج DeepSeek V4 كنسخة معاينة — وهي عائلة من نموذجين مفتوحي الأوزان تم إصدارهما بموجب رخصة MIT: نموذج V4-Pro (إجمالي 1.6 تريليون معامل، 49 مليار معامل نشط لكل توكن، تم تدريبه مسبقاً على 33 تريليون توكن) ونموذج V4-Flash (إجمالي 284 مليار معامل، 13 مليار معامل نشط)123. يدعم كلا النموذجين نافذة سياق تصل إلى مليون توكن ومخرجات بحد أقصى 384,000 توكن45. يحقق V4-Pro (عند أقصى جهد للتفكير) نتيجة 80.6% في اختبار SWE-bench Verified — وهو ما يعادل إحصائياً الجيل السابق Claude Opus 4.6 (80.8%) ولكنه يتأخر عن النماذج الرائدة الحالية Claude Opus 4.7 (87.6%) بفارق 7 نقاط وعن GPT-5.5 (~82.6% في لوحة صدارة vals.ai) بنقطتين6789. وفي اختبار LiveCodeBench، سجل V4-Pro نتيجة 93.5%، متفوقاً على Gemini 3.1 Pro (91.7%) وClaude Opus 4.6 (88.8%)7. تبلغ أسعار واجهة برمجة التطبيقات API لنموذج V4-Pro حوالي 1.74 دولار لكل مليون توكن مدخلات (في حالة عدم وجود ذاكرة تخزين مؤقت) و3.48 دولار لكل مليون توكن مخرجات، مع وصول سعر التوكنات المخزنة مؤقتاً إلى 0.174 دولار لكل مليون — وهو ما يمثل تقريباً سبع تكلفة مخرجات Claude Opus 4.7 (5 دولار/25 دولار) وثمن تكلفة GPT-5.5 (5 دولار/30 دولار)1011. كما يوجد عرض إطلاق بخصم 75% يخفض سعر V4-Pro إلى 0.435 دولار/0.87 دولار حتى 31 مايو 202610. التغيير الأبرز في البنية المعمارية هو آلية الانتباه الهجين (Hybrid Attention) التي تجمع بين الانتباه المتناثر المضغوط (Compressed Sparse Attention) والانتباه المضغوط بشدة (Heavily Compressed Attention)، مما يقلل عمليات الـ FLOPs للاستنتاج لكل توكن في V4-Pro إلى 27% من V3.2 ويقلل ذاكرة التخزين المؤقت KV إلى 10% عند إعداد المليون توكن412. أعلنت Huawei عن "دعم كامل" عبر خط إنتاج Ascend SuperNode الخاص بها لعمليات الاستنتاج، بينما يبدو أن V4-Pro نفسه قد تم تدريبه بشكل أساسي على وحدات معالجة الرسومات من NVIDIA8913.
ما ستتعلمه
- لماذا تعد بنية الانتباه الهجين في V4 أكثر من مجرد علامة تسويقية
- نتائج اختبارات الأداء الدقيقة لـ V4-Pro وV4-Flash مقارنة بـ Opus 4.7 وGPT-5.5 وGemini 3.1 Pro
- فئات تسعير واجهة برمجة التطبيقات API — بما في ذلك سعر الـ cache-hit وعرض الإطلاق بخصم 75% الذي ينتهي في 31 مايو
- ماذا تعني شراكة Huawei Ascend وما لا تعنيه بخصوص التدريب مقابل الاستنتاج
- مصفوفة قرار عملية لاختيار متى تستخدم V4-Pro مقابل النماذج الرائدة المغلقة
- أين يتفوق V4، وأين يتأخر، وأين تقف النماذج الرائدة مفتوحة الأوزان اليوم
إصدار نموذجين مفتوحي الأوزان بموجب رخصة MIT
أطلقت DeepSeek نموذج V4 كـ إصدار معاينة في 24 أبريل 2026، بعد حوالي خمسة أشهر من إطلاق V3.2 في ديسمبر 2025214. ومن المقرر إيقاف نقاط نهاية واجهة برمجة التطبيقات API للجيل السابق deepseek-chat و deepseek-reasoner تماماً في 24 يوليو 2026، وبعد ذلك سيصبح V4 هو المسار الوحيد على واجهة برمجة التطبيقات الرسمية API1.
تتضمن العائلة نموذجين متميزين من نوع خليط الخبراء (MoE):
| النموذج | إجمالي المعاملات | المعاملات النشطة | توكنات التدريب المسبق | السياق | أقصى مخرجات |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 1.6T | 49B | 33T | 1M | 384K |
| DeepSeek V4-Flash | 284B | 13B | 32T | 1M | 384K |
كلا النموذجين تم إصدارهما بموجب رخصة MIT ونُشرا كأوزان مفتوحة على Hugging Face. تستخدم متغيرات الـ instruct دقة مختلطة FP4/FP8 — حيث تكون أوزان خبراء الـ MoE بدقة FP4 والباقي بدقة FP8 — بينما النماذج الأساسية (base models) هي FP8 مختلطة15. يوفر كلاهما ثلاثة أوضاع لجهد التفكير — non-think، وthink (high)، وthink (max) — مع تفعيل التفكير افتراضياً عند الإعداد العالي (high)16.
ملاحظة حول المصطلحات: هذا إصدار مفتوح الأوزان (open-weight)، وليس مفتوح المصدر (open-source) بالمعنى الدقيق. نشرت DeepSeek الأوزان بموجب رخصة MIT، لكنها لم تصدر بيانات التدريب الكاملة أو كود مصدر خط أنابيب التدريب. هذا الموقف هو نفسه المتبع مع Llama 4 وQwen 3.6 ومعظم النماذج الرائدة "المفتوحة" الأخرى15.
لا تزال رخصة MIT مهمة. يستخدم إصدار Llama 4 رخصة مجتمعية مخصصة من Meta، والتي تفرض قيوداً على الشركات التي لديها أكثر من 700 مليون مستخدم نشط شهرياً وهي غير معتمدة من OSI كمصدر مفتوح17. بعض الإصدارات الأخرى مفتوحة الأوزان (بما في ذلك Kimi K2.6) تصدر بموجب شروط "MIT معدلة". اختيار DeepSeek لرخصة MIT القياسية — وهي واحدة من أكثر الرخص مفتوحة المصدر تسامحاً وشيوعاً — يعني أنه يمكن تنزيل أوزان V4 وتعديلها وإعادة توزيعها وتشغيلها تجارياً دون أي تعقيدات قانونية.
بنية الانتباه الهجين: لماذا تعد نافذة المليون توكن أرخص
نموذج V4 ليس أول نموذج مفتوح الأوزان يوفر سياقاً بحجم مليون توكن — فقد قدم Llama 4 Maverick سياق 1M في عام 2025، وفتح Qwen 3.6 Plus معاينة لمليون توكن في 31 مارس 202612. لذا فإن وصف V4 بأنه أول نموذج مفتوح الأوزان بمليون توكن هو وصف خاطئ. ما يدعيه V4 هو تقديم طريقة أرخص جوهرياً لخدمة هذا السياق فعلياً.
العنوان المعماري لـ V4 هو آلية Hybrid Attention التي تدمج طبقتين جديدتين من الـ attention عبر هيكل Transformer412.
تقوم تقنية Compressed Sparse Attention (CSA) بضغط ذاكرة التخزين المؤقت للقيم والمفاتيح (key-value cache) لكل m من الـ tokens في إدخال واحد باستخدام ضاغط متعلم على مستوى الـ token. بعد ذلك، يتوجه كل استعلام (query) فقط إلى أفضل k من الإدخالات المضغوطة المختارة عبر DeepSeek Sparse Attention (DSA). ويعمل فرع نافذة منزلقة (sliding window) بالتوازي لنمذجة التبعية المحلية.
أما تقنية Heavily Compressed Attention (HCA) فهي أكثر قوة: فهي تدمج m' من الـ tokens (حيث m' أكبر بكثير من m) في إدخال مضغوط واحد، ثم تطبق dense attention عبر تلك التمثيلات المضغوطة. تتبادل الطبقات بين CSA و HCA، وبذلك يحصل النموذج على كل من الاستدعاء المحلي الدقيق والسياق العالمي العام دون دفع تكلفة quadratic-attention الكاملة في كل مكان.
يقدم التقرير الفني أيضًا Manifold-Constrained Hyper-Connections (mHC)، وهي امتداد للوصلات المتبقية (residual connections) تهدف إلى استقرار تدفق الإشارة عبر الطبقات، ويستخدم Muon optimizer — وهو بديل حديث نسبيًا لـ AdamW بدأ يظهر في العديد من عمليات التدريب الكبيرة في أواخر عام 2025 وأوائل عام 202615.
أرقام الكفاءة هي الجوهر. عند سياق يبلغ مليون token:
| النموذج | عمليات الاستدلال لكل token (FLOPs) مقارنة بـ V3.2 | حجم KV cache مقارنة بـ V3.2 |
|---|---|---|
| V4-Pro | 27% | ~10% |
| V4-Flash | 10% | 7% |
هذه هي الفجوة بين "سياق 1 مليون موجود في ورقة المواصفات" و"سياق 1 مليون هو شيء يمكن للعميل البرمجي (agent) استخدامه فعليًا دون حرق مزرعة خوادم". يصف التقرير الفني لـ Hugging Face الأمر بأنه "سياق بمليون token يمكن للعملاء استخدامه فعليًا" — وهو، بالنظر إلى عدد المرات التي تفشل فيها ادعاءات سياق المليون في الممارسة العملية، المشكلة الأصعب في الحل12.
لوحة نتائج الاختبارات القياسية: V4-Pro ضد النماذج الرائدة
نشر فريق DeepSeek نتائج الاختبارات القياسية عبر فئات البرمجة والرياضيات والاستدلال والمهام الوكيلية (agentic). النمط ثابت: يتصدر V4-Pro أو يتساوى في البرمجة والبرمجة التنافسية عند قياسه مقابل الجيل السابق، ويحتل مرتبة في النطاق المتوسط العلوي في الرياضيات، ويتأخر بشكل ملحوظ في أصعب اختبارات المعرفة التخصصية ضد النماذج الرائدة الحالية (Opus 4.7 و GPT-5.5).
البرمجة وهندسة البرمجيات
يتيح V4 ثلاثة أوضاع لجهد الاستدلال — Non-think، و Think (عالي)، و Think (أقصى). النتائج الرئيسية المذكورة أدناه مسجلة عند إعداد Think Max (V4-Pro-Max)، لذا فهي مقارنة بنماذج المنافسين في إعدادات الجهد الأقصى الخاصة بهم حيثما أمكن18.
| الاختبار القياسي | DeepSeek V4-Pro (Max) | Claude Opus 4.6 | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.8% | 87.6% | ~82.6% | — |
| LiveCodeBench | 93.5% | 88.8% | — | — | 91.7% |
| Codeforces (التقييم) | 3206 | — | — | 3168 (GPT-5.4) | 3052 |
| Terminal-Bench 2.0 | 67.9% | 65.4% | — | 75.1% (GPT-5.4 xHigh) | 68.5% |
التوصيف الصادق لنتائج SWE-bench Verified: نموذج V4-Pro متعادل إحصائيًا مع Opus 4.6 (نموذج Anthropic الرائد السابق الذي صدر قبل V4) ولكنه يتأخر عن Opus 4.7 بـ 7 نقاط وعن GPT-5.5 بنحو نقطتين (وفقًا لتتبع لوحة صدارة vals.ai)89. لاحظ أن مصادر تجميع الاختبارات القياسية تختلف حول GPT-5.5 — حيث يسجل BenchLM و TokenMix نسبة 88.7%، بينما يسجل vals.ai نسبة 82.6%. يعكس هذا التباين على الأرجح الفرق بين الفئة القياسية وإعدادات Pro/الجهد العالي؛ تعامل مع 82.6% كحد أدنى متحفظ.
في LiveCodeBench، يتصدر V4-Pro النماذج الرائدة المماثلة من Anthropic و Google بشكل صريح. وفي Terminal-Bench 2.0، يتفوق على Claude Opus 4.6 بمقدار 2.5 نقطة ولكنه يتأخر عن GPT-5.4 (إعداد xHigh) بمقدار 7.2 نقطة وعن Gemini 3.1 Pro بمقدار 0.6 نقطة18.
الرياضيات والاستدلال
| الاختبار القياسي | DeepSeek V4-Pro (Max) | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| IMO AnswerBench | 89.8 | 75.3 | 91.4 | 81.0 |
| HMMT 2026 | 95.2% | 96.2% | 97.7% | — |
| MMLU-Pro | 87.5% | — | — | ~91% |
| HLE (Humanity's Last Exam، بدون أدوات) | 37.7% | 40.0% | 39.8% | 44.4% |
يتفوق V4-Pro في IMO AnswerBench ضد Claude Opus 4.6 و Gemini 3.1 Pro ويقترب من نتائج GPT-5.4. وفي HMMT 2026 و HLE بدون أدوات، تتقدم النماذج الرائدة مغلقة المصدر192014.
اختبار HLE معبر بشكل خاص: إنه اختبار قياسي للخبراء عبر المجالات حيث يظهر عمق المعرفة العالمية، وقد حل V4-Pro خلف Gemini 3.1 Pro بأكثر من ست نقاط. ومقارنة بـ Claude Opus 4.7 الأحدث (الصادر في 16 أبريل 2026) و GPT-5.5 (23 أبريل 2026)، تتسع الفجوة في HLE بشكل أكبر — حيث يصل Opus 4.7 إلى 46.9% و GPT-5.5 إلى 41.4% بدون أدوات21.
المهام الوكيلية وتصفح الويب
في BrowseComp، وهو الاختبار القياسي لتصفح الويب الوكيلي، سجل إصدار V4-Pro Max حسب التقارير 83.4% — مما يضعه في النطاق المتوسط العلوي بين النماذج الرائدة مغلقة المصدر، مع تسجيل Claude Opus 4.7 لنسبة 79.3% و Gemini 3.1 Pro لنسبة 85.9%22. يذكر فريق DeepSeek أيضًا أن V4 قد تم تحسينه للاستخدام مع مجموعات الأدوات الوكيلية مثل Claude Code من Anthropic4.
الملخص الصادق الذي يظهر عبر هذه الاختبارات القياسية: V4-Pro هو بشكل حاسم أفضل نموذج مفتوح الأوزان في البرمجة والبرمجة التنافسية، ومنافس في المهام الوكيلية، ويتأخر بنحو 3-8 نقاط مئوية عن النماذج الرائدة المغلقة في الاستدلال القائم على المعرفة العالمية وأصعب اختبارات هندسة البرمجيات28.
تسعير API: حسابات إصابة ذاكرة التخزين المؤقت والموعد النهائي للعرض الترويجي في 31 مايو
هذا هو المكان الذي يعيد فيه V4 تشكيل المشهد — ولكن فقط بعد انتهاء العرض الترويجي للإطلاق.
أسعار قائمة V4-Pro (ما بعد العرض الترويجي، ما يجب أن تخطط له الميزانيات)
| الفئة | لكل مليون توكن |
|---|---|
| الإدخال (cache hit) | $0.174 |
| الإدخال (cache miss) | $1.74 |
| المخرجات | $3.48 |
سعر الـ cache-hit هو بالضبط 1/10 من سعر الـ cache-miss — قامت DeepSeek بخفضه من النسبة الأصلية عند الإطلاق في 26 أبريل 202610.
عرض إطلاق V4-Pro (نشط حتى 31 مايو 2026، 15:59 بالتوقيت العالمي المنسق)
| الفئة | لكل مليون توكن |
|---|---|
| الإدخال (cache hit) | $0.003625 |
| الإدخال (cache miss) | $0.435 |
| المخرجات | $0.87 |
هناك خصم بنسبة 75% سارٍ على V4-Pro حتى نهاية مايو 202610. بعد تلك الفترة، سيبدأ العمل بأسعار القائمة. ابنِ ميزانياتك بناءً على سعر القائمة، وليس العرض الترويجي — استخدام 0.435 دولار / 0.87 دولار كرقم للتخطيط يجعلك عرضة لصدمة سعرية تبلغ 4 أضعاف عند انتهاء العرض.
V4-Flash (التسعير القياسي)
| الفئة | لكل مليون توكن |
|---|---|
| الإدخال (cache hit) | $0.0028 |
| الإدخال (cache miss) | $0.14 |
| المخرجات | $0.28 |
مقارنات النماذج الرائدة (تكلفة مخرجات قائمة V4-Pro)
| النموذج | الإدخال | المخرجات | توفير V4-Pro (المخرجات) |
|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | أرخص بـ ~7.2 مرة |
| GPT-5.5 | $5.00 | $30.00 | أرخص بـ ~8.6 مرة |
| GPT-5.5 Pro | $30.00 | $180.00 | أرخص بـ ~51.7 مرة |
| GPT-5.4 | $2.50 | $15.00 | أرخص بـ ~4.3 مرة |
عبء العمل الذي ينتج 100 مليون توكن مخرجات شهرياً على Claude Opus 4.7 يكلف 2,500 دولار. نفس عبء العمل على V4-Pro بسعر القائمة يكلف 348 دولاراً. ونفس عبء العمل على GPT-5.5 يكلف 3,000 دولار11. وصفت VentureBeat نموذج V4-Pro بأنه وصل "بـ 1/6 من تكلفة" Opus 4.7 و GPT-5.5؛ الحسابات عند سعر القائمة أقرب إلى 1/7 في المخرجات وحوالي 1/3 في إدخال cache-miss — لكن حجم الفرق يظل قائماً11.
أرقام V4-Flash أكثر إثارة للدهشة. بسعر 0.14 دولار / 0.28 دولار، يتفوق V4-Flash سعرياً على كل النماذج الغربية الرائدة من الفئة "الصغيرة" — GPT-5.4 Nano و Gemini 3.1 Flash و GPT-5.4 Mini و Claude Haiku 4.5 — بينما لا يزال يسجل 91.6% على LiveCodeBench ويقدم مخرجات بسرعة تقارب 83.7 توكن في الثانية على DeepSeek's API23.
قصة Huawei Ascend: تأكيد الاستنتاج، والتدريب لا يزال غالباً على NVIDIA
إلى جانب إصدار V4، أعلنت Huawei عن "دعم كامل" لاستنتاج V4 على معالجات Ascend AI الخاصة بها. وقالت Huawei إن خط إنتاج Ascend SuperNode بالكامل قد تم "تكييفه بالكامل" مع V4 قبل الإطلاق، مع تعاون وثيق بين DeepSeek و Huawei في الفترة التي سبقت الإصدار89.
أفادت DeepSeek بشكل منفصل أن V4 يظهر تكافؤاً في الأداء على وحدات معالجة Huawei Ascend (NPUs) ووحدات معالجة الرسومات NVIDIA (GPUs) لأعباء عمل الاستنتاج — وهو ادعاء، إذا تم تأكيده بشكل مستقل، فإنه يقوض الافتراض بأن مختبرات الذكاء الاصطناعي الصينية تحتاج إلى أحدث شرائح NVIDIA لتشغيل نموذج من الفئة الرائدة في مرحلة الإنتاج24.
ما لا تثبته قصة Ascend هو: أن V4-Pro نفسه ربما لا يزال قد تم تدريبه بشكل أساسي على أجهزة NVIDIA. لا يصف التقرير التقني لـ DeepSeek خط أنابيب تدريب كاملاً يعتمد فقط على Ascend، وقال أستاذ علوم الكمبيوتر في جامعة تسينغهوا لـ MIT Technology Review إن ميزات السياق الطويل (long-context) على وجه الخصوص تبدو وكأنها جاءت من وحدات معالجة الرسومات NVIDIA13. تشير تكهنات المجتمع إلى أن V4-Flash (النموذج الأصغر بحجم 284B) ربما تم استخدامه لاختبار بنية التدريب التحتية لـ Huawei، لكن DeepSeek لم تؤكد ذلك.
لذا فإن عبارة "الصين تبني ذكاءً اصطناعياً رائداً بدون NVIDIA" هي استنتاج خاطئ بالنسبة لـ V4. النسخة الأدق هي الأكثر إثارة للاهتمام: قامت DeepSeek ببناء مسار استنتاج يعمل على شرائح محلية، وهو الجزء من قصة ضوابط تصدير الذكاء الاصطناعي الذي يغير فعلياً الاقتصاديات اليومية داخل الصين — حتى لو كان التدريب لا يزال يعتمد على مخزونات NVIDIA المهربة أو التي تم الحصول عليها قبل القيود.
الجزء المتعلق بالمستقبل: تم إطلاق شريحة Ascend 950PR من Huawei في الربع الأول من عام 2026، ومن المقرر شحن الشريحة المكملة 950DT بحلول نهاية عام 2026، مع توقع DeepSeek وصول Ascend 950 SuperNodes إلى التوفر الواسع في النصف الثاني من العام825. إذا كانت 950DT تدعم خط أنابيب تدريب موثوقاً، فقد يكون إصدار DeepSeek القادم هو الأول الذي يمتلك قصة شرائح محلية محتملة من البداية إلى النهاية.
كيف يقارن V4 بمجال الأوزان المفتوحة
يدخل V4 مشهداً تنافسياً للأوزان المفتوحة اشتد بشكل كبير خلال الأشهر الستة الماضية:
| النموذج | المختبر | تاريخ الإصدار | أوزان مفتوحة | الترخيص | أبرز نقاط القوة في الاختبارات |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | DeepSeek | 24 أبريل 2026 | نعم | MIT | SWE-bench, LiveCodeBench, Codeforces |
| GLM-5.1 | Z.ai | 7 أبريل 2026 | نعم | Apache 2.0 | SWE-Bench Pro (رائد الأوزان المفتوحة) |
| Kimi K2.6 | Moonshot AI | 20 أبريل 2026 | نعم | MIT معدل | SWE-Bench, أسراب الوكلاء (agentic swarms) |
| Qwen 3.6 Plus | Alibaba | 31 مارس 2026 (معاينة 1M) | نعم | Apache 2.0 | متعدد اللغات، سياق طويل |
| Llama 4 (Scout/Maverick) | Meta | 2025 | نعم | Custom Community | أغراض عامة |
يستحوذ V4-Pro على عرش الأوزان المفتوحة في البرمجة والبرمجة التنافسية، بينما لا يزال GLM-5.1 يتصدر في SWE-Bench Pro بنسبة 58.4%. العنوان الرئيسي هو أن سقف الأوزان المفتوحة قد انتقل إلى وضع أصبح فيه، في معظم اختبارات المعرفة غير المتخصصة، ضمن فجوة من رقم واحد من النماذج الرائدة المغلقة2.
مصفوفة القرار: متى تختار V4 — ومتى لا تفعل
بالنظر إلى المشهد في أبريل-مايو 2026:
| حالة الاستخدام | الخيار الأفضل | السبب |
|---|---|---|
| عملاء البرمجة (Coding agents) ذوي الحجم الكبير بميزانية محددة لكل مهمة | V4-Pro | تكلفة المخرجات (Output) تهم أكثر من آخر 5-7 نقاط في SWE-bench |
| تحليل المستندات بسياق (Context) يزيد عن 500 ألف توكن | V4-Pro أو V4-Flash | تقنية Hybrid attention تجعل تقديم سياق 1 مليون توكن رخيصاً |
| البرمجة المعتمدة على العملاء (Agentic coding) عالية المستوى حيث تحسم فجوات الدقة النتيجة | Claude Opus 4.7 | يتصدر SWE-bench Verified بنسبة 87.6% — بفارق 7 نقاط عن V4-Pro |
| عمليات النشر الإنتاجية التي تتطلب إقامة صارمة للبيانات في الصين | V4 على Huawei Ascend | مسار استدلال (Inference) متوافق بشكل فريد |
| الاستضافة الذاتية على الأجهزة التجارية العادية | V4-Flash | وجود 13 مليار بارامتر نشط يجعل استضافته ممكنة |
| أعباء العمل حيث تهيمن توكنز المخرجات على التكلفة | V4-Pro | خصم المخرجات بنسبة 7-8 أضعاف يتراكم بسرعة عند التوسع |
| الطلبات الرخيصة ذات السياق الصغير (الدردشة، التصنيفات) | V4-Flash أو GPT-5.4 Mini | كلاهما لا يحتاج إلى نموذج بسياق 1 مليون |
| أصعب مهام الاستنتاج المبني على المعرفة العالمية | GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro | V4-Pro يتأخر بـ 6 نقاط أو أكثر في HLE بدون أدوات |
تحذيرات تجدر الإشارة إليها بوضوح
ثلاثة.
أولاً، المعايير (Benchmarks) المذكورة أعلاه هي أرقام DeepSeek المنشورة الخاصة بها. لا تزال عمليات إعادة الإنتاج المستقلة لـ V4-Pro قيد الوصول، وكان النموذج في مرحلة المعاينة العامة لمدة تزيد قليلاً عن أسبوع وقت كتابة هذا التقرير. جاءت بعض التقييمات المبكرة من جهات خارجية أقل قليلاً من أرقام DeepSeek المنشورة في مهام مثل SWE-bench Pro3. تعامل مع الأرقام الرسمية كادعاءات للحد الأقصى حتى تستقر المعايير الخارجية.
ثانياً، أسعار الإطلاق الترويجية — 0.435 دولار لكل مليون توكن مدخلات و0.87 دولار لكل مليون توكن مخرجات لـ V4-Pro — هي خصم مؤقت، وليست التكلفة الدائمة. السعر الرسمي البالغ 1.74 دولار / 3.48 دولار هو ما يجب بناء الميزانيات عليه10. بعد 31 مايو 2026، أي شخص وضع خارطة طريقه بناءً على العرض الترويجي سيحصل على فاتورة مضاعفة 4 مرات.
ثالثاً، "الأوزان المفتوحة" لا تعني "سهولة الاستضافة الذاتية". 1.6 تريليون بارامتر بدقة مختلطة FP4/FP8 لا تزال تعني مئات الجيجابايت من الأوزان، وتقديم سياق 1 مليون توكن بزمن استجابة منخفض يتطلب قدرة تسريع كبيرة. بالنسبة لمعظم الفرق، V4-Pro هو مفتوح الأوزان نظرياً ولـ API فقط عملياً. V4-Flash هو الهدف الأكثر واقعية للاستضافة الذاتية.
ماذا يعني هذا للمطورين
ثلاث خلاصات عملية للفرق التي تقرر أين تنفق ميزانية التوكنز الخاصة بها:
لأعباء العمل الكثيفة في البرمجة: V4-Pro بالتسعير الرسمي أرخص بنحو 7 مرات في المخرجات من Claude Opus 4.7 بينما يتأخر عنه بـ 7 نقاط في SWE-bench Verified. بالنسبة لتدفقات عمل توليد الأكواد ومراجعتها ذات الحجم الكبير حيث لا تتطلب المهمة الهامشية استنتاجاً من مستوى النخبة، فإن V4-Pro هو الخيار الافتراضي الجديد. ادمجه مع نموذج مغلق من الفئة الرائدة للمهام الصعبة، أو استخدم Opus 4.7 عندما تحسم فجوات الدقة النتائج.
للتدفقات المعتمدة على العملاء (Agentic workflows): V4-Pro منافس في BrowseComp وTerminal-Bench 2.0، حيث يتأخر عن أفضل النماذج المغلقة الرائدة ببضع نقاط في كل منهما. بالنسبة لأنظمة العملاء حيث يمكن لطبقة التنسيق توجيه المهام الفرعية الصعبة إلى نموذج مغلق رائد وإرسال الباقي إلى V4-Pro، فإن اقتصاديات النظام ككل تتغير بشكل كبير.
للمستضيفين ذاتياً: V4-Flash بـ 284 مليار بارامتر إجمالي / 13 مليار نشط هو الرقم الأكثر إثارة للاهتمام. يتطلب V4-Pro الكامل بنية تحتية ضخمة حتى مع الضغط (Quantization)؛ أما V4-Flash فهو في النطاق الذي يمكن لفريق ممول جيداً تشغيله على مجموعات GPU تجارية أو عقد Huawei Ascend الفائقة. مع ترخيص MIT وسياق 1 مليون، يعد V4-Flash أقوى هدف استضافة ذاتية مفتوح الأوزان لأعباء عمل الأكواد والعملاء تم إصداره حتى الآن.
للحصول على سياق أوسع حول كيفية ضغط تكاليف المخرجات من الفئة الرائدة في جميع المجالات، راجع تحليلنا لـ GPT-5.5 وأول قاعدة أعيد تدريبها من OpenAI منذ GPT-4.5.
الخلاصة
لا يقوم DeepSeek V4 بإعادة رسم حدود النماذج الرائدة — فلا يزال Claude Opus 4.7 و GPT-5.5 يتصدران في أصعب اختبارات المعرفة المتخصصة والاستنتاج، وتفوق Opus 4.7 بفارق 7 نقاط في SWE-bench Verified هو تفوق حقيقي. ما يفعله V4 هو خفض تكلفة الوصول إلى قدرات قريبة من النماذج الرائدة بشكل كبير. إن نموذج MoE بحجم 1.6T يقترب من أداء Opus 4.6 في SWE-bench Verified ويتصدر في LiveCodeBench، مع سياق (context) يصل إلى 1 مليون وترخيص MIT، وبسعر 1.74 دولار للمدخلات و 3.48 دولار للمخرجات لكل مليون توكن (قائمة الأسعار)، هو نوع مختلف من الإصدارات عما رأيناه من أي مختبر آخر في الربع الأخير.
يضيف تكامل Huawei Ascend طبقة ثانية: V4 هو أول إصدار صيني للذكاء الاصطناعي من فئة النماذج الرائدة بمسار استدلال (inference) مؤكد على رقائق محلية، حتى لو كان خط إنتاج التدريب لا يزال يعتمد على NVIDIA. بالنسبة للمطور الذي يختار أين ينفق المليون توكن القادمة من ميزانيته — خاصة قبل انتهاء عرض 31 مايو — أصبح V4 الآن الخيار الافتراضي مفتوح الأوزان لمهام البرمجة وأحد أقوى الخيارات للمهام الوكيلية (agentic tasks).
ما يظل مفتوحاً حقاً هو ما إذا كانت DeepSeek تستطيع الحفاظ على هذا الإيقاع. تم إطلاق V3.2 في ديسمبر 2025؛ و V4 في أبريل 2026. إذا تم إطلاق V4.x و V5 في جداول زمنية مماثلة، فقد تستمر الفجوة بين سقف النماذج مفتوحة الأوزان والنماذج الرائدة المغلقة في الانحسار. وإذا لم يحدث ذلك، فسيصبح V4 هو العلامة الفارقة لمختبر اكتسب سمعته من خلال تحقيق نتائج تتجاوز ميزانية الحوسبة المتاحة له.
المراجع
Footnotes
-
TechCrunch — "DeepSeek previews new AI model that 'closes the gap' with frontier models", April 24, 2026. ↩ ↩2 ↩3
-
Bloomberg — "DeepSeek Unveils Newest Flagship AI Model a Year after Upending Silicon Valley", April 24, 2026. ↩ ↩2 ↩3 ↩4
-
CNBC — "China's DeepSeek releases preview of long-awaited V4 model as AI race intensifies", April 24, 2026. ↩ ↩2
-
MarkTechPost — "DeepSeek AI Releases DeepSeek-V4: Compressed Sparse Attention and Heavily Compressed Attention Enable One-Million-Token Contexts", April 24, 2026. ↩ ↩2 ↩3 ↩4 ↩5
-
NVIDIA Technical Blog — "Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints", April 24, 2026. ↩ ↩2
-
NxCode — "DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench, $0.30/MTok — Full Specs", April 24, 2026. ↩
-
BuildFastWithAI — "DeepSeek V4-Pro Review: Benchmarks, Pricing & Architecture", April 24, 2026. ↩ ↩2 ↩3
-
Anthropic — "Introducing Claude Opus 4.7"، 16 أبريل 2026 — 87.6% على SWE-bench Verified وفقاً للوحات الصدارة الخارجية (الأساس لـ Opus 4.6 كان 80.84%). ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
لوحة صدارة vals.ai SWE-bench Verified تتبع GPT-5.5 بنسبة 82.60% على SWE-bench Verified (vals.ai/benchmarks/swebench). تقارير BenchLM و TokenMix تشير إلى 88.7% لـ GPT-5.5 Pro/إعدادات الجهد العالي — تعامل مع النتائج بين 82.6% و 88.7% كنطاق مُبلغ عنه اعتماداً على الفئة والمنهجية. ↩ ↩2 ↩3 ↩4 ↩5
-
وثائق DeepSeek API — "Models & Pricing". خصم 75% على V4-Pro حتى 2026-05-31 الساعة 15:59 بالتوقيت العالمي المنسق؛ cache-hit = 1/10 من cache-miss بعد تعديل 26 أبريل 2026. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
VentureBeat — "DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th the cost of Opus 4.7, GPT-5.5"، 24 أبريل 2026. ↩ ↩2 ↩3 ↩4
-
مدونة Hugging Face — "DeepSeek-V4: a million-token context that agents can actually use"، 24 أبريل 2026. تتضمن سوابق حول إصدارات Llama 4 Maverick و Qwen 3.6 Plus بسياق 1 مليون توكن. ↩ ↩2 ↩3 ↩4 ↩5
-
MIT Technology Review — "Three reasons why DeepSeek's new model matters"، 24 أبريل 2026 — أستاذ علوم الحاسب بجامعة تسينغ هوا حول احتمالية أن V4-Pro لا يزال يُدرب بشكل أساسي على وحدات معالجة الرسومات من NVIDIA، خاصة ميزات السياق الطويل. ↩ ↩2 ↩3
-
مجتمع DEV — "DeepSeek Just Dropped V4. Here's What the Benchmarks Actually Tell You."، 24 أبريل 2026. ↩ ↩2
-
Hugging Face — deepseek-ai/DeepSeek-V4-Pro، رخصة MIT. التقرير التقني، تفاصيل mHC + مُحسن Muon، دقة FP4/FP8. ↩ ↩2 ↩3 ↩4
-
vLLM Recipes — DeepSeek-V4-Pro، أبريل 2026. ↩
-
اتفاقية ترخيص مجتمع Llama 4 — llama.com/llama4/license/ — قيد 700 مليون مستخدم نشط شهرياً؛ مُصنف كـ "متاح المصدر" بدلاً من مفتوح المصدر وفقاً لـ OSI. ↩
-
BenchLM — "DeepSeek V4 Pro Benchmarks 2026: Scores, Rankings & Performance"، أبريل 2026. ↩ ↩2
-
Officechai — "DeepSeek تطلق DeepSeek V4-Pro و V4-Flash، وتقدم أداءً بمستوى GPT 5.4 و Opus 4.6 بكسر من التكلفة"، 24 أبريل 2026. ↩
-
AnalyticsIndiaMag — "DeepSeek تطلق V4 Pro، وتتحدى OpenAI و Anthropic في اختبارات الأداء الرئيسية"، 24 أبريل 2026. ↩
-
SCMP — "مخيب للآمال أم مقلل من شأنه؟ DeepSeek V4 يظهر مكاسب 'مبهرة'"، 24 أبريل 2026 — مقارنة HLE بدون أدوات مقابل Opus 4.7 و GPT-5.5. ↩
-
Framia — "مقارنات اختبارات الأداء من جهات خارجية لـ DeepSeek V4 مقابل GPT-5.4 و Claude Opus 4.6 و Gemini 3.1 Pro"، أبريل 2026 — BrowseComp 83.4% لـ V4-Pro Max. ↩
-
ArtificialAnalysis — "DeepSeek V4 Flash (Max) - تحليل الذكاء والأداء والسعر"، أبريل 2026. ↩ ↩2
-
Phemex News — "DeepSeek V4 يضاهي أداء NVIDIA على Huawei Ascend، ويبدد شائعات التأخير"، 24 أبريل 2026. ↩ ↩2
-
TrendForce — "فك شفرة DeepSeek V4: كيف يدعم Ascend 950 PR من Huawei مسعى الصين لكسر الاعتماد على CUDA"، 7 أبريل 2026 — تم إطلاق Ascend 950PR في الربع الأول من 2026، ومن المتوقع إطلاق 950DT بحلول نهاية 2026. ↩