هل CANN Next بديل كامل لـ CUDA؟

لا. يوفر CANN Next تجريدات برمجية متوافقة مع CUDA وبدائل API شبه جاهزة للعمليات الشائعة، لكنه ليس إعادة تنفيذ كاملة لـ CUDA. قد تتطلب مكتبات CUDA المتخصصة للغاية (نوى cuDNN المخصصة، قوالب CUTLASS) نقلاً يدوياً. الهدف هو تقليل جهد الهجرة من شهور إلى أسابيع، وليس تحقيق توافق بدون أي مجهود.

هل يمكنني شراء Atlas 350 خارج الصين؟

يستهدف Atlas 350 بشكل أساسي السوق المحلية الصينية. لم يتم الإعلان عن التوافر الدولي، وقد تحد قيود التصدير المفروضة على أشباه الموصلات الصينية المتقدمة في بعض الولايات القضائية من التوزيع.

ما هي أعباء العمل التي يناسبها 950PR بشكل أفضل؟

الاستدلال (خاصة تشغيل LLM بدقة FP4/FP8) وأنظمة التوصية. الشريحة ليست مصممة لأعباء عمل تدريب الذكاء الاصطناعي، والتي تتطلب عرض نطاق ترددي أعلى للذاكرة وخصائص حوسبة مختلفة. شريحة Huawei المخصصة للتدريب هي Ascend 910C.

news

Huawei Ascend 950PR: شريحة الذكاء الاصطناعي التي تتحدى

٢ أبريل ٢٠٢٦

#Huawei Ascend 950PR #AI chips #NVIDIA H20 #CANN Next #Atlas 350 #AI hardware #China AI #semiconductor

Huawei Ascend 950PR Beats NVIDIA H20: 2.8× FP8, CUDA-Ready

ملخص

كشفت Huawei النقاب عن Ascend 950PR في مؤتمر شركاء الصين في 20 مارس 2026 — وهو مسرع ذكاء اصطناعي يركز على الاستنتاج (inference) يقدم 1 PFLOPS بدقة FP8 و 1.56 PFLOPS بدقة FP4، وهو ما يعادل تقريبًا 2.8 ضعف القوة الحسابية للبطاقة الواحدة من NVIDIA H20.¹² تأتي الشريحة مدمجة في بطاقة Atlas 350 مع ذاكرة HiBL 1.0 ذات النطاق الترددي العالي بسعة 112 جيجابايت من إنتاج Huawei الداخلي، وهي أول مسرع ذكاء اصطناعي صيني يدعم استنتاج FP4 منخفض الدقة على نطاق واسع.¹ ومع ذلك، فإن الاختراق الحقيقي يكمن في البرمجيات: حيث يقدم CANN Next نموذج برمجة متوافق مع CUDA، مما أقنع ByteDance و Alibaba بالتخطيط لطلبيات كبيرة، حيث تستهدف Huawei شحن 750,000 وحدة في عام 2026.³⁴

ما ستتعلمه

المواصفات العتادية الكاملة لـ Ascend 950PR وبطاقة المسرع Atlas 350
كيف يقارن 950PR بـ NVIDIA H20 وأين يتفوق كل منهما
ما هو CANN Next ولماذا يغير التوافق مع CUDA قواعد اللعبة لشركة Huawei
لماذا تضع ByteDance و Alibaba طلبيات بعد سنوات من التردد
التسعير، والجدول الزمني للإنتاج، وما يعنيه هذا لسوق شرائح الذكاء الاصطناعي العالمي
سياق ضوابط التصدير الأمريكية التي شكلت هذه اللحظة

لماذا يعتبر Ascend 950PR مهمًا

لسنوات، كانت شرائح الذكاء الاصطناعي من Huawei تعاني من مشكلة "العتاد جيد بما يكفي، لكن البرمجيات ليست جاهزة بما يكفي". قدمت سلسلة Ascend 910 أرقامًا حسابية محترمة، لكن المؤسسات واجهت صعوبة في نقل أعباء العمل القائمة على CUDA إلى نظام Huawei البيئي. وكانت النتيجة أن الشركات الصينية — رغم الضغوط الحكومية لاعتماد السيليكون المحلي — استمرت في شراء وحدات معالجة الرسومات H20 من NVIDIA المتوافقة مع قيود التصدير لأن تكلفة تبديل البرمجيات كانت مرتفعة للغاية.

يغير Ascend 950PR هذه المعادلة على الجبهتين. على مستوى العتاد، فإنه يوفر ما يقرب من ثلاثة أضعاف القوة الحسابية للاستنتاج مقارنة بـ H20 عند مستويات الدقة الأكثر أهمية لخدمة نماذج اللغات الكبيرة. وعلى مستوى البرمجيات، تقدم حزمة CANN Next الجديدة تجريدات برمجية متوافقة مع CUDA — مثل thread blocks و warps و kernel launches — تتيح للمطورين نقل كود CUDA الحالي بأقل قدر من إعادة الكتابة بدلاً من البدء من الصفر.⁵

التوقيت له دلالة كبيرة. فقد قيدت ضوابط التصدير الأمريكية وصول الصين إلى عتاد NVIDIA المتطور منذ أكتوبر 2022، حيث كانت H20 بمثابة عرض NVIDIA المتوافق مع القيود للسوق الصينية. ويمثل 950PR المحاولة الأكثر مصداقية لشركة Huawei حتى الآن لجعل هذا الحل الوسط غير ضروري.⁶

المواصفات العتادية: ماذا يوجد داخل Atlas 350

إن Ascend 950PR هو قالب الحوسبة (compute die) في قلب بطاقة المسرع Atlas 350. إليك تفصيل المواصفات.

أداء الحوسبة

الدقة	الأداء	مقابل NVIDIA H20
FP4	1.56 PFLOPS	~5.3x (H20 يفتقر إلى FP4 الأصلي)
FP8	1 PFLOPS (1,000 TFLOPS)	~3.4x (H20: 296 TFLOPS FP8)
FP16	لم يتم الكشف عنها رسميًا	—

تزعم تسويقات Huawei الرسمية أن القوة الحسابية تبلغ 2.8 ضعف H20 للبطاقة الواحدة.¹ نسبة FP8 الخام تقترب من 3.4 ضعف، لكن رقم 2.8 ضعف يرجح أنه يأخذ في الاعتبار معايير الاستنتاج في العالم الحقيقي بدلاً من ذروة الإنتاجية النظرية، وهو ما يعد مقارنة أكثر صدقًا.

الذاكرة والنطاق الترددي

المواصفات	Ascend 950PR (Atlas 350)	NVIDIA H20
سعة الذاكرة	112 GB HBM (HiBL 1.0)	96 GB HBM3
النطاق الترددي للذاكرة	1.4 TB/s	4.0 TB/s
النطاق الترددي للربط البيني	2.0 TB/s (LingQu)	900 GB/s (NVLink)

تعد فجوة النطاق الترددي للذاكرة هي المقايضة الأكثر وضوحًا. النطاق الترددي لذاكرة H20 البالغ 4.0 تيرابايت/ثانية هو ما يقرب من ثلاثة أضعاف 1.4 تيرابايت/ثانية في 950PR، وهو أمر مهم لأعباء العمل المقيدة بالذاكرة مثل استنتاج LLM ذو السياق الطويل حيث تكمن العقبة في نقل بيانات ذاكرة التخزين المؤقت (key-value cache) بدلاً من الحوسبة الخام.¹² ومع ذلك، فإن رابط LingQu من Huawei بسرعة 2.0 تيرابايت/ثانية هو أكثر من ضعف النطاق الترددي لـ NVLink في H20، مما يمنح التكوينات متعددة الشرائح ميزة في الاستنتاج الموزع.¹

الطاقة والتصنيع

المواصفات	Ascend 950PR	NVIDIA H20
TDP	600 W	400 W
عقدة التصنيع	SMIC 7nm (N+2)	TSMC 4nm
نوع HBM	HiBL 1.0 (إنتاج Huawei الداخلي)	HBM3 (SK Hynix/Samsung)

يستهلك 950PR طاقة أكثر بنسبة 50% من H20، وهي نتيجة مباشرة للفجوة بين عملية تصنيع 7 نانومتر مقابل 4 نانومتر.² تعوض Huawei ذلك بحوسبة مطلقة أعلى، ولكن يحتاج مشغلو مراكز البيانات إلى مراعاة الأعباء الإضافية للحرارة وتوصيل الطاقة. ذاكرة HiBL 1.0 هي أول ذاكرة ذات نطاق ترددي عالٍ من إنتاج Huawei الداخلي، وهي مصممة لتقليل الاعتماد على موردي HBM الأجانب — وهي أولوية استراتيجية نظرًا لعدم اليقين المستمر في سلاسل التوريد.¹

CANN Next: الاختراق البرمجي الذي يهم حقًا

لم تكن الحوسبة الخام أبدًا العقبة الرئيسية لشركة Huawei، بل كانت توافق البرمجيات. يمثل CANN Next إجابة Huawei على احتكار CUDA الذي أبقى المؤسسات مرتبطة بعتاد NVIDIA.

ماذا يفعل CANN Next فعليًا

يقدم CANN Next نموذج برمجة SIMT (تعليمات واحدة، خيوط متعددة) يعكس تجريدات CUDA الأساسية. سيتعرف المطورون المعتادون على CUDA على اللبنات الأساسية: thread blocks لتنظيم العمل المتوازي، و warps لجدولة الخيوط على مستوى العتاد، و kernel launches لإرسال وظائف الحوسبة إلى المسرع.⁵

الفرق الرئيسي عن جهود Huawei البرمجية السابقة هو النهج. فبدلاً من بناء طبقة ترجمة تحول كود CUDA في وقت التشغيل (مما يؤدي إلى أعباء إضافية وفجوات في التوافق)، يوفر CANN Next بدائل شبه مطابقة لمكافئات CUDA. تتعامل Huawei مع CUDA كمعيار لغة واقعي مع ربط العمليات بالقدرات الأصلية لعتاد Ascend.⁵

لماذا غير هذا رأي ByteDance

اختبرت شركتا ByteDance و Alibaba شرائح Ascend السابقة ووجدتا أن تكلفة نقل البرمجيات باهظة. ومع إطلاق CANN Next، صرحت مصادر لوكالة Reuters أن الشركات "أصبحت الآن أكثر سعادة لأن الشريحة أصبحت أكثر توافقاً مع نظام برمجيات CUDA الخاص بـ Nvidia وتتمتع بسرعات استجابة أفضل".³ النتيجة العملية هي أن الفرق التي تمتلك خطوط إنتاج استنتاج (inference) حالية تعتمد على CUDA يمكنها نقل أعباء العمل دون إعادة كتابة حزمة البرمجيات بالكامل — وهو شرط أساسي لم تتمكن أجيال Ascend السابقة من تلبيته.

خطط اعتماد العملاء والإنتاج

طلبيات ByteDance و Alibaba

أفادت Reuters في 27 مارس 2026 أن ByteDance و Alibaba تخططان لتقديم طلبيات لشريحة Ascend 950PR بعد نجاح اختبارات العملاء.³ هذه ليست مجرد إشارات اهتمام تخمينية — فقد استلمت كلتا الشركتين عينات في يناير 2026 وكانتا تقومان بتشغيل اختبارات أداء استنتاج بمستوى الإنتاج الفعلي لمدة شهرين تقريباً.⁴

هذا الأمر مهم لأن ByteDance (التي تدير TikTok و Douyin) و Alibaba (التي تدير واحدة من أكبر المنصات السحابية في آسيا) تمثلان بالضبط حجم العملاء الذي يمنح المصداقية لأي منصة شرائح جديدة. إذا قامت أي من الشركتين بنشر مجموعات 950PR على نطاق واسع، فسيؤدي ذلك إلى إنشاء قاعدة تجارية مثبتة يمكن لشرائح Ascend المستقبلية البناء عليها — وهو أمر لم تحققه Huawei من قبل في القطاع الخاص.⁴

الجدول الزمني للإنتاج والتسعير

التفاصيل	القيمة
بدء الإنتاج الضخم	الربع الثاني من 2026
هدف الشحن لعام 2026	750,000 وحدة
نسخة ذاكرة DDR	~~50,000 يوان (~~6,900 دولار)
نسخة HBM (HiBL 1.0)	~~70,000 يوان (~~9,600 دولار)
زيادة الشحن الكاملة	النصف الثاني من 2026

يضع هذا التسعير بطاقة Atlas 350 في وضع تنافسي ضد H20، التي بيعت في الصين بأسعار متفاوتة اعتماداً على قيود التوريد وهوامش ربح الوسطاء. التسعير المكون من مستويين — مع نسخة DDR أرخص لعمليات النشر الحساسة للتكلفة ونسخة HBM متميزة لأعباء العمل التي تتطلب نطاقاً ترددياً عالياً — يشير إلى أن Huawei تستهدف كلاً من مزارع الاستنتاج وأنظمة التوصية.⁴

سياق ضوابط التصدير

تأتي شريحة Ascend 950PR في بيئة جيوسياسية معقدة. فقد فرضت الولايات المتحدة ضوابط على التصدير لأول مرة في أكتوبر 2022 وتم تشديدها في أكتوبر 2023، مما حد من وصول الصين إلى أقوى شرائح NVIDIA. وقد صممت NVIDIA شريحة H20 خصيصاً للامتثال لهذه القيود مع الاستمرار في تقديم قدرات حوسبة ذكاء اصطناعي ذات مغزى للسوق الصيني.⁶

وفي تحول مفاجئ، أعلنت إدارة ترامب في 8 ديسمبر 2025 أنها ستوافق على تراخيص تصدير شرائح H200 من NVIDIA إلى الصين، بشرط دفع رسوم إضافية بنسبة 25% ووضع سقف لحجم الصادرات يحدها بنسبة 50% من المبيعات المحلية في الولايات المتحدة.⁷ وأفادت Reuters في أواخر يناير 2026 أن الصين وافقت على أول دفعة رئيسية من واردات H200، مما سمح لشركات ByteDance و Alibaba و Tencent بشراء أكثر من 400,000 وحدة مجتمعة.⁸ أشار هوانغ في البداية في يناير إلى أن طلبات الشراء لم تكن قد قُدمت بعد، ولكن بحلول منتصف مارس 2026 أكد أن NVIDIA تلقت طلبيات من عملاء صينيين وبدأت في استئناف التصنيع.⁹ وهذا يعني أن 950PR لا تدخل سوقاً يفتقر إلى البدائل — بل تتنافس ضد كل من H20 الحالية و H200 المتاحة حديثاً.

أشار تقرير صادر عن مجلس العلاقات الخارجية إلى أن Huawei ستظل تنتج حوالي 5% فقط من إجمالي قوة حوسبة الذكاء الاصطناعي لشركة NVIDIA في عام 2025، ومن المتوقع أن تنخفض إلى 4% في عام 2026.⁶ لا تسد شريحة 950PR هذه الفجوة بالأرقام المطلقة، لكنها لا تحتاج إلى ذلك. إذا استحوذت على حصة ذات مغزى من سوق الاستنتاج المحلي في الصين — وهو الجزء الأسرع نمواً في الطلب على حوسبة الذكاء الاصطناعي — فإنها تبني الأساس التجاري الذي تحتاجه Huawei لشرائح الجيل القادم الأكثر طموحاً.

أين تتفوق 950PR وأين تخفق

نقاط القوة

تم بناء 950PR خصيصاً لأعباء عمل الاستنتاج والتوصية. ويعد دعمها لـ FP4 — وهو الأول من نوعه بين مسرعات الذكاء الاصطناعي الصينية — ذا صلة خاصة مع توجه الصناعة نحو الاستنتاج منخفض الدقة لتحقيق كفاءة التكلفة. وتعني إنتاجية FP8 البالغة 1 PFLOPS أن بطاقة Atlas 350 واحدة يمكنها تشغيل نماذج لغوية كبيرة بنطاق يتطلب بطاقات H20 متعددة، مما يقلل من تكلفة البنية التحتية لكل استعلام.

يعد التوصيل البيني LingQu بنطاق ترددي 2.0 تيرابايت/ثانية ميزة أخرى. بالنسبة للاستنتاج الموزع عبر بطاقات متعددة — وهو أمر شائع بشكل متزايد مع النماذج التي تتجاوز ذاكرة البطاقة الواحدة — فإن التوصيل البيني لـ 950PR يتفوق على NVLink الخاص بـ H20 بمقدار 2.2 مرة.

القيود

يظل النطاق الترددي للذاكرة هو القيد الأكبر لـ 950PR. فبمعدل 1.4 تيرابايت/ثانية مقابل 4.0 تيرابايت/ثانية لـ H20، فإن العمليات المرتبطة بالذاكرة — وخاصة تشغيل النماذج اللغوية الكبيرة ذات السياق الطويل حيث يهيمن مخزن القيم والمفاتيح (KV cache) على زمن الاستجابة — ستفضل H20. هذه ليست فجوة بسيطة؛ فهي تعني أن بعض ملفات أعباء العمل ستعمل بشكل أسرع على H20 رغم امتلاكها قدرة حوسبة خام أقل.

كما تعني عملية التصنيع بدقة 7 نانومتر أن 950PR تستهلك طاقة أكبر بنسبة 50% لكل بطاقة. بالنسبة لمراكز البيانات التي تعمل على نطاق واسع، يجب أن يأخذ حساب التكلفة الإجمالية للملكية في الاعتبار تكاليف الطاقة والتبريد الإضافية، وليس فقط سعر الشريحة.

أخيراً، يعد CANN Next نظاماً جديداً. وبينما قامت ByteDance و Alibaba بالتحقق منه في الاختبارات، لا يزال النظام البيئي للبرمجيات في مرحلة النضج. إن اتساع نطاق دعم المكتبات الخارجية، وأدوات تصحيح الأخطاء، وموارد المجتمع المتاحة لـ CUDA يفوق بكثير ما يقدمه CANN Next اليوم. ستضيق هذه الفجوة بمرور الوقت، ولكن يجب على المتبنين الأوائل توقع احتكاك أكثر مما هو عليه في حالة الاعتماد الكلي على NVIDIA.

ماذا يعني هذا لسوق شرائح الذكاء الاصطناعي العالمي

لن تزيح Ascend 950PR شركة NVIDIA عالمياً. تظل مزايا النظام البيئي لـ NVIDIA — أسبقية CUDA لمدة 19 عاماً، ومعماريات Blackwell و Hopper، وحزمة البرمجيات التي تم تحسين كل إطار عمل للذكاء الاصطناعي تقريباً من أجلها — هائلة خارج الصين.

ولكن داخل الصين، تمثل 950PR بديلاً محلياً موثوقاً لأول مرة. إن الجمع بين أداء الاستنتاج التنافسي، والبرمجيات المتوافقة مع CUDA، ودعم أكبر شركتين تقنيتين في الصين يخلق حلقة نمو: المزيد من الاعتماد يدفع نحو المزيد من تحسين البرمجيات، مما يدفع بدوره نحو المزيد من الاعتماد.

بالنسبة للصناعة بشكل أوسع، يسرع هذا التطور من انقسام سوق أجهزة الذكاء الاصطناعي إلى أنظمة بيئية منحازة للولايات المتحدة وأخرى منحازة للصين. وبينما تتسابق عمالقة التكنولوجيا الغربية لبناء شرائح ذكاء اصطناعي مخصصة لتقليل الاعتماد على NVIDIA، تسعى Huawei لتحقيق نفس الهدف من الجانب الآخر من الانقسام الجيوسياسي. ستحتاج الشركات التي تبني بنية تحتية عالمية للذكاء الاصطناعي بشكل متزايد إلى التخطيط لعالم يختلف فيه المسرع المهيمن حسب الجغرافيا — NVIDIA في معظم الأسواق، و Ascend في الصين. إن فهم كيفية تشغيل وحدات معالجة الرسومات لثورة الذكاء الاصطناعي يجعل مخاطر هذا الانقسام أكثر وضوحاً.

المراجع

TrendForce, "Huawei Debuts Atlas 350 on Ascend 950PR with In-house HBM, Touting 2.8X H20 Performance," March 23, 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Tom's Hardware, "Huawei unveils new Atlas 350 AI accelerator with 1.56 PFLOPS of FP4 compute and up to 112GB of HBM," March 2026. ↩ ↩² ↩³
CNBC/Reuters, "Huawei's new AI chip finds favour with ByteDance, Alibaba which plan to place orders," March 27, 2026. ↩ ↩² ↩³
Technetbook, "Huawei Ascend 950PR AI Chip Secures Major Orders from ByteDance and Alibaba," March 2026. ↩ ↩² ↩³ ↩⁴
WCCFTech, "Huawei's Ascend 950PR AI Chip Just Won Over Chinese Customers By Mimicking CUDA Through CANN Next," March 2026. ↩ ↩² ↩³
Council on Foreign Relations, "China's AI Chip Deficit: Why Huawei Can't Catch Nvidia and U.S. Export Controls Should Remain," 2026. ↩ ↩² ↩³
CNN, "Trump greenlights exports of Nvidia H200 chips to China," December 8, 2025. ↩
Reuters/Sherwood News, "China has approved the sale of 400,000 H200 chips to Chinese tech firms," January 2026. ↩
CNBC, "Jensen Huang says Nvidia has received orders from China and is restarting manufacturing," March 17, 2026. ↩

الأسئلة الشائعة

المقارنة مع H100 أقل مباشرة لأن H100 لم يكن متاحاً بشكل قانوني في الصين بموجب ضوابط التصدير. مقابل أداء FP8 Tensor Core لمعالج H100 SXM5 الذي يبلغ حوالي 1,979 TFLOPS (بدون تباثر)، فإن 1,000 TFLOPS FP8 لمعالج 950PR تعادل النصف تقريباً. ومع ذلك، يستهدف 950PR أعباء عمل الاستدلال (inference) حيث تكون دقة FP4 كافية، وعند FP4 فإنه يقلص الفجوة بشكل كبير.