🎙️ حلقة 27707:55 • ١٩ مايو ٢٠٢٦

موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج في ١٨ يومًا

#ai #ai-generated #development #nerd-level-tech #tech-podcast #technology

استمع إلى هذه الحلقة

مناقشة مُولَّدة بواسطة AI بين Alex و Jamie

عن هذه الحلقة

انضم إلى أليكس وجيمي في هذه الحلقة المثيرة من Nerd Level Tech البودكاست الذكي وهما يغوصان في دوامة موجة البرمجة Open-Weight في الصين، والتي تضم أربعة نماذج رائدة تم إصدارها في 18 يومًا فقط. اكتشف المعنى الحقيقي لمصطلح Open-Weight، ولماذا يمثل نقطة تحول في سير عمل البرمجة، وكيف تجعل هذه النماذج الذكاء الاصطناعي عالي الأداء أكثر سهولة في الوصول إليه وأقل تكلفة. استمع إلينا للحصول على رؤى، وضحكات، وتحليل لأحدث الابتكارات التي تعيد تشكيل المشهد التقني!

نص الحلقة

[Alex]: أهلاً بكم من جديد في نيرد ليفل تك البودكاست الذكي، حيث الكود لا ينام ونحن أيضاً لا ننام—إلا طبعاً في أيام تحديثات النظام. أنا Alex، مفسركم المقيم للأشياء التي تجعل عقولكم تؤلمكم.

[Jamie]: وأنا Jamie، جاركم الودود الذي يطرح الأسئلة، موجود هنا للتأكد من أن Alex لن يتحول تماماً إلى وضع "السبورة البيضاء في القبو". اليوم، نتحدث عن موجة البرمجة مفتوحة الأوزان (Open-Weight) في الصين—أربعة نماذج، في 18 يوماً، واختبارات أداء كافية لجعل وحدة معالجة الرسوميات (GPU) الخاصة بك تتصبب عرقاً.

[Alex]: تعلم أنه شهر جنوني عندما تحتاج إلى مخطط Gantt لمجرد مواكبة إصدارات النماذج. بين 7 أبريل و24 أبريل، أطلقت أربعة مختبرات صينية نماذج برمجة مفتوحة الأوزان كأنها جمرات ملتهبة. لدينا GLM-5.1 من Z.ai، وM2.7 من MiniMax، وKimi K2.6 من Moonshot، وV4 من DeepSeek. جميعها مفتوحة الأوزان، وجميعها تستهدف سير عمل هندسة الوكلاء (agentic engineering)، والأهم من ذلك كله—وهنا المفاجأة—أن أسعارها أقل بكثير مما ستدفعه مقابل النماذج الغربية الرائدة.

[Jamie]: حسناً، سؤالي الأول—ماذا يعني بالضبط "مفتوح الأوزان" (open-weight)؟ هل هو مثل المصدر المفتوح، ولكن للشبكات العصبية بعد يوم تدريب شاق؟

[Alex]: [يضحك] تقريباً. مفتوح الأوزان يعني أن أوزان الشبكة العصبية الفعلية—المعاملات التي تم تعلمها—يتم إصدارها للاستخدام العام، وليس فقط الكود. لذا يمكنك أخذ هذه النماذج وتشغيلها على أجهزتك الخاصة، أو ضبطها بدقة (fine-tune)، أو مجرد التحديق بحب في مصفوفة الـ 1 تريليون معامل إذا كان هذا هو ذوقك.

[Jamie]: أعني، من منا لم يقضِ ليلة جمعة في تأمل مصفوفة أوزان، أليس كذلك؟ [توقف] ولكن بجدية، لماذا يعد هذا أمراً كبيراً؟

[Alex]: لأنه حتى الآن، كانت نماذج البرمجة عالية الأداء حقاً—مثل GPT-4 من OpenAI، وClaude من Anthropic—تحتفظ بتلك الأوزان مغلقة بإحكام أكثر من مذكراتي في المدرسة الثانوية. موجة "مفتوحة الأوزان" تعني أن أي شخص يمكنه استخدام نماذج تقترب من أداء النماذج الرائدة، ولكن بجزء بسيط من التكلفة وبمرونة أكبر.

[Jamie]: إذاً، أربعة نماذج في ما يزيد قليلاً عن أسبوعين. هذا مجهود جبار. هل يمكنك أن تشرح لي الجدول الزمني—وما الذي يجعل كل واحد منها مميزاً؟

[Alex]: بكل تأكيد. دعنا نستعرض الجدول الزمني بسرعة: - 7 أبريل: Z.ai تصدر GLM-5.1، بترخيص MIT. - 12 أبريل: MiniMax تفتح مصدر M2.7، ولكن بترخيص "MIT معدل"—سنعود لهذه الدراما بعد قليل. - 20 أبريل: صدور Kimi K2.6 من Moonshot، مع بعض الاختيارات المعمارية المثيرة. - 24 أبريل: DeepSeek تطلق V4—في الواقع بنسختين، Pro وFlash، وكلاهما تحت ترخيص MIT. وبين هذا وذاك، أطلقت Anthropic نموذج Claude Opus 4.7، وأصدرت OpenAI نموذج GPT-5.5. كان الأمر أشبه بلعبة بينجو النماذج لـ نيرد الذكاء الاصطناعي.

[Jamie]: حسناً، ولكن من حيث "من هو الأفضل"، كيف تترتب هذه النماذج؟ هل هناك لوحة صدارة، أم أنه مجرد استعراض عضلات كبير؟

[Alex]: أوه، هناك لوحة صدارة. اختبار SWE-Bench Pro هو المعيار الكبير للبرمجة المعتمدة على الوكلاء—فكر فيه كأنه أولمبياد الذكاء الاصطناعي لتوليد الكود. اعتباراً من هذه الموجة: - Claude Opus 4.7 يتصدر المجموعة المتاحة للجمهور بنسبة 64.3. - Kimi K2.6 وGPT-5.5 متعادلان بنسبة 58.6. - GLM-5.1 يحوم حول 58.4 بناءً على أرقام الشركة المصنعة. - MiniMax M2.7 عند 56.2. - V4-Pro من DeepSeek أقل قليلاً عند 55.4. وبعد ذلك، مثل وحيد القرن الأسطوري، هناك Claude Mythos Preview بنسبة 77.8، لكنه متاح بالدعوة فقط—أساساً، يجب أن تكون في قائمة الشخصيات المهمة.

[Jamie]: إذاً، هي قريبة، لكنها لم تهزم النماذج الغربية تماماً؟

[Alex]: بالضبط. العنوان الحقيقي ليس أن الأوزان المفتوحة تجاوزت القمة، بل أن النماذج "الجيدة بما يكفي" أصبحت أرخص بكثير. لقد انهار الحد الأدنى للسعر.

[Jamie]: حسناً، الآن أنت تتحدث لغتي. ما هي التكلفة التي نتحدث عنها؟ أعطني أرقاماً تجعلني أبكي.

[Alex]: [يضحك] جهز محفظتك. بالنسبة لـ Claude Opus 4.7، ستدفع 5 دولارات لكل مليون توكن مدخلات، و25 دولاراً للمخرجات. هذه النماذج الصينية الجديدة مفتوحة الأوزان؟ GLM-5.1 يكلف 1.05 دولار للمدخلات، و3.50 دولار للمخرجات. Kimi K2.6 أقل من ذلك—حوالي 0.60 دولار للمدخلات، و2.50 دولار للمخرجات. MiniMax M2.7 هو بطل التوفير بـ 0.30 دولار للمدخلات، و1.20 دولار للمخرجات. وV4-Flash من DeepSeek، في فترة العرض، سعره مذهل: 0.14 دولار للمدخلات و0.28 دولار للمخرجات لكل مليون توكن.

[Jamie]: هذا يعني تقريباً 1/10—أو حتى أقل—من سعر المخرجات! لذا إذا كنت تشغل وكيل برمجة يحب الكلام، فجأة يمكنك تحمل تكلفة تركه يسترسل في الحديث.

[Alex]: بالضبط. بالنسبة للشركات التي تبني حلقات الوكلاء (agentic loops)—حيث يخرج النموذج الكثير من الأكواد أو الخطط أو الإجراءات—فإن التوفير ضخم. الأمر يشبه الانتقال من أسعار Tesla إلى سيارة Prius مستعملة بين عشية وضحاها.

[Jamie]: ولكن ماذا عن التكنولوجيا تحت الغطاء؟ هل هي مجرد نماذج عملاقة، أم أن هناك ابتكاراً حقيقياً؟

[Alex]: أوه، هناك بعض الحلويات الـ نيردي هنا. دعنا نمر على بعض النقاط البارزة: - **خليط الخبراء (MoE)**: جميع النماذج الأربعة تستخدم هذا. بدلاً من عقل واحد عملاق، فكر في مجلس من الخبراء—مجموعة فرعية فقط "تصوت" على كل توكن، لذا تحصل على قوة أكبر دون تفجير تكاليف الحوسبة. - **الاهتمام المضغوط (Compressed Attention)** في DeepSeek V4: يجعل النموذج أسرع وأخف في التشغيل—فكر في شحن استنتاجك بـ FLOPs أقل وبصمة ذاكرة أصغر. - **محسن Muon**: انتقلت DeepSeek من AdamW إلى Muon، الذي يجعل التدرجات متعامدة—أساساً، يحافظ على مسار تعلم النموذج في النطاقات الضخمة. Kimi K2.6 استخدمت أيضاً نسخة من Muon في وقت سابق. - **أسراب الوكلاء (Agent Swarms)** في Kimi K2.6: يمكنك الآن توزيع مهمة على ما يصل إلى 300 وكيل فرعي، يعملون بالتوازي على مدار 4000 خطوة. إنه مثل إطلاق جيش لإصلاح الأخطاء على قاعدة الكود الخاصة بك. - **هياكل التحسين الذاتي (Self-improving Scaffolds)** في MiniMax M2.7: يزعمون أن النموذج أجرى أكثر من 100 جولة من تحسين عملية التدريب الخاصة به. "أيها النموذج، درب نفسك".

[Jamie]: حسناً، أحب صورة ذكاء اصطناعي يركض لتحسين نفسه وكأنه ينظف غرفته الخاصة. ولكن هل هناك أي عيوب في هذه الأوزان المفتوحة؟

[Alex]: التراخيص هي المشكلة الكبرى. GLM-5.1 وDeepSeek V4 مرخصان بـ MIT—وهو ترخيص متساهل للغاية. Kimi K2.6 مرخص بـ "MIT معدل"، وهو MIT إلا إذا كنت شركة ضخمة. لكن M2.7 من MiniMax يقيد الاستخدام التجاري دون إذن كتابي، مما أزعج الكثيرين الذين اعتقدوا أن "MIT معدل" يبدو أكثر ودية مما هو عليه في الواقع.

[Jamie]: إذاً، اقرأ الخط الصغير قبل أن تبني شركتك الناشئة بمليارات الدولارات فوق M2.7. فهمت.

[Alex]: بالضبط. وليست كل اختبارات الأداء متساوية، لأن المختبرات تستخدم هياكل مختلفة وأحياناً تختار المهام بعناية (cherry-pick). ومع ذلك، فإن فجوة الأداء تتقلص، وفجوة السعر أصبحت وادياً سحيقاً.

[Jamie]: إذاً، الخلاصة—هل يجب أن نتوج فائزاً؟ أم أن الأمر يعتمد على الحالة؟

[Alex]: سأقول إن الأمر يتعلق بالملاءمة. إذا كنت تريد دقة فائقة ويمكنك دفع ثمنها، فلا يزال Claude Opus 4.7 يتصدر. ولكن إذا كنت تريد برمجة "جيدة بما يكفي" بجزء بسيط من السعر، فإن هذه النماذج الصينية مفتوحة الأوزان هي مفتاح ضخم، خاصة للشركات الناشئة، أو الباحثين، أو أي شخص يدير سير عمل الوكلاء على نطاق واسع.

[Jamie]: بالإضافة إلى ذلك، يمكنك أخيراً رؤية ما بداخل الصندوق الأسود—لا مزيد من "فقط ثق بنا، إنه سحر".

[Alex]: بالضبط. وهذا الانفتاح؟ هو المكان الذي يحدث فيه الابتكار الحقيقي.

[Jamie]: حسناً، أنا متحمس رسمياً—ومرعوب قليلاً من فاتورة السحابة الخاصة بي. [توقف] أي كلمات حكمة أخيرة، Alex؟

[Alex]: فقط هذا: الحدود تتحرك بسرعة. تحقق من التراخيص، انتبه لاختبارات الأداء، وأتمنى أن تكون فاتورة التوكنات الخاصة بك دائماً أقل من الميزانية.

[Jamie]: كانت هذه حلقة أخرى من نيرد ليفل تك البودكاست الذكي! شكراً لمتابعتكم. اضغطوا على زر الاشتراك، اتركوا تقييماً، وإلى اللقاء في المرة القادمة—حافظوا على أوزانكم مفتوحة وكودكم أنظف من كودي.

[Alex]: نراكم في المرة القادمة يا رفاق! [تتلاشى موسيقى الخاتمة]