محلي مقابل الحدودي — ميزانية الأمر

مشهد الـopen-weight — اللي تقدر تشحنه فعلاً

4 دقيقة للقراءة

الكورس لحد دلوقتي قارن 3 frontier APIs: Claude، GPT، Gemini. عندهم خاصية مشتركة — closed weights، مستضافين عند الـvendor، فوترة per-token. النص التاني من مشهد الـprompt engineering هو الـopen-weight models اللي تقدر تـdownload-هم وتشغّلهم بنفسك، على الـinfrastructure بتاعتك أو على third-party host ما بيملكش الـweights. Llama، Mistral، Qwen، DeepSeek، Phi. الـlist بتزيد.

محتاج تعرف الجزء ده من المشهد أصل لكتير من المهام اللي الـCTO بتاع هاجر بيدفع لـClaude عشانها، open-weight model شغّال على GPU صغير ممكن يعمل الشغل بـfraction من التكلفة.

مشهد النماذج — frontier closed → on-device

Tier 1 — frontier مغلق
Tier 2 — frontier open-weight
Tier 3 — open-weight قوي
Tier 4 — local-quantised / on-device

الـ4 عيلات اللي بتفرق في 2026

العيلةالصانعبتقع فين
Llama 4 (8B / 70B / 405B)Metaالاختيار "الافتراضي" للـopen-weight في 2026؛ مدعوم بشكل واسع
Mistral Large 3 + MixtralMistral AIقوي على اللغات الأوروبية والتعليمات
Qwen 3 (متغيرات صغيرة + reasoning)Alibabaقوي على الصيني، الإنجليزي، والـcode؛ licensing متساهل
DeepSeek V3 / R1DeepSeekنسبة cost/quality عدوانية؛ متغير الـreasoning (R1) هو الإجابة الـopen-weight لـo1

Phi-4 من Microsoft بيملا niche أصغر — نماذج صغيرة خالص (3-4B) بتشتغل على موبايلات و edge devices. استخدم Phi لما الـlatency budget يبقى تحت 100ms أو لما تشغّل on-device.

"قابل للشحن" دي بتعني إيه فعلاً

النموذج قابل للشحن لمهمتك لو محقق الأربعة كلهم:

  1. هل يقدر يشتغل فعلاً على hardware budget اللي عندك؟ نموذج 70B محتاج ~40GB من VRAM الـGPU بـint4 quantisation، ~140GB بـfp16. نموذج 405B منطقة multi-GPU. نموذج 8B بيدخل بسهولة على GPU استهلاكي واحد. اختار أصغر نموذج يعمل الشغل.

  2. هل الـprompt اللي اشتغل على Claude / GPT / Gemini لسه شغّال هنا؟ غالباً، لأ. الـopen-weight models بتميل تبقى أحسس لصياغة الـprompt وبتتبع few-shot examples بشكل أحرف. الدروس الجاية بتغطّي ده.

  3. الـlicence إيه؟ Llama متساهل بس بـrestrictions على training-data extraction وعلى الاستخدام من شركات كبيرة جداً. النماذج open-source بتاعت Mistral هي Apache 2.0. Qwen هي Apache 2.0 لأغلب الـvariants. DeepSeek بيتغيّر. اقرا الـlicence الفعلية قبل ما تشحن — الـlegal team هيهتم.

  4. inference cost end-to-end كام؟ نموذج ببلاش مش ببلاش لو بتدفع لـAWS للـGPU. قارن قبال السعر per-token للـfrontier API على نفس الـvolume. على volumes قليلة، الـfrontier APIs أرخص. على volumes عالية (ملايين requests في اليوم)، open-weight على infrastructure بتاعتك بيكسب.

الـtradeoff الصريح

الـopen-weight models في 2026 سدّوا تقريباً نص الـquality gap للـfrontier APIs. هم في 10-15% على أغلب الـbenchmarks. مش في 10-15% على instruction-following discipline، على long-context reasoning، على tool use، أو على edge cases زي الـprompt 4-قواعد من الـmodule 1. للمهام اللي الـbar فيها "بيطلّع إجابة مقبولة"، open-weight ممتاز. للمهام اللي الـbar فيها "بيتبع تعليمات معقدة كل مرة"، إنت لسه على الـfrontier APIs.

خطة هاجر العملية هتبقى: تخلّي Claude للـcustomer-facing copy، تخلّي GPT-4o-mini للمهام عالية الـvolume، بس توجّه job الـbulk-classification (5 مليون record كل ليلة) لـLlama 4 70B self-hosted. التوفير في الدولار على الـclassification لوحده ممكن يدفع للـGPU.

التالي: إزاي بتتغيّر prompt budget — الـopen-weight models بتتصرف بشكل مختلف لما الـprompts تطوّل. :::

اختبار

الوحدة 5: محلي مقابل الحدودي — ميزانية الأمر

خذ الاختبار
هل كان هذا الدرس مفيدًا؟

سجّل الدخول للتقييم

نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.