محلي مقابل الحدودي — ميزانية الأمر
مشهد الـopen-weight — اللي تقدر تشحنه فعلاً
الكورس لحد دلوقتي قارن 3 frontier APIs: Claude، GPT، Gemini. عندهم خاصية مشتركة — closed weights، مستضافين عند الـvendor، فوترة per-token. النص التاني من مشهد الـprompt engineering هو الـopen-weight models اللي تقدر تـdownload-هم وتشغّلهم بنفسك، على الـinfrastructure بتاعتك أو على third-party host ما بيملكش الـweights. Llama، Mistral، Qwen، DeepSeek، Phi. الـlist بتزيد.
محتاج تعرف الجزء ده من المشهد أصل لكتير من المهام اللي الـCTO بتاع هاجر بيدفع لـClaude عشانها، open-weight model شغّال على GPU صغير ممكن يعمل الشغل بـfraction من التكلفة.
مشهد النماذج — frontier closed → on-device
الـ4 عيلات اللي بتفرق في 2026
| العيلة | الصانع | بتقع فين |
|---|---|---|
| Llama 4 (8B / 70B / 405B) | Meta | الاختيار "الافتراضي" للـopen-weight في 2026؛ مدعوم بشكل واسع |
| Mistral Large 3 + Mixtral | Mistral AI | قوي على اللغات الأوروبية والتعليمات |
| Qwen 3 (متغيرات صغيرة + reasoning) | Alibaba | قوي على الصيني، الإنجليزي، والـcode؛ licensing متساهل |
| DeepSeek V3 / R1 | DeepSeek | نسبة cost/quality عدوانية؛ متغير الـreasoning (R1) هو الإجابة الـopen-weight لـo1 |
Phi-4 من Microsoft بيملا niche أصغر — نماذج صغيرة خالص (3-4B) بتشتغل على موبايلات و edge devices. استخدم Phi لما الـlatency budget يبقى تحت 100ms أو لما تشغّل on-device.
"قابل للشحن" دي بتعني إيه فعلاً
النموذج قابل للشحن لمهمتك لو محقق الأربعة كلهم:
-
هل يقدر يشتغل فعلاً على hardware budget اللي عندك؟ نموذج 70B محتاج ~40GB من VRAM الـGPU بـint4 quantisation، ~140GB بـfp16. نموذج 405B منطقة multi-GPU. نموذج 8B بيدخل بسهولة على GPU استهلاكي واحد. اختار أصغر نموذج يعمل الشغل.
-
هل الـprompt اللي اشتغل على Claude / GPT / Gemini لسه شغّال هنا؟ غالباً، لأ. الـopen-weight models بتميل تبقى أحسس لصياغة الـprompt وبتتبع few-shot examples بشكل أحرف. الدروس الجاية بتغطّي ده.
-
الـlicence إيه؟ Llama متساهل بس بـrestrictions على training-data extraction وعلى الاستخدام من شركات كبيرة جداً. النماذج open-source بتاعت Mistral هي Apache 2.0. Qwen هي Apache 2.0 لأغلب الـvariants. DeepSeek بيتغيّر. اقرا الـlicence الفعلية قبل ما تشحن — الـlegal team هيهتم.
-
inference cost end-to-end كام؟ نموذج ببلاش مش ببلاش لو بتدفع لـAWS للـGPU. قارن قبال السعر per-token للـfrontier API على نفس الـvolume. على volumes قليلة، الـfrontier APIs أرخص. على volumes عالية (ملايين requests في اليوم)، open-weight على infrastructure بتاعتك بيكسب.
الـtradeoff الصريح
الـopen-weight models في 2026 سدّوا تقريباً نص الـquality gap للـfrontier APIs. هم في 10-15% على أغلب الـbenchmarks. مش في 10-15% على instruction-following discipline، على long-context reasoning، على tool use، أو على edge cases زي الـprompt 4-قواعد من الـmodule 1. للمهام اللي الـbar فيها "بيطلّع إجابة مقبولة"، open-weight ممتاز. للمهام اللي الـbar فيها "بيتبع تعليمات معقدة كل مرة"، إنت لسه على الـfrontier APIs.
خطة هاجر العملية هتبقى: تخلّي Claude للـcustomer-facing copy، تخلّي GPT-4o-mini للمهام عالية الـvolume، بس توجّه job الـbulk-classification (5 مليون record كل ليلة) لـLlama 4 70B self-hosted. التوفير في الدولار على الـclassification لوحده ممكن يدفع للـGPU.
التالي: إزاي بتتغيّر prompt budget — الـopen-weight models بتتصرف بشكل مختلف لما الـprompts تطوّل. :::
سجّل الدخول للتقييم