مشهد الـopen-weight — اللي تقدر تشحنه فعلاً — إتقان النماذج المتعددة — مسار هندسة الأوامر — Nerd Level Tech

الكورس لحد دلوقتي قارن 3 frontier APIs: Claude، GPT، Gemini. عندهم خاصية مشتركة — closed weights، مستضافين عند الـvendor، فوترة per-token. النص التاني من مشهد الـprompt engineering هو الـopen-weight models اللي تقدر تـdownload-هم وتشغّلهم بنفسك، على الـinfrastructure بتاعتك أو على third-party host ما بيملكش الـweights. Llama، Mistral، Qwen، DeepSeek، Phi. الـlist بتزيد.

محتاج تعرف الجزء ده من المشهد أصل لكتير من المهام اللي الـCTO بتاع هاجر بيدفع لـClaude عشانها، open-weight model شغّال على GPU صغير ممكن يعمل الشغل بـfraction من التكلفة.

مشهد النماذج — frontier closed → on-device

Tier 1 — frontier مغلق

Tier 2 — frontier open-weight

Tier 3 — open-weight قوي

Tier 4 — local-quantised / on-device

الـ4 عيلات اللي بتفرق في 2026

العيلة	الصانع	بتقع فين
Llama 4 (8B / 70B / 405B)	Meta	الاختيار "الافتراضي" للـopen-weight في 2026؛ مدعوم بشكل واسع
Mistral Large 3 + Mixtral	Mistral AI	قوي على اللغات الأوروبية والتعليمات
Qwen 3 (متغيرات صغيرة + reasoning)	Alibaba	قوي على الصيني، الإنجليزي، والـcode؛ licensing متساهل
DeepSeek V3 / R1	DeepSeek	نسبة cost/quality عدوانية؛ متغير الـreasoning (R1) هو الإجابة الـopen-weight لـo1

Phi-4 من Microsoft بيملا niche أصغر — نماذج صغيرة خالص (3-4B) بتشتغل على موبايلات و edge devices. استخدم Phi لما الـlatency budget يبقى تحت 100ms أو لما تشغّل on-device.

"قابل للشحن" دي بتعني إيه فعلاً

النموذج قابل للشحن لمهمتك لو محقق الأربعة كلهم:

هل يقدر يشتغل فعلاً على hardware budget اللي عندك؟ نموذج 70B محتاج ~40GB من VRAM الـGPU بـint4 quantisation، ~140GB بـfp16. نموذج 405B منطقة multi-GPU. نموذج 8B بيدخل بسهولة على GPU استهلاكي واحد. اختار أصغر نموذج يعمل الشغل.
هل الـprompt اللي اشتغل على Claude / GPT / Gemini لسه شغّال هنا؟ غالباً، لأ. الـopen-weight models بتميل تبقى أحسس لصياغة الـprompt وبتتبع few-shot examples بشكل أحرف. الدروس الجاية بتغطّي ده.
الـlicence إيه؟ Llama متساهل بس بـrestrictions على training-data extraction وعلى الاستخدام من شركات كبيرة جداً. النماذج open-source بتاعت Mistral هي Apache 2.0. Qwen هي Apache 2.0 لأغلب الـvariants. DeepSeek بيتغيّر. اقرا الـlicence الفعلية قبل ما تشحن — الـlegal team هيهتم.
inference cost end-to-end كام؟ نموذج ببلاش مش ببلاش لو بتدفع لـAWS للـGPU. قارن قبال السعر per-token للـfrontier API على نفس الـvolume. على volumes قليلة، الـfrontier APIs أرخص. على volumes عالية (ملايين requests في اليوم)، open-weight على infrastructure بتاعتك بيكسب.

الـtradeoff الصريح

الـopen-weight models في 2026 سدّوا تقريباً نص الـquality gap للـfrontier APIs. هم في 10-15% على أغلب الـbenchmarks. مش في 10-15% على instruction-following discipline، على long-context reasoning، على tool use، أو على edge cases زي الـprompt 4-قواعد من الـmodule 1. للمهام اللي الـbar فيها "بيطلّع إجابة مقبولة"، open-weight ممتاز. للمهام اللي الـbar فيها "بيتبع تعليمات معقدة كل مرة"، إنت لسه على الـfrontier APIs.

خطة هاجر العملية هتبقى: تخلّي Claude للـcustomer-facing copy، تخلّي GPT-4o-mini للمهام عالية الـvolume، بس توجّه job الـbulk-classification (5 مليون record كل ليلة) لـLlama 4 70B self-hosted. التوفير في الدولار على الـclassification لوحده ممكن يدفع للـGPU.

التالي: إزاي بتتغيّر prompt budget — الـopen-weight models بتتصرف بشكل مختلف لما الـprompts تطوّل. :::

مشهد الـopen-weight — اللي تقدر تشحنه فعلاً

مشهد النماذج — frontier closed → on-device

الـ4 عيلات اللي بتفرق في 2026

"قابل للشحن" دي بتعني إيه فعلاً

الـtradeoff الصريح

اختبار

ابقَ على مسار النيرد