إزاي تختار النموذج المناسب لكل مهمة — إتقان النماذج المتعددة — مسار هندسة الأوامر — Nerd Level Tech

اتنين prompts بس، وإنت بقى شفت توقيع اللهجة. Claude منضبط وأحياناً بيتكلم كتير. GPT-4o-mini ودّي وبيتطوّع بأكتر من اللازم. Gemini 2.5 Flash سريع وأحياناً بيقطع. ولا واحد فيهم ده حكم نهائي — دي نقط بداية عشان تقرر بيها أنهي نموذج يروح لأنهي مهمة.

decision tree تقدر تستخدمها النهارده

لكل prompt الـapp بتاعك بيبعته، اسأل 3 أسئلة بالترتيب:

كام قيد صارم في الـprompt؟ لو 3 أو أكتر (سقف طول، قفل format، كلمات ممنوعة، عدد سطور)، فضّل Claude أو GPT-4o بقوة. Gemini Flash هيفشل في واحد من القيود بشكل متكرر بحيث ما تقدرش تعتمد عليه من غير verifier ورا.
إيه أوحش تكلفة لمخرج وحش؟ الردود اللي بتروح للعميل، نص قانوني، كود شغّال في production — دي تكلفة عالية. ضريبة الـlatency لتشغيل نموذج أكتر انضباطاً أرخص من تكلفة إصلاح مخرج وحش. تلخيص داخلي بس، اقتراحات مسودات، autocomplete — دي تكلفة قليلة. السرعة بتفرق أكتر.
هل المخرج بيتفحص بنموذج تاني أو بـكود؟ لو أيوه، تقدر تميل للرخيص والسريع. الـverifier هيمسك الفشل. لو لأ، اتجه للمنضبط.

توقيعات اللهجات لحد دلوقتي

السلوك	Claude Sonnet 4.5	GPT-4o-mini	Gemini 2.5 Flash
الالتزام بالقواعد الصارمة (prompt 4 قواعد)	الـ4 كلهم	الـ4 كلهم	1 من 4
إعادة كتابة النبرة تحت سقف كلمات	التزم بالسقف، شال الضغط	التزم بالسقف، ضاف subject line	اتقطع
الميل لإضافة حقول مش مطلوبة	قليل	متوسط-عالي	قليل (ما بيضيفش حاجة — وأحياناً مفيش حاجة هو اللي بيرجّعه)
الإسهاب الافتراضي	متوسط-عالي	متوسط-عالي	قليل
الـlatency على الـprompts اللي فاتت	2.9–3.2 ث	2.4–3.3 ث	1.7–1.9 ث

اقرا صف الـlatency تاني. Gemini تقريباً نصف الـwall time بتاع التانيين على المهام دي. السرعة دي حقيقية ومفيدة — للمهمة المناسبة. المهمة المناسبة هي اللي فيها عدد قيود قليل وتكلفة الفشل كمان قليلة.

"النموذج المناسب" يعني إيه فعلاً

السؤال بتاع الـCTO بتاع هاجر كان "Claude ولا GPT؟". ده الـframe الغلط. الـframe الصح: أنهي نموذج نوجّه له أنهي prompt، وإيه الـfallback؟

production setup حقيقي ممكن يبقى كده. إعادة كتابة نبرة للـcustomer support → Claude. اقتراحات مسودات بالجملة في tool داخلي → GPT-4o-mini. autocomplete real-time على dashboard خاص → Gemini Flash، مع فحص إن المخرج مش فاضي وفيه الـkeywords المطلوبة. كل مهمة ليها نموذجها، وكل مهمة ليها fallback لما الأساسي يفشل.

ده تقرير المقارنة اللي هتشحنه في المشروع الختامي.

الوحدة الجاية: فين كل نموذج "بيسمع كويس" — system prompt قبال user message، وكل واحد بيلتزم بالشخصية إزاي تحت الضغط. :::