النبرة واتباع التعليمات عبر النماذج
إزاي تختار النموذج المناسب لكل مهمة
اتنين prompts بس، وإنت بقى شفت توقيع اللهجة. Claude منضبط وأحياناً بيتكلم كتير. GPT-4o-mini ودّي وبيتطوّع بأكتر من اللازم. Gemini 2.5 Flash سريع وأحياناً بيقطع. ولا واحد فيهم ده حكم نهائي — دي نقط بداية عشان تقرر بيها أنهي نموذج يروح لأنهي مهمة.
decision tree تقدر تستخدمها النهارده
لكل prompt الـapp بتاعك بيبعته، اسأل 3 أسئلة بالترتيب:
-
كام قيد صارم في الـprompt؟ لو 3 أو أكتر (سقف طول، قفل format، كلمات ممنوعة، عدد سطور)، فضّل Claude أو GPT-4o بقوة. Gemini Flash هيفشل في واحد من القيود بشكل متكرر بحيث ما تقدرش تعتمد عليه من غير verifier ورا.
-
إيه أوحش تكلفة لمخرج وحش؟ الردود اللي بتروح للعميل، نص قانوني، كود شغّال في production — دي تكلفة عالية. ضريبة الـlatency لتشغيل نموذج أكتر انضباطاً أرخص من تكلفة إصلاح مخرج وحش. تلخيص داخلي بس، اقتراحات مسودات، autocomplete — دي تكلفة قليلة. السرعة بتفرق أكتر.
-
هل المخرج بيتفحص بنموذج تاني أو بـكود؟ لو أيوه، تقدر تميل للرخيص والسريع. الـverifier هيمسك الفشل. لو لأ، اتجه للمنضبط.
توقيعات اللهجات لحد دلوقتي
| السلوك | Claude Sonnet 4.5 | GPT-4o-mini | Gemini 2.5 Flash |
|---|---|---|---|
| الالتزام بالقواعد الصارمة (prompt 4 قواعد) | الـ4 كلهم | الـ4 كلهم | 1 من 4 |
| إعادة كتابة النبرة تحت سقف كلمات | التزم بالسقف، شال الضغط | التزم بالسقف، ضاف subject line | اتقطع |
| الميل لإضافة حقول مش مطلوبة | قليل | متوسط-عالي | قليل (ما بيضيفش حاجة — وأحياناً مفيش حاجة هو اللي بيرجّعه) |
| الإسهاب الافتراضي | متوسط-عالي | متوسط-عالي | قليل |
| الـlatency على الـprompts اللي فاتت | 2.9–3.2 ث | 2.4–3.3 ث | 1.7–1.9 ث |
اقرا صف الـlatency تاني. Gemini تقريباً نصف الـwall time بتاع التانيين على المهام دي. السرعة دي حقيقية ومفيدة — للمهمة المناسبة. المهمة المناسبة هي اللي فيها عدد قيود قليل وتكلفة الفشل كمان قليلة.
"النموذج المناسب" يعني إيه فعلاً
السؤال بتاع الـCTO بتاع هاجر كان "Claude ولا GPT؟". ده الـframe الغلط. الـframe الصح: أنهي نموذج نوجّه له أنهي prompt، وإيه الـfallback؟
production setup حقيقي ممكن يبقى كده. إعادة كتابة نبرة للـcustomer support → Claude. اقتراحات مسودات بالجملة في tool داخلي → GPT-4o-mini. autocomplete real-time على dashboard خاص → Gemini Flash، مع فحص إن المخرج مش فاضي وفيه الـkeywords المطلوبة. كل مهمة ليها نموذجها، وكل مهمة ليها fallback لما الأساسي يفشل.
ده تقرير المقارنة اللي هتشحنه في المشروع الختامي.
الوحدة الجاية: فين كل نموذج "بيسمع كويس" — system prompt قبال user message، وكل واحد بيلتزم بالشخصية إزاي تحت الضغط. :::
سجّل الدخول للتقييم