المشروع الختامي — نقل أمر واحد عبر 8 نماذج

المشروع الختامي — نقل prompt واحد عبر 8 نماذج

5 دقيقة للقراءة

دي المهمة الأخيرة بتاعت هاجر. الـCTO بتاعها لسه بيسأل نفس السؤال — Claude ولا GPT، إيه رأيك في Gemini، إيه رأيك في open-weight، إحنا المفروض نعمل إيه فعلاً؟ هي هترد بالطريقة الوحيدة اللي بتعدّي اجتماع board: بتقرير مقارنة حقيقي مبني على captures حقيقية.

المشروع الختامي صغير كفاية يخلص في عصرية واحدة، كبير كفاية يبقى artifact شغّال للفريق بتاعها.

pipeline تقييم المشروع الختامي

Input
8 runs بالتوازي
capture لكل run
Output

الـstructure

اختار prompt واحد بيمثّل مهمة حقيقية في الشركة بتاعتك. مش لغز لعب. الـprompt الفعلي اللي الـapp بتاعك بيبعته آلاف المرات في اليوم. ممكن يبقى prompt summarisation، classification، tone-rewrite، structured-extraction، أو customer-reply. اللي هو الأعلى cost أو الأعلى volume في الـstack بتاعك.

وبعدين شغّل الـprompt ده على 8 نماذج. الـslate الموصى بيها:

النموذجالـvendorTierليه نضمّه
Claude Sonnet 4.5AnthropicFrontierالـbaseline بتاعت الكورس؛ benchmark instruction-discipline
GPT-4o-miniOpenAIFrontier (رخيص)الـbaseline بتاعت الكورس؛ default cost-efficient
GPT-4oOpenAIFrontierاللي بتطلع له من الـmini
Gemini 2.5 FlashGoogleFrontier (رخيص)الـbaseline بتاعت الكورس؛ benchmark latency
Gemini 2.5 ProGoogleFrontierاللي بتطلع له من Flash
Grok 3 (أو 4)xAIFrontiertraining data مختلفة، لهجة مختلفة
Llama 4 70BMeta (open)Open-weightself-hostable، quality عالي
Qwen 3 32BAlibaba (open)Open-weightlicence متساهل، code-strong

الـslate متحقّق منها بتاريخ 2026-04-27. توفر النماذج بيتغيّر — اتأكد إن كل واحد لسه شغّال عند الـvendor قبل ما تبدأ الـrun، واستبدل أقرب نموذج متاح لأي واحد اتشال.

8 ده العدد الصح. كافي يغطّي انتشار اللهجة اللي شفته في الكورس. صغير كفاية يدخل في spreadsheet مقارنة واحد.

الميكانيكا

ابعت نفس الـprompt بالظبط للـ8 كلهم. الـcapture للـraw output. خزّن الـlatency. خزّن عدد الـinput/output tokens. خزّن الـdollar cost per request (محسوبة من السعر المنشور لكل vendor — الأسعار بتتغيّر كتير، اتأكد من pricing page بتاعت الـvendor يوم ما تشغّل الـrun).

للمرجع بس — نطاقات سعر استرشادية من آخر تاريخ متحقّق منه في الكورس (2026-04-27). ما تستخدمش الأرقام دي في تقرير المشروع الختامي؛ اسحب الأسعار الحالية من pricing page كل vendor.

النموذجinput price /1M tokensoutput price /1M tokens
Claude Sonnet 4.5~$3~$15
GPT-4o-mini~$0.15~$0.60
GPT-4o~$2.50~$10
Gemini 2.5 Flash~$0.075~$0.30
Gemini 2.5 Pro~$1.25~$5
Grok 3(راجع الـvendor)(راجع الـvendor)
Llama 4 70B (self-hosted على g5.12xlarge)~$0.003 (compute متوزّع)~$0.003
Qwen 3 32B (self-hosted)~$0.002 (compute متوزّع)~$0.002

⚠ Prices change frequently. The values above are for illustration only and may be out of date. Always verify current pricing directly with the provider before making cost decisions: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.

ما تعدّلش المخرجات. النقطة كلها إن كل output ليه لهجته، واللهجة هي الإجابة. لو نموذج طلّع 600 كلمة وإنت كنت عايز 100، ده data. لو نموذج لفّ الـJSON في fence، ده data. لو نموذج اتقطع، ده data.

ده عشان إيه

الـdeliverable هو تقرير صفحة واحدة الـCTO يقدر يقراه في 5 دقايق. فيه توصية، تقدير لتوفير الـcost، وملاحظة risk. ما فيهوش model leaderboard أو حكم عام "Claude الأفضل". فيه قرار routing لـprompt واحد محدد، والـevidence تحته.

لو الإجابة طلعت "GPT-4o-mini شغّال على ده تمام، حوّل من Claude ووفّر 95% من إنفاق الـAPI على المهمة دي" — اشحن التوصية دي. لو الإجابة "Claude هو الوحيد اللي بيلتزم بالقواعد؛ التكلفة مبرّرة" — اشحن دي. لو الإجابة "Llama 4 70B self-hosted بيتعامل مع 90% من الحالات، طلّع الـ10% الباقيين لـClaude" — اشحن دي. الكورس علّمك تلمّ الـevidence. المشروع الختامي هو جمعها.

الـ3 دروس الجايين بيغطّوا الـrubric، structure التقرير، وتأطير التوصية.

التالي: comparison rubric — إزاي تـscore 8 outputs من غير bias. :::

اختبار

الوحدة 6: المشروع الختامي — نقل أمر واحد عبر 8 نماذج

خذ الاختبار
هل كان هذا الدرس مفيدًا؟

سجّل الدخول للتقييم