المشروع الختامي — نقل prompt واحد عبر 8 نماذج — إتقان النماذج المتعددة — مسار هندسة الأوامر — Nerd Level Tech

دي المهمة الأخيرة بتاعت هاجر. الـCTO بتاعها لسه بيسأل نفس السؤال — Claude ولا GPT، إيه رأيك في Gemini، إيه رأيك في open-weight، إحنا المفروض نعمل إيه فعلاً؟ هي هترد بالطريقة الوحيدة اللي بتعدّي اجتماع board: بتقرير مقارنة حقيقي مبني على captures حقيقية.

المشروع الختامي صغير كفاية يخلص في عصرية واحدة، كبير كفاية يبقى artifact شغّال للفريق بتاعها.

pipeline تقييم المشروع الختامي

Input

8 runs بالتوازي

capture لكل run

Output

الـstructure

اختار prompt واحد بيمثّل مهمة حقيقية في الشركة بتاعتك. مش لغز لعب. الـprompt الفعلي اللي الـapp بتاعك بيبعته آلاف المرات في اليوم. ممكن يبقى prompt summarisation، classification، tone-rewrite، structured-extraction، أو customer-reply. اللي هو الأعلى cost أو الأعلى volume في الـstack بتاعك.

وبعدين شغّل الـprompt ده على 8 نماذج. الـslate الموصى بيها:

النموذج	الـvendor	Tier	ليه نضمّه
Claude Sonnet 4.5	Anthropic	Frontier	الـbaseline بتاعت الكورس؛ benchmark instruction-discipline
GPT-4o-mini	OpenAI	Frontier (رخيص)	الـbaseline بتاعت الكورس؛ default cost-efficient
GPT-4o	OpenAI	Frontier	اللي بتطلع له من الـmini
Gemini 2.5 Flash	Google	Frontier (رخيص)	الـbaseline بتاعت الكورس؛ benchmark latency
Gemini 2.5 Pro	Google	Frontier	اللي بتطلع له من Flash
Grok 3 (أو 4)	xAI	Frontier	training data مختلفة، لهجة مختلفة
Llama 4 70B	Meta (open)	Open-weight	self-hostable، quality عالي
Qwen 3 32B	Alibaba (open)	Open-weight	licence متساهل، code-strong

الـslate متحقّق منها بتاريخ 2026-04-27. توفر النماذج بيتغيّر — اتأكد إن كل واحد لسه شغّال عند الـvendor قبل ما تبدأ الـrun، واستبدل أقرب نموذج متاح لأي واحد اتشال.

8 ده العدد الصح. كافي يغطّي انتشار اللهجة اللي شفته في الكورس. صغير كفاية يدخل في spreadsheet مقارنة واحد.

الميكانيكا

ابعت نفس الـprompt بالظبط للـ8 كلهم. الـcapture للـraw output. خزّن الـlatency. خزّن عدد الـinput/output tokens. خزّن الـdollar cost per request (محسوبة من السعر المنشور لكل vendor — الأسعار بتتغيّر كتير، اتأكد من pricing page بتاعت الـvendor يوم ما تشغّل الـrun).

للمرجع بس — نطاقات سعر استرشادية من آخر تاريخ متحقّق منه في الكورس (2026-04-27). ما تستخدمش الأرقام دي في تقرير المشروع الختامي؛ اسحب الأسعار الحالية من pricing page كل vendor.

النموذج	input price /1M tokens	output price /1M tokens
Claude Sonnet 4.5	~$3	~$15
GPT-4o-mini	~$0.15	~$0.60
GPT-4o	~$2.50	~$10
Gemini 2.5 Flash	~$0.075	~$0.30
Gemini 2.5 Pro	~$1.25	~$5
Grok 3	(راجع الـvendor)	(راجع الـvendor)
Llama 4 70B (self-hosted على g5.12xlarge)	~$0.003 (compute متوزّع)	~$0.003
Qwen 3 32B (self-hosted)	~$0.002 (compute متوزّع)	~$0.002

⚠ Prices change frequently. The values above are for illustration only and may be out of date. Always verify current pricing directly with the provider before making cost decisions: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.

ما تعدّلش المخرجات. النقطة كلها إن كل output ليه لهجته، واللهجة هي الإجابة. لو نموذج طلّع 600 كلمة وإنت كنت عايز 100، ده data. لو نموذج لفّ الـJSON في fence، ده data. لو نموذج اتقطع، ده data.

ده عشان إيه

الـdeliverable هو تقرير صفحة واحدة الـCTO يقدر يقراه في 5 دقايق. فيه توصية، تقدير لتوفير الـcost، وملاحظة risk. ما فيهوش model leaderboard أو حكم عام "Claude الأفضل". فيه قرار routing لـprompt واحد محدد، والـevidence تحته.

لو الإجابة طلعت "GPT-4o-mini شغّال على ده تمام، حوّل من Claude ووفّر 95% من إنفاق الـAPI على المهمة دي" — اشحن التوصية دي. لو الإجابة "Claude هو الوحيد اللي بيلتزم بالقواعد؛ التكلفة مبرّرة" — اشحن دي. لو الإجابة "Llama 4 70B self-hosted بيتعامل مع 90% من الحالات، طلّع الـ10% الباقيين لـClaude" — اشحن دي. الكورس علّمك تلمّ الـevidence. المشروع الختامي هو جمعها.

الـ3 دروس الجايين بيغطّوا الـrubric، structure التقرير، وتأطير التوصية.

التالي: comparison rubric — إزاي تـscore 8 outputs من غير bias. :::