بناء تقرير المقارنة — إتقان النماذج المتعددة — مسار هندسة الأوامر — Nerd Level Tech

عندك الـcaptures والـscores. التقرير هو اللي بيخلّيهم قابلين للتنفيذ. تقرير ما بيوصّلش لقرار ده شغل ضايع. أهو الـstructure اللي بشكل ثابت بيطلّع قرار.

structure تقرير الصفحة الواحدة

القسم 1 — التوصية، في جملة واحدة. ابدأ بالإجابة. "حوّل [اسم المهمة] من [النموذج الحالي] لـ[النموذج الموصى بيه]؛ التوفير الشهري المقدّر: $[X]؛ تغيير الجودة المتوقّع: [من غير تغيير / +N نقطة / -N نقطة]." الجملة دي هي اللي بتتنقل في الـSlack بتاع القيادة. أي حاجة تانية evidence داعم.

القسم 2 — الـprompt، حرفياً. ضيف الـprompt بالظبط اللي الـapp بيبعته. 5 سطور أو 50. دي الحاجة الوحيدة اللي بتخلّي التقرير قابل للإعادة — أي حد بيقراه بعد كده يقدر يشغّل نفس المقارنة ويتحقّق من النتيجة.

القسم 3 — الـscoreboard. جدول بصف واحد لكل نموذج و columns لكل بُعد rubric بالإضافة لرقم cost-per-acceptable-output. ده أهم visual في التقرير. رتّبه بـcost-per-acceptable-output صاعد. الصف في الفوق هو التوصية بتاعتك.

القسم 4 — ليه النموذج ده مش اللي أرخص فوقه. لو التوصية بتاعتك مش أرخص نموذج في الـscoreboard، اشرح ليه. النموذج الأرخص فشل في أنهي قيد، على أنهي input، أنهي fraction من الوقت. ده المكان اللي قارئ القيادة هيدفع فيه ضد، فـpre-empt السؤال.

القسم 5 — Risk وخطة الـrollout. 3 أقسام فرعية. (أ) إيه اللي بنخسره لو غلطنا: سمّي أوحش quality regression بمصطلحات بتظهر للمستخدم. (ب) إزاي بنقيس: أنهي production metric هيقولنا في خلال أسبوع لو التحويل وحش. (ج) خطة rollout: shadow-test 1% من الـtraffic لأسبوع، وبعدين زوّد.

القسم 6 — Appendix: 5-10 example outputs. حرفياً، جنب بعض، نفس الـprompt شغّال على النموذج الموصى بيه والنموذج السابق. خلّي القارئ يشوف الـoutputs الفعلية. ده بيحوّل الـskeptics أسرع من أي aggregate score.

اللي تـsibe-ه بره

كمية مفاجئة.

سيب درجات benchmark عامة من مزوّدي النماذج بره. هي عن مهام تانية. سيب مقارنات cost-per-million-tokens لوحدها — مضلّلة من غير quality. سيب تعليق تفصيلي عن أنهي نموذج "أحسن" بشكل عام. التقرير بتاعك عن prompt واحد.

سيب مقارنات نماذج ما اختبرتهاش فعلاً. لو شغّلت 6 من الـ8 نماذج من درس 1، ما تتفلسفش على الاتنين الباقيين. النقطة كلها للتقرير "إحنا قسنا ده". الـspeculation بيقوّض القياس.

يطوّل قد إيه

صفحتين، بالإضافة للـappendix. قارئ القيادة بيدّي تقرير مقارنة 90 ثانية قبل ما يقرر يقرا الباقي. القسم 1 لازم ينزل في الـ90 ثانية دي. الأقسام 2-5 بتدخل على الصفحة التانية. الـappendix يقدر يطوّل قد ما يحتاج.

لو التقرير بتاعك أطول من صفحتين نص body، إنت دفنت التوصية. اقطع.

اللي بيتشحن جنب التقرير

اتنين artifacts بيمشوا جنب جنب:

ملف الـcaptures — JSON لكل المخرجات الخام، الـlatencies، عدد الـtokens، والتكاليف. أي حد بيعيد تشغيل المقارنة يقدر يعمل diff قبال الـbaseline ده. نفس الشكل بتاع latest.json اللي قريته في أول الكورس.
تغيير الـrouting — تغيير الكود الفعلي في الـapp بتاعك اللي بينفّذ الـrouting الجديد. تقرير من غير PR مرتبط هو تقرير ما بيتبنّاش.

المشروع الختامي للكورس هو إنتاج الـ3 كلهم: التقرير، الـcaptures، وتغيير الـrouting. هم بيكوّنوا الـartifact الكامل اللي الفريق بتاعك هيـmerge-ه فعلاً.

التالي: تأطير التوصية — تخلّيها تنزل. :::