التطوير القائم على التقييم

تطوير البرمجيات التقليدي لديه اختبارات الوحدة. تطوير LLM لديه التقييمات. المبدأ نفسه: حدد ما يعني "الصحيح" قبل أن تبني.

مشكلة التطوير "القائم على الإحساس"

العديد من الفرق تطور تطبيقات LLM بهذه الطريقة:

اكتب Prompt
جربه عدة مرات
"يبدو جيداً لي!"
انشره في الإنتاج
أمل الأفضل

هذا النهج يفشل لأن:

نماذج LLM غير حتمية—نفس الـ Prompt يمكن أن يعطي نتائج مختلفة
الحالات الحدية يصعب اكتشافها بالاختبار اليدوي
الجودة تتدهور بصمت مع الوقت
لا توجد طريقة لمقارنة النسخ بشكل موضوعي

نهج التقييم أولاً

التطوير القائم على التقييم يقلب سير العمل:

حدد معايير النجاح - كيف تبدو الاستجابة "الجيدة"؟
ابنِ حالات اختبار - أنشئ أمثلة للمدخلات والمخرجات المتوقعة
أنشئ المقيّمين - اكتب كوداً أو Prompts تسجل الاستجابات
حدد خط الأساس لحالتك الحالية - شغّل التقييمات قبل إجراء التغييرات
كرر بثقة - أجرِ التغييرات وقِس التأثير

# مثال: حدد ما نقيسه قبل أن نبني
# Example: Define what we're measuring before we build
evaluation_criteria = {
    "faithfulness": "الاستجابة يجب أن تستخدم فقط معلومات من السياق",
    "relevancy": "الاستجابة يجب أن تجيب مباشرة على السؤال",
    "format": "الاستجابة يجب أن تكون أقل من 100 كلمة"
}

ما اختبارات الوحدة للكود، التقييمات لـ LLM

تطوير البرمجيات	تطوير LLM
اختبارات الوحدة	تقييمات الدورة الواحدة
اختبارات التكامل	تقييمات الدورات المتعددة
اختبارات شاملة	تقييمات سير العمل الكامل
تغطية الاختبار	تغطية مجموعة البيانات
بوابات CI/CD	حدود التقييم

بناء أول مجموعة بيانات تقييم

ابدأ بـ 10-20 مثالاً عالي الجودة:

حالات المسار السعيد: استعلامات عادية ومتوقعة
حالات حدية: استعلامات غير عادية لكن صالحة
حالات عدائية: مدخلات صعبة قد تربك النموذج
حالات الفشل: استعلامات يجب على النموذج رفضها أو التعامل معها بحذر

نصيحة احترافية: أضف إخفاقات الإنتاج الحقيقية لمجموعة بياناتك. كل خطأ يصبح حالة اختبار.

التقييم المستمر

لا تقيّم فقط قبل النشر:

عند كل تغيير كود: شغّل التقييمات في CI/CD
بجدول زمني: فحوصات انحدار يومية أو أسبوعية
على حركة الإنتاج: خذ عينات وقيّم الطلبات الحقيقية
عند تحديثات النموذج: أعد التقييم عند ترقية النماذج

العائد

الفرق التي تستخدم التطوير القائم على التقييم تبلغ عن:

تكرار أسرع: ثقة لإجراء التغييرات بسرعة
مشاكل إنتاج أقل: اكتشاف المشاكل قبل النشر
تعاون أفضل: فهم مشترك لمعايير الجودة
تقدم قابل للقياس: مقاييس واضحة تظهر التحسن مع الوقت

في الوحدة التالية، سنتعمق في أساسيات تقييم LLM—التقنيات والأنماط التي تجعل هذا النهج يعمل. :::