أساسيات تقييم نماذج اللغة الكبيرة
تقييم استخدام LLM كحكم
3 دقيقة للقراءة
كيف تقيّم جودة النص الذي ينتجه LLM؟ يمكنك استخدام... LLM آخر! هذه التقنية تسمى LLM-as-Judge (LLM كحكم).
الفكرة الأساسية
بدلاً من مراجعة كل استجابة يدوياً، تطلب من LLM قوي تقييم المخرجات بناءً على معايير محددة:
evaluation_prompt = """
أنت مقيّم خبير. قيّم الاستجابة التالية على مقياس من 1-5.
You are an expert evaluator. Score the following response on a scale of 1-5.
السؤال: {question}
الاستجابة: {response}
المعايير:
- الدقة: هل المعلومات صحيحة؟
- الملاءمة: هل تجيب على السؤال؟
- الاكتمال: هل تغطي جميع الجوانب؟
أعد JSON بدرجات لكل معيار.
"""
لماذا يعمل LLM-as-Judge
| الميزة | الشرح |
|---|---|
| قابل للتوسع | تقييم آلاف الاستجابات تلقائياً |
| متسق | نفس المعايير مطبقة بشكل موحد |
| سريع | نتائج في ثوان، وليس ساعات |
| قابل للتخصيص | حدد أي معايير تحتاجها |
أنماط الحكم الشائعة
1. التسجيل (مقياس 1-5)
# الحكم يعيد درجة رقمية
# Judge returns a numeric score
{
"score": 4,
"reasoning": "الاستجابة دقيقة لكن مطولة قليلاً"
}
2. التصنيف الثنائي
# الحكم يعيد نجاح/فشل
# Judge returns pass/fail
{
"pass": True,
"reasoning": "الاستجابة أجابت على السؤال بشكل صحيح"
}
3. التقييم الفئوي
# الحكم يعيد فئة
# Judge returns a category
{
"category": "excellent", # ممتاز، جيد، مقبول، ضعيف
"reasoning": "استجابة شاملة ومنظمة جيداً"
}
قيود يجب مراعاتها
LLM-as-Judge ليس مثالياً:
- تحيز الحكم: قد يكون لدى LLM الحكم تحيزاته الخاصة
- التكلفة: كل تقييم يكلف Tokens
- الاتساق: نماذج حكم مختلفة قد تسجل بشكل مختلف
- الهلوسة: الحكام يمكن أن يهلوسوا تفسيرات
أفضل ممارسة: تحقق من دقة الحكم مقابل التعليقات البشرية قبل الاعتماد عليه كلياً.
اختيار نموذج الحكم
| السيناريو | الحكم الموصى به |
|---|---|
| دقة عالية مطلوبة | GPT-4, Claude 3.5 Sonnet |
| حساسية للتكلفة | GPT-4o-mini, Claude 3.5 Haiku |
| استضافة ذاتية مطلوبة | Llama 3.2, Mistral |
التالي، سنستكشف الفرق بين التقييم المرجعي وغير المرجعي. :::