أساسيات تقييم نماذج اللغة الكبيرة

تقييم استخدام LLM كحكم

3 دقيقة للقراءة

كيف تقيّم جودة النص الذي ينتجه LLM؟ يمكنك استخدام... LLM آخر! هذه التقنية تسمى LLM-as-Judge (LLM كحكم).

الفكرة الأساسية

بدلاً من مراجعة كل استجابة يدوياً، تطلب من LLM قوي تقييم المخرجات بناءً على معايير محددة:

evaluation_prompt = """
أنت مقيّم خبير. قيّم الاستجابة التالية على مقياس من 1-5.
You are an expert evaluator. Score the following response on a scale of 1-5.

السؤال: {question}
الاستجابة: {response}

المعايير:
- الدقة: هل المعلومات صحيحة؟
- الملاءمة: هل تجيب على السؤال؟
- الاكتمال: هل تغطي جميع الجوانب؟

أعد JSON بدرجات لكل معيار.
"""

لماذا يعمل LLM-as-Judge

الميزة الشرح
قابل للتوسع تقييم آلاف الاستجابات تلقائياً
متسق نفس المعايير مطبقة بشكل موحد
سريع نتائج في ثوان، وليس ساعات
قابل للتخصيص حدد أي معايير تحتاجها

أنماط الحكم الشائعة

1. التسجيل (مقياس 1-5)

# الحكم يعيد درجة رقمية
# Judge returns a numeric score
{
    "score": 4,
    "reasoning": "الاستجابة دقيقة لكن مطولة قليلاً"
}

2. التصنيف الثنائي

# الحكم يعيد نجاح/فشل
# Judge returns pass/fail
{
    "pass": True,
    "reasoning": "الاستجابة أجابت على السؤال بشكل صحيح"
}

3. التقييم الفئوي

# الحكم يعيد فئة
# Judge returns a category
{
    "category": "excellent",  # ممتاز، جيد، مقبول، ضعيف
    "reasoning": "استجابة شاملة ومنظمة جيداً"
}

قيود يجب مراعاتها

LLM-as-Judge ليس مثالياً:

  • تحيز الحكم: قد يكون لدى LLM الحكم تحيزاته الخاصة
  • التكلفة: كل تقييم يكلف Tokens
  • الاتساق: نماذج حكم مختلفة قد تسجل بشكل مختلف
  • الهلوسة: الحكام يمكن أن يهلوسوا تفسيرات

أفضل ممارسة: تحقق من دقة الحكم مقابل التعليقات البشرية قبل الاعتماد عليه كلياً.

اختيار نموذج الحكم

السيناريو الحكم الموصى به
دقة عالية مطلوبة GPT-4, Claude 3.5 Sonnet
حساسية للتكلفة GPT-4o-mini, Claude 3.5 Haiku
استضافة ذاتية مطلوبة Llama 3.2, Mistral

التالي، سنستكشف الفرق بين التقييم المرجعي وغير المرجعي. :::

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار