تقييم استخدام LLM كحكم

كيف تقيّم جودة النص الذي ينتجه LLM؟ يمكنك استخدام... LLM آخر! هذه التقنية تسمى LLM-as-Judge (LLM كحكم).

الفكرة الأساسية

بدلاً من مراجعة كل استجابة يدوياً، تطلب من LLM قوي تقييم المخرجات بناءً على معايير محددة:

evaluation_prompt = """
أنت مقيّم خبير. قيّم الاستجابة التالية على مقياس من 1-5.
You are an expert evaluator. Score the following response on a scale of 1-5.

السؤال: {question}
الاستجابة: {response}

المعايير:
- الدقة: هل المعلومات صحيحة؟
- الملاءمة: هل تجيب على السؤال؟
- الاكتمال: هل تغطي جميع الجوانب؟

أعد JSON بدرجات لكل معيار.
"""

لماذا يعمل LLM-as-Judge

الميزة	الشرح
قابل للتوسع	تقييم آلاف الاستجابات تلقائياً
متسق	نفس المعايير مطبقة بشكل موحد
سريع	نتائج في ثوان، وليس ساعات
قابل للتخصيص	حدد أي معايير تحتاجها

أنماط الحكم الشائعة

1. التسجيل (مقياس 1-5)

# الحكم يعيد درجة رقمية
# Judge returns a numeric score
{
    "score": 4,
    "reasoning": "الاستجابة دقيقة لكن مطولة قليلاً"
}

2. التصنيف الثنائي

# الحكم يعيد نجاح/فشل
# Judge returns pass/fail
{
    "pass": True,
    "reasoning": "الاستجابة أجابت على السؤال بشكل صحيح"
}

3. التقييم الفئوي

# الحكم يعيد فئة
# Judge returns a category
{
    "category": "excellent",  # ممتاز، جيد، مقبول، ضعيف
    "reasoning": "استجابة شاملة ومنظمة جيداً"
}

قيود يجب مراعاتها

LLM-as-Judge ليس مثالياً:

تحيز الحكم: قد يكون لدى LLM الحكم تحيزاته الخاصة
التكلفة: كل تقييم يكلف Tokens
الاتساق: نماذج حكم مختلفة قد تسجل بشكل مختلف
الهلوسة: الحكام يمكن أن يهلوسوا تفسيرات

أفضل ممارسة: تحقق من دقة الحكم مقابل التعليقات البشرية قبل الاعتماد عليه كلياً.

اختيار نموذج الحكم

السيناريو	الحكم الموصى به
دقة عالية مطلوبة	GPT-4o, claude-sonnet-4-6
حساسية للتكلفة	GPT-4o-mini, claude-haiku-4-5-20251001
استضافة ذاتية مطلوبة	Llama 3.2, Mistral

التالي، سنستكشف الفرق بين التقييم المرجعي وغير المرجعي. :::