أساسيات تقييم نماذج اللغة الكبيرة

تقييم استخدام LLM كحكم

3 دقيقة للقراءة

كيف تقيّم جودة النص الذي ينتجه LLM؟ يمكنك استخدام... LLM آخر! هذه التقنية تسمى LLM-as-Judge (LLM كحكم).

الفكرة الأساسية

بدلاً من مراجعة كل استجابة يدوياً، تطلب من LLM قوي تقييم المخرجات بناءً على معايير محددة:

evaluation_prompt = """
أنت مقيّم خبير. قيّم الاستجابة التالية على مقياس من 1-5.
You are an expert evaluator. Score the following response on a scale of 1-5.

السؤال: {question}
الاستجابة: {response}

المعايير:
- الدقة: هل المعلومات صحيحة؟
- الملاءمة: هل تجيب على السؤال؟
- الاكتمال: هل تغطي جميع الجوانب؟

أعد JSON بدرجات لكل معيار.
"""

لماذا يعمل LLM-as-Judge

الميزةالشرح
قابل للتوسعتقييم آلاف الاستجابات تلقائياً
متسقنفس المعايير مطبقة بشكل موحد
سريعنتائج في ثوان، وليس ساعات
قابل للتخصيصحدد أي معايير تحتاجها

أنماط الحكم الشائعة

1. التسجيل (مقياس 1-5)

# الحكم يعيد درجة رقمية
# Judge returns a numeric score
{
    "score": 4,
    "reasoning": "الاستجابة دقيقة لكن مطولة قليلاً"
}

2. التصنيف الثنائي

# الحكم يعيد نجاح/فشل
# Judge returns pass/fail
{
    "pass": True,
    "reasoning": "الاستجابة أجابت على السؤال بشكل صحيح"
}

3. التقييم الفئوي

# الحكم يعيد فئة
# Judge returns a category
{
    "category": "excellent",  # ممتاز، جيد، مقبول، ضعيف
    "reasoning": "استجابة شاملة ومنظمة جيداً"
}

قيود يجب مراعاتها

LLM-as-Judge ليس مثالياً:

  • تحيز الحكم: قد يكون لدى LLM الحكم تحيزاته الخاصة
  • التكلفة: كل تقييم يكلف Tokens
  • الاتساق: نماذج حكم مختلفة قد تسجل بشكل مختلف
  • الهلوسة: الحكام يمكن أن يهلوسوا تفسيرات

أفضل ممارسة: تحقق من دقة الحكم مقابل التعليقات البشرية قبل الاعتماد عليه كلياً.

اختيار نموذج الحكم

السيناريوالحكم الموصى به
دقة عالية مطلوبةGPT-4o, claude-sonnet-4-6
حساسية للتكلفةGPT-4o-mini, claude-haiku-4-5-20251001
استضافة ذاتية مطلوبةLlama 3.2, Mistral

التالي، سنستكشف الفرق بين التقييم المرجعي وغير المرجعي. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.