أساسيات تقييم نماذج اللغة الكبيرة

التقييم البشري والتعليقات التوضيحية

3 دقيقة للقراءة

LLM-as-Judge قوي، لكنه ليس مثالياً. التقييم البشري يبقى المعيار الذهبي لتأسيس الحقيقة الأساسية والتحقق من صحة المقيّمين الآليين.

لماذا يهم التقييم البشري

التقييم الآليالتقييم البشري
سريع وقابل للتوسعبطيء لكن دقيق
متسق لكن قد يكون متحيزاًيكتشف المشاكل الدقيقة
جيد للأنماط المعروفةيكتشف أنماط الفشل غير المعروفة
قد يهلوس التفسيراتيوفر فهماً حقيقياً

رؤية أساسية: استخدم البشر للتحقق من صحة مقيّميك الآليين، ثم وسّع النطاق بالأتمتة.

نهج التقييم البشري

1. التقييم المباشر

البشر يسجلون الاستجابات بناءً على معايير محددة مسبقاً:

قيّم هذه الاستجابة على مقياس من 1-5:

السؤال: "كيف أعيد تعيين كلمة المرور؟"
الاستجابة: "انقر على 'نسيت كلمة المرور' في صفحة تسجيل الدخول..."

المعايير:
- المساعدة: [1] [2] [3] [4] [5]
- الدقة: [1] [2] [3] [4] [5]
- الوضوح: [1] [2] [3] [4] [5]

2. المقارنة الثنائية

البشر يختارون أي استجابة أفضل:

أي استجابة تجيب على السؤال بشكل أفضل؟

السؤال: "اشرح تعلم الآلة"

الاستجابة أ: [شرح تقني]
الاستجابة ب: [تشبيه بسيط]

[ ] أ أفضل
[ ] ب أفضل
[ ] متقاربتان تقريباً

3. قوائم انتظار التعليقات

مراجعة منهجية لعينات الإنتاج:

  • أخذ عينات عشوائية من طلبات الإنتاج
  • توجيهها للمراجعين البشريين
  • جمع تعليقات منظمة
  • إعادتها لبيانات التدريب

بناء إرشادات التعليقات

الإرشادات الواضحة تقلل عدم الاتساق:

## إرشادات التعليقات لاستجابات دعم العملاء

### درجة 5 (ممتاز)
- يجيب على السؤال بالكامل
- نبرة مهذبة ومهنية
- يتضمن خطوات تالية ذات صلة

### درجة 4 (جيد)
- يجيب على السؤال بشكل كافٍ
- نبرة مهنية
- إغفالات طفيفة

### درجة 3 (مقبول)
- يجيب جزئياً على السؤال
- نبرة مقبولة
- إغفالات ملحوظة

### درجة 2 (ضعيف)
- بالكاد يعالج السؤال
- مشاكل في النبرة
- إغفالات كبيرة

### درجة 1 (غير مقبول)
- لا يجيب على السؤال
- محتوى غير مناسب
- معلومات خاطئة

قياس اتفاق المعلقين

يجب أن يتفق عدة معلقين على الجودة:

المقياسالوصفالهدف
Cohen's Kappaالاتفاق بين معلقين اثنين> 0.6
Fleiss' Kappaالاتفاق بين 3+ معلقين> 0.6
Krippendorff's Alphaيعمل مع البيانات الناقصة> 0.67

الاتفاق المنخفض يشير إلى:

  • إرشادات غير واضحة
  • معايير ذاتية
  • تدريب مطلوب

نصائح عملية

  1. ابدأ صغيراً: 50-100 مثال للتحقق من نهج التقييم الخاص بك
  2. استخدم عدة معلقين: على الأقل 2-3 لكل مثال للقرارات المهمة
  3. تتبع الخلافات: تكشف الحالات الحدية والغموض
  4. كرر على الإرشادات: حسّن بناءً على تعليقات المعلقين
  5. ابنِ مجموعات المعايرة: استخدم أمثلة متفق عليها لتدريب معلقين جدد

التالي، سنستكشف كيفية بناء مجموعات بيانات التقييم التي تغطي النطاق الكامل من السيناريوهات التي سيواجهها LLM الخاص بك. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.