أساسيات تقييم نماذج اللغة الكبيرة
التقييم البشري والتعليقات التوضيحية
3 دقيقة للقراءة
LLM-as-Judge قوي، لكنه ليس مثالياً. التقييم البشري يبقى المعيار الذهبي لتأسيس الحقيقة الأساسية والتحقق من صحة المقيّمين الآليين.
لماذا يهم التقييم البشري
| التقييم الآلي | التقييم البشري |
|---|---|
| سريع وقابل للتوسع | بطيء لكن دقيق |
| متسق لكن قد يكون متحيزاً | يكتشف المشاكل الدقيقة |
| جيد للأنماط المعروفة | يكتشف أنماط الفشل غير المعروفة |
| قد يهلوس التفسيرات | يوفر فهماً حقيقياً |
رؤية أساسية: استخدم البشر للتحقق من صحة مقيّميك الآليين، ثم وسّع النطاق بالأتمتة.
نهج التقييم البشري
1. التقييم المباشر
البشر يسجلون الاستجابات بناءً على معايير محددة مسبقاً:
قيّم هذه الاستجابة على مقياس من 1-5:
السؤال: "كيف أعيد تعيين كلمة المرور؟"
الاستجابة: "انقر على 'نسيت كلمة المرور' في صفحة تسجيل الدخول..."
المعايير:
- المساعدة: [1] [2] [3] [4] [5]
- الدقة: [1] [2] [3] [4] [5]
- الوضوح: [1] [2] [3] [4] [5]
2. المقارنة الثنائية
البشر يختارون أي استجابة أفضل:
أي استجابة تجيب على السؤال بشكل أفضل؟
السؤال: "اشرح تعلم الآلة"
الاستجابة أ: [شرح تقني]
الاستجابة ب: [تشبيه بسيط]
[ ] أ أفضل
[ ] ب أفضل
[ ] متقاربتان تقريباً
3. قوائم انتظار التعليقات
مراجعة منهجية لعينات الإنتاج:
- أخذ عينات عشوائية من طلبات الإنتاج
- توجيهها للمراجعين البشريين
- جمع تعليقات منظمة
- إعادتها لبيانات التدريب
بناء إرشادات التعليقات
الإرشادات الواضحة تقلل عدم الاتساق:
## إرشادات التعليقات لاستجابات دعم العملاء
### درجة 5 (ممتاز)
- يجيب على السؤال بالكامل
- نبرة مهذبة ومهنية
- يتضمن خطوات تالية ذات صلة
### درجة 4 (جيد)
- يجيب على السؤال بشكل كافٍ
- نبرة مهنية
- إغفالات طفيفة
### درجة 3 (مقبول)
- يجيب جزئياً على السؤال
- نبرة مقبولة
- إغفالات ملحوظة
### درجة 2 (ضعيف)
- بالكاد يعالج السؤال
- مشاكل في النبرة
- إغفالات كبيرة
### درجة 1 (غير مقبول)
- لا يجيب على السؤال
- محتوى غير مناسب
- معلومات خاطئة
قياس اتفاق المعلقين
يجب أن يتفق عدة معلقين على الجودة:
| المقياس | الوصف | الهدف |
|---|---|---|
| Cohen's Kappa | الاتفاق بين معلقين اثنين | > 0.6 |
| Fleiss' Kappa | الاتفاق بين 3+ معلقين | > 0.6 |
| Krippendorff's Alpha | يعمل مع البيانات الناقصة | > 0.67 |
الاتفاق المنخفض يشير إلى:
- إرشادات غير واضحة
- معايير ذاتية
- تدريب مطلوب
نصائح عملية
- ابدأ صغيراً: 50-100 مثال للتحقق من نهج التقييم الخاص بك
- استخدم عدة معلقين: على الأقل 2-3 لكل مثال للقرارات المهمة
- تتبع الخلافات: تكشف الحالات الحدية والغموض
- كرر على الإرشادات: حسّن بناءً على تعليقات المعلقين
- ابنِ مجموعات المعايرة: استخدم أمثلة متفق عليها لتدريب معلقين جدد
التالي، سنستكشف كيفية بناء مجموعات بيانات التقييم التي تغطي النطاق الكامل من السيناريوهات التي سيواجهها LLM الخاص بك. :::