أساسيات تقييم نماذج اللغة الكبيرة
تصميم مجموعات بيانات التقييم
3 دقيقة للقراءة
تقييمك جيد بقدر جودة بيانات الاختبار الخاصة بك. مجموعة بيانات التقييم المصممة جيداً تكتشف المشاكل الحقيقية قبل وصولها للإنتاج.
ما الذي يجعل مجموعة بيانات التقييم جيدة؟
| الخاصية | الوصف | لماذا يهم |
|---|---|---|
| تمثيلية | تغطي حالات الاستخدام الفعلية | تكتشف الفشل في العالم الحقيقي |
| متنوعة | تتضمن الحالات الحدية والتنويعات | تكشف نقاط الضعف المخفية |
| موسومة | لها مخرجات متوقعة عند الإمكان | تمكّن التسجيل الآلي |
| مُصدَّرة | تتتبع التغييرات عبر الزمن | تسمح باختبار الانحدار |
| متوازنة | متناسبة مع توزيع الإنتاج | تقديرات أداء دقيقة |
هيكل مجموعة البيانات
مجموعة بيانات التقييم النموذجية تتضمن:
{
"id": "qa-001",
"input": "ما هي سياسة الاسترداد؟",
"expected_output": "يمكنك طلب استرداد خلال 30 يوماً من الشراء.",
"context": "عميل يسأل عن الإرجاع",
"category": "أسئلة_السياسات",
"difficulty": "سهل",
"tags": ["استرداد", "سياسة", "خدمة_العملاء"]
}
بناء مجموعة بياناتك
الخطوة 1: جمع عينات الإنتاج
ابدأ باستفسارات المستخدمين الحقيقية:
- أخذ عينات من سجلات الإنتاج
- تضمين التفاعلات الناجحة والفاشلة
- التقاط التوزيع الكامل لحالات الاستخدام
الخطوة 2: تحديد الفئات
التنظيم حسب نوع حالة الاستخدام:
├── المسار السعيد (60%)
│ ├── الأسئلة الشائعة
│ ├── الطلبات القياسية
│ └── سير العمل النموذجي
├── الحالات الحدية (25%)
│ ├── الاستفسارات الغامضة
│ ├── الأسئلة متعددة الأجزاء
│ └── التنسيقات غير المعتادة
└── العدائية (15%)
├── محاولات حقن الموجه
├── الطلبات خارج النطاق
└── المدخلات المشوهة
الخطوة 3: إضافة المخرجات المتوقعة
للتقييم المبني على المرجع:
| نوع المدخل | نهج المخرج المتوقع |
|---|---|
| أسئلة واقعية | إجابات دقيقة أو معاد صياغتها |
| مفتوحة النهاية | نقاط رئيسية يجب تغطيتها |
| تصنيف | التصنيف الصحيح |
| استخراج | الكيانات المطلوبة |
الخطوة 4: الإصدار والصيانة
تتبع تطور مجموعة البيانات:
- وسم الإصدارات (v1.0، v1.1، v2.0)
- توثيق التغييرات بين الإصدارات
- الاحتفاظ بالإصدارات التاريخية لاختبار الانحدار
- المراجعة والتحديث كل ربع سنة
إرشادات حجم مجموعة البيانات
| المرحلة | الحد الأدنى | الغرض |
|---|---|---|
| التطوير | 20-50 مثال | التكرار السريع |
| التحقق | 100-200 مثال | مقاييس موثوقة |
| الإنتاج | 500+ مثال | تغطية شاملة |
نصيحة: الجودة أهم من الكمية. 100 مثال منتقى بعناية تتفوق على 1000 مثال مشوش.
الأخطاء الشائعة
- الإفراط في التكيف مع بيانات الاختبار: لا تضبط الموجهات على مجموعة التقييم
- مجموعات البيانات القديمة: الإنتاج يتغير؛ مجموعات البيانات يجب أن تتغير أيضاً
- تفويت الحالات الحدية: الحالات السهلة لا تكشف نقاط الضعف
- وسم غير متسق: المعلقون المتعددون يحتاجون إرشادات
- تسريب بيانات التدريب: بيانات التقييم يجب أن تكون منفصلة
مثال عملي: بناء مجموعة بيانات روبوت الدعم
# evaluation_dataset.yaml
version: "1.2"
created: "2024-01-15"
categories:
- name: "أسئلة_الفوترة"
count: 45
examples:
- input: "كيف أحدث بطاقتي الائتمانية؟"
expected: "اذهب إلى الإعدادات > الفوترة > تحديث طريقة الدفع"
difficulty: سهل
- input: "لماذا تم خصم المبلغ مرتين؟"
expected: "تحقق من المعاملات المكررة في سجل الفوترة"
difficulty: متوسط
- name: "الحالات_الحدية"
count: 20
examples:
- input: "استرداد بليز"
expected: "فهم كطلب استرداد رغم اللغة غير الرسمية"
difficulty: صعب
- input: ""
expected: "التعامل مع المدخل الفارغ بسلاسة"
difficulty: صعب
النقاط الرئيسية
- ابدأ ببيانات الإنتاج: الاستفسارات الحقيقية تكشف المشاكل الحقيقية
- غطِّ التوزيع: طابق تقييمك مع حركة الإنتاج
- ضمّن الحالات الصعبة: الحالات الحدية تكشف نقاط ضعف النموذج
- أصدر كل شيء: تتبع التغييرات لإمكانية التكرار
- صِن بانتظام: مجموعات البيانات تحتاج رعاية مستمرة
مع تغطية أساسيات التقييم، سنغوص الآن بعمق في LangSmith—منصة قوية لتتبع وتقييم تطبيقات LLM. :::