أساسيات تقييم نماذج اللغة الكبيرة

تصميم مجموعات بيانات التقييم

3 دقيقة للقراءة

تقييمك جيد بقدر جودة بيانات الاختبار الخاصة بك. مجموعة بيانات التقييم المصممة جيداً تكتشف المشاكل الحقيقية قبل وصولها للإنتاج.

ما الذي يجعل مجموعة بيانات التقييم جيدة؟

الخاصية الوصف لماذا يهم
تمثيلية تغطي حالات الاستخدام الفعلية تكتشف الفشل في العالم الحقيقي
متنوعة تتضمن الحالات الحدية والتنويعات تكشف نقاط الضعف المخفية
موسومة لها مخرجات متوقعة عند الإمكان تمكّن التسجيل الآلي
مُصدَّرة تتتبع التغييرات عبر الزمن تسمح باختبار الانحدار
متوازنة متناسبة مع توزيع الإنتاج تقديرات أداء دقيقة

هيكل مجموعة البيانات

مجموعة بيانات التقييم النموذجية تتضمن:

{
  "id": "qa-001",
  "input": "ما هي سياسة الاسترداد؟",
  "expected_output": "يمكنك طلب استرداد خلال 30 يوماً من الشراء.",
  "context": "عميل يسأل عن الإرجاع",
  "category": "أسئلة_السياسات",
  "difficulty": "سهل",
  "tags": ["استرداد", "سياسة", "خدمة_العملاء"]
}

بناء مجموعة بياناتك

الخطوة 1: جمع عينات الإنتاج

ابدأ باستفسارات المستخدمين الحقيقية:

  • أخذ عينات من سجلات الإنتاج
  • تضمين التفاعلات الناجحة والفاشلة
  • التقاط التوزيع الكامل لحالات الاستخدام

الخطوة 2: تحديد الفئات

التنظيم حسب نوع حالة الاستخدام:

├── المسار السعيد (60%)
│   ├── الأسئلة الشائعة
│   ├── الطلبات القياسية
│   └── سير العمل النموذجي
├── الحالات الحدية (25%)
│   ├── الاستفسارات الغامضة
│   ├── الأسئلة متعددة الأجزاء
│   └── التنسيقات غير المعتادة
└── العدائية (15%)
    ├── محاولات حقن الموجه
    ├── الطلبات خارج النطاق
    └── المدخلات المشوهة

الخطوة 3: إضافة المخرجات المتوقعة

للتقييم المبني على المرجع:

نوع المدخل نهج المخرج المتوقع
أسئلة واقعية إجابات دقيقة أو معاد صياغتها
مفتوحة النهاية نقاط رئيسية يجب تغطيتها
تصنيف التصنيف الصحيح
استخراج الكيانات المطلوبة

الخطوة 4: الإصدار والصيانة

تتبع تطور مجموعة البيانات:

  • وسم الإصدارات (v1.0، v1.1، v2.0)
  • توثيق التغييرات بين الإصدارات
  • الاحتفاظ بالإصدارات التاريخية لاختبار الانحدار
  • المراجعة والتحديث كل ربع سنة

إرشادات حجم مجموعة البيانات

المرحلة الحد الأدنى الغرض
التطوير 20-50 مثال التكرار السريع
التحقق 100-200 مثال مقاييس موثوقة
الإنتاج 500+ مثال تغطية شاملة

نصيحة: الجودة أهم من الكمية. 100 مثال منتقى بعناية تتفوق على 1000 مثال مشوش.

الأخطاء الشائعة

  1. الإفراط في التكيف مع بيانات الاختبار: لا تضبط الموجهات على مجموعة التقييم
  2. مجموعات البيانات القديمة: الإنتاج يتغير؛ مجموعات البيانات يجب أن تتغير أيضاً
  3. تفويت الحالات الحدية: الحالات السهلة لا تكشف نقاط الضعف
  4. وسم غير متسق: المعلقون المتعددون يحتاجون إرشادات
  5. تسريب بيانات التدريب: بيانات التقييم يجب أن تكون منفصلة

مثال عملي: بناء مجموعة بيانات روبوت الدعم

# evaluation_dataset.yaml
version: "1.2"
created: "2024-01-15"
categories:
  - name: "أسئلة_الفوترة"
    count: 45
    examples:
      - input: "كيف أحدث بطاقتي الائتمانية؟"
        expected: "اذهب إلى الإعدادات > الفوترة > تحديث طريقة الدفع"
        difficulty: سهل
      - input: "لماذا تم خصم المبلغ مرتين؟"
        expected: "تحقق من المعاملات المكررة في سجل الفوترة"
        difficulty: متوسط

  - name: "الحالات_الحدية"
    count: 20
    examples:
      - input: "استرداد بليز"
        expected: "فهم كطلب استرداد رغم اللغة غير الرسمية"
        difficulty: صعب
      - input: ""
        expected: "التعامل مع المدخل الفارغ بسلاسة"
        difficulty: صعب

النقاط الرئيسية

  1. ابدأ ببيانات الإنتاج: الاستفسارات الحقيقية تكشف المشاكل الحقيقية
  2. غطِّ التوزيع: طابق تقييمك مع حركة الإنتاج
  3. ضمّن الحالات الصعبة: الحالات الحدية تكشف نقاط ضعف النموذج
  4. أصدر كل شيء: تتبع التغييرات لإمكانية التكرار
  5. صِن بانتظام: مجموعات البيانات تحتاج رعاية مستمرة

مع تغطية أساسيات التقييم، سنغوص الآن بعمق في LangSmith—منصة قوية لتتبع وتقييم تطبيقات LLM. :::

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار