أساسيات تقييم نماذج اللغة الكبيرة

تصميم مجموعات بيانات التقييم

3 دقيقة للقراءة

تقييمك جيد بقدر جودة بيانات الاختبار الخاصة بك. مجموعة بيانات التقييم المصممة جيداً تكتشف المشاكل الحقيقية قبل وصولها للإنتاج.

ما الذي يجعل مجموعة بيانات التقييم جيدة؟

الخاصيةالوصفلماذا يهم
تمثيليةتغطي حالات الاستخدام الفعليةتكتشف الفشل في العالم الحقيقي
متنوعةتتضمن الحالات الحدية والتنويعاتتكشف نقاط الضعف المخفية
موسومةلها مخرجات متوقعة عند الإمكانتمكّن التسجيل الآلي
مُصدَّرةتتتبع التغييرات عبر الزمنتسمح باختبار الانحدار
متوازنةمتناسبة مع توزيع الإنتاجتقديرات أداء دقيقة

هيكل مجموعة البيانات

مجموعة بيانات التقييم النموذجية تتضمن:

{
  "id": "qa-001",
  "input": "ما هي سياسة الاسترداد؟",
  "expected_output": "يمكنك طلب استرداد خلال 30 يوماً من الشراء.",
  "context": "عميل يسأل عن الإرجاع",
  "category": "أسئلة_السياسات",
  "difficulty": "سهل",
  "tags": ["استرداد", "سياسة", "خدمة_العملاء"]
}

بناء مجموعة بياناتك

الخطوة 1: جمع عينات الإنتاج

ابدأ باستفسارات المستخدمين الحقيقية:

  • أخذ عينات من سجلات الإنتاج
  • تضمين التفاعلات الناجحة والفاشلة
  • التقاط التوزيع الكامل لحالات الاستخدام

الخطوة 2: تحديد الفئات

التنظيم حسب نوع حالة الاستخدام:

├── المسار السعيد (60%)
│   ├── الأسئلة الشائعة
│   ├── الطلبات القياسية
│   └── سير العمل النموذجي
├── الحالات الحدية (25%)
│   ├── الاستفسارات الغامضة
│   ├── الأسئلة متعددة الأجزاء
│   └── التنسيقات غير المعتادة
└── العدائية (15%)
    ├── محاولات حقن الموجه
    ├── الطلبات خارج النطاق
    └── المدخلات المشوهة

الخطوة 3: إضافة المخرجات المتوقعة

للتقييم المبني على المرجع:

نوع المدخلنهج المخرج المتوقع
أسئلة واقعيةإجابات دقيقة أو معاد صياغتها
مفتوحة النهايةنقاط رئيسية يجب تغطيتها
تصنيفالتصنيف الصحيح
استخراجالكيانات المطلوبة

الخطوة 4: الإصدار والصيانة

تتبع تطور مجموعة البيانات:

  • وسم الإصدارات (v1.0، v1.1، v2.0)
  • توثيق التغييرات بين الإصدارات
  • الاحتفاظ بالإصدارات التاريخية لاختبار الانحدار
  • المراجعة والتحديث كل ربع سنة

إرشادات حجم مجموعة البيانات

المرحلةالحد الأدنىالغرض
التطوير20-50 مثالالتكرار السريع
التحقق100-200 مثالمقاييس موثوقة
الإنتاج500+ مثالتغطية شاملة

نصيحة: الجودة أهم من الكمية. 100 مثال منتقى بعناية تتفوق على 1000 مثال مشوش.

الأخطاء الشائعة

  1. الإفراط في التكيف مع بيانات الاختبار: لا تضبط الموجهات على مجموعة التقييم
  2. مجموعات البيانات القديمة: الإنتاج يتغير؛ مجموعات البيانات يجب أن تتغير أيضاً
  3. تفويت الحالات الحدية: الحالات السهلة لا تكشف نقاط الضعف
  4. وسم غير متسق: المعلقون المتعددون يحتاجون إرشادات
  5. تسريب بيانات التدريب: بيانات التقييم يجب أن تكون منفصلة

مثال عملي: بناء مجموعة بيانات روبوت الدعم

# evaluation_dataset.yaml
version: "1.2"
created: "2024-01-15"
categories:
  - name: "أسئلة_الفوترة"
    count: 45
    examples:
      - input: "كيف أحدث بطاقتي الائتمانية؟"
        expected: "اذهب إلى الإعدادات > الفوترة > تحديث طريقة الدفع"
        difficulty: سهل
      - input: "لماذا تم خصم المبلغ مرتين؟"
        expected: "تحقق من المعاملات المكررة في سجل الفوترة"
        difficulty: متوسط

  - name: "الحالات_الحدية"
    count: 20
    examples:
      - input: "استرداد بليز"
        expected: "فهم كطلب استرداد رغم اللغة غير الرسمية"
        difficulty: صعب
      - input: ""
        expected: "التعامل مع المدخل الفارغ بسلاسة"
        difficulty: صعب

النقاط الرئيسية

  1. ابدأ ببيانات الإنتاج: الاستفسارات الحقيقية تكشف المشاكل الحقيقية
  2. غطِّ التوزيع: طابق تقييمك مع حركة الإنتاج
  3. ضمّن الحالات الصعبة: الحالات الحدية تكشف نقاط ضعف النموذج
  4. أصدر كل شيء: تتبع التغييرات لإمكانية التكرار
  5. صِن بانتظام: مجموعات البيانات تحتاج رعاية مستمرة

مع تغطية أساسيات التقييم، سنغوص الآن بعمق في LangSmith—منصة قوية لتتبع وتقييم تطبيقات LLM. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.