أساسيات تقييم نماذج اللغة الكبيرة

التقييم المرجعي مقابل التقييم غير المرجعي

3 دقيقة للقراءة

عند تقييم مخرجات LLM، لديك نهجان أساسيان: المقارنة مع إجابة معروفة جيدة، أو تقييم المخرج بناءً على مزاياه الخاصة.

التقييم المرجعي

لديك: سؤال وإجابة صحيحة/متوقعة (الحقيقة الأساسية) تقيس: مدى تطابق الاستجابة المولدة مع المرجع

# مثال على التقييم المرجعي
# Reference-based evaluation example
test_case = {
    "question": "ما هي عاصمة فرنسا؟",
    "reference": "باريس هي عاصمة فرنسا.",
    "generated": "عاصمة فرنسا هي باريس."
}

# المقاييس تقارن المولد مقابل المرجع
# Metrics compare generated vs reference
similarity_score = evaluate_similarity(
    generated=test_case["generated"],
    reference=test_case["reference"]
)

المقاييس المرجعية الشائعة

المقياسما يقيسه
المطابقة التامةهل الإجابة متطابقة؟
التشابه الدلاليهل المعاني متكافئة؟
BLEU/ROUGEتداخل N-gram مع المرجع
الصحةهل تنقل نفس الحقائق؟

متى تستخدم التقييم المرجعي

  • سؤال وجواب فعلي مع إجابات معروفة
  • مهام التصنيف مع تسميات محددة
  • مهام الاستخراج مع مخرجات متوقعة
  • اختبار الانحدار مقابل استجابات خط الأساس

التقييم غير المرجعي

لديك: سؤال واستجابة مولدة (لا توجد حقيقة أساسية) تقيس: الجودة الجوهرية للاستجابة

# مثال على التقييم غير المرجعي
# Reference-free evaluation example
test_case = {
    "question": "اكتب قصيدة عن الربيع.",
    "generated": "الزهور تتفتح في ضوء لطيف..."
}

# المقاييس تقيّم جودة الاستجابة مباشرة
# Metrics evaluate response quality directly
quality_score = evaluate_quality(
    question=test_case["question"],
    response=test_case["generated"],
    criteria=["التماسك", "الإبداع", "الملاءمة"]
)

المقاييس غير المرجعية الشائعة

المقياسما يقيسه
الملاءمةهل تعالج السؤال؟
التماسكهل هي منظمة منطقياً؟
الطلاقةهل اللغة طبيعية؟
الأمانهل هي خالية من المحتوى الضار؟
الدقةهل تلتزم بالسياق المقدم؟ (RAG)

متى تستخدم التقييم غير المرجعي

  • مهام الكتابة الإبداعية
  • المحادثات المفتوحة
  • مراقبة حركة الإنتاج (لا توجد مخرجات متوقعة)
  • تقييم الجودة الذاتي

الجمع بين النهجين

التقييم الواقعي غالباً ما يستخدم كليهما:

evaluation_results = {
    # مرجعي (اختبار غير متصل)
    # Reference-based (offline testing)
    "correctness": compare_to_reference(response, expected),

    # غير مرجعي (قابل للتطبيق دائماً)
    # Reference-free (always applicable)
    "coherence": evaluate_coherence(response),
    "safety": check_safety(response),
    "relevancy": evaluate_relevancy(question, response)
}

دليل القرار

السيناريوالنهج
لديك بيانات اختبار مصنفةمرجعي
تقييم حركة الإنتاجغير مرجعي
فحص دقة RAGغير مرجعي (مقارنة بالسياق)
اختبار A/B لـ Prompts جديدةكلاهما
اختبار الانحدارمرجعي

التالي، سنستكشف التقييم البشري والتعليقات—المعيار الذهبي لتأسيس الحقيقة الأساسية. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.