أساسيات تقييم نماذج اللغة الكبيرة

التقييم المرجعي مقابل التقييم غير المرجعي

3 دقيقة للقراءة

عند تقييم مخرجات LLM، لديك نهجان أساسيان: المقارنة مع إجابة معروفة جيدة، أو تقييم المخرج بناءً على مزاياه الخاصة.

التقييم المرجعي

لديك: سؤال وإجابة صحيحة/متوقعة (الحقيقة الأساسية) تقيس: مدى تطابق الاستجابة المولدة مع المرجع

# مثال على التقييم المرجعي
# Reference-based evaluation example
test_case = {
    "question": "ما هي عاصمة فرنسا؟",
    "reference": "باريس هي عاصمة فرنسا.",
    "generated": "عاصمة فرنسا هي باريس."
}

# المقاييس تقارن المولد مقابل المرجع
# Metrics compare generated vs reference
similarity_score = evaluate_similarity(
    generated=test_case["generated"],
    reference=test_case["reference"]
)

المقاييس المرجعية الشائعة

المقياس ما يقيسه
المطابقة التامة هل الإجابة متطابقة؟
التشابه الدلالي هل المعاني متكافئة؟
BLEU/ROUGE تداخل N-gram مع المرجع
الصحة هل تنقل نفس الحقائق؟

متى تستخدم التقييم المرجعي

  • سؤال وجواب فعلي مع إجابات معروفة
  • مهام التصنيف مع تسميات محددة
  • مهام الاستخراج مع مخرجات متوقعة
  • اختبار الانحدار مقابل استجابات خط الأساس

التقييم غير المرجعي

لديك: سؤال واستجابة مولدة (لا توجد حقيقة أساسية) تقيس: الجودة الجوهرية للاستجابة

# مثال على التقييم غير المرجعي
# Reference-free evaluation example
test_case = {
    "question": "اكتب قصيدة عن الربيع.",
    "generated": "الزهور تتفتح في ضوء لطيف..."
}

# المقاييس تقيّم جودة الاستجابة مباشرة
# Metrics evaluate response quality directly
quality_score = evaluate_quality(
    question=test_case["question"],
    response=test_case["generated"],
    criteria=["التماسك", "الإبداع", "الملاءمة"]
)

المقاييس غير المرجعية الشائعة

المقياس ما يقيسه
الملاءمة هل تعالج السؤال؟
التماسك هل هي منظمة منطقياً؟
الطلاقة هل اللغة طبيعية؟
الأمان هل هي خالية من المحتوى الضار؟
الدقة هل تلتزم بالسياق المقدم؟ (RAG)

متى تستخدم التقييم غير المرجعي

  • مهام الكتابة الإبداعية
  • المحادثات المفتوحة
  • مراقبة حركة الإنتاج (لا توجد مخرجات متوقعة)
  • تقييم الجودة الذاتي

الجمع بين النهجين

التقييم الواقعي غالباً ما يستخدم كليهما:

evaluation_results = {
    # مرجعي (اختبار غير متصل)
    # Reference-based (offline testing)
    "correctness": compare_to_reference(response, expected),

    # غير مرجعي (قابل للتطبيق دائماً)
    # Reference-free (always applicable)
    "coherence": evaluate_coherence(response),
    "safety": check_safety(response),
    "relevancy": evaluate_relevancy(question, response)
}

دليل القرار

السيناريو النهج
لديك بيانات اختبار مصنفة مرجعي
تقييم حركة الإنتاج غير مرجعي
فحص دقة RAG غير مرجعي (مقارنة بالسياق)
اختبار A/B لـ Prompts جديدة كلاهما
اختبار الانحدار مرجعي

التالي، سنستكشف التقييم البشري والتعليقات—المعيار الذهبي لتأسيس الحقيقة الأساسية. :::

اختبار

الوحدة 2: أساسيات تقييم نماذج اللغة الكبيرة

خذ الاختبار