التقييم المرجعي مقابل التقييم غير المرجعي

عند تقييم مخرجات LLM، لديك نهجان أساسيان: المقارنة مع إجابة معروفة جيدة، أو تقييم المخرج بناءً على مزاياه الخاصة.

التقييم المرجعي

لديك: سؤال وإجابة صحيحة/متوقعة (الحقيقة الأساسية) تقيس: مدى تطابق الاستجابة المولدة مع المرجع

# مثال على التقييم المرجعي
# Reference-based evaluation example
test_case = {
    "question": "ما هي عاصمة فرنسا؟",
    "reference": "باريس هي عاصمة فرنسا.",
    "generated": "عاصمة فرنسا هي باريس."
}

# المقاييس تقارن المولد مقابل المرجع
# Metrics compare generated vs reference
similarity_score = evaluate_similarity(
    generated=test_case["generated"],
    reference=test_case["reference"]
)

المقاييس المرجعية الشائعة

المقياس	ما يقيسه
المطابقة التامة	هل الإجابة متطابقة؟
التشابه الدلالي	هل المعاني متكافئة؟
BLEU/ROUGE	تداخل N-gram مع المرجع
الصحة	هل تنقل نفس الحقائق؟

متى تستخدم التقييم المرجعي

سؤال وجواب فعلي مع إجابات معروفة
مهام التصنيف مع تسميات محددة
مهام الاستخراج مع مخرجات متوقعة
اختبار الانحدار مقابل استجابات خط الأساس

التقييم غير المرجعي

لديك: سؤال واستجابة مولدة (لا توجد حقيقة أساسية) تقيس: الجودة الجوهرية للاستجابة

# مثال على التقييم غير المرجعي
# Reference-free evaluation example
test_case = {
    "question": "اكتب قصيدة عن الربيع.",
    "generated": "الزهور تتفتح في ضوء لطيف..."
}

# المقاييس تقيّم جودة الاستجابة مباشرة
# Metrics evaluate response quality directly
quality_score = evaluate_quality(
    question=test_case["question"],
    response=test_case["generated"],
    criteria=["التماسك", "الإبداع", "الملاءمة"]
)

المقاييس غير المرجعية الشائعة

المقياس	ما يقيسه
الملاءمة	هل تعالج السؤال؟
التماسك	هل هي منظمة منطقياً؟
الطلاقة	هل اللغة طبيعية؟
الأمان	هل هي خالية من المحتوى الضار؟
الدقة	هل تلتزم بالسياق المقدم؟ (RAG)

متى تستخدم التقييم غير المرجعي

مهام الكتابة الإبداعية
المحادثات المفتوحة
مراقبة حركة الإنتاج (لا توجد مخرجات متوقعة)
تقييم الجودة الذاتي

الجمع بين النهجين

التقييم الواقعي غالباً ما يستخدم كليهما:

evaluation_results = {
    # مرجعي (اختبار غير متصل)
    # Reference-based (offline testing)
    "correctness": compare_to_reference(response, expected),

    # غير مرجعي (قابل للتطبيق دائماً)
    # Reference-free (always applicable)
    "coherence": evaluate_coherence(response),
    "safety": check_safety(response),
    "relevancy": evaluate_relevancy(question, response)
}

دليل القرار

السيناريو	النهج
لديك بيانات اختبار مصنفة	مرجعي
تقييم حركة الإنتاج	غير مرجعي
فحص دقة RAG	غير مرجعي (مقارنة بالسياق)
اختبار A/B لـ Prompts جديدة	كلاهما
اختبار الانحدار	مرجعي

التالي، سنستكشف التقييم البشري والتعليقات—المعيار الذهبي لتأسيس الحقيقة الأساسية. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار