أساسيات تقييم نماذج اللغة الكبيرة
التقييم المرجعي مقابل التقييم غير المرجعي
3 دقيقة للقراءة
عند تقييم مخرجات LLM، لديك نهجان أساسيان: المقارنة مع إجابة معروفة جيدة، أو تقييم المخرج بناءً على مزاياه الخاصة.
التقييم المرجعي
لديك: سؤال وإجابة صحيحة/متوقعة (الحقيقة الأساسية) تقيس: مدى تطابق الاستجابة المولدة مع المرجع
# مثال على التقييم المرجعي
# Reference-based evaluation example
test_case = {
"question": "ما هي عاصمة فرنسا؟",
"reference": "باريس هي عاصمة فرنسا.",
"generated": "عاصمة فرنسا هي باريس."
}
# المقاييس تقارن المولد مقابل المرجع
# Metrics compare generated vs reference
similarity_score = evaluate_similarity(
generated=test_case["generated"],
reference=test_case["reference"]
)
المقاييس المرجعية الشائعة
| المقياس | ما يقيسه |
|---|---|
| المطابقة التامة | هل الإجابة متطابقة؟ |
| التشابه الدلالي | هل المعاني متكافئة؟ |
| BLEU/ROUGE | تداخل N-gram مع المرجع |
| الصحة | هل تنقل نفس الحقائق؟ |
متى تستخدم التقييم المرجعي
- سؤال وجواب فعلي مع إجابات معروفة
- مهام التصنيف مع تسميات محددة
- مهام الاستخراج مع مخرجات متوقعة
- اختبار الانحدار مقابل استجابات خط الأساس
التقييم غير المرجعي
لديك: سؤال واستجابة مولدة (لا توجد حقيقة أساسية) تقيس: الجودة الجوهرية للاستجابة
# مثال على التقييم غير المرجعي
# Reference-free evaluation example
test_case = {
"question": "اكتب قصيدة عن الربيع.",
"generated": "الزهور تتفتح في ضوء لطيف..."
}
# المقاييس تقيّم جودة الاستجابة مباشرة
# Metrics evaluate response quality directly
quality_score = evaluate_quality(
question=test_case["question"],
response=test_case["generated"],
criteria=["التماسك", "الإبداع", "الملاءمة"]
)
المقاييس غير المرجعية الشائعة
| المقياس | ما يقيسه |
|---|---|
| الملاءمة | هل تعالج السؤال؟ |
| التماسك | هل هي منظمة منطقياً؟ |
| الطلاقة | هل اللغة طبيعية؟ |
| الأمان | هل هي خالية من المحتوى الضار؟ |
| الدقة | هل تلتزم بالسياق المقدم؟ (RAG) |
متى تستخدم التقييم غير المرجعي
- مهام الكتابة الإبداعية
- المحادثات المفتوحة
- مراقبة حركة الإنتاج (لا توجد مخرجات متوقعة)
- تقييم الجودة الذاتي
الجمع بين النهجين
التقييم الواقعي غالباً ما يستخدم كليهما:
evaluation_results = {
# مرجعي (اختبار غير متصل)
# Reference-based (offline testing)
"correctness": compare_to_reference(response, expected),
# غير مرجعي (قابل للتطبيق دائماً)
# Reference-free (always applicable)
"coherence": evaluate_coherence(response),
"safety": check_safety(response),
"relevancy": evaluate_relevancy(question, response)
}
دليل القرار
| السيناريو | النهج |
|---|---|
| لديك بيانات اختبار مصنفة | مرجعي |
| تقييم حركة الإنتاج | غير مرجعي |
| فحص دقة RAG | غير مرجعي (مقارنة بالسياق) |
| اختبار A/B لـ Prompts جديدة | كلاهما |
| اختبار الانحدار | مرجعي |
التالي، سنستكشف التقييم البشري والتعليقات—المعيار الذهبي لتأسيس الحقيقة الأساسية. :::