المقاييس الرئيسية لجودة نماذج اللغة الكبيرة

كيف تعرف إذا كان تطبيق LLM الخاص بك "جيداً"؟ الجودة ليست رقماً واحداً—إنها توازن بين أبعاد متعددة.

الركائز الأربع لجودة LLM

المستخدمون يتوقعون استجابات سريعة. تتبع هذه النسب المئوية:

مثال على الحد: P95 < 3 ثوان لاستجابات روبوت المحادثة

كل استدعاء LLM له تكلفة بناءً على الـ Tokens:

Tokens الإدخال: ما ترسله للنموذج
Tokens الإخراج: ما ينتجه النموذج
التكلفة لكل طلب: (tokens_الإدخال × سعر_الإدخال) + (tokens_الإخراج × سعر_الإخراج)

تتبع:

الجودة متعددة الأبعاد. المقاييس الشائعة تشمل:

المقياس	ما يقيسه
الدقة (Faithfulness)	هل تلتزم الاستجابة بالسياق المقدم؟
ملاءمة الإجابة	هل تعالج الاستجابة السؤال؟
التماسك	هل الاستجابة منظمة منطقياً؟
الصحة	هل المعلومات دقيقة؟
الاكتمال	هل تغطي جميع جوانب السؤال؟

أنظمة الإنتاج يجب أن تفلتر المحتوى الضار:

ليس كل مقياس مهم لكل حالة استخدام:

حالة الاستخدام	المقاييس ذات الأولوية
روبوت دعم العملاء	وقت الاستجابة، الملاءمة، الأمان
مساعد توليد الكود	الصحة، التكلفة
سؤال وجواب مستندات RAG	الدقة، الاكتمال
مساعد الكتابة الإبداعية	التماسك، الملاءمة

ابدأ بسيطاً: اختر 2-3 مقاييس الأكثر أهمية. أضف المزيد مع نضجك.

في الدرس التالي، سنستكشف التطوير القائم على التقييم—ممارسة وضع التقييم في مركز سير عملك. :::