مقدمة في عمليات نماذج اللغة الكبيرة
المقاييس الرئيسية لجودة نماذج اللغة الكبيرة
3 دقيقة للقراءة
كيف تعرف إذا كان تطبيق LLM الخاص بك "جيداً"؟ الجودة ليست رقماً واحداً—إنها توازن بين أبعاد متعددة.
الركائز الأربع لجودة LLM
| الركيزة | ما تقيسه | مثال على المقياس |
|---|---|---|
| وقت الاستجابة | مدى سرعة الاستجابات | P95 وقت الاستجابة < 2 ثانية |
| التكلفة | كم تكلف كل طلب | التكلفة لكل 1000 طلب < 5$ |
| الجودة | مدى جودة المخرجات | درجة الدقة > 0.85 |
| الأمان | مدى أمان المخرجات | لا محتوى ضار |
مقاييس وقت الاستجابة
المستخدمون يتوقعون استجابات سريعة. تتبع هذه النسب المئوية:
- P50 (الوسيط): نصف الطلبات أسرع من هذا
- P95: 95% من الطلبات أسرع من هذا
- P99: 99% من الطلبات أسرع من هذا
مثال على الحد: P95 < 3 ثوان لاستجابات روبوت المحادثة
مقاييس التكلفة
كل استدعاء LLM له تكلفة بناءً على الـ Tokens:
- Tokens الإدخال: ما ترسله للنموذج
- Tokens الإخراج: ما ينتجه النموذج
- التكلفة لكل طلب: (tokens_الإدخال × سعر_الإدخال) + (tokens_الإخراج × سعر_الإخراج)
تتبع:
- الإنفاق اليومي/الأسبوعي: هل نحن ضمن الميزانية؟
- التكلفة لكل إجراء مستخدم: كم تكلف كل دورة محادثة؟
- شذوذ التكلفة: ارتفاعات مفاجئة في استخدام الـ Tokens
مقاييس الجودة
الجودة متعددة الأبعاد. المقاييس الشائعة تشمل:
| المقياس | ما يقيسه |
|---|---|
| الدقة (Faithfulness) | هل تلتزم الاستجابة بالسياق المقدم؟ |
| ملاءمة الإجابة | هل تعالج الاستجابة السؤال؟ |
| التماسك | هل الاستجابة منظمة منطقياً؟ |
| الصحة | هل المعلومات دقيقة؟ |
| الاكتمال | هل تغطي جميع جوانب السؤال؟ |
مقاييس الأمان
أنظمة الإنتاج يجب أن تفلتر المحتوى الضار:
- اكتشاف السمية: خطاب الكراهية، التحرش، العنف
- اكتشاف PII: تسرب المعلومات الشخصية
- اكتشاف حقن الـ Prompt: محاولات التلاعب بالنظام
- معدل الرفض: كم مرة يرفض النموذج بشكل مناسب
اختيار مقاييسك
ليس كل مقياس مهم لكل حالة استخدام:
| حالة الاستخدام | المقاييس ذات الأولوية |
|---|---|
| روبوت دعم العملاء | وقت الاستجابة، الملاءمة، الأمان |
| مساعد توليد الكود | الصحة، التكلفة |
| سؤال وجواب مستندات RAG | الدقة، الاكتمال |
| مساعد الكتابة الإبداعية | التماسك، الملاءمة |
ابدأ بسيطاً: اختر 2-3 مقاييس الأكثر أهمية. أضف المزيد مع نضجك.
في الدرس التالي، سنستكشف التطوير القائم على التقييم—ممارسة وضع التقييم في مركز سير عملك. :::