مقدمة في عمليات نماذج اللغة الكبيرة

المقاييس الرئيسية لجودة نماذج اللغة الكبيرة

3 دقيقة للقراءة

كيف تعرف إذا كان تطبيق LLM الخاص بك "جيداً"؟ الجودة ليست رقماً واحداً—إنها توازن بين أبعاد متعددة.

الركائز الأربع لجودة LLM

الركيزةما تقيسهمثال على المقياس
وقت الاستجابةمدى سرعة الاستجاباتP95 وقت الاستجابة < 2 ثانية
التكلفةكم تكلف كل طلبالتكلفة لكل 1000 طلب < 5$
الجودةمدى جودة المخرجاتدرجة الدقة > 0.85
الأمانمدى أمان المخرجاتلا محتوى ضار

مقاييس وقت الاستجابة

المستخدمون يتوقعون استجابات سريعة. تتبع هذه النسب المئوية:

  • P50 (الوسيط): نصف الطلبات أسرع من هذا
  • P95: 95% من الطلبات أسرع من هذا
  • P99: 99% من الطلبات أسرع من هذا

مثال على الحد: P95 < 3 ثوان لاستجابات روبوت المحادثة

مقاييس التكلفة

كل استدعاء LLM له تكلفة بناءً على الـ Tokens:

  • Tokens الإدخال: ما ترسله للنموذج
  • Tokens الإخراج: ما ينتجه النموذج
  • التكلفة لكل طلب: (tokens_الإدخال × سعر_الإدخال) + (tokens_الإخراج × سعر_الإخراج)

تتبع:

  • الإنفاق اليومي/الأسبوعي: هل نحن ضمن الميزانية؟
  • التكلفة لكل إجراء مستخدم: كم تكلف كل دورة محادثة؟
  • شذوذ التكلفة: ارتفاعات مفاجئة في استخدام الـ Tokens

مقاييس الجودة

الجودة متعددة الأبعاد. المقاييس الشائعة تشمل:

المقياسما يقيسه
الدقة (Faithfulness)هل تلتزم الاستجابة بالسياق المقدم؟
ملاءمة الإجابةهل تعالج الاستجابة السؤال؟
التماسكهل الاستجابة منظمة منطقياً؟
الصحةهل المعلومات دقيقة؟
الاكتمالهل تغطي جميع جوانب السؤال؟

مقاييس الأمان

أنظمة الإنتاج يجب أن تفلتر المحتوى الضار:

  • اكتشاف السمية: خطاب الكراهية، التحرش، العنف
  • اكتشاف PII: تسرب المعلومات الشخصية
  • اكتشاف حقن الـ Prompt: محاولات التلاعب بالنظام
  • معدل الرفض: كم مرة يرفض النموذج بشكل مناسب

اختيار مقاييسك

ليس كل مقياس مهم لكل حالة استخدام:

حالة الاستخدامالمقاييس ذات الأولوية
روبوت دعم العملاءوقت الاستجابة، الملاءمة، الأمان
مساعد توليد الكودالصحة، التكلفة
سؤال وجواب مستندات RAGالدقة، الاكتمال
مساعد الكتابة الإبداعيةالتماسك، الملاءمة

ابدأ بسيطاً: اختر 2-3 مقاييس الأكثر أهمية. أضف المزيد مع نضجك.

في الدرس التالي، سنستكشف التطوير القائم على التقييم—ممارسة وضع التقييم في مركز سير عملك. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 1: مقدمة في عمليات نماذج اللغة الكبيرة

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.