مقدمة في عمليات نماذج اللغة الكبيرة

المقاييس الرئيسية لجودة نماذج اللغة الكبيرة

3 دقيقة للقراءة

كيف تعرف إذا كان تطبيق LLM الخاص بك "جيداً"؟ الجودة ليست رقماً واحداً—إنها توازن بين أبعاد متعددة.

الركائز الأربع لجودة LLM

الركيزة ما تقيسه مثال على المقياس
وقت الاستجابة مدى سرعة الاستجابات P95 وقت الاستجابة < 2 ثانية
التكلفة كم تكلف كل طلب التكلفة لكل 1000 طلب < 5$
الجودة مدى جودة المخرجات درجة الدقة > 0.85
الأمان مدى أمان المخرجات لا محتوى ضار

مقاييس وقت الاستجابة

المستخدمون يتوقعون استجابات سريعة. تتبع هذه النسب المئوية:

  • P50 (الوسيط): نصف الطلبات أسرع من هذا
  • P95: 95% من الطلبات أسرع من هذا
  • P99: 99% من الطلبات أسرع من هذا

مثال على الحد: P95 < 3 ثوان لاستجابات روبوت المحادثة

مقاييس التكلفة

كل استدعاء LLM له تكلفة بناءً على الـ Tokens:

  • Tokens الإدخال: ما ترسله للنموذج
  • Tokens الإخراج: ما ينتجه النموذج
  • التكلفة لكل طلب: (tokens_الإدخال × سعر_الإدخال) + (tokens_الإخراج × سعر_الإخراج)

تتبع:

  • الإنفاق اليومي/الأسبوعي: هل نحن ضمن الميزانية؟
  • التكلفة لكل إجراء مستخدم: كم تكلف كل دورة محادثة؟
  • شذوذ التكلفة: ارتفاعات مفاجئة في استخدام الـ Tokens

مقاييس الجودة

الجودة متعددة الأبعاد. المقاييس الشائعة تشمل:

المقياس ما يقيسه
الدقة (Faithfulness) هل تلتزم الاستجابة بالسياق المقدم؟
ملاءمة الإجابة هل تعالج الاستجابة السؤال؟
التماسك هل الاستجابة منظمة منطقياً؟
الصحة هل المعلومات دقيقة؟
الاكتمال هل تغطي جميع جوانب السؤال؟

مقاييس الأمان

أنظمة الإنتاج يجب أن تفلتر المحتوى الضار:

  • اكتشاف السمية: خطاب الكراهية، التحرش، العنف
  • اكتشاف PII: تسرب المعلومات الشخصية
  • اكتشاف حقن الـ Prompt: محاولات التلاعب بالنظام
  • معدل الرفض: كم مرة يرفض النموذج بشكل مناسب

اختيار مقاييسك

ليس كل مقياس مهم لكل حالة استخدام:

حالة الاستخدام المقاييس ذات الأولوية
روبوت دعم العملاء وقت الاستجابة، الملاءمة، الأمان
مساعد توليد الكود الصحة، التكلفة
سؤال وجواب مستندات RAG الدقة، الاكتمال
مساعد الكتابة الإبداعية التماسك، الملاءمة

ابدأ بسيطاً: اختر 2-3 مقاييس الأكثر أهمية. أضف المزيد مع نضجك.

في الدرس التالي، سنستكشف التطوير القائم على التقييم—ممارسة وضع التقييم في مركز سير عملك. :::

اختبار

الوحدة 1: مقدمة في عمليات نماذج اللغة الكبيرة

خذ الاختبار