أساسيات قابلية مراقبة LLM

تمتد قابلية مراقبة LLM من مراقبة التطبيقات التقليدية لمعالجة التحديات الفريدة لأنظمة الذكاء الاصطناعي: المخرجات غير الحتمية، والاستدلال المعقد متعدد الخطوات، وتقييم الجودة على نطاق واسع.

لماذا قابلية مراقبة LLM مهمة

┌─────────────────────────────────────────────────────────────┐
│           المراقبة التقليدية مقابل مراقبة LLM              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  المراقبة التقليدية          قابلية مراقبة LLM             │
│  ──────────────────────       ─────────────────             │
│  • وقت الاستجابة              • وقت الاستجابة               │
│  • معدلات الأخطاء             • معدلات الأخطاء              │
│  • الإنتاجية                  • الإنتاجية                   │
│                                                             │
│  + خاص بـ LLM:                                              │
│  ─────────────────                                          │
│  • استخدام الرموز والتكاليف  • تتبع المطالبة/الإكمال       │
│  • درجات جودة المخرجات       • اكتشاف الهلوسة              │
│  • تفصيل زمن الاستجابة       • حلقات ملاحظات المستخدم      │
│    (TTFT، التوليد)           • مقارنة النماذج A/B          │
│  • سياق المحادثة             • جودة الاسترجاع (RAG)        │
│  • محفزات السلامة/الحواجز   • محاولات حقن المطالبة        │
│                                                             │
└─────────────────────────────────────────────────────────────┘

مكدس قابلية المراقبة

┌─────────────────────────────────────────────────────────────┐
│                  مكدس قابلية مراقبة LLM                     │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  الطبقة 4: التحليلات والرؤى                                │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  لوحات المعلومات، التقارير، تحليل التكلفة، اتجاهات │   │
│  └─────────────────────────────────────────────────────┘   │
│                        ↑                                    │
│  الطبقة 3: التقييم                                         │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  LLM كحكم، ملاحظات بشرية، تسجيل آلي               │   │
│  └─────────────────────────────────────────────────────┘   │
│                        ↑                                    │
│  الطبقة 2: التتبع                                          │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  الفترات، التتبعات، المطالبات، الإكمالات، البيانات │   │
│  └─────────────────────────────────────────────────────┘   │
│                        ↑                                    │
│  الطبقة 1: الجمع                                           │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  أدوات SDK، وكلاء API، تجميع السجلات               │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

المفاهيم الأساسية

التتبعات والفترات

تلتقط تتبعات LLM دورة الحياة الكاملة للطلب:

# هيكل التتبع المفاهيمي
trace = {
    "trace_id": "abc-123",
    "name": "customer_support_query",
    "spans": [
        {
            "span_id": "span-1",
            "name": "embedding_generation",
            "input": "كيف أعيد تعيين كلمة المرور؟",
            "output": "[0.123, 0.456, ...]",
            "model": "text-embedding-3-small",
            "tokens": 8,
            "latency_ms": 45,
        },
        {
            "span_id": "span-2",
            "name": "vector_search",
            "input": {"query_vector": "..."},
            "output": {"documents": [...], "scores": [...]},
            "latency_ms": 12,
        },
        {
            "span_id": "span-3",
            "name": "llm_completion",
            "input": {"system": "...", "user": "..."},
            "output": "لإعادة تعيين كلمة المرور...",
            "model": "gpt-4o",
            "prompt_tokens": 1250,
            "completion_tokens": 185,
            "latency_ms": 890,
            "cost_usd": 0.0134,
        },
    ],
    "total_latency_ms": 947,
    "total_cost_usd": 0.0136,
    "user_id": "user-456",
    "session_id": "session-789",
}

أبعاد التقييم

مصفوفة تقييم الجودة:

البعد           الطرق                     مستوى الأتمتة
─────────────────────────────────────────────────────────────
الصحة          LLM كحكم، مقارنة           عالي
               الحقيقة المرجعية RAG

الصلة          التشابه الدلالي،           عالي
               تصنيف الموضوع

الفائدة       تقييمات المستخدم،          متوسط
               معدلات إكمال المهمة

السلامة        فحوصات الحواجز،            عالي
               اكتشاف السمية

التماسك        LLM كحكم،                  عالي
               درجات القراءة

التأسيس        التحقق من الاستشهاد،       متوسط
(RAG)          إسناد المصدر

المقاييس الرئيسية للتتبع

مقاييس زمن الاستجابة

المقياس	الوصف	الهدف
TTFT	وقت أول رمز	<500ms
إجمالي زمن الاستجابة	وقت الاستجابة من النهاية للنهاية	<3s
زمن P95	النسبة المئوية 95 للاستجابة	<5s
سرعة التوليد	الرموز في الثانية	>30 رمز/ث

مقاييس الجودة

المقياس	الوصف	الهدف
رضا المستخدم	نسبة إبهام لأعلى/لأسفل	>85% إيجابي
إكمال المهمة	هل حقق المستخدم هدفه؟	>90%
معدل الهلوسة	الردود غير الصحيحة واقعياً	<5%
محفزات الحواجز	تنشيطات فلتر السلامة	<1%

مقاييس التكلفة

المقياس	الوصف	التحسين
التكلفة لكل استعلام	متوسط $ لكل طلب	تتبع الاتجاهات
كفاءة الرموز	نسبة الخرج/الدخل	تحسين المطالبات
معدل إصابة الذاكرة	الردود المعاد استخدامها	>70% للاستعلامات المتشابهة
مزيج تكلفة النموذج	الإنفاق حسب طبقة النموذج	التوجيه المناسب

مقارنة منصات قابلية المراقبة

المنصة	نقاط القوة	الأفضل لـ
Langfuse	مفتوح المصدر، استضافة ذاتية، LLM كحكم	التحكم الكامل، الخصوصية
Helicone	وكيل فائق السرعة، التخزين المؤقت	الإنتاج عالي النطاق
LangSmith	تكامل LangChain، ساحة اللعب	تطبيقات LangChain
Weights & Biases	تتبع تجارب ML	فرق البحث
Datadog LLM	تكامل APM المؤسسي	مستخدمي Datadog الحاليين

أنماط التكامل

قائم على الوكيل (بدون كود)

تطبيقك → وكيل قابلية المراقبة → مزود LLM
                 ↓
          لوحة التحليلات

قائم على SDK (تحكم مفصل)

from observability_sdk import trace, span

@trace(name="chat_completion")
def process_query(user_message):
    with span("embedding"):
        embedding = get_embedding(user_message)

    with span("retrieval"):
        docs = search_documents(embedding)

    with span("completion"):
        response = generate_response(docs, user_message)

    return response

متوافق مع OpenTelemetry

from opentelemetry import trace
from opentelemetry.instrumentation.openai import OpenAIInstrumentor

# أدوات تلقائية لاستدعاءات OpenAI
OpenAIInstrumentor().instrument()

# التتبعات تتدفق لخلفية OTel الخاصة بك

:::