قابلية المراقبة الإنتاجية
أساسيات قابلية مراقبة LLM
4 دقيقة للقراءة
تمتد قابلية مراقبة LLM من مراقبة التطبيقات التقليدية لمعالجة التحديات الفريدة لأنظمة الذكاء الاصطناعي: المخرجات غير الحتمية، والاستدلال المعقد متعدد الخطوات، وتقييم الجودة على نطاق واسع.
لماذا قابلية مراقبة LLM مهمة
┌─────────────────────────────────────────────────────────────┐
│ المراقبة التقليدية مقابل مراقبة LLM │
├─────────────────────────────────────────────────────────────┤
│ │
│ المراقبة التقليدية قابلية مراقبة LLM │
│ ────────────────────── ───────────────── │
│ • وقت الاستجابة • وقت الاستجابة │
│ • معدلات الأخطاء • معدلات الأخطاء │
│ • الإنتاجية • الإنتاجية │
│ │
│ + خاص بـ LLM: │
│ ───────────────── │
│ • استخدام الرموز والتكاليف • تتبع المطالبة/الإكمال │
│ • درجات جودة المخرجات • اكتشاف الهلوسة │
│ • تفصيل زمن الاستجابة • حلقات ملاحظات المستخدم │
│ (TTFT، التوليد) • مقارنة النماذج A/B │
│ • سياق المحادثة • جودة الاسترجاع (RAG) │
│ • محفزات السلامة/الحواجز • محاولات حقن المطالبة │
│ │
└─────────────────────────────────────────────────────────────┘
مكدس قابلية المراقبة
┌─────────────────────────────────────────────────────────────┐
│ مكدس قابلية مراقبة LLM │
├─────────────────────────────────────────────────────────────┤
│ │
│ الطبقة 4: التحليلات والرؤى │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ لوحات المعلومات، التقارير، تحليل التكلفة، اتجاهات │ │
│ └─────────────────────────────────────────────────────┘ │
│ ↑ │
│ الطبقة 3: التقييم │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ LLM كحكم، ملاحظات بشرية، تسجيل آلي │ │
│ └─────────────────────────────────────────────────────┘ │
│ ↑ │
│ الطبقة 2: التتبع │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ الفترات، التتبعات، المطالبات، الإكمالات، البيانات │ │
│ └─────────────────────────────────────────────────────┘ │
│ ↑ │
│ الطبقة 1: الجمع │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ أدوات SDK، وكلاء API، تجميع السجلات │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
المفاهيم الأساسية
التتبعات والفترات
تلتقط تتبعات LLM دورة الحياة الكاملة للطلب:
# هيكل التتبع المفاهيمي
trace = {
"trace_id": "abc-123",
"name": "customer_support_query",
"spans": [
{
"span_id": "span-1",
"name": "embedding_generation",
"input": "كيف أعيد تعيين كلمة المرور؟",
"output": "[0.123, 0.456, ...]",
"model": "text-embedding-3-small",
"tokens": 8,
"latency_ms": 45,
},
{
"span_id": "span-2",
"name": "vector_search",
"input": {"query_vector": "..."},
"output": {"documents": [...], "scores": [...]},
"latency_ms": 12,
},
{
"span_id": "span-3",
"name": "llm_completion",
"input": {"system": "...", "user": "..."},
"output": "لإعادة تعيين كلمة المرور...",
"model": "gpt-4o",
"prompt_tokens": 1250,
"completion_tokens": 185,
"latency_ms": 890,
"cost_usd": 0.0134,
},
],
"total_latency_ms": 947,
"total_cost_usd": 0.0136,
"user_id": "user-456",
"session_id": "session-789",
}
أبعاد التقييم
مصفوفة تقييم الجودة:
البعد الطرق مستوى الأتمتة
─────────────────────────────────────────────────────────────
الصحة LLM كحكم، مقارنة عالي
الحقيقة المرجعية RAG
الصلة التشابه الدلالي، عالي
تصنيف الموضوع
الفائدة تقييمات المستخدم، متوسط
معدلات إكمال المهمة
السلامة فحوصات الحواجز، عالي
اكتشاف السمية
التماسك LLM كحكم، عالي
درجات القراءة
التأسيس التحقق من الاستشهاد، متوسط
(RAG) إسناد المصدر
المقاييس الرئيسية للتتبع
مقاييس زمن الاستجابة
| المقياس | الوصف | الهدف |
|---|---|---|
| TTFT | وقت أول رمز | <500ms |
| إجمالي زمن الاستجابة | وقت الاستجابة من النهاية للنهاية | <3s |
| زمن P95 | النسبة المئوية 95 للاستجابة | <5s |
| سرعة التوليد | الرموز في الثانية | >30 رمز/ث |
مقاييس الجودة
| المقياس | الوصف | الهدف |
|---|---|---|
| رضا المستخدم | نسبة إبهام لأعلى/لأسفل | >85% إيجابي |
| إكمال المهمة | هل حقق المستخدم هدفه؟ | >90% |
| معدل الهلوسة | الردود غير الصحيحة واقعياً | <5% |
| محفزات الحواجز | تنشيطات فلتر السلامة | <1% |
مقاييس التكلفة
| المقياس | الوصف | التحسين |
|---|---|---|
| التكلفة لكل استعلام | متوسط $ لكل طلب | تتبع الاتجاهات |
| كفاءة الرموز | نسبة الخرج/الدخل | تحسين المطالبات |
| معدل إصابة الذاكرة | الردود المعاد استخدامها | >70% للاستعلامات المتشابهة |
| مزيج تكلفة النموذج | الإنفاق حسب طبقة النموذج | التوجيه المناسب |
مقارنة منصات قابلية المراقبة
| المنصة | نقاط القوة | الأفضل لـ |
|---|---|---|
| Langfuse | مفتوح المصدر، استضافة ذاتية، LLM كحكم | التحكم الكامل، الخصوصية |
| Helicone | وكيل فائق السرعة، التخزين المؤقت | الإنتاج عالي النطاق |
| LangSmith | تكامل LangChain، ساحة اللعب | تطبيقات LangChain |
| Weights & Biases | تتبع تجارب ML | فرق البحث |
| Datadog LLM | تكامل APM المؤسسي | مستخدمي Datadog الحاليين |
أنماط التكامل
قائم على الوكيل (بدون كود)
تطبيقك → وكيل قابلية المراقبة → مزود LLM
↓
لوحة التحليلات
قائم على SDK (تحكم مفصل)
from observability_sdk import trace, span
@trace(name="chat_completion")
def process_query(user_message):
with span("embedding"):
embedding = get_embedding(user_message)
with span("retrieval"):
docs = search_documents(embedding)
with span("completion"):
response = generate_response(docs, user_message)
return response
متوافق مع OpenTelemetry
from opentelemetry import trace
from opentelemetry.instrumentation.openai import OpenAIInstrumentor
# أدوات تلقائية لاستدعاءات OpenAI
OpenAIInstrumentor().instrument()
# التتبعات تتدفق لخلفية OTel الخاصة بك
:::