Helicone: وكيل LLM عالي الأداء

Helicone هي منصة قابلية مراقبة LLM جاهزة للإنتاج مبنية للتوسع. تقدم معمارية الوكيل المبنية على Rust زمن استجابة 8ms P50 مع توفير تسجيل شامل وتخزين مؤقت وتحديد المعدل. Helicone متوافقة مع SOC 2 Type II و GDPR.

المعمارية

┌─────────────────────────────────────────────────────────────┐
│                   معمارية Helicone                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  تطبيقك                                                     │
│       │                                                     │
│       ▼                                                     │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              وكيل Helicone (Rust)                    │   │
│  │  ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐    │   │
│  │  │ التسجيل │ │ التخزين │ │ تحديد   │ │ منطق   │    │   │
│  │  │         │ │ المؤقت  │ │ المعدل  │ │ إعادة  │    │   │
│  │  └─────────┘ └─────────┘ └─────────┘ └─────────┘    │   │
│  │                                                      │   │
│  │  الأداء: 8ms P50 | 15ms P95 | 99.99% وقت التشغيل   │   │
│  └─────────────────────────────────────────────────────┘   │
│       │                                                     │
│       ▼                                                     │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              مزودي LLM                               │   │
│  │  ┌──────┐ ┌─────────┐ ┌──────┐ ┌────────┐          │   │
│  │  │OpenAI│ │Anthropic│ │Azure │ │Together│ ...      │   │
│  │  └──────┘ └─────────┘ └──────┘ └────────┘          │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

التكامل بدون كود

أبسط تكامل يتطلب فقط تغيير عنوان API الأساسي:

OpenAI Python SDK

from openai import OpenAI

# فقط غيّر عنوان URL الأساسي وأضف الترويسة
client = OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={
        "Helicone-Auth": "Bearer sk-helicone-..."
    }
)

# جميع الطلبات تُسجل الآن عبر Helicone
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "مرحباً!"}]
)

Anthropic SDK

from anthropic import Anthropic

client = Anthropic(
    base_url="https://anthropic.helicone.ai",
    default_headers={
        "Helicone-Auth": "Bearer sk-helicone-..."
    }
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "مرحباً!"}]
)

وسم الطلبات والبيانات الوصفية

أضف بيانات وصفية غنية للطلبات للتصفية والتحليل:

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": user_message}],
    extra_headers={
        # تتبع المستخدم والجلسة
        "Helicone-User-Id": user_id,
        "Helicone-Session-Id": session_id,

        # خصائص مخصصة للتصفية
        "Helicone-Property-Environment": "production",
        "Helicone-Property-Feature": "customer_support",
        "Helicone-Property-Version": "v2.1.0",

        # تسمية الطلب للتعريف السهل
        "Helicone-Request-Name": "support_ticket_response",
    }
)

التخزين المؤقت للاستجابات

يوفر Helicone تخزيناً مؤقتاً ذكياً لتقليل التكاليف وزمن الاستجابة:

# تمكين التخزين المؤقت لهذا الطلب
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "ما هي عاصمة فرنسا؟"}],
    extra_headers={
        "Helicone-Auth": "Bearer sk-helicone-...",
        # إعدادات التخزين المؤقت
        "Helicone-Cache-Enabled": "true",
        "Helicone-Cache-Bucket-Max-Size": "1000",  # أقصى ردود مخزنة
        "Helicone-Cache-Seed": "user-123",  # بذرة مفتاح التخزين
    }
)

# تحقق إذا كانت الاستجابة من التخزين المؤقت
# response.headers["Helicone-Cache-Hit"] == "true"

خيارات تكوين التخزين المؤقت

الترويسة	الوصف	القيم
`Helicone-Cache-Enabled`	تمكين التخزين المؤقت	`true`/`false`
`Helicone-Cache-Bucket-Max-Size`	أقصى إدخالات مخزنة	عدد صحيح
`Helicone-Cache-Seed`	بذرة مفتاح التخزين	نص

تحديد المعدل

احمِ تطبيقك وأدر التكاليف:

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": message}],
    extra_headers={
        "Helicone-Auth": "Bearer sk-helicone-...",
        # تحديد المعدل حسب المستخدم
        "Helicone-RateLimit-Policy": "100;w=3600;u=user",  # 100 طلب/ساعة لكل مستخدم
        "Helicone-User-Id": user_id,
    }
)

صيغة سياسة تحديد المعدل

{limit};w={window_seconds};u={unit}

أمثلة:
- "100;w=3600;u=user"     # 100 طلب في الساعة لكل مستخدم
- "1000;w=86400;u=org"    # 1000 طلب في اليوم لكل منظمة
- "10;w=60;u=request"     # 10 طلبات في الدقيقة إجمالاً

إعادة المحاولة والاحتياطي

منطق إعادة المحاولة التلقائي مع التراجع الأسي:

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": message}],
    extra_headers={
        "Helicone-Auth": "Bearer sk-helicone-...",
        # تكوين إعادة المحاولة
        "Helicone-Retry-Enabled": "true",
        "Helicone-Retry-Num": "3",  # أقصى محاولات
        "Helicone-Retry-Factor": "2",  # عامل التراجع الأسي

        # اختياري: الاحتياطي لنموذج مختلف عند الفشل
        "Helicone-Fallback": '[{"model": "gpt-4o-mini"}]',
    }
)

إدارة المطالبات

تخزين وإصدار المطالبات مباشرة في Helicone:

# استخدام مطالبة مُدارة
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "{{user_input}}"}],
    extra_headers={
        "Helicone-Auth": "Bearer sk-helicone-...",
        "Helicone-Prompt-Id": "customer-support-v2",
        "Helicone-Prompt-Variables": '{"user_input": "كيف أعيد تعيين كلمة المرور؟"}',
    }
)

ميزات لوحة التحكم

┌─────────────────────────────────────────────────────────────┐
│                  لوحة تحكم Helicone                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  مستكشف الطلبات                                            │
│  ├── التصفية حسب المستخدم، الجلسة، الخاصية، النموذج       │
│  ├── فحص الطلب/الاستجابة الكامل                           │
│  └── تفصيل زمن الاستجابة والرموز                          │
│                                                             │
│  التحليلات                                                  │
│  ├── تتبع التكلفة حسب النموذج، المستخدم، الميزة           │
│  ├── المئويات (P50، P95، P99)                              │
│  ├── حجم الطلبات عبر الوقت                                 │
│  └── مراقبة معدل الأخطاء                                   │
│                                                             │
│  التنبيهات                                                  │
│  ├── تنبيهات حد التكلفة                                    │
│  ├── ارتفاعات معدل الأخطاء                                 │
│  └── تدهور زمن الاستجابة                                   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

خيار الاستضافة الذاتية

# استنساخ ونشر مع Docker
git clone https://github.com/Helicone/helicone.git
cd helicone
docker-compose up -d

المميزات الرئيسية

الميزة	ميزة Helicone
زمن الاستجابة	8ms P50 (وكيل مبني على Rust)
التوسع	يتعامل مع مليارات الطلبات
الامتثال	SOC 2 Type II، GDPR، جاهز لـ HIPAA
التخزين المؤقت	تخزين مؤقت دلالي مدمج
بدون كود	فقط غيّر عنوان URL الأساسي
:::