تحسين التكلفة والتوسع

تحليل تكلفة LLM

3 دقيقة للقراءة

فهم وإدارة تكاليف LLM أمر حاسم للنشر الإنتاجي المستدام. يغطي هذا الدرس هياكل التكلفة وطرق التتبع وتقنيات التحليل.

مكونات تكلفة LLM

┌─────────────────────────────────────────────────────────────┐
│                   إجمالي تكلفة الملكية                      │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  تكاليف API المباشرة                                       │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  رموز الإدخال × سعر الإدخال لكل 1M رمز             │   │
│  │  رموز الإخراج × سعر الإخراج لكل 1M رمز             │   │
│  │  + تكاليف التضمين                                   │   │
│  │  + تكاليف الصور/الصوت (إن وجدت)                    │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
│  تكاليف البنية التحتية (الاستضافة الذاتية)                │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  حوسبة GPU (بالساعة أو محجوزة)                      │   │
│  │  الذاكرة (HBM للنماذج الأكبر)                       │   │
│  │  التخزين (أوزان النموذج، KV cache)                  │   │
│  │  خروج الشبكة                                        │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
│  التكاليف التشغيلية                                        │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  رسوم منصة قابلية المراقبة                          │   │
│  │  البنية التحتية للبوابة/الوكيل                      │   │
│  │  وقت الهندسة للصيانة                                │   │
│  │  ضمان الجودة والتقييم                               │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

مقارنة أسعار النماذج (يناير 2026)

النموذج الإدخال (لكل 1M) الإخراج (لكل 1M) السياق ملاحظات
GPT-4o $5.00 $15.00 128K للأغراض العامة
GPT-4o-mini $0.15 $0.60 128K فعال التكلفة
Claude 3.5 Sonnet $3.00 $15.00 200K متوازن
Claude 3.5 Haiku $0.80 $4.00 200K سريع ورخيص
Llama 3.1 405B $3.00 $3.00 128K مفتوح المصدر
Llama 3.1 70B $0.90 $0.90 128K أفضل قيمة
Mistral Large $2.00 $6.00 128K خيار أوروبي

مقارنة تكلفة الاستضافة الذاتية

النموذج GPU المطلوب GPU/ساعة رموز/$ نقطة التعادل
Llama 3.1 8B 1× A10G $1.00 ~500K 50K طلب/يوم
Llama 3.1 70B 2× A100 $6.00 ~80K 200K طلب/يوم
Llama 3.1 405B 8× H100 $40.00 ~25K 500K طلب/يوم

تنفيذ تتبع التكلفة

from dataclasses import dataclass
from datetime import datetime, timedelta
import json

@dataclass
class TokenUsage:
    input_tokens: int
    output_tokens: int
    model: str
    timestamp: datetime
    user_id: str
    request_type: str

class CostTracker:
    # التسعير لكل مليون رمز
    PRICING = {
        "gpt-4o": {"input": 5.0, "output": 15.0},
        "gpt-4o-mini": {"input": 0.15, "output": 0.60},
        "claude-sonnet-4-20250514": {"input": 3.0, "output": 15.0},
        "claude-3-5-haiku-20241022": {"input": 0.80, "output": 4.0},
    }

    def __init__(self):
        self.usage_log = []

    def record_usage(self, usage: TokenUsage):
        self.usage_log.append(usage)

    def calculate_cost(self, usage: TokenUsage) -> float:
        pricing = self.PRICING.get(usage.model, {"input": 0, "output": 0})
        input_cost = (usage.input_tokens / 1_000_000) * pricing["input"]
        output_cost = (usage.output_tokens / 1_000_000) * pricing["output"]
        return input_cost + output_cost

    def get_daily_report(self, date: datetime) -> dict:
        day_start = date.replace(hour=0, minute=0, second=0)
        day_end = day_start + timedelta(days=1)

        day_usage = [
            u for u in self.usage_log
            if day_start <= u.timestamp < day_end
        ]

        report = {
            "date": date.isoformat(),
            "total_requests": len(day_usage),
            "total_input_tokens": sum(u.input_tokens for u in day_usage),
            "total_output_tokens": sum(u.output_tokens for u in day_usage),
            "total_cost": sum(self.calculate_cost(u) for u in day_usage),
            "by_model": {},
            "by_user": {},
        }

        return report

استراتيجيات تخصيص التكلفة

┌─────────────────────────────────────────────────────────────┐
│              طرق تخصيص التكلفة                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  1. ميزانيات لكل فريق                                      │
│     ┌─────────────────────────────────────────────────┐    │
│     │  الهندسة: $5,000/شهر                             │    │
│     │  علم البيانات: $10,000/شهر                       │    │
│     │  دعم العملاء: $2,000/شهر                         │    │
│     └─────────────────────────────────────────────────┘    │
│                                                             │
│  2. حصص لكل مستخدم                                         │
│     ┌─────────────────────────────────────────────────┐    │
│     │  الطبقة المجانية: 1,000 طلب/يوم                  │    │
│     │  الطبقة المحترفة: 10,000 طلب/يوم                 │    │
│     │  المؤسسات: غير محدود (متحكم بالميزانية)          │    │
│     └─────────────────────────────────────────────────┘    │
│                                                             │
│  3. تتبع لكل ميزة                                          │
│     ┌─────────────────────────────────────────────────┐    │
│     │  الدردشة: 40% من الإنفاق                         │    │
│     │  إكمال الكود: 35% من الإنفاق                     │    │
│     │  التلخيص: 15% من الإنفاق                         │    │
│     │  أخرى: 10% من الإنفاق                            │    │
│     └─────────────────────────────────────────────────┘    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

المقاييس الرئيسية للتكلفة للمراقبة

المقياس الصيغة الهدف
التكلفة لكل طلب إجمالي التكلفة / إجمالي الطلبات تتبع الاتجاه
التكلفة لكل مستخدم إجمالي التكلفة / المستخدمين النشطين حسب الطبقة
كفاءة الرموز رموز الإخراج / رموز الإدخال >0.5
توفير التخزين المؤقت الرموز المخزنة × سعر الرمز >20%
مزيج تكلفة النموذج الإنفاق لكل نموذج / الإجمالي تحسين
:::

اختبار

الوحدة 6: تحسين التكلفة والتوسع

خذ الاختبار