تحسين التكلفة والتوسع
تحليل تكلفة LLM
3 دقيقة للقراءة
فهم وإدارة تكاليف LLM أمر حاسم للنشر الإنتاجي المستدام. يغطي هذا الدرس هياكل التكلفة وطرق التتبع وتقنيات التحليل.
مكونات تكلفة LLM
┌─────────────────────────────────────────────────────────────┐
│ إجمالي تكلفة الملكية │
├─────────────────────────────────────────────────────────────┤
│ │
│ تكاليف API المباشرة │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ رموز الإدخال × سعر الإدخال لكل 1M رمز │ │
│ │ رموز الإخراج × سعر الإخراج لكل 1M رمز │ │
│ │ + تكاليف التضمين │ │
│ │ + تكاليف الصور/الصوت (إن وجدت) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ تكاليف البنية التحتية (الاستضافة الذاتية) │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ حوسبة GPU (بالساعة أو محجوزة) │ │
│ │ الذاكرة (HBM للنماذج الأكبر) │ │
│ │ التخزين (أوزان النموذج، KV cache) │ │
│ │ خروج الشبكة │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ التكاليف التشغيلية │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ رسوم منصة قابلية المراقبة │ │
│ │ البنية التحتية للبوابة/الوكيل │ │
│ │ وقت الهندسة للصيانة │ │
│ │ ضمان الجودة والتقييم │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
مقارنة أسعار النماذج (يناير 2026)
| النموذج | الإدخال (لكل 1M) | الإخراج (لكل 1M) | السياق | ملاحظات |
|---|---|---|---|---|
| GPT-4o | $5.00 | $15.00 | 128K | للأغراض العامة |
| GPT-4o-mini | $0.15 | $0.60 | 128K | فعال التكلفة |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 200K | متوازن |
| Claude 3.5 Haiku | $0.80 | $4.00 | 200K | سريع ورخيص |
| Llama 3.1 405B | $3.00 | $3.00 | 128K | مفتوح المصدر |
| Llama 3.1 70B | $0.90 | $0.90 | 128K | أفضل قيمة |
| Mistral Large | $2.00 | $6.00 | 128K | خيار أوروبي |
مقارنة تكلفة الاستضافة الذاتية
| النموذج | GPU المطلوب | GPU/ساعة | رموز/$ | نقطة التعادل |
|---|---|---|---|---|
| Llama 3.1 8B | 1× A10G | $1.00 | ~500K | 50K طلب/يوم |
| Llama 3.1 70B | 2× A100 | $6.00 | ~80K | 200K طلب/يوم |
| Llama 3.1 405B | 8× H100 | $40.00 | ~25K | 500K طلب/يوم |
تنفيذ تتبع التكلفة
from dataclasses import dataclass
from datetime import datetime, timedelta
import json
@dataclass
class TokenUsage:
input_tokens: int
output_tokens: int
model: str
timestamp: datetime
user_id: str
request_type: str
class CostTracker:
# التسعير لكل مليون رمز
PRICING = {
"gpt-4o": {"input": 5.0, "output": 15.0},
"gpt-4o-mini": {"input": 0.15, "output": 0.60},
"claude-sonnet-4-20250514": {"input": 3.0, "output": 15.0},
"claude-3-5-haiku-20241022": {"input": 0.80, "output": 4.0},
}
def __init__(self):
self.usage_log = []
def record_usage(self, usage: TokenUsage):
self.usage_log.append(usage)
def calculate_cost(self, usage: TokenUsage) -> float:
pricing = self.PRICING.get(usage.model, {"input": 0, "output": 0})
input_cost = (usage.input_tokens / 1_000_000) * pricing["input"]
output_cost = (usage.output_tokens / 1_000_000) * pricing["output"]
return input_cost + output_cost
def get_daily_report(self, date: datetime) -> dict:
day_start = date.replace(hour=0, minute=0, second=0)
day_end = day_start + timedelta(days=1)
day_usage = [
u for u in self.usage_log
if day_start <= u.timestamp < day_end
]
report = {
"date": date.isoformat(),
"total_requests": len(day_usage),
"total_input_tokens": sum(u.input_tokens for u in day_usage),
"total_output_tokens": sum(u.output_tokens for u in day_usage),
"total_cost": sum(self.calculate_cost(u) for u in day_usage),
"by_model": {},
"by_user": {},
}
return report
استراتيجيات تخصيص التكلفة
┌─────────────────────────────────────────────────────────────┐
│ طرق تخصيص التكلفة │
├─────────────────────────────────────────────────────────────┤
│ │
│ 1. ميزانيات لكل فريق │
│ ┌─────────────────────────────────────────────────┐ │
│ │ الهندسة: $5,000/شهر │ │
│ │ علم البيانات: $10,000/شهر │ │
│ │ دعم العملاء: $2,000/شهر │ │
│ └─────────────────────────────────────────────────┘ │
│ │
│ 2. حصص لكل مستخدم │
│ ┌─────────────────────────────────────────────────┐ │
│ │ الطبقة المجانية: 1,000 طلب/يوم │ │
│ │ الطبقة المحترفة: 10,000 طلب/يوم │ │
│ │ المؤسسات: غير محدود (متحكم بالميزانية) │ │
│ └─────────────────────────────────────────────────┘ │
│ │
│ 3. تتبع لكل ميزة │
│ ┌─────────────────────────────────────────────────┐ │
│ │ الدردشة: 40% من الإنفاق │ │
│ │ إكمال الكود: 35% من الإنفاق │ │
│ │ التلخيص: 15% من الإنفاق │ │
│ │ أخرى: 10% من الإنفاق │ │
│ └─────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
المقاييس الرئيسية للتكلفة للمراقبة
| المقياس | الصيغة | الهدف |
|---|---|---|
| التكلفة لكل طلب | إجمالي التكلفة / إجمالي الطلبات | تتبع الاتجاه |
| التكلفة لكل مستخدم | إجمالي التكلفة / المستخدمين النشطين | حسب الطبقة |
| كفاءة الرموز | رموز الإخراج / رموز الإدخال | >0.5 |
| توفير التخزين المؤقت | الرموز المخزنة × سعر الرمز | >20% |
| مزيج تكلفة النموذج | الإنفاق لكل نموذج / الإجمالي | تحسين |
| ::: |