فهم الضبط الدقيق
أنواع الضبط الدقيق
ليس كل ضبط دقيق متساوياً. دعنا نستكشف الأساليب المختلفة ومتى نستخدم كل منها.
الضبط الدقيق الكامل مقابل PEFT
الضبط الدقيق الكامل
يحدّث جميع معاملات النموذج أثناء التدريب.
| الإيجابيات | السلبيات |
|---|---|
| أقصى إمكانية للتحسين | يتطلب ذاكرة GPU ضخمة |
| تخصيص كامل للنموذج | خطر النسيان الكارثي |
| يعمل لأي مهمة | مكلف وبطيء |
العتاد المطلوب: 80GB+ VRAM لنموذج 7B، عدة A100s لـ 70B
الضبط الدقيق الموفر للمعاملات (PEFT)
يحدّث فقط مجموعة فرعية صغيرة من المعاملات (عادة <1%).
| الإيجابيات | السلبيات |
|---|---|
| 10-100 مرة أقل ذاكرة | سقف أقل قليلاً من الضبط الكامل |
| تدريب سريع | يتطلب فهم المحولات |
| لا نسيان كارثي | |
| سهولة تبديل المحولات |
العتاد المطلوب: 8-24GB VRAM لمعظم النماذج مع QLoRA
أهداف التدريب: SFT مقابل DPO مقابل RLHF
الضبط الدقيق المُشرف عليه (SFT)
أبسط نهج: التدريب على أزواج (تعليمة، استجابة).
# مثال تدريب SFT
dataset = [
{"instruction": "اكتب قصيدة عن الذكاء الاصطناعي", "response": "أحلام السيليكون..."},
{"instruction": "اشرح الحوسبة الكمية", "response": "الحوسبة الكمية تستخدم..."}
]
الأفضل لـ: تعليم مهارات جديدة، معرفة المجال، صيغ الإخراج
التحسين المباشر للتفضيلات (DPO)
التدريب على أزواج التفضيل: أي استجابة أفضل؟
# مثال تدريب DPO
dataset = [
{
"prompt": "اشرح التكرار",
"chosen": "التكرار هو عندما تستدعي دالة نفسها...", # استجابة جيدة
"rejected": "التكرار معقد. ابحث عنه." # استجابة سيئة
}
]
الأفضل لـ: تحسين جودة الاستجابة، المحاذاة، النبرة
RLHF (التعلم المعزز من الملاحظات البشرية)
تقنية المحاذاة الأصلية، أكثر تعقيداً من DPO.
خط الأنابيب: نموذج SFT → تدريب نموذج المكافأة → تحسين PPO
الأفضل لـ: متطلبات المحاذاة المعقدة (تُستخدم عادة من قبل المختبرات)
المقارنة: متى نستخدم كل نهج
| النهج | التعقيد | العتاد | حالة الاستخدام |
|---|---|---|---|
| SFT فقط | منخفض | 8GB+ | تعليم مهام جديدة |
| SFT + DPO | متوسط | 16GB+ | الجودة + المحاذاة |
| RLHF كامل | عالي | 80GB+ | البحث، محاذاة معقدة |
خط الأنابيب الحديث (2025)
معظم الممارسين يتبعون هذا الخط:
النموذج الأساسي → SFT (تعليم المهارات) → DPO (تحسين الجودة)
↓ ↓ ↓
Llama 3.2 مجموعة بيانات مخصصة بيانات التفضيل
نصيحة احترافية: ابدأ بـ SFT. أضف DPO فقط إذا احتجت لتحسين جودة الاستجابة أو المحاذاة. تخطَّ RLHF ما لم تكن تجري بحثاً.
المصطلحات الأساسية
| المصطلح | التعريف |
|---|---|
| المحول (Adapter) | وحدة صغيرة قابلة للتدريب تُضاف للنموذج المجمد |
| LoRA | تكيف الرتبة المنخفضة - أشهر طريقة PEFT |
| الرتبة (r) | حجم مصفوفات LoRA (أعلى = سعة أكثر) |
| ألفا (Alpha) | معامل القياس لتحديثات LoRA |
| الوحدات المستهدفة | أي الطبقات نضيف لها المحولات |
بعد ذلك، سنتعمق في طرق PEFT ونفهم كيف يعمل LoRA. :::