الدرس 2 من 24

فهم الضبط الدقيق

أنواع الضبط الدقيق

3 دقيقة للقراءة

ليس كل ضبط دقيق متساوياً. دعنا نستكشف الأساليب المختلفة ومتى نستخدم كل منها.

الضبط الدقيق الكامل مقابل PEFT

الضبط الدقيق الكامل

يحدّث جميع معاملات النموذج أثناء التدريب.

الإيجابياتالسلبيات
أقصى إمكانية للتحسينيتطلب ذاكرة GPU ضخمة
تخصيص كامل للنموذجخطر النسيان الكارثي
يعمل لأي مهمةمكلف وبطيء

العتاد المطلوب: 80GB+ VRAM لنموذج 7B، عدة A100s لـ 70B

الضبط الدقيق الموفر للمعاملات (PEFT)

يحدّث فقط مجموعة فرعية صغيرة من المعاملات (عادة <1%).

الإيجابياتالسلبيات
10-100 مرة أقل ذاكرةسقف أقل قليلاً من الضبط الكامل
تدريب سريعيتطلب فهم المحولات
لا نسيان كارثي
سهولة تبديل المحولات

العتاد المطلوب: 8-24GB VRAM لمعظم النماذج مع QLoRA

أهداف التدريب: SFT مقابل DPO مقابل RLHF

الضبط الدقيق المُشرف عليه (SFT)

أبسط نهج: التدريب على أزواج (تعليمة، استجابة).

# مثال تدريب SFT
dataset = [
    {"instruction": "اكتب قصيدة عن الذكاء الاصطناعي", "response": "أحلام السيليكون..."},
    {"instruction": "اشرح الحوسبة الكمية", "response": "الحوسبة الكمية تستخدم..."}
]

الأفضل لـ: تعليم مهارات جديدة، معرفة المجال، صيغ الإخراج

التحسين المباشر للتفضيلات (DPO)

التدريب على أزواج التفضيل: أي استجابة أفضل؟

# مثال تدريب DPO
dataset = [
    {
        "prompt": "اشرح التكرار",
        "chosen": "التكرار هو عندما تستدعي دالة نفسها...",  # استجابة جيدة
        "rejected": "التكرار معقد. ابحث عنه."  # استجابة سيئة
    }
]

الأفضل لـ: تحسين جودة الاستجابة، المحاذاة، النبرة

RLHF (التعلم المعزز من الملاحظات البشرية)

تقنية المحاذاة الأصلية، أكثر تعقيداً من DPO.

خط الأنابيب: نموذج SFT → تدريب نموذج المكافأة → تحسين PPO

الأفضل لـ: متطلبات المحاذاة المعقدة (تُستخدم عادة من قبل المختبرات)

المقارنة: متى نستخدم كل نهج

النهجالتعقيدالعتادحالة الاستخدام
SFT فقطمنخفض8GB+تعليم مهام جديدة
SFT + DPOمتوسط16GB+الجودة + المحاذاة
RLHF كاملعالي80GB+البحث، محاذاة معقدة

خط الأنابيب الحديث (2026)

معظم الممارسين يتبعون هذا الخط:

النموذج الأساسي → SFT (تعليم المهارات) → DPO (تحسين الجودة)
       ↓                  ↓                       ↓
   Llama 3.2      مجموعة بيانات مخصصة       بيانات التفضيل

نصيحة احترافية: ابدأ بـ SFT. أضف DPO فقط إذا احتجت لتحسين جودة الاستجابة أو المحاذاة. تخطَّ RLHF ما لم تكن تجري بحثاً.

المصطلحات الأساسية

المصطلحالتعريف
المحول (Adapter)وحدة صغيرة قابلة للتدريب تُضاف للنموذج المجمد
LoRAتكيف الرتبة المنخفضة - أشهر طريقة PEFT
الرتبة (r)حجم مصفوفات LoRA (أعلى = سعة أكثر)
ألفا (Alpha)معامل القياس لتحديثات LoRA
الوحدات المستهدفةأي الطبقات نضيف لها المحولات

بعد ذلك، سنتعمق في طرق PEFT ونفهم كيف يعمل LoRA. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 1: فهم الضبط الدقيق

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.