الدرس 13 من 24

التدريب مع Unsloth

لماذا Unsloth؟

3 دقيقة للقراءة

Unsloth هي مكتبة مفتوحة المصدر تُسرّع بشكل كبير الضبط الدقيق لـ LLM مع تقليل استخدام الذاكرة. دعنا نفهم لماذا أصبحت الخيار الأمثل للتدريب الكفء.

المشكلة مع التدريب القياسي

الضبط الدقيق القياسي مع أدوات Hugging Face يعمل، لكن:

  • بطيء: التدريب يمكن أن يستغرق ساعات إلى أيام
  • جائع للذاكرة: يتطلب GPUs مكلفة
  • غير كفء: لا يستخدم قدرات GPU بالكامل

حل Unsloth

Unsloth يوفر:

  • تدريب أسرع مرتين من خلال نوى محسّنة
  • 70% أقل VRAM استخدام
  • لا خسارة في الدقة - مكافئ رياضياً
  • بديل مباشر لسير عمل Hugging Face

مقارنة الأداء

المقياس التدريب القياسي Unsloth
سرعة التدريب 1x (الأساس) أسرع 2x
استخدام VRAM 100% 30-40%
الدقة الأساس نفسه
تغييرات الكود - الحد الأدنى

المعايير الواقعية

تدريب Llama 3.2 8B على مجموعة بيانات Alpaca (52K مثال):

الإعداد الوقت VRAM التكلفة
QLoRA قياسي 4 ساعات 18GB $4 (سحابة)
QLoRA Unsloth 2 ساعات 6GB $2 (سحابة)

كيف يحقق Unsloth هذا

1. نوى CUDA مخصصة

Unsloth يعيد كتابة العمليات الحرجة في CUDA محسّن:

قياسي: عمليات PyTorch العامة
Unsloth: نوى مضبوطة يدوياً لتدريب LLM
النتيجة: تسريع 2x في التمرير الأمامي/الخلفي

2. تحسين الذاكرة

قياسي: تخزين التدرج بدقة كاملة
Unsloth: gradient checkpointing + تخصيص ذاكرة محسّن
النتيجة: تقليل 70% VRAM

3. العمليات المدمجة

بدلاً من عمليات منفصلة:

قياسي: matmul → activation → dropout → matmul
Unsloth: fused_forward_kernel (عملية واحدة)

متى نستخدم Unsloth

استخدم Unsloth عندما:

  • تدرّب على GPUs المستهلك (8-24GB VRAM)
  • السرعة مهمة
  • تستخدم نماذج مدعومة (Llama، Mistral، Phi، Qwen، إلخ)
  • تريد تقليل تكاليف السحابة

اعتبر البدائل عندما:

  • تستخدم معماريات نماذج غير مدعومة
  • تحتاج ميزات HuggingFace محددة غير مدعومة بعد
  • التصحيح يتطلب تنفيذ خطوة بخطوة

النماذج المدعومة (ديسمبر 2025)

عائلة النموذج الإصدارات ملاحظات
Llama 3.2، 3.3، 2 دعم كامل
Mistral 7B، Mixtral دعم كامل
Phi 4، 3 دعم كامل
Qwen 2.5 دعم كامل
Gemma 2، 3 دعم كامل
DeepSeek V3 دعم كامل

Unsloth مقابل الحلول الأخرى

الحل السرعة الذاكرة سهولة الاستخدام
HF قياسي 1x عالية سهل
Unsloth 2x منخفضة سهل
DeepSpeed 1.5x متوسطة معقد
FSDP 1.3x متوسطة معقد

ملخص الفوائد الرئيسية

  1. توفير التكاليف: التدريب على GPUs أصغر = تكاليف سحابة أقل
  2. توفير الوقت: أسرع 2x = تجارب أكثر
  3. الوصولية: GPUs المستهلك تصبح قابلة للتطبيق
  4. البساطة: تغييرات كود ضئيلة مطلوبة

التوافق

Unsloth متوافق مع:

  • HuggingFace Transformers
  • PEFT/LoRA
  • TRL (SFTTrainer، DPOTrainer)
  • Weights & Biases
  • معظم سير العمل التدريبية القياسية

نصيحة: Unsloth يجب أن يكون خيارك الافتراضي للضبط الدقيق في 2025. ارجع للتدريب القياسي فقط إذا واجهت مشاكل توافق.

بعد ذلك، لنُعد Unsloth ونرى كم هو سهل البدء. :::

اختبار

الوحدة 4: التدريب مع Unsloth

خذ الاختبار