ما هو الحد الأدنى لإعداد GPU لتقنية QLoRA؟

وحدة GPU واحدة بسعة 24 جيجابايت (مثل RTX 4090) يمكنها التعامل مع نماذج بـ 8 مليار معلمة (8B).

ما هي كمية البيانات التي أحتاجها؟

يُنصح بآلاف الأمثلة عالية الجودة؛ فالجودة تغلب الكمية.

هل يمكنني الضبط الدقيق بلغات متعددة؟

نعم، يدعم LLaMA 3 البيانات متعددة اللغات، ولكن تأكد من توازن العينات.

كيف أقوم بتقييم السلامة؟

استخدم مصنفات السمية (toxicity classifiers) واختبارات الاختراق اليدوية (red-teaming) لاكتشاف المخرجات غير الآمنة.

إتقان الضبط الدقيق لنموذج LLaMA 3: دليل عملي كامل

٢١ فبراير ٢٠٢٦

#LLaMA 3 #fine-tuning #LLM #AI #machine learning #Meta #transformers

Mastering LLaMA 3 Fine-Tuning: A Complete Practical Guide

ملخص

يسمح لك ضبط LLaMA 3 بتكييف نماذج اللغة الضخمة مفتوحة الأوزان من Meta مع مجال مؤسستك أو مهامها.
يمكنك الاختيار بين الضبط الكامل (Full Fine-tuning)، أو LoRA (Low-Rank Adaptation)، أو QLoRA (Quantized LoRA) بناءً على عتادك وحجم بياناتك.
تقنيات مثل gradient checkpointing، و mixed precision، والتدريب الموزع تجعل الضبط واسع النطاق ممكناً على وحدات GPU محدودة.
التقييم السليم، والمراقبة، والمحاذاة الأمنية ضرورية لنشر النماذج المضبوطة بمسؤولية.
يرشدك هذا الدليل خلال العملية من البداية إلى النهاية — من إعداد البيانات إلى النشر والمراقبة.

ما ستتعلمه

بنية LLaMA 3 وقدرات الضبط الخاصة بها.
كيفية إعداد مجموعات البيانات للضبط الخاص بالتعليمات أو بالمجال.
كيفية ضبط LLaMA 3 باستخدام مكتبات transformers و peft من Hugging Face.
كيفية مراقبة وتقييم ونشر النماذج المضبوطة بأمان.
متى يكون الضبط هو الخيار الصحيح مقابل البدائل مثل الهندسة الفورية (prompt engineering) أو استرجاع المعلومات المعزز (RAG).

المتطلبات الأساسية

ستستفيد بشكل أكبر من هذا الدليل إذا كنت على دراية بـ:

Python (يوصى بإصدار 3.10+)
أساسيات PyTorch (tensors، optimizers، استخدام GPU)
نظام Hugging Face transformers
فهم أساسي لنماذج اللغة الضخمة (LLMs)

تختلف متطلبات العتاد — لضبط LoRA أو QLoRA، قد تكفي وحدة GPU واحدة بسعة 24 جيجابايت؛ أما للضبط الكامل، فعادةً ما يتطلب الأمر عدة وحدات A100.

مقدمة: لماذا نقوم بضبط LLaMA 3؟

يمثل LLaMA 3، الذي أطلقته Meta في عام 2024، قفزة هائلة في نماذج اللغة مفتوحة الأوزان¹. يتوفر بأحجام تتراوح من 8B إلى 70B بارامتر، وتم تدريبه على تريليونات الرموز (tokens) عبر لغات متعددة. تسمح الطبيعة مفتوحة الأوزان للباحثين والشركات بتكييفه مع مجالاتهم الخاصة — القانونية، الطبية، المالية، أو خدمة العملاء — دون إعادة التدريب من الصفر.

يسمح لك ضبط LLaMA 3 بـ:

تحسين الدقة في المهام المتخصصة (مثل تلخيص العقود القانونية).
محاذاة النبرة والأسلوب مع صوت علامتك التجارية.
إضافة مفردات وأنماط استدلال خاصة بالمجال.
تقليل الاعتماد على واجهات برمجة التطبيقات الخارجية لأعباء العمل الحساسة.

ومع ذلك، فإن الضبط يتطلب موارد كثيفة. يجب عليك موازنة التكلفة وجودة البيانات والصيانة قبل البدء.

فهم بنية LLaMA 3

يعتمد LLaMA 3 على بنية مفكك تشفير المحولات (transformer decoder)، على غرار نماذج GPT². ويتميز بـ:

تضمينات موضعية دوارة (RoPE) لتوسيع طول السياق.
تطبيقات انتباه محسنة (FlashAttention³).
دعم التدريب بدقة مختلطة (bfloat16، fp16).
تحسينات في المحلل اللغوي (Tokenizer) لتغطية لغات متعددة.

التصميم المعياري للنموذج يجعله متوافقاً مع AutoModelForCausalLM من Hugging Face، مما يسهل سير عمل الضبط.

اختيار استراتيجية الضبط الخاصة بك

الاستراتيجية	الوصف	المميزات	العيوب	الأفضل لـ
الضبط الكامل	تحديث جميع أوزان النموذج	أقصى قدر من التحكم والدقة	يتطلب قدرات حوسبة هائلة	المؤسسات الكبيرة أو مختبرات الأبحاث
LoRA	إضافة محولات منخفضة الرتبة قابلة للتدريب لطبقات محددة	فعال، استهلاك منخفض للذاكرة	فقدان طفيف في الدقة	الشركات الصغيرة والمتوسطة، الشركات الناشئة
QLoRA	تكميم النموذج الأساسي إلى 4-bit وتدريب محولات LoRA	كفاءة عالية جداً في استخدام الذاكرة	استنتاج أبطأ قليلاً	إعدادات GPU الواحدة

متى تستخدمه ومتى لا تستخدمه

استخدم الضبط عندما:

لديك مجموعة بيانات كبيرة وعالية الجودة (>10 آلاف مثال).
تحتاج إلى استدلال أو نبرة خاصة بمجال معين.
لا يمكن للهندسة الفورية وحدها تحقيق الدقة المطلوبة.

تجنب الضبط عندما:

تحتاج فقط إلى تغييرات سلوكية طفيفة (استخدم قوالب المطالبات بدلاً من ذلك).
مجموعة بياناتك صغيرة أو غير دقيقة.
تفتقر إلى البنية التحتية الكافية للحوسبة أو المراقبة.

خطوة بخطوة: ضبط LLaMA 3 باستخدام LoRA

سنستعرض إعداداً عملياً باستخدام مكتبات transformers و peft من Hugging Face.

1. إعداد البيئة

# Create environment
python -m venv llama3-finetune
source llama3-finetune/bin/activate

# Install dependencies
pip install torch transformers datasets peft bitsandbytes accelerate

2. تحميل النموذج الأساسي

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-3-8b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    load_in_4bit=True,
    device_map="auto",
)

3. إعداد مجموعة البيانات

from datasets import load_dataset

dataset = load_dataset("json", data_files={"train": "data/train.json", "validation": "data/val.json"})

def tokenize_function(example):
    return tokenizer(example["text"], truncation=True, padding="max_length", max_length=512)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

4. تطبيق محولات LoRA

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, lora_config)

5. تدريب النموذج

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-4,
    fp16=True,
    logging_dir="./logs",
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
)

trainer.train()

6. حفظ ودمج أوزان LoRA

model.save_pretrained("./llama3-lora")

ينتج عن هذا محول مضبوط يمكن دمجه مرة أخرى في النموذج الأساسي لعملية الاستنتاج.

تداعيات الأداء

ضبط LLaMA 3 يتطلب قدرات حوسبة عالية. فيما يلي ملفات تعريف الموارد النموذجية:

حجم النموذج	نوع الضبط	ذاكرة GPU	وقت التدريب (تقريبي)
8B	QLoRA	24 جيجابايت	6–10 ساعات
13B	LoRA	48 جيجابايت	12–18 ساعة
70B	كامل	8x A100 80GB	عدة أيام

التحسينات:

Gradient checkpointing يقلل من استخدام الذاكرة عن طريق إعادة حساب التنشيطات.
الدقة المختلطة (bfloat16) تسرع التدريب مع حد أدنى من فقدان الدقة⁴.
التدريب الموزع عبر accelerate أو DeepSpeed يتوسع ليشمل وحدات GPU متعددة.

اعتبارات أمنية

يمكن أن يؤدي الضبط عن طريق الخطأ إلى تضخيم التحيزات أو إنشاء مخرجات غير آمنة⁵. دائماً قم بـ:

تصفية بيانات التدريب من السمية ومعلومات التعريف الشخصية (PII).
تقييم المخرجات باستخدام اختبار الاختراق (red-teaming) أو مصنفات السلامة.
إضافة طبقات أمان مثل فلاتر الإشراف بعد الاستنتاج.
الامتثال لشروط الترخيص — يقيد ترخيص LLaMA 3 من Meta بعض الاستخدامات التجارية.

القابلية للتوسع والنشر

غالبًا ما تنشر المؤسسات الكبيرة نماذج LLaMA المضبوطة خلف واجهات برمجة تطبيقات استنتاج قابلة للتوسع. تبدو البنية الشائعة كما يلي:

graph TD
A[طلب العميل] --> B[بوابة واجهة برمجة التطبيقات]
B --> C[خادم النموذج - LLaMA 3 مضبوط]
C --> D[عنقود استنتاج GPU]
D --> E[المراقبة والتسجيل]
E --> F[حلقة التغذية الراجعة للضبط المستمر]

أفضل الممارسات:

استخدم التكميم (4-bit أو 8-bit) لكفاءة الاستنتاج.
قم بتخزين المطالبات المتكررة مؤقتاً لتقليل زمن الاستجابة.
راقب إنتاجية الرموز (tokens) واستهلاك وحدة GPU.

الأخطاء الشائعة والحلول

الخطأ الشائعة	السبب	الحل
تباعد النموذج (Model diverges)	معدل التعلم (Learning rate) مرتفع جدًا	خفض LR (مثلاً: 1e-4 ← 5e-5)
أخطاء OOM	حجم الدفعة (Batch size) كبير جدًا	تقليل حجم الدفعة أو استخدام تراكم التدرج (gradient accumulation)
ضعف التعميم	الفرط في التخصيص (Overfitting) على مجموعة بيانات صغيرة	إضافة Regularization أو الإيقاف المبكر (early stopping)
فقدان غير مستقر (Unstable loss)	عدم استقرار الدقة المختلطة (Mixed precision)	تفعيل قص التدرج (gradient clipping)

اختبار نموذجك الذي تم ضبطه بدقة

يضمن الاختبار أن نموذجك يعمم بشكل جيد خارج بيانات التدريب.

مثال لسكربت التقييم

from transformers import pipeline

pipe = pipeline("text-generation", model="./llama3-lora", tokenizer=tokenizer)

prompt = "Explain quantum computing in simple terms."
output = pipe(prompt, max_new_tokens=150, temperature=0.7)
print(output[0]['generated_text'])

مقاييس التقييم

Perplexity لجودة نمذجة اللغة.
BLEU/ROUGE لمهام التلخيص.
التقييم البشري للجودة الذاتية.

المراقبة والقابلية للملاحظة

تحتاج النماذج المضبوطة بدقة والمعدة للإنتاج إلى قابلية للملاحظة:

المقاييس: تتبع زمن الاستجابة (latency)، وإنتاجية الرموز (token throughput)، واستهلاك وحدة معالجة الرسومات GPU.
التتبع (Tracing): تسجيل أزواج (المطالبة-الاستجابة) لأغراض التدقيق.
تتبع الأخطاء: رصد عمليات التوليد الفاشلة أو تجاوز حدود المعدل (rate limits).

يمكن لأدوات مثل Prometheus و Grafana تصور هذه المقاييس بفعالية.

دراسة حالة واقعية

قامت شركة في مجال التكنولوجيا المالية (fintech) بضبط نموذج LLaMA 3 8B بدقة باستخدام تقنية LoRA على 50,000 سجل محادثات دعم عملاء مجهولة الهوية. أدى النموذج المضبوط بدقة إلى تقليل متوسط وقت الاستجابة بنسبة 35% وتحسين درجات رضا العملاء. بدلاً من الاعتماد على واجهات برمجة التطبيقات (APIs) الخارجية، يقومون الآن بتشغيل الاستدلال (inference) على مجموعة GPU الخاصة بهم — مما يضمن خصوصية البيانات والقدرة على التنبؤ بالتكاليف.

هذا يعكس ما تفعله العديد من الخدمات واسعة النطاق: استخدام نماذج مفتوحة الأوزان (open-weight) لأعباء العمل الحساسة حيث تهم السيطرة والامتثال.

أخطاء شائعة يقع فيها الجميع

تخطي تنظيف البيانات: "المدخلات السيئة تؤدي لمخرجات سيئة" — قم دائمًا بتنقية المدخلات.
تجاهل التقييم: النموذج الذي يعمل بشكل جيد على بيانات التدريب قد يفشل في بيئة الإنتاج.
الإفراط في الضبط (Over-tuning): الضبط الدقيق لعدد كبير جدًا من الدورات (epochs) يمكن أن يمسح المعرفة الأساسية للنموذج.
إهمال التحكم في الإصدارات: تتبع دائمًا إصدارات مجموعة البيانات والنموذج.

دليل استكشاف الأخطاء وإصلاحها

المشكلة	الأعراض	الإصلاح
CUDA OOM	انهيار التدريب	تقليل حجم الدفعة أو تفعيل gradient checkpointing
عدم تطابق Tokenizer	أخطاء في الاستدلال	استخدم نفس الـ tokenizer المستخدم في التدريب
جودة مخرجات ضعيفة	نص غير مفهوم	تحقق من جودة البيانات وتنسيق المطالبة (prompt)
استدلال بطيء	زمن استجابة مرتفع	تطبيق التكميم (quantization) أو تقسيم النموذج (sharding)

أهم النقاط المستفادة

ضبط LLaMA 3 بدقة يطلق العنان لذكاء متخصص في مجالات معينة — ولكنه يتطلب تنسيقًا دقيقًا للبيانات، وتخطيطًا للموارد، وتقييمًا للسلامة.

تقنيات LoRA و QLoRA تجعل الضبط الدقيق متاحًا على أجهزة متواضعة.
راقب دائمًا سلوك النموذج بعد النشر.
تعامل مع الضبط الدقيق كعملية مستمرة — وليس كمهمة تنفذ لمرة واحدة.

الخطوات التالية

جرب QLoRA لضبط دقيق موفر للذاكرة.
استكشف طرق الضبط الفعال للمعلمات مثل Prefix Tuning.
قم بدمج نموذجك المضبوط بدقة في خط معالجة التوليد المعزز بالاسترجاع (RAG).

إذا استمتعت بهذا الدليل، ففكر في الاشتراك في نشرتنا الإخبارية للحصول على تعمق في هندسة النماذج اللغوية الكبيرة LLM وأفضل ممارسات النشر.

Meta AI – LLaMA 3 Model Card (2024) https://ai.meta.com/llama/ ↩
Vaswani et al., Attention Is All You Need, NeurIPS 2017. https://arxiv.org/abs/1706.03762 ↩
Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, NeurIPS 2022. https://arxiv.org/abs/2205.14135 ↩
NVIDIA Developer Docs – Mixed Precision Training. https://docs.nvidia.com/deeplearning/performance/mixed-precision-training/index.html ↩
OWASP AI Security & Safety Guidelines. https://owasp.org/www-project-top-10-for-large-language-model-applications/ ↩

الأسئلة الشائعة

راجع شروط ترخيص Meta — قد تتطلب بعض الاستخدامات التجارية موافقة.