تشغيل الـ LLMs محلياً: الدليل الشامل للممارسين

تم التحديث: ٥ مايو ٢٠٢٦

Running LLMs Locally: The Complete Practitioner's Guide

ملخص

  • يمكنك الآن تشغيل نماذج لغوية كبيرة (LLMs) ذات قدرات مذهلة بالكامل على جهازك المحلي — دون الحاجة إلى السحابة.
  • أدوات مثل Ollama و LM Studio و Hugging Face Transformers تجعل الاستدلال المحلي عمليًا وسهل الاستخدام.
  • توفر نماذج LLMs المحلية الخصوصية، والتحكم في التكلفة، والموثوقية دون اتصال بالإنترنت، ولكنها تتطلب تخطيطًا دقيقًا للأجهزة والتحسين.
  • يمكن لتقنيات Quantization وتسريع GPU والتخزين المؤقت (caching) تحسين الأداء بشكل كبير.
  • يعد تشغيل نماذج LLMs محليًا مثاليًا للنماذج الأولية، أو المساعدين الأذكياء على الأجهزة، أو بيئات المؤسسات الآمنة.

ما ستتعلمه

  1. كيفية عمل نماذج LLMs المحلية — من البنية التحتية إلى خطوط أنابيب الاستدلال.
  2. كيفية إعداد وتشغيل نموذج محليًا باستخدام أدوات مفتوحة المصدر حديثة.
  3. تقنيات تحسين الأداء لبيئات CPU و GPU.
  4. اعتبارات الأمان والقابلية للتوسع عند النشر محليًا.
  5. متى يكون النشر المحلي منطقيًا مقارنة بالبدائل المستضافة سحابيًا.

المتطلبات الأساسية

قبل البدء، يجب أن يكون لديك:

  • إلمام أساسي بلغة Python وأدوات سطر الأوامر.
  • جهاز بذاكرة وصول عشوائي (RAM) لا تقل عن 16 جيجابايت (يوصى بـ 32 جيجابايت فأكثر للنماذج الأكبر).
  • (اختياري) وحدة معالجة رسومات (GPU) بذاكرة VRAM سعة 8 جيجابايت فأكثر لتسريع الاستدلال.

مقدمة: لماذا نشغل نماذج LLMs محليًا؟

كان تشغيل النماذج اللغوية الكبيرة محليًا في السابق خيالاً مخصصًا لمختبرات الأبحاث. ولكن بفضل التقدم في تقنيات model quantization، وأوقات التشغيل الفعالة، والأدوات مفتوحة المصدر، أصبح من العملي الآن تشغيل نماذج مفتوحة الأوزان مثل Llama 4 Scout1، و Mistral Small 42، و Qwen 33، و DeepSeek V34، و Phi-45 على أجهزة المستهلكين العادية.

يوفر لك النشر المحلي:

  • الخصوصية: لا تخرج أي بيانات من جهازك — وهو أمر مثالي للصناعات الخاضعة للرقابة.
  • توفير التكاليف: لا توجد مكالمات API أو فواتير GPU سحابية.
  • التوفر دون اتصال بالإنترنت: مثالي لأجهزة الحافة (edge devices) أو الأنظمة المعزولة تمامًا.
  • التخصيص: ضبط دقيق (Fine-tune) أو توسيع النماذج دون التقيد بمورد معين.

دعونا نستعرض كيفية تحقيق ذلك.


فهم بنية نماذج LLM المحلية

يتضمن نشر نموذج LLM محلي عدة طبقات:

graph TD
A[User Input] --> B[Tokenizer]
B --> C[Model Inference Engine]
C --> D[Quantized Model Weights]
D --> E[Hardware Backend (CPU/GPU)]
C --> F[Output Decoder]
F --> G[Response]

المكونات الرئيسية

  • Tokenizer – يحول النص إلى رموز رقمية (tokens) يمكن للنموذج معالجتها.
  • Model Weights – المعاملات المدربة لنموذج LLM، وغالبًا ما تكون في شكل quantized (مثل 4-bit أو 8-bit) لتقليل استهلاك الذاكرة.
  • Inference Engine – وقت التشغيل الذي ينفذ النموذج (مثل llama.cpp أو vLLM أو TensorRT).
  • Backend Hardware – وحدة المعالجة المركزية (CPU) أو وحدة معالجة الرسومات (GPU) حيث تتم العمليات الحسابية.

مشهد الأدوات: خيارات تشغيل نماذج LLMs محليًا

الإصدارات أدناه كانت حالية اعتبارًا من مايو 2026؛ تحقق من صفحة إصدارات المشروع قبل التثبيت.

الأداةالوصفالأفضل لـدعم المنصاتالإصدار الأخير
Ollama6واجهة سطر أوامر و API HTTP للنماذج الـ quantized؛ محرك MLX على Apple Siliconالمطورين والهواةmacOS, Linux, Windows0.22.x
LM Studio7مشغل بواجهة رسومية مع واجهة دردشة، ودعم خادم MCP، و API متوافق مع OpenAIالمستخدمين غير التقنيين والمطورين الذين يفضلون الواجهات الرسوميةmacOS, Windows, Linux0.4.12
llama.cpp8محرك استدلال بلغة C/C++ وهو الذي أوجد تنسيق GGUFعشاق الأداء؛ الاستخدام المدمجمتعدد المنصاتإصدارات مستمرة
Hugging Face Transformers9مكتبة Python لتحميل النماذج، والضبط الدقيق، والاستدلالالباحثين والمطورينمتعدد المنصات4.x
vLLM10خادم استدلال عالي الإنتاجية مع تقنية paged-attentionأنظمة الإنتاجLinux (CUDA/ROCm)0.20.x
TextGen (المعروف سابقًا بـ text-generation-webui)11تطبيق مكتبي محلي يدعم llama.cpp و Transformers و ExLlamaV3 و TensorRT-LLMالمستخدمين المتقدمين الذين يريدون واجهة واحدة لمحركات متعددةمتعدد المنصات4.6.x

بداية سريعة: تشغيل نموذج محليًا باستخدام Ollama

يوفر Ollama واحدة من أسهل الطرق للبدء.

الخطوة 1: تثبيت Ollama

# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

على أجهزة Apple Silicon، تستخدم إصدارات Ollama الحديثة إطار عمل MLX من Apple، والذي يوفر تسريعًا ملحوظًا في عمليات prefill و decode على أجهزة Mac من فئة M. تعتمد المكاسب المحددة على جيل الشريحة وحجم النموذج.12

الخطوة 2: سحب النموذج

# Llama 3.1 8B – متوافق على نطاق واسع، ~4.9 جيجابايت بتنسيق Q4_K_M
ollama pull llama3.1:8b

# أو نموذج أصغر لأجهزة اللابتوب
ollama pull phi4-mini

سترى تقدم التحميل يظهر في واجهة سطر الأوامر.

الخطوة 3: تشغيل النموذج

ollama run llama3.1:8b

ثم ببساطة اكتب طلبك (prompt):

> Write a Python script that sorts a list of dictionaries by a key.

سيقوم Ollama ببث الاستجابة محليًا — دون الحاجة للإنترنت.


مثال: تشغيل نموذج LLM باستخدام Hugging Face Transformers

لمزيد من التحكم، يمكنك استخدام مكتبة transformers من Hugging Face.

تثبيت التبعيات

pip install transformers torch accelerate sentencepiece

تحميل وتشغيل النموذج

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "mistralai/Mistral-7B-Instruct-v0.3"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

prompt = "Explain the difference between CPU and GPU in one paragraph."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

أفضل الممارسات لتحسين الأداء

يمكن أن يكون تشغيل نماذج LLMs محليًا متطلبًا. إليك كيفية تحسين الأداء.

1. Quantization

يقلل Quantization من الدقة (على سبيل المثال، من 16-bit إلى 4-bit) لتوفير الذاكرة وتسريع الاستدلال. تدعم مكتبات مثل bitsandbytes وتنسيقات GGUF هذا الأمر.

FP16 (الدقة القياسية، نموذج 7-8B):

  • استخدام الذاكرة: ~14–16 جيجابايت
  • السرعة: تعتمد على الأجهزة

بعد Quantization (4-bit، نموذج 7-8B):

  • استهلاك الذاكرة: ~4–6 جيجابايت (Llama 3.1 8B بتنسيق Q4_K_M يستهلك حوالي 4.9 جيجابايت تقريبًا)13
  • السرعة: غالبًا ما تكون أسرع بـ 2–4 مرات من FP16 في الممارسة العملية؛ وتختلف بشكل كبير حسب الأجهزة وبيئة التشغيل

أضف 1–2 جيجابايت فوق وزن النموذج لـ KV cache وأعباء التشغيل عند أطوال السياق المعتادة (4K–8K). السياقات الطويلة (32K+) قد تتطلب 2–4 جيجابايت إضافية.13

2. تسريع وحدة معالجة الرسومات (GPU)

إذا كان لديك GPU متوافق مع CUDA، فاستفد منه عبر PyTorch أو علامة -ngl (--n-gpu-layers) في llama.cpp. تعمل وحدات معالجة الرسومات AMD عبر ROCm، وتستخدم Apple Silicon مسار Metal/MLX تلقائيًا.

./llama-cli -m models/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf -ngl 40

3. التخزين المؤقت والبث (Caching & Streaming)

استخدم تخزين التوكنز مؤقتًا (token caching) لتجنب إعادة حساب السياق للمطالبات المتكررة. تدعم أطر عمل مثل vLLM و Ollama هذا بشكل أصلي.

4. الاستنتاج الدفعي (Batch Inference)

إذا كنت تخدم طلبات متعددة، فقم بتجميعها في دفعات لتحسين معدل النتاج (throughput).


متى تستخدم ومتى لا تستخدم نماذج LLM المحلية

حالة الاستخدامLLM محليLLM سحابي
خصوصية البيانات مطلوبة
العمل بدون إنترنت
متطلبات حوسبة عالية
النماذج الأولية السريعة
أعباء عمل الإنتاج القابلة للتوسع⚠️ محدود
ضبط دقيق مخصص (Fine-tuning)

مثال من الواقع: مساعدو الذكاء الاصطناعي على الجهاز

العديد من مساعدي الذكاء الاصطناعي الحديثين — من تطبيقات تدوين الملاحظات إلى أدوات المطورين — يقومون الآن بدمج نماذج LLM محلية من أجل الخصوصية والسرعة. على سبيل المثال، تدعم إضافات Obsidian (مثل Local LLM Helper و AI LLM) الاستنتاج المحلي عبر Ollama أو LM Studio، مما يتيح ذكاءً اصطناعيًا على الجهاز دون الاعتماد على السحابة. يوفر هذا النهج الهجين (محلي + احتياطي سحابي) توازنًا بين سرعة الاستجابة والقدرة.

غالبًا ما تستخدم الخدمات واسعة النطاق الاستنتاج المحلي لـ الذكاء الاصطناعي الطرفي (edge AI) — فكر في الأجهزة الذكية أو بوتات المعرفة الداخلية التي يجب أن تعمل بأمان داخل شبكات الشركات.


الأخطاء الشائعة والحلول

الخطأ الشائعالسببالحل
نفاذ الذاكرة (OOM)النموذج كبير جدًااستخدم نموذجًا مكممًا (4-bit) أو انقل الطبقات إلى CPU
استنتاج بطيءالتنفيذ على CPU فقطفعل تسريع GPU أو قلل طول السياق
عدم تطابق الـ Tokenizerإصدار tokenizer خاطئقم دائمًا بتحميل الـ tokenizer من نفس مستودع النموذج
تبعيات مفقودةإعداد غير مكتملاستخدم pip install -r requirements.txt أو إعدادًا داخل حاوية (containerized)

الاختبار والتحقق

يتضمن اختبار نماذج LLM المحلية أكثر من مجرد فحص الاستجابات.

مثال لاختبار الوحدة

def test_model_output_length():
    output = model.generate(**inputs, max_new_tokens=50)
    assert len(output[0]) > 0, "Model returned empty output"

مقاييس التقييم

  • Perplexity: يقيس طلاقة النموذج.
  • Latency: التوكنز في الثانية.
  • Accuracy: معايير قياس خاصة بالمجال (مثل مجموعات بيانات QA).

أنماط معالجة الأخطاء

عند تشغيل الاستنتاج المحلي في بيئة الإنتاج، تعامل مع الأخطاء بلباقة:

try:
    outputs = model.generate(**inputs, max_new_tokens=200)
except torch.cuda.OutOfMemoryError:
    print("⚠️ ذاكرة GPU ممتلئة — جاري المحاولة على CPU...")
    model.to('cpu')
    outputs = model.generate(**inputs, max_new_tokens=100)

يضمن هذا النمط الموثوقية حتى في ظل الموارد المحدودة.


المراقبة وقابلية الملاحظة

بالنسبة لعمليات النشر المحلية، يمكن أن تساعد أدوات المراقبة خفيفة الوزن:

  • Prometheus + Grafana لمقاييس GPU/CPU.
  • التسجيل (Logging) عبر logging.config.dictConfig() في Python14.
  • التتبع (Tracing) لزمن انتقال الاستنتاج باستخدام الطوابع الزمنية.

مثال على تكوين التسجيل:

import logging.config

logging.config.dictConfig({
    'version': 1,
    'formatters': {'default': {'format': '[%(asctime)s] %(levelname)s: %(message)s'}},
    'handlers': {'console': {'class': 'logging.StreamHandler', 'formatter': 'default'}},
    'root': {'level': 'INFO', 'handlers': ['console']}
})

الاعتبارات الأمنية

تشغيل نماذج LLM محليًا يعزز الخصوصية، لكنه ليس آمنًا بشكل تلقائي.

  • سلامة النموذج: تحقق من المجموع الاختباري (checksums) للنماذج التي تم تنزيلها.
  • حقن المطالبات (Prompt Injection): قم بتنقية مدخلات المستخدم لمنع التعليمات الضارة15.
  • التحكم في الوصول: قم بتقييد نقاط نهاية API المحلية باستخدام المصادقة.
  • الاحتفاظ بالبيانات: تجنب تسجيل المطالبات أو المخرجات الحساسة.

يساعد اتباع إرشادات أمان الذكاء الاصطناعي من OWASP16 في التخفيف من المخاطر الشائعة.


رؤى حول القابلية للتوسع

تتوسع نماذج LLM المحلية رأسيًا (أجهزة أفضل) بدلاً من أفقيًا (عقد أكثر). من أجل القابلية للتوسع:

  • استخدم تقسيم النموذج (model sharding) للأنظمة التي تحتوي على وحدات GPU متعددة.
  • استخدم vLLM للتجميع الفعال وإعادة استخدام الذاكرة.
  • اجمع بين الاستنتاج المحلي وبنى هجينة بين الأجهزة الطرفية والسحابة لموازنة التحميل.

أخطاء شائعة يقع فيها الجميع

  1. تنزيل نماذج غير موثقة — تحقق دائمًا من مصادر النماذج.
  2. تجاهل مقايضات التكميم (quantization) — الدقة المنخفضة يمكن أن تؤثر على جودة المخرجات.
  3. الاستهانة باحتياجات الأجهزة — حتى النماذج الصغيرة يمكن أن تتجاوز ذاكرة اللابتوب.
  4. تخطي محاذاة الـ tokenizer — الـ tokenizers غير المتطابقة تسبب مخرجات غير مفهومة.

دليل استكشاف الأخطاء وإصلاحها

رسالة الخطأالسبب المحتملالحل
CUDA out of memoryالنموذج كبير جدًا على GPUاستخدم تكميم 4-bit أو نموذجًا أصغر
ModuleNotFoundErrorتبعية مفقودةأعد التثبيت باستخدام pip install transformers torch
UnicodeDecodeErrorعدم تطابق الـ tokenizerتأكد من مطابقة الـ tokenizer لإصدار النموذج
Segmentation faultملف ثنائي غير متوافقأعد بناء llama.cpp بالمعمارية الصحيحة

تعد نماذج LLM المحلية جزءًا من تحول أوسع نحو الذكاء الاصطناعي الطرفي (edge AI). وفقًا للتغطية الصناعية17، يتزايد الطلب على الاستنتاج على الجهاز حيث تبحث الفرق عن خيارات نشر تحافظ على الخصوصية وتكون فعالة من حيث التكلفة.

بعض الاتجاهات التي تستحق المتابعة:

  • نماذج أصغر وأكثر قدرة في نطاق 1B–8B (مثل Phi-4-mini بحجم 3.8B5) التي تنافس نماذج القمة في العام الماضي في العديد من المهام.
  • تسريع العتاد (Hardware acceleration) الذي ينضج عبر Apple Silicon (MLX)، وNVIDIA (CUDA، Jetson)، وAMD (ROCm).
  • MoE على الأجهزة الاستهلاكية — البنيات المتفرقة مثل DeepSeek V3 وMistral Large 3 تستوعب أعدادًا إجمالية أكبر من المعاملات في نفس ميزانية الذاكرة من خلال تفعيل جزء بسيط فقط لكل توكن.24
  • التعلم الموحد وعلى الجهاز (Federated and on-device learning) — التدريب الموزع والتخصيص عبر العقد المحلية.

  • تحدي جربها بنفسك

    1. قم بتشغيل نموذج 7B محليًا باستخدام Ollama أو llama.cpp.
    2. قس سرعة توليد التوكنات.
    3. قم بتكميم (Quantize) نفس النموذج إلى 4-bit وأعد القياس.
    4. قارن بين زمن الاستجابة (latency) واستخدام الذاكرة.

    ستحصل على رؤية عملية حول كيفية تأثير التكميم والعتاد على الأداء.


    أهم النقاط المستفادة

    تضع نماذج LLMs المحلية قوة الذكاء الاصطناعي التوليدي بين يديك مباشرةً.

    • تتميز بالخصوصية، وكفاءة التكلفة، والعملية المتزايدة.
    • يعتمد الأداء على التكميم، والعتاد، والتخزين المؤقت (caching).
    • مثالية للمساعدين الذين يعملون دون اتصال بالإنترنت، وأدوات المؤسسات الآمنة، والبروتوتايب السريع.
    • اجمع بين الاستدلال المحلي والسحابي للحصول على أفضل ما في العالمين.

    الخطوات التالية / قراءات إضافية

    • توثيق Ollama — مكتبة النماذج، مرجع ملف النموذج (modelfile)، وAPI HTTP.
    • وثائق LM Studio — شروحات واجهة المستخدم الرسومية والخادم المحلي المتوافق مع OpenAI.
    • مستودع llama.cpp — أدوات التكميم ومواصفات GGUF.
    • Hugging Face Transformers — الضبط الدقيق ومحولات PEFT.
    • مشروع vLLM — المعالجة بالدفعة (batching) بمستوى الإنتاج والاهتمام المفهرس (paged attention).

    Footnotes

    1. Llama 4 launch — Meta AI Blog — https://ai.meta.com/blog/llama-4-multimodal-intelligence/ 2

    2. Mistral Large 3 announcement — https://mistral.ai/news/mistral-3 2 3

    3. Qwen 3 release post — https://qwenlm.GitHub.io/blog/qwen3/ 2

    4. DeepSeek V3 / V3.2 model card — https://huggingface.co/deepseek-ai/DeepSeek-V3.2 2 3

    5. Microsoft Phi-4 announcement — https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-phi-4-microsofts-newest-small-language-model-specializing-in-comple/4357090 2 3

    6. Ollama releases — https://GitHub.com/ollama/ollama/releases

    7. LM Studio changelog — https://lmstudio.ai/changelog

    8. llama.cpp repo — https://GitHub.com/ggml-org/llama.cpp

    9. Hugging Face Transformers Documentation — https://huggingface.co/docs/transformers

    10. vLLM Project — https://GitHub.com/vllm-project/vllm

    11. TextGen (سابقاً text-generation-webui) — https://GitHub.com/oobabooga/text-generation-webui

    12. Ollama على MLX (Apple Silicon) — https://ollama.com/blog/mlx

    13. Llama 3.1 8B Q4_K_M GGUF (bartowski quants) — https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF 2

    14. إعدادات Python Logging — https://docs.python.org/3/library/logging.config.html

    15. قائمة OWASP لأهم 10 مخاطر لتطبيقات نماذج اللغة الكبيرة — https://owasp.org/www-project-top-10-for-large-language-model-applications/

    16. دليل OWASP لأمن وخصوصية الذكاء الاصطناعي — https://owasp.org/www-project-ai-security-and-privacy-guide/

    17. اتجاهات سوق Edge AI (IEEE Spectrum) — https://spectrum.ieee.org/edge-ai

    الأسئلة الشائعة

    لا — النماذج المملوكة الرائدة من OpenAI وAnthropic وGoogle لا يتم توزيعها للنشر المحلي. تشمل البدائل ذات الأوزان المفتوحة والقوية Llama 4 Scout1، وMistral Small 42، وQwen 33، وDeepSeek V34، وPhi-45.

    نشرة أسبوعية مجانية

    ابقَ على مسار النيرد

    بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

    بدون إزعاج. إلغاء الاشتراك في أي وقت.