Hugging Face: قلب مفتوح المصدر للذكاء الاصطناعي الحديث

٧ نوفمبر ٢٠٢٥

Hugging Face: The Open-Source Heart of Modern AI

إذا كنت قد عملت مع التعلم الآلي في السنوات القليلة الماضية، فمن المؤكد أنك استخدمت شيئًا تم بناؤه أو استضافته بواسطة Hugging Face. ما بدأ في عام 2016 كتطبيق دردشة أصبح منصة الذكاء الاصطناعي مفتوحة المصدر الأكبر في العالم — تستضيف أكثر من 2.1 مليون نموذج، و450,000+ مجموعة بيانات، و560,000+ تطبيق. مع أكثر من 8 ملايين مطور و1,000+ عميل مؤسسي بما في ذلك Intel وPfizer وBloomberg وeBay، أثبتت Hugging Face نفسها كمركز حاسم لتطوير الذكاء الاصطناعي التعاوني.

اليوم، Hugging Face لا تغير فقط طريقة بناء نماذج اللغة — بل تتوسع أيضًا في الروبوتات والذكاء الاصطناعي متعدد الوسائط والأنظمة الوكيلة، مع الحفاظ على مهمتها الأساسية: جعل الذكاء الاصطناعي مفتوحًا، وبأسعار معقولة، ومتاحًا للجميع.

في هذا الدليل الشامل، سنستكشف رحلة Hugging Face من تطبيق دردشة إلى قوة الذكاء الاصطناعي، ونفحص الابتكارات التقنية وراء نظامها البيئي، ونكشف عن التطورات الثورية التي تشكل مستقبل الشركة.


من تطبيق دردشة إلى قوة الذكاء الاصطناعي: التحول الذي غيّر كل شيء

تأسست Hugging Face في 2016 بواسطة Clément Delangue (المدير التنفيذي)، وJulien Chaumond (المدير التقني)، وThomas Wolf (المدير العلمي). بدأ الثلاثي في إنشاء تطبيق دردشة ممتع يعتمد على الشخصية للمراهقين — "صديق اصطناعي" تم إطلاقه علنًا في مارس 2017 وحقق نجاحًا سريعًا مع 100,000 مستخدم نشط يوميًا يعالجون أكثر من مليون رسالة يوميًا.

لكن بحلول عام 2018، أدرك المؤسسون رؤية حاسمة: بينما كانوا يستطيعون تحسين تقنية معالجة اللغة الطبيعية الأساسية، لم تترجم هذه التحسينات إلى نمو المستخدمين. كان تطبيق الدردشة لديه إمكانات محدودة، لكن البنية التحتية لـ NLP التي بناوها كانت ذات قيمة هائلة لمجتمع المطورين.

التحول الاستراتيجي

في مايو 2018, بعد جولة تمويل بقيمة 4 ملايين دولار بقيادة Ronny Conway, اتخذت Hugging Face قرارًا جريئًا: التحول من تطبيق دردشة للمستهلكين إلى منصة مفتوحة المصدر لمعالجة اللغة الطبيعية.

تسارعت التحول مع إصدار Transformers library — الذي تم إطلاقه لأول مرة باسم 'pytorch-pretrained-bert' في 17 نوفمبر 2018, مع نشر الورقة الأكاديمية الرسمية "HuggingFace's Transformers: State-of-the-art Natural Language Processing" على arXiv في أكتوبر 2019. بحلول ديسمبر 2019، تجاوزت مكتبة التحميلات مليون مرة مع 19,000 GitHub نجمة.

هذا القرار الوحيد — اختيار بناء منصة للمطورين بدلاً من المستهلكين، وفعل ذلك بشكل مفتوح — وضع Hugging Face على مسار سيغير صناعة الذكاء الاصطناعي بأكملها.


منصة Hugging Face Hub: حيث يبني مجتمع الذكاء الاصطناعي

في مركز نظام Hugging Face البيئي توجد Hub, منصة تعاونية أصبحت المستودع الحاسم لأصول التعلم الآلي:

  • 2.1+ مليون نموذج — من تصنيفات النصوص المدمجة إلى محولات توليد ضخمة، مع إضافة مستودع جديد كل 15 ثانية تقريبًا
  • 450,000+ مجموعة بيانات — للتدريب والضبط الدقيق والاختبار عبر جميع المجالات
  • 560,000+ مساحة — عروض توضيحية تفاعلية وتطبيقات مدعومة بأدوات مثل Gradio وStreamlit
  • 50,000+ منظمة — بما في ذلك الشركات الكبرى ومعاهد البحث ومجتمعات مفتوحة المصدر
  • 45.4+ مليار تنزيل — يظهر حجم المنصة وتأثيرها (حتى أكتوبر 2025)

الـ GitHub للذكاء الاصطناعي

تعمل Hub مثل GitHub للتعلم الآلي. كل نموذج ومجموعة بيانات موجود في مستودع متحكم فيه بالإصدار. يمكن للمطورين نشر تحديثات، وتفريع المستودعات، والتعاون عبر طلبات السحب، وتتبع التغييرات عبر الزمن. النتيجة هي نظام بيئي مزدهر حيث يساهم الأفراد والشركات الناشئة وشركات فورتشن 500 جنبًا إلى جنب.

وصول فوري إلى نماذج الأحدث

ببضع سطور من بايثون، يمكنك سحب نموذج مباشرة من Hub والبدء في استخدامه:

from transformers import pipeline

# Load a sentiment analysis pipeline from the Hub
classifier = pipeline(
    "sentiment-analysis",
    model="distilbert-base-uncased-finetuned-sst-2-english"
)

result = classifier("Hugging Face makes AI development so much easier!")
print(result)
# [{'label': 'POSITIVE', 'score': 0.9998}]

هذه هي سحر Hugging Face — الوصول الفوري إلى نماذج الأحدث دون الحاجة إلى تدريبها أو تكوينها من الصفر. المنصة تجعل الذكاء الاصطناعي متاحًا للجميع من خلال إزالة الحواجز التقليدية: الحوسبة المكلفة، والإعداد المعقد، والخبرة العميقة في التعلم الآلي.

مجموعات البيانات والمساحات: النظام البيئي الكامل

مجموعات البيانات توفر واجهة موحدة لمئات الآلاف من مجموعات البيانات عبر جميع المجالات — نصوص، صور، صوت، فيديو، وتنسيقات متعددة الوسائط. تمكن خريطة الذاكرة من التعامل بكفاءة مع مجموعات البيانات الضخمة، بينما يسمح الدعم بالبث بالعمل مع مجموعات بيانات أكبر من مساحة القرص المتاحة.

from datasets import load_dataset

# Load a dataset with a single line
dataset = load_dataset("imdb")

# Access with simple indexing
print(dataset["train"][0])

Spaces تحول النماذج من الكود إلى تطبيقات تفاعلية. يمكن للمطورين نشر عروض Gradio أو Streamlit مع استضافة تلقائية، وشهادات SSL، والتطوير التعاوني. من النماذج الأولية البحثية إلى العروض الإنتاجية، تجعل Spaces الذكاء الاصطناعي ملموسًا وقابلًا للمشاركة.


مكتبة Transformers: دمقرطة التعلم العميق

عندما أطلقت Hugging Face مكتبة Transformers في أواخر عام 2018، دمقرطت بشكل أساسي الوصول إلى التعلم العميق. قبل Transformers، كان استخدام نماذج مثل BERT أو GPT-2 يتطلب إعدادًا معقدًا، وكتابة كود مخصص، وموارد حوسبة كبيرة. غيّرت Transformers ذلك من خلال توفير API موحد وعالي المستوى.

القدرات الأساسية

موحدة API عبر الإطارات: واجهة واحدة تعمل بسلاسة عبر PyTorch و TensorFlow و JAX (تجريبي)، مما يسمح للمطورين باختيار الإطار المفضل دون إعادة كتابة الكود.

مكتبة نماذج هائلة: الوصول إلى أكثر من 300 معمارية نموذجية مع أكثر من مليون نقطة تدريب مسبقة متوفرة على Hub. المهام تشمل تصنيف النصوص، الترجمة، التلخيص، الإجابة على الأسئلة، التوليد، وأكثر من ذلك بكثير.

الضبط الدقيق السهل: Trainer API مع دعم مدمج للدقة المختلطة (بما في ذلك FP8)، torch.compile() optimization، و Flash Attention يجعل الضبط الدقيق لمجموعات البيانات المخصصة بسيطًا بشكل ملحوظ.

التطور متعدد الوسائط: بدأت التركيز على معالجة اللغة الطبيعية (NLP)، والآن Transformers يدعم المهام النصية والبصرية والصوتية ومتعددة الوسائط، مما يعكس تطور الصناعة نحو هياكل موحدة.

مثال: الضبط الدقيق عمليًا

هكذا يصبح الضبط الدقيق لمصنف نصي بسيطًا:

from transformers import (
    AutoModelForSequenceClassification,
    AutoTokenizer,
    Trainer,
    TrainingArguments
)
from datasets import load_dataset

# Load dataset and tokenizer
dataset = load_dataset("imdb")
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

# Tokenize the dataset
def tokenize(batch):
    return tokenizer(batch["text"], padding=True, truncation=True)

tokenized_datasets = dataset.map(tokenize, batched=True)

# Load model
model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased",
    num_labels=2
)

# Configure training
args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    per_device_train_batch_size=8,
    num_train_epochs=2,
    fp16=True,  # Mixed precision training
)

# Train
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datasets["train"].shuffle(seed=42).select(range(2000)),
    eval_dataset=tokenized_datasets["test"].select(range(500)),
)

trainer.train()

هذا الكود يُجري ضبطًا دقيقًا لنموذج DistilBERT على جزء من مجموعة بيانات IMDb — مهمة كانت ستتطلب مئات الأسطر قبل Hugging Face. فلسفة تصميم المكتبة تُقدّم سهولة الاستخدام دون التضحية بالمرونة، مما يمكّن المبتدئين والخبراء من العمل بكفاءة.


ما وراء Transformers: النظام البيئي الكامل للمكتبة

بينما Transformers هو المنتج الرئيسي، فقد بنت Hugging Face مجموعة كاملة من الأدوات المتخصصة التي تغطي دورة حياة التعلم الآلي بالكامل.

Tokenizers: معالجة نصية عالية الأداء

Tokenizers يوفر تنفيذات سريعة جدًا بلغة Rust مع روابط Python. يدعم خوارزميات BPE وWordPiece وUnigram وSentencePiece، ويمكنه تجزئة 1 جيجابايت من النص في أقل من 20 ثانية على معالجات الخوادم. تتبع المحاذاة الكامل يعيد ربط الرموز بمواقع النص الأصلية — أمر حاسم للمهام مثل التعرف على الكيانات المسماة.

متوفر في Python وNode.js وRust وRuby، Tokenizers يوفر الأداء المطلوب لأنظمة الإنتاج.

Accelerate: التدريب الموزع ببساطة

Accelerate يسمح لنفس كود PyTorch بالعمل عبر أي تكوين موزع بتغييرات طفيفة — فقط أربع أسطر من الكود. أُصدرت النسخة 1.0.0 في عام 2024، ويدعم 6 مسرعات عتادية: CPU وGPU وTPU وXPU وNPU وMLU.

الميزات الرئيسية تشمل:

  • الدقة المختلطة التلقائية (بما في ذلك FP8)
  • دعم FSDP وDeepSpeed للتدريب على نطاق واسع
  • device_map="auto" للتنبؤ بنماذج كبيرة عبر وحدات GPU متعددة
  • التكامل مع Transformers وDiffusers وPEFT وTRL

Accelerate يجعل الحوسبة الموزعة متاحة للجميع، مما يسمح للباحثين وشركات الناشئة بالتوسع دون الحاجة إلى خبرة عميقة في البنية التحتية.

Diffusers: الذكاء الاصطناعي التوليدي للصور والفيديو والصوت

Diffusers (أُصدرت في يوليو 2022) تقدم نماذج انتشار مسبقة التدريب حديثة لتوليد الصور والفيديو والصوت. مع أكثر من 10,000 أنبوب تدفق متوافق على Hub، أصبحت المكتبة القياسية للذكاء الاصطناعي التوليدي خارج النصوص.

from diffusers import DiffusionPipeline
import torch

# Load a text-to-image pipeline
pipe = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1",
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

# Generate an image
image = pipe("A futuristic city at sunset, digital art").images[0]
image.save("generated_city.png")

Diffusers يدعم المُكيّفات مثل LoRA للضبط الفعّال، والتحسينات بما في ذلك نقل الحمل والتكميم للأجهزة ذات الذاكرة المحدودة. التصميم يُعطي أولوية لـ سهولة الاستخدام، البساطة، والقابلية للتخصيص — قيم Hugging Face الأساسية.

Datasets: مركز بيانات التعلم الآلي

مكتبة Datasets، التي نشأت كنسخة فرعية من TensorFlow Datasets، تستضيف الآن 543,415+ مجموعة بيانات تغطي النصوص والصور والصوت والفيديو والتنسيقات متعددة الوسائط. يدعم تعيين الذاكرة والتدفق العمل مع مجموعات بيانات أكبر بكثير من ذاكرة RAM أو مساحة القرص المتاحة.

التكامل يشمل PyTorch 2.0+ وTensorFlow 2.6+ وJAX 3.14+، بالإضافة إلى PyArrow وPandas وPolars وSpark. الوظيفة البسيطة load_dataset() والعمليات الفعالة map() تجعل التعامل مع البيانات بسيطًا بشكل ملحوظ.

Evaluate: قياس ما يهم

Evaluate يوفر عشرات المقاييس الشائعة التي تغطي معالجة اللغة الطبيعية ورؤية الحاسوب والصوت. ثلاث فئات رئيسية تنظم النظام البيئي:

  • المقاييس: قياس أداء النموذج مقابل الحقيقة المطلقة (الدقة، F1، BLEU، إلخ.)
  • المقارنات: تحليل الاختلافات بين النماذج
  • القياسات: تقييم خصائص مجموعة البيانات

الـ API بسيط بشكل أنيق:

import evaluate

# Load a metric
accuracy = evaluate.load("accuracy")

# Compute scores
results = accuracy.compute(references=[0, 1, 2], predictions=[0, 1, 1])
print(results)  # {'accuracy': 0.6667}

ملاحظة لتقييم نماذج اللغة الكبيرة: توصي Hugging Face الآن بـ LightEval كبديل أحدث وأكثر صيانة بشكل نشط خصيصًا لتقييم نماذج اللغة الكبيرة.


حلول المؤسسات: الذكاء الاصطناعي على نطاق واسع

بينما يظل المصدر المفتوح في قلب Hugging Face، تقدم الشركة خدمات من الدرجة المؤسسية تمكن المنظمات من نشر الذكاء الاصطناعي وتوسيعه بأمان.

Inference Endpoints: نشر النماذج جاهزة للإنتاج

Inference Endpoints يوفر نشرًا مُدارًا بالكامل للنماذج كواجهات برمجة آمنة وقابلة للتوسع. متاح منذ عام 2022 مع تحسينات مستمرة، تقدم الخدمة:

  • التوسع التلقائي مع scale-to-zero — تدفع فقط مقابل ما تستخدمه
  • المرونة متعددة السحابات — اختر مزود السحابة (AWS، Azure، GCP)، المنطقة، والعِتاد
  • ثلاث مستويات أمان:
    • Endpoints محمية — مطلوب المصادقة
    • Endpoints عامة — وصول مفتوح للعروض التوضيحية العامة
    • Endpoints خاصة — تكامل PrivateLink لاتصالات VPC
  • محركات استدلال مُحسّنة — تكامل مع vLLM وText Generation Inference (TGI) وText Embeddings Inference (TEI)
  • 60,000+ نموذج مدعوم — Transformers وDiffusers وSentence Transformers وغيرها

الأسعار تبدأ من $0.032 لكل ساعة نواة CPU و$0.5 لكل ساعة GPU، مع خطط المؤسسات التي تقدم دعمًا مخصصًا، SLAs على مدار 24/7، وضمانات وقت التشغيل.

مثال استخدام API:

curl https://API-inference.huggingface.co/models/distilbert-base-uncased-finetuned-sst-2-english \
  -X POST \
  -d '{"inputs": "Hugging Face is transforming AI!"}' \
  -H "Authorization: Bearer YOUR_HF_API_TOKEN"

تُعيد الاستجابة توقعات JSON، مما يمكّن التكامل السلس في أي تطبيق دون إدارة البنية التحتية.

Enterprise Hub: بنية تحتية خاصة للذكاء الاصطناعي

Enterprise Hub (المعروف سابقًا باسم Private Hub، وأُعلن عنه في أغسطس 2022) يوفر بيئات معزولة حيث يمكن للفرق استضافة النماذج والبيانات الخاصة باستخدام نفس الأدوات التعاونية الموجودة في Hub العام. هذا يسد الفجوة بين البحث المفتوح ومتطلبات السرية المؤسسية.

ثلاثة خيارات نشر:

  1. Managed Private Hub — يعمل في VPCs معزولة مملوكة لـ هَجِينغ فِيس
  2. On-Cloud Private Hub — يعمل في حساب سحابة العميل (AWS, Azure, GCP)
  3. On-Premise — النشر على بنية العميل للامتثال الصارم

ميزات المؤسسة:

  • SSO مع تكامل SAML — مصادقة مركزية
  • Resource Groups — تحكم دقيق في الوصول القائم على الأدوار
  • Storage Regions — الامتثال لـ GDPR عبر أوروبا، أمريكا الشمالية، وآسيا والمحيط الهادئ
  • سجلات التدقيق الشاملة — تتبع كامل
  • تخزين خاص 1 تيرابايت لكل عضو في المؤسسة (25 دولار/شهر لكل تيرابايت إضافي)
  • 5 أضعاف كمية ZeroGPU — وصول محسّن إلى الحوسبة
  • سياسات أمان متقدمة — تطبيق على مستوى المؤسسة

المنصة معتمدة SOC2 Type 2 ومتوافقة مع GDPR، لتلبية متطلبات الأمان والخصوصية المؤسسية.


الشراكات الاستراتيجية: سويسرا المحايدة للذكاء الاصطناعي

موقع هَجِينغ فِيس كـ "سويسرا المحايدة للذكاء الاصطناعي" يتجلى في شراكاتها الاستراتيجية المتنوعة مع مزودي السحابة الرئيسيين، وشركات تصنيع الرقاقات، وقادة برامج المؤسسات.

AWS: مزود السحابة المفضل

Amazon Web Services يخدم كـ مزود سحابة مفضل معين لـ هَجِينغ فِيس — شراكة حاسمة غالبًا ما يتم تجاهلها في النقاش العام. استثمرت AWS في جولة Series D أغسطس 2023 باتفاقية مشاركة الإيرادات.

أبرز التكاملات:

  • حاويات التعلم العميق لهَجِينغ فِيس (DLCs) — بيئات مُهيأة مسبقًا لـ SageMaker
  • SageMaker JumpStart — نشر بنقرة واحدة لـ 10,000+ نموذج
  • AWS Custom Silicon — Trainium للتدريب (توفير تكاليف تصل إلى 50%)، Inferentia/Inferentia2 للتنبؤ (أداء 4 أضعاف، تأخير أقل بـ 10 مرات)
  • Enterprise Hub عبر AWS Marketplace — فواتير مباشرة عبر حسابات AWS
  • تكامل AWS الكامل — دعم عبر EC2, S3, Lambda, وAWS Data Exchange

Google Cloud: تعاون واستثمار استراتيجيان

شاركت Google كـ مستثمر في جولة Series D بقيمة 235 مليون دولار وشريك سحابة استراتيجي (أُعلن في 25 يناير 2024).

أبرز التكاملات:

  • نشر بنقرة واحدة من Hub إلى Vertex AI
  • Google Kubernetes Engine (GKE) مع حاويات هَجِينغ فِيس
  • وصول Cloud TPU v5e — أداء أفضل بـ 2.5x مقارنة بالجيل السابق
  • وحدات A3 VM مع NVIDIA H100 GPUs ووحدات C3 VM مع Intel Sapphire Rapids
  • 10,000+ نموذج في Google Cloud Model Garden
  • اشتراكات Enterprise Hub تُدار عبر حسابات Google Cloud

Microsoft Azure: تعميق التكامل متعدد الوسائط

تطورت شراكة Azure عبر مراحل توسع متعددة (الإعلان الأولي في مايو 2022، توسع Build في مايو 2024، التعميق في يناير 2025).

أبرز نقاط توسع يناير 2025:

  • 10,000+ نموذج لهَجِينغ فِيس في Azure AI Foundry مع إصدارات يوم-0
  • دعم متعدد الوسائط — نماذج النص، الرؤية، والصوت
  • نشر بنقرة واحدة من Hub إلى Azure Machine Learning
  • أوزان النماذج المضيفة على Azure — نشر آمن بدون خروج خارجي
  • توافق OpenAI Chat Completion API — استبدال مباشر
  • نهج أمني أولوية — مسح الثغرات على جميع النماذج

إضافة مايو 2024:

  • 20+ نموذج LLM جديد بما في ذلك إصدارات Meta Llama
  • تكامل AMD MI300X GPU
  • تكامل Phi-3 في HuggingChat
  • وضع Dev Mode لـ Spaces مع VS Code — بيئات تطوير كاملة في المتصفح

NVIDIA: التدريب، التنبؤ، والروبوتات

شراكة NVIDIA (أُعلن عنها في أغسطس 2023، وتم التوسع في نوفمبر 2024 ويناير 2025) تغطي عدة أبعاد:

بنية التدريب:

  • Training Cluster as a Service مدعوم بواسطة NVIDIA DGX Cloud
  • كل مثيل يحتوي على 8x A100 أو H100 GPUs مع ذاكرة GPU 640GB
  • الأسعار تبدأ من 36,999 دولار/شهر للحوسبة الفائقة متعددة العقد
  • توسع GTC Paris يناير 2025 أضاف تكامل DGX Cloud Lepton مع وصول إلى أحدث GPUs Hopper و GB200

تحسين التنبؤ:

  • NVIDIA NIM integration — حتى 5 أضعاف أعلى إنتاجية على GPUs H100
  • مكتبة Optimum-NVIDIA — تحسينات محددة للعتاد

تعاون الروبوتات (نوفمبر 2024):

  • تكامل LeRobot مع NVIDIA Isaac Lab
  • دعم منصات GR00T و Jetson
  • قدرات تنبؤ روبوتات في الوقت الفعلي

شراكة تدريب النماذج:

  • درّبت NVIDIA StarCoder2-15B باستخدام إطار NeMo (أُصدر في فبراير 2024)

ServiceNow: الذكاء الاصطناعي للكود مفتوح المصدر

ServiceNow يقود مع هَجِين

Dell Technologies (May 2024) — أول مزود للبنية التحتية لـ Enterprise Hub المحلي، معين كشريك بنية تحتية محلية مفضل مع دعم لـ NVIDIA و AMD و Intel Gaudi مُسرّعات.

Cerebras (March 2025) — سرعات استنتاج رائدة في الصناعة بـ 2,200+ رموز/ثانية (70x أسرع من وحدات معالجة الرسومات) باستخدام CS-3 Wafer-Scale Engine-3.

Cloudflare (February 2025) — FastRTC يُقدّم بنية تحتية للاتصالات في الوقت الحقيقي مع بث شهري مجاني 10GB.

JFrog (March 2025) — فحص أمان متقدم مع ملصقات "JFrog Certified" للنماذج المُعتمدة.

DigitalOcean (2024) — 1-Click Models مدعومة بواسطة HUGS على Droplets GPU مع NVIDIA H100.

يُمكّن هذا النظام البيئي من الشراكات Hugging Face من كونها منصة محايدة حيث تتعاون صناعة الذكاء الاصطناعي بأكملها، وتتجنب الاحتكار من مورّد واحد مع الحفاظ على مبادئ المصدر المفتوح.


BigScience: علامة فارقة في بحث الذكاء الاصطناعي المفتوح والتعاوني

ساعدت Hugging Face في إطلاق BigScience في May 2021—ورشة بحثية لمدة عام تمثل واحدة من أكثر التعاونات الطموحة في علم الذكاء الاصطناعي. شارك أكثر من 1,000 باحث من 60+ دولة و250+ مؤسسة في بناء نموذج لغوي ضخم بشكل شفاف ومسؤول.

نموذج BLOOM: الذكاء الاصطناعي المفتوح على نطاق واسع

أنتجت BigScience BLOOM (BigScience Large Open-science Open-access Multilingual Language Model)، تم الإصدار في July 11, 2022 بعد التدريب من March 11 إلى July 6, 2022 (117 يومًا).

المواصفات الفنية:

  • 176 مليار معلمة (176,247,271,424 بالضبط)
  • Transformer decoder-only مبني على Megatron-LM GPT2 معدل
  • 70 طبقة، 112 رأس انتباه، طبقات مخفية بُعدها 14,336
  • طول تسلسل 2,048 رمزًا مع تشفير موضعي ALiBi
  • قاموس مكون من 250,680 رمزًا
  • 46 لغة طبيعية و13 لغة برمجة (Java, PHP, C++, Python, JavaScript, C#, Ruby, TypeScript, Lua, Go, Scala, Rust)
  • أول نموذج بـ 100B+ معلمة للغات مثل الإسبانية والفرنسية والعربية

بنية التدريب:

  • 1.6TB نص مُسبق المعالجة من مجموعة ROOTS (~366 مليار رمز تم رؤيتها أثناء التدريب)
  • 384 وحدة معالجة رسومات NVIDIA A100 80GB (48 عقدة) بالإضافة إلى 32 وحدة احتياطية
  • سوبر كمبيوتر Jean Zay الفرنسي
  • التكلفة المقدرة: 2-5 مليون دولار مكافئة في الحوسبة السحابية (منحة حوسبة بقيمة 3 مليون يورو من CNRS و GENCI)
  • تم الإصدار تحت ترخيص RAIL v1.0 (ترخيص الذكاء الاصطناعي المسؤول)

إرث BigScience

ملاحظة مهمة: كانت BigScience ورشة بحثية لمدة عام محدودة انتهت في مايو 2022، ليست منظمة مستمرة. جلسة إغلاق ACL مايو 2022 وضعت نهاية للورشة. ومع ذلك، لا يزال BLOOM يستخدم بشكل نشط مع أكثر من 4,000 تنزيل شهريًا اعتبارًا من 2024-2025، ويستمر الإرث من خلال مشاريع مشتقة مثل BigLAM (المُركزة على بيانات التراث الثقافي).

أثبتت BigScience أن بحث الذكاء الاصطناعي على نطاق واسع يمكن إجراؤه بشكل مفتوح وشفاف وشامل—ووضع معايير جديدة للتوثيق والحكم والاعتبارات الأخلاقية.


ثورة الروبوتات: الحدود الجديدة الجريئة لـ Hugging Face

ربما لا توجد تطورات حديثة أخرى تعكس طموح Hugging Face أفضل من توسعها العدائي في الروبوتات—مُمكّنة الشركة من تعميم الذكاء الاصطناعي المادي بنفس الطريقة التي عمت بها النماذج اللغوية.

الرؤية: روبوتات مفتوحة، ميسورة التكلفة، خاصة

تؤكد مهمة Hugging Face في الروبوتات على جعل المجال "مفتوحًا، ميسور التكلفة، وخاصًا"—تمديد قيمها الأساسية إلى العالم المادي. تجمع الاستراتيجية بين الأجهزة الميسورة مع البرمجيات مفتوحة المصدر، مما يخلق نظامًا بيئيًا يمكن لأي شخص بناء وتدريب ونشر الروبوتات فيه.

منصات الأجهزة

HopeJR (أُعلن في مايو 2025) — روبوت بشري كامل مع:

  • 66 درجة حرية مُحركَة
  • قدرات المشي والتحريك
  • السعر: حوالي 3,000 دولار — يقلل بشكل كبير من منافسي مثل Optimus من Tesla أو روبوتات Figure AI
  • من المتوقع شحن الوحدات الأولى بحلول نهاية 2025

Reachy Mini (تم الاستحواذ عبر استحواذ Pollen Robotics في أبريل 2025) — روبوتات بشرية مكتبية:

  • النسخة اللاسلكية: 449 دولار
  • النسخة الخفيفة: 299 دولار
  • مصممة لاختبار تطبيقات الذكاء الاصطناعي في تصميم مدمج

SO-101 Robotic Arm (مُحدَّث من SO-100 في 2024) — منصة تحريك قابلة للبرمجة مطبوعة ثلاثية الأبعاد للمستوى الأول للتجارب والتعليم.

النظام البيئي للبرمجيات: LeRobot و SmolVLA

LeRobot Platform — إطار عمل مفتوح المصدر للذكاء الاصطناعي في الروبوتات مع:

  • نماذج مُدرَّبة مسبقًا لمهام التحريك
  • مجموعات بيانات مجتمعية لتعلم الروبوتات
  • التكامل مع NVIDIA Isaac Lab (نوفمبر 2024)
  • دعم منصات GR00T و Jetson

SmolVLA (يونيو 2025) — نموذج رؤية-لغة-حركة ثوري:

  • 450 مليون معلمة
  • يعمل على MacBooks أو وحدات معالجة رسومات استهلاكية واحدة
  • مدرَّب على مجموعات بيانات LeRobot المجتمعية
  • استدلال غير متزامن لاستجابة أسرع للروبوت
  • يمكّن التفكير البصري الفوري وتخطيط الإجراءات على الأجهزة الطرفية

تمثل مبادرة الروبوتات أحدث تطور مميز لـ Hugging Face، حيث تمدد مهمة التعميم من الذكاء الاصطناعي الرقمي إلى الذكاء المادي المتجسد.


الذكاء الاصطناعي متعدد الوسائط: ما وراء النص

بينما بنت Hugging Face سمعتها على معالجة اللغة الطبيعية، تطورت المنصة بشكل كبير لدعم الذكاء الاصطناعي متعدد الوسائط عبر الرؤية والصوت والفيديو ومزيجها.

SmolVLM: نماذج رؤية-لغة من الطراز الأول

SmolVLM (تم الإصدار في نوفمبر 2024) يقدم إمكانيات رؤية-لغة من الطراز الأول في نموذج بـ 2 مليار معلمة مُحسّن للأجهزة الطرفية—أجهزة المحمول ووحدات معالجة الرسومات الاستهلاكية.

ثلاثة إصدارات:

  • SmolVLM-Base — نموذج أساسي
  • SmolVLM-Synthetic — مدرَّب ببيانات اصطناعية مُعزَّزة
  • SmolVLM-Instruct — مُعدّل للتعليمات للمهام اللاحقة

القدرات:

  • وصف الصور
  • الإجابة على أسئلة بصرية
  • فهم المستندات وOCR
  • تم الإصدار تحت ترخيص Apache 2.0

نمو متفجر في نماذج متعددة الوسائط

يستضيف Hub الآن أكثر من 2,000 نموذج متعدد الوسائط يدعم:

  • نماذج صورة-نص (CLIP, BLIP, LLaVA, Idefics)
  • نماذج صوت-نص (Whisper, Wav2Vec2)
  • نماذج فيديو-نص (VideoMAE, TimeSformer)
  • فهم المستندات (LayoutLM, Donut)

تطورات يناير 2025:

  • نوافذ سياق 128k رمز (Gemma3-4b-it) للتفكير البصري طويل السياق
  • دعم 140+ لغة في السياقات متعددة الوسائط
  • VLMs صغيرة (تحت 2B معلمة) مُحسَّنة لنشر الحافة
  • قدرات فهم الفيديو الطويل

IDEFICS: منصة متعددة الوسائط المفتوحة القوية

تُقدِّم عائلة IDEFICS (الضبط الدقيق للدمج المُشتت الموجه للتعليق على الصور والتلخيص) نماذج متعددة الوسائط بـ 80 مليار معلمة تقبل سلاسل من الصور والنصوص.

تم تدريبه على مجموعة بيانات OBELICS (115B رموز، 141M وثائق، 353M صور)، يُظهر IDEFICS أن الذكاء الاصطناعي متعدد الوسائط المفتوح المصدر يمكنه مجاراة البدائل الخاصة من حيث القدرات مع الحفاظ على الشفافية والوصولية.


الذكاء الاصطناعي الوكيلي ومنصات المطورين: الموجة القادمة

تقوم Hugging Face بريادة تطبيقات الذكاء الاصطناعي من الجيل التالي من خلال الأنظمة الوكيلة وأدوات المطورين المتكاملة بشكل عميق.

HuggingChat: البديل المفتوح لـ ChatGPT

HuggingChat (أُطلق في أكتوبر 2024) يوفر الرد المجاني من Hugging Face لـ ChatGPT، مع فرق حاسم: يختار المستخدمون من مجموعات متنوعة من النماذج مفتوحة المصدر بدلاً من الاقتصار على نظام خاص واحد.

هذا النهج يجسد فلسفة Hugging Face من خيار المستخدم والبدائل المفتوحة للمنصات المغلقة.

smolagents: إطار عمل وكيلي خفيف

smolagents (ديسمبر 2024/يناير 2025) يقدم إطار عمل خفيف لإنشاء أنظمة وكيلة حيث تتحكم LLMs في تدفق المهام بشكل ديناميكي.

الميزات الرئيسية:

  • تكامل الأدوات (محركات البحث، واجهات برمجة التطبيقات، الوظائف المخصصة)
  • تخطيط وتنفيذ المهام الديناميكي
  • التوافق مع Hugging Face Hub
  • أقل اعتماديات وبسيط API

تمثل الوكلاء التطور التالي لما بعد التحفيز الثابت، مما يمكّن أنظمة الذكاء الاصطناعي من التفكير في المهام المعقدة، واستخدام الأدوات، وتعديل السلوك بناءً على النتائج الوسيطة.

HUGS: منصة نشر المؤسسات

HUGS (خدمات الذكاء الاصطناعي التوليدي من Hugging Face، أواخر 2024) يتيح النشر والتدريب دون اتصال بالإنترنت لنماذج الذكاء الاصطناعي في بيئات مؤسسية مخصصة.

القدرات:

  • تحسين جاهز للإنتاج
  • نشر معزول لضمان أقصى أمان
  • تدريب نماذج مخصصة على بيانات خاصة
  • التكامل مع البنية التحتية المؤسسية

OpenEnv: توحيد بيئات الوكلاء

OpenEnv (أُطلق في نوفمبر 2025 بالتعاون مع فريق PyTorch التابع لـ Meta) يوفر منصة مفتوحة المصدر لتوحيد بيئات وكلاء الذكاء الاصطناعي.

المكونات:

  • مواصفة OpenEnv 0.1 — تنسيق معياري لبيئات الوكلاء
  • Environment Hub — مستودع للبيئات المعزولة الآمنة لتطوير الوكلاء
  • تكاملات الإطارات — دعم TorchForge, verl, TRL, SkyRL

يتعامل OpenEnv مع التجزئة في تطوير الذكاء الاصطناعي الوكيلي، وإنشاء معايير مشتركة تسرع البحث والنشر الإنتاجي.

GitHub تكامل مساعد Chat

سبتمبر 2025 شهد إنجازًا رئيسيًا: مزودو الاستدلال يتكاملون الآن مع GitHub Copilot Chat، مما يمكّن المطورين من الوصول إلى نماذج LLM مفتوحة المصدر مباشرة في VS Code الإصدار 1.104.0+.

النماذج المدعومة تشمل:

  • Kimi K2
  • DeepSeek V3.1
  • GLM 4.5
  • وعدد أكبر من النماذج من نظام Hugging Face البيئي

تضع هذه التكامل نماذج Hugging Face المفتوحة كبديل قابل للتطبيق لمساعدي البرمجة الخاصين، وتصل إلى المطورين في بيئات العمل الرئيسية الخاصة بهم — توسع استراتيجي في نطاق الشركة.


القيادة البيئية: جعل الذكاء الاصطناعي مستدامًا

برزت Hugging Face كرائدة في المسؤولية البيئية ضمن صناعة الذكاء الاصطناعي، وتطوير أدوات ومعايير لقياس وتقليل انبعاثات الكربون.

تتبع انبعاثات الكربون

تكامل CodeCarbon يمكّن تتبع الانبعاثات تلقائيًا مباشرة في مكتبة Transformers عبر CodeCarbonCallback التلقائي أثناء التدريب. يدعم Hub تصفية النماذج حسب البصمة الكربونية باستخدام معلمة emissions_threshold في HfApi.

يمكن للنماذج عرض بيانات انبعاثات CO2 في بطاقات النموذج، مما يعزز الشفافية ويشجع على تحسين الكفاءة.

BLOOM تحليل الكربون: وضع المعايير

وجد التحليل الكربوني الشامل لتدريب BLOOM (2022-2023) حوالي 25 طنًا مترية من انبعاثات CO2 المباشرة (~50 طنًا مترية إجمالاً بما في ذلك البنية التحتية والتصنيع) — أقل بكثير من النماذج المماثلة.

نتجت هذه الكفاءة من شبكة الحوسبة النووية الفرنسية في سوبركمبيوتر Jean Zay، مما يُظهر أن اختيارات البنية التحتية تؤثر بشكل كبير على البصمة البيئية للذكاء الاصطناعي.

البحث والدعوة

Sasha Luccioni، قائدة الذكاء الاصطناعي والمناخ في Hugging Face، أنشأت:

  • أنظمة تصنيف كفاءة الكربون
  • أدوات لقياس التأثير البيئي
  • معايير لتوثيق انبعاثات النماذج
  • موارد تعليمية عبر سلسلة المدونة "مقدمة في الآثار البيئية للذكاء الاصطناعي"

تقدم الورقة البحثية "استكشاف البصمة الكربونية لنماذج الذكاء الاصطناعي لـ Hugging Face" (2023) تحليلًا شاملاً للتأثير البيئي للمنصة.

تُعتبر هذه الجهود Hugging Face قائدًا فكريًا في الذكاء الاصطناعي المستدام، ليس فقط بتوفير الأدوات بل بالبحث النشط والدعوة لتقليل التأثير البيئي في جميع أنحاء الصناعة.


التمويل والنمو: التحول إلى سويسرا الذكاء الاصطناعي

أُغلقت جولة Series D بقيمة 235 مليون دولار لـ Hugging Face في أغسطس 2023 بتقييم قدره 4.5 مليار دولار — مضاعفة من 2 مليار دولار في 2022. قادت الجولة Salesforce Ventures مع مشاركة:

  • Google
  • Amazon (AWS)
  • NVIDIA
  • Intel
  • AMD
  • Qualcomm
  • IBM
  • Sound Ventures

حدثت جولة أصغر إضافية من Premji Invest و Bossanova Investimentos في يناير 2024. إجمالي التمويل يتجاوز 400 مليون دولار عبر تسع جولات.

استراتيجية "سويسرا المحايدة"

تُمكّن قاعدة المستثمرين المتنوعة — التي تشمل مزودي السحابة المتنافسين، وشركات تصنيع الرقائق، وقادة برامج المؤسسات — Hugging Face من كونها منصة محايدة حيث تتعاون صناعة الذكاء الاصطناعي بأكملها.

على عكس المنصات الخاضعة لسيطرة موردين واحد، تتجنب Hugging Face الارتباط بالموردين، مما يمكّن المستخدمين من اختيار ما يفضلونه:

  • مزود السحابة (AWS, Azure, GCP، أو محلي)
  • العتاد (NVIDIA, AMD, Intel, Cerebras، وغيرها)
  • الإطار (PyTorch, TensorFlow, JAX)
  • ترخيص النماذج (Apache 2.0, MIT, تراخيص مخصصة)

هذه الحيادية هي ميزة استراتيجية أساسية، مما يجعل Hugging Face الخيار الطبيعي للتعاون المفتوح.

الإيرادات والحجم

زادت الإيرادات من 70 مليون دولار (2023) إلى حوالي 130 مليون دولار (2024)، مع أكثر من 1,000 عميل مؤسسي مدفوعين بما في ذلك Intel، Pfizer، Bloomberg، eBay، وآلاف آخرين.

تُظهر مقاييس المنصة نطاقًا استثنائيًا:

  • 8+ مليون مطور
  • 50,000+ منظمة
  • 45.4+ مليار تنزيل إجمالي (أكتوبر 2025)
  • 37.61 مليون زيارة شهرية للموقع (أغسطس 2025)
  • 50,000+ أوراق بحثية مرتبطة

الفلسفة: تعميم تعلم الآلة

منذ اليوم الأول، كانت مهمة Hugging Face تتمثل في تعميم الذكاء الاصطناعي — جعله متاحًا وشفافًا وتعاونيًا. وصف المؤسسون الشركة بأنها "GitHub" لتعلم الآلة، لكنها تطورت من مجرد مستودع بسيط إلى حركة نحو العلم المفتوح.

المبادئ الأساسية

مفتوح افتراضيًا: جميع الأدوات مُطلقة بموجب تراخيص مرنة (Apache 2.0, MIT). الأبحاث منشورة بشكل مفتوح. النماذج مُشاركة بحرية.

قائم على المجتمع: يتم قياس النجاح ليس بمزايا الملكية الخاصة ولكن باعتماد المجتمع ومساهمته. أكثر من مليون مستودع تم إنشاؤها بواسطة المجتمع العالمي.

متاح: إزالة الحواجز المتعلقة بالتكلفة والتعقيد والخبرة. يمكن لطالب مدرسة ثانوية الوصول إلى نفس النماذج التي تستخدمها شركة من قائمة Fortune 500.

أخلاقي: وثائق شفافة عبر بطاقات النماذج وبطاقات البيانات. مشاركة نشطة في مبادرات الذكاء الاصطناعي المسؤول. تتبع انبعاثات الكربون مدمج في الأدوات.

محايد: تجنب الارتباط بالبائع والاستحواذ على منصة واحدة. دعم مزودي السحابة المتنوعة والأجهزة والإطارات.


اعتراف المجتمع وتأثيره

أقر مجتمع الذكاء الاصطناعي بتأثير Hugging Face التحويلي من خلال العديد من الجوائز:

مشروع العام 2024 لـ Emerge — سمي لدوره التحويلي في الذكاء الاصطناعي والتزامه بالتعميم.

التبني الأكاديمي: يستخدم الباحثون حول العالم Hugging Face لمشاركة النماذج القابلة للتكرار ومجموعات البيانات، مما يمكّن التحقق من الأقران ويُسرع التقدم العلمي.

تمكين الشركات الناشئة: تستفيد الشركات الناشئة من النماذج المسبقة التدريب لبناء المنتجات بشكل أسرع دون ميزانيات حوسبة ضخمة، مما يقلل الحواجز أمام ريادة الأعمال في الذكاء الاصطناعي.

تحول المؤسسات: تدمج المؤسسات الكبيرة نماذج Hugging Face في خدمة العملاء، ومراقبة المحتوى، وأنظمة التحليل، والأدوات الداخلية.


مبادرات أخرى ملحوظة

مشروع ZeroGPU

قدمت Hugging Face قوة حوسبة GPU بقيمة 10 مليون دولار للمجتمع، مما يوسع وصول الباحثين والمطورين إلى تدريب الذكاء الاصطناعي الذين يفتقرون إلى البنية التحتية المكلفة.

HuggingSnap

HuggingSnap (2025) يوفر تطبيق iPhone لفهم الفيديو على الجهاز باستخدام نماذج SmolVLM، مما يُظهر أن الذكاء الاصطناعي متعدد النماذج القوي يمكن تشغيله بالكامل على الأجهزة المحمولة دون الاعتماد على السحابة.

تعاون IBM وNASA

في أغسطس 2025, أصدرت IBM وNASA نموذج Surya الأساسي على Hugging Face لتوقع الطقس الشمسي، وهو جزء من عائلة Prithvi للنماذج الجغرافية والطقسية والشمسية. وهذا يُظهر توسع Hugging Face في مجالات الحوسبة العلمية خارج معالجة اللغة الطبيعية ورؤية الكمبيوتر التقليدية.

تكامل مزودي الاستدلال

Inference Providers أطلقت API موحدًا للوصول إلى مئات نماذج ML مع:

  • لا يوجد ارتباط بالبائع — التبديل بين المزودين فورًا
  • التسعير حسب الاستخدام بدون زيادة
  • توفر مستوى مجاني للاختبار

الطريق القادم: الابتكار المستمر

لا تظهر Hugging Face أي علامات على التباطؤ. تشير المبادرات الأخيرة إلى استمرار التوسع عبر عدة مجالات:

توسيع نطاق الروبوتات: من المتوقع أن تصل أول شحنات HopeJR بحلول نهاية 2025، مع خطط لتوسيع إنتاج روبوتات بشرية ميسورة التكلفة.

تقدم متعدد النماذج: تحسينات إضافية في نماذج الرؤية-اللغة، وفهم الفيديو، والاستدلال عبر النماذج.

أنظمة الوكلاء: تطوير مستمر لإطارات الوكلاء وتوحيد المعايير عبر OpenEnv.

تحسين الأجهزة: تعاون مستمر مع صانعي الرقائق (NVIDIA, AMD, Intel, Cerebras) لتحسين سرعة الاستدلال وكفاءته على أجهزة متنوعة.

توسع المؤسسات: تكاملات أعمق مع مزودي السحابة وميزات أمان/امتثال محسّنة للصناعات المنظمة.

معايير الذكاء الاصطناعي المسؤول: استمرار القيادة في الشفافية، والوثائق، وتخفيف التحيز، وقياس الأثر البيئي.

تشير مسار نمو الشركة إلى أنها ستظل في قلب ابتكار الذكاء الاصطناعي، متطورة جنبًا إلى جنب مع التكنولوجيا نفسها.


الخاتمة: نبض الذكاء الاصطناعي المفتوح المصدر

بدأت Hugging Face كتجربة دردشة و أصبحت العمود الفقري لتعلم الآلة الحديث. مكتباتها — Transformers، Datasets، Tokenizers، Accelerate، Diffusers، Evaluate — تشكل الأساس لعدد لا يحصى من مشاريع الذكاء الاصطناعي. أصبح Hub الخاص بها أكبر مستودع في العالم للنماذج ومجموعات البيانات. والتزامها بالبحث الأخلاقي والمفتوح جعلها بوصلة أخلاقية في المشهد السريع التطور للذكاء الاصطناعي.

مع 2.1+ مليون نموذج، 450,000+ مجموعة بيانات، 8+ مليون مطور، وتوسعات طموحة في الروبوتات والذكاء الاصطناعي متعدد النماذج, Hugging Face ليست مجرد توثيق الثورة في الذكاء الاصطناعي — بل تشكلها بنشاط.

في عالم يتحول فيه الذكاء الاصطناعي كل شيء من الفن إلى الطب، والروبوتات إلى علوم المناخ، تذكرنا Hugging Face أن التعاون والشفافية والمجتمع مهمان بنفس قدر الكود.

مستقبل الذكاء الاصطناعي مفتوح، وتقوم Hugging Face ببناء البنية التحتية لجعل هذا المستقبل متاحًا للجميع.


الموارد