Google Gemma 4: Frontier Open AI يمكنك تشغيله محلياً (2026)
٤ أبريل ٢٠٢٦
ملخص
أصدرت Google DeepMind نموذج Gemma 4 في 2 أبريل 2026 — وهي عائلة من أربعة نماذج مفتوحة بموجب ترخيص Apache 2.0 توفر قدرات متطورة في التفكير، البرمجة، والوسائط المتعددة للأجهزة التي تتراوح من الهواتف الذكية إلى محطات العمل ذات وحدة معالجة رسومات (GPU) واحدة.1 سجل النموذج الرائد 31B Dense نسبة 89.2% في اختبار الاستدلال الرياضي AIME 2026 ويحتل المرتبة الثالثة بين جميع النماذج المفتوحة في لوحة صدارة Arena AI للنصوص.2 ويحقق إصدار 26B Mixture-of-Experts جودة مماثلة مع تنشيط 3.8B معامل فقط لكل توكن.3 أما أصغر إصدار للأجهزة الطرفية (E2B) فيقل حجمه عن 1.5 جيجابايت مع التكميم (quantization) القوي، ويضيف كلا نموذجي الأجهزة الطرفية فهماً أصلياً للصوت — وهو الأول من نوعه في عائلة Gemma.4
ما ستتعلمه
- لماذا يعد تغيير ترخيص Apache 2.0 أكثر أهمية من الاختبارات القياسية لعمليات نشر الذكاء الاصطناعي التجارية والسيادية
- كيف توازن بنية الانتباه الهجين (hybrid attention) في Gemma 4 بين السرعة وفهم السياق الطويل
- مقارنات الاختبارات القياسية مقابل Qwen 3.5 و Llama 4 والنماذج المفتوحة الأخرى ذات أعداد المعاملات المماثلة
- متطلبات الأجهزة وميزانيات VRAM لتشغيل كل إصدار محلياً
- القيود المعروفة التي اكتشفها المجتمع خلال 24 ساعة من الإطلاق
- أين يتناسب Gemma 4 في بيئة الإنتاج — من الوكلاء على الأجهزة إلى الاستدلال على نطاق السحاب
لماذا يعد Gemma 4 مهماً
وصلت نماذج الذكاء الاصطناعي مفتوحة الأوزان إلى نقطة تحول. قبل عام، كان تشغيل نموذج يمكنه منافسة واجهات البرمجة (APIs) المملوكة في مهام التفكير والبرمجة يتطلب استئجار مجموعات خوادم (clusters). مع Gemma 4، يمكن لنموذج بـ 31B معامل يتفوق على العديد من البدائل الأكبر حجماً أن يعمل على وحدة معالجة رسومات استهلاكية واحدة مع تكميم 4-bit — وتصدره Google بموجب الترخيص الأكثر تساهلاً الذي استخدمته على الإطلاق لنموذج Gemma.
ترخيص Apache 2.0 هو التغيير الرئيسي الذي يميز Gemma 4 عن أسلافه ومعظم منافسيه. كانت إصدارات Gemma السابقة تُشحن بموجب شروط استخدام Gemma المخصصة من Google، والتي فرضت قيوداً على الاستخدام المقبول وتطلبت الإسناد. يستخدم Llama 4 ترخيص مجتمع Meta، الذي يضع حداً أقصى للاستخدام التجاري عند 700 مليون مستخدم نشط شهرياً ويفرض سياسة الاستخدام المقبول لشركة Meta.5 يتم شحن Qwen 3.5 بموجب Apache 2.0 أيضاً، مما يجعله هو و Gemma 4 أكثر عائلتين من نماذج الفئة الرائدة المفتوحة تساهلاً في الترخيص اعتباراً من أبريل 2026.6
بالنسبة للمؤسسات التي تبني عمليات نشر ذكاء اصطناعي سيادية — وهي الأنظمة التي يجب أن تعمل بالكامل داخل ولاية قضائية محددة دون تبعيات خارجية لـ API — فإن هذا التمييز في الترخيص ليس أكاديمياً. يعني Apache 2.0 عدم وجود حدود للمستخدمين النشطين شهرياً، وعدم فرض سياسة استخدام مقبول من قبل منشئ النموذج، وحرية كاملة في التعديل وإعادة التوزيع والتسويق التجاري.
البنية: كيف يعمل Gemma 4
تم بناء Gemma 4 على نفس الأبحاث والتقنيات مثل Gemini 3، مع تحسينه للنشر المفتوح الفعال.1 يتم شحن العائلة في أربعة أحجام، كل منها يستهدف فئة معينة من الأجهزة.
إصدارات النماذج الأربعة
| النموذج | إجمالي المعاملات | المعاملات النشطة | نافذة السياق | الأجهزة المستهدفة |
|---|---|---|---|---|
| E2B | 5.1B | 2.3B (فعلي) | 128K توكن | الهواتف، الأجهزة المدمجة |
| E4B | ~8B | 4.5B (فعلي) | 128K توكن | أجهزة اللابتوب، الأجهزة اللوحية |
| 26B-A4B (MoE) | 26B | 3.8B | 256K توكن | وحدات معالجة الرسومات الاستهلاكية (RTX 4090، إلخ) |
| 31B Dense | 31B | 31B | 256K توكن | وحدات معالجة الرسومات الاستهلاكية المتطورة/محطات العمل |
تسمية النماذج تستحق التوضيح. البادئة "E" في E2B و E4B ترمز إلى "المعاملات الفعالة" (effective parameters) — تستخدم هذه النماذج تضمينات لكل طبقة (PLE)، وهي تقنية تغذي إشارة تضمين ثانوية في كل طبقة فك تشفير (decoder)، مما يمنحها عمقاً تمثيلياً للنماذج الأكبر مع الحفاظ على عدد المعاملات الفعلي صغيراً بما يكفي للنشر على الأجهزة.4
اللاحقة "A4B" في نموذج 26B تعني "4B معامل نشط". يحتوي هذا الإصدار من نوع Mixture-of-Experts على 128 خبيراً صغيراً وينشط 8 خبراء بالإضافة إلى خبير واحد مشترك لكل توكن، مما يعني أن 3.8B معامل فقط تعمل خلال كل تمريرة أمامية.3
آلية الانتباه الهجين
تستخدم جميع نماذج Gemma 4 تصميماً للانتباه الهجين يتناوب بين نوعين من طبقات الانتباه:1
انتباه النافذة المنزلقة المحلية (Local sliding-window attention) يعمل عبر نافذة ثابتة (512 توكن للنماذج الأصغر، و1,024 للنماذج الأكبر). هذه الطبقات رخيصة حسابياً وتتعامل مع السياق المحلي — فهم العلاقة بين التوكنات القريبة.
انتباه السياق الكامل العالمي (Global full-context attention) ترى الطبقات التسلسل بالكامل. تضمن البنية أن تكون الطبقة الأخيرة دائماً طبقة انتباه عالمي، بحيث يكون للتمثيل النهائي للنموذج وعي كامل بالمدخلات بالكامل.
توفر استراتيجية التداخل هذه سرعة المعالجة لنموذج خفيف الوزن في معظم التوكنات مع الحفاظ على الوعي السياقي العميق المطلوب للمهام المعقدة طويلة المدى. تستخدم النماذج أيضاً تكوينات RoPE المزدوجة (Rotary Position Embedding): RoPE القياسي لطبقات النافذة المنزلقة و RoPE النسبي للطبقات العالمية، مما يتيح نوافذ سياق ممتدة تصل إلى 128K و 256K توكن.7
مشاركة ذاكرة التخزين المؤقت KV
تعيد آخر N طبقة من كل نموذج استخدام حالات المفتاح والقيمة (key-value) من الطبقات السابقة، مما يلغي إسقاطات KV الزائدة.7 يقلل هذا التحسين من استهلاك الذاكرة أثناء الاستدلال — وهو تحسن ملموس عند تشغيل أعباء عمل ذات سياق طويل على الأجهزة الاستهلاكية.
قدرات الوسائط المتعددة
تعالج جميع الإصدارات الأربعة الصور أصلياً بدقة متغيرة، مما يدعم مهام مثل OCR، وفهم المخططات، والإجابة على الأسئلة البصرية. تضيف نماذج الأجهزة الطرفية E2B و E4B فهماً أصلياً للصوت، بما في ذلك التعرف التلقائي على الكلام وتحويل الكلام إلى نص مترجم عبر لغات متعددة — وهو الأول من نوعه في عائلة Gemma، مع دعم لمدخلات صوتية تصل إلى 30 ثانية.4
الاختبارات القياسية: أين يقف Gemma 4
الاختبارات القياسية الأكاديمية
| Benchmark | Gemma 4 31B | Gemma 4 26B-A4B | Qwen 3.5 35B-A3B | ملاحظات |
|---|---|---|---|---|
| AIME 2026 (رياضيات) | 89.2% | 88.3% | ~82% | مسابقة رياضيات للمستوى الجامعي2 |
| MMLU Pro (معرفة) | 85.2% | — | — | معرفة أكاديمية واسعة2 |
| GPQA Diamond (علوم) | 84.3% | 82.3% | — | تفكير علمي للمستوى الجامعي2 |
| LiveCodeBench v6 (برمجة) | 80.0% | 77.1% | — | مهام برمجية واقعية2 |
| Codeforces ELO | 2,150 | — | — | برمجة تنافسية2 |
| MMMU Pro (تفكير بصري) | 76.9% | — | — | فهم متعدد الوسائط2 |
لوحة صدارة Arena AI
لوحة صدارة Arena AI القائمة على المجتمع، والتي تصنف النماذج بناءً على تصويتات تفضيل بشرية عمياء، تضع Gemma 4 31B في المركز الثالث بين جميع النماذج المفتوحة بـ ELO تقديري يبلغ 1,452. أما إصدار 26B-A4B MoE فيأتي في المركز السادس بـ 1,441 — وهو أمر لافت للنظر لأنه يحقق ذلك بـ 3.8B معامل نشط فقط لكل توكن.8
كيف يقارن بغيره
مقابل أقرب المنافسين في نطاق معاملات 26–35B:
يوفر Qwen 3.5 35B-A3B مفردات أكبر (250 ألف توكن) مُحسنة للغات CJK والنصوص غير اللاتينية، وسرعة الاستنتاج لديه أسرع بكثير على الأدوات الحالية — جزئياً لأنه ينشط 3B معامل فقط لكل توكن. ومع ذلك، يتفوق Gemma 4 31B في التفكير الرياضي (AIME 2026: 89.2% مقابل ~82%) والبرمجة التنافسية (Codeforces ELO).9
يوفر Llama 4 Scout (إجمالي 109B، و17B نشط) نافذة سياق ضخمة تصل إلى 10 ملايين توكن ولكنه يتطلب VRAM أكبر بكثير. سياق Gemma 4 البالغ 256 ألف يغطي الغالبية العظمى من حالات الاستخدام الإنتاجي بجزء بسيط من تكلفة الأجهزة.10
بالنسبة لمعظم المهام باللغة الإنجليزية والبرمجة، يتصدر Gemma 4 حالياً فئة الحجم 26–31B. بالنسبة لأعباء العمل متعددة اللغات التي تعتمد بكثافة على CJK، فإن مفردات Qwen 3.5 تمنحه الأفضلية. وبالنسبة للتطبيقات ذات السياق الطويل للغاية، يظل Llama 4 Scout بلا منازع.
تشغيل Gemma 4 محلياً: دليل الأجهزة
متطلبات VRAM
| النموذج | كمية 4-bit | كمية 8-bit | BF16 (كامل) | ملاحظات |
|---|---|---|---|---|
| E2B | ~3 جيجابايت (Q4_K_M GGUF) | ~5 جيجابايت | ~10 جيجابايت | يعمل على الهواتف مع تكميم فائق4 |
| E4B | ~5 جيجابايت (Q4_K_M GGUF) | ~8 جيجابايت | ~16 جيجابايت | مناسب لأجهزة اللابتوب4 |
| 26B-A4B (MoE) | ~10 جيجابايت | ~18 جيجابايت | ~52 جيجابايت | المعاملات النشطة تحتاج فقط لمعالجة بقيمة ~4B11 |
| 31B Dense | ~18-20 جيجابايت | ~34 جيجابايت | ~61 جيجابايت | يناسب RTX 4090 (24 جيجابايت) عند Q411 |
تنبيه نافذة السياق
أرقام VRAM هذه تغطي أوزان النموذج فقط. تزيد ذاكرة التخزين المؤقت KV للسياقات الطويلة من متطلبات الذاكرة بشكل كبير. بالنسبة لنموذج 31B عند تكميم 4-bit بدون تكميم KV:11
- سياق 32 ألف: ~27 جيجابايت إجمالي VRAM
- سياق 128 ألف: ~109 جيجابايت إجمالي VRAM
- سياق 256 ألف: ~218 جيجابايت إجمالي VRAM
للنشر المحلي العملي على وحدة معالجة رسومات واحدة، ستكون محدوداً على الأرجح بنوافذ سياق تتراوح بين 8 آلاف و32 ألف مع نموذج 31B. إصدار 26B MoE أكثر كفاءة في الذاكرة هنا لأن عدد معاملاته النشطة أصغر بكثير.
دعم أطر العمل من اليوم الأول
تم إطلاق Gemma 4 مع دعم فوري عبر منظومة الاستنتاج مفتوحة المصدر: Ollama، وLM Studio، وllama.cpp، وvLLM، وSGLang، وHugging Face Transformers، وNVIDIA NIM، وKeras، وغيرها.1 توفر Google أيضاً نقاط فحص مكممة مباشرة، بما في ذلك إصدار NVIDIA NVFP4 للاستنتاج بـ 4-bit مع حد أدنى من فقدان الدقة.12
مشكلة السرعة: ما وجده المجتمع
خلال 24 ساعة من الإطلاق، حدد المجتمع فجوة كبيرة في سرعة الاستنتاج يجب على المطورين فهمها قبل الاعتماد على Gemma 4 لأعباء العمل الإنتاجية الحساسة لزمن الاستجابة.13
عدم التوافق بين vLLM وFlashAttention
أبعاد رؤوس الانتباه غير المتجانسة في Gemma 4 (أحجام مختلفة لطبقات النافذة المنزلقة مقابل الطبقات العالمية) تجبر vLLM — إطار عمل الخدمة الإنتاجية الأكثر شعبية — على تعطيل FlashAttention والرجوع إلى نواة انتباه Triton أبطأ. أبلغ أحد المطورين أن نموذج E4B يولد بمعدل 9 توكنات في الثانية تقريباً على RTX 4090، مقارنة بأكثر من 100 توكن في الثانية لنموذج Llama 3.2 3B ذو الحجم المماثل على نفس الأجهزة.14
بالنسبة لإصدار 26B-A4B MoE، أظهرت تقارير المجتمع حوالي 11 توكن في الثانية مقارنة بأكثر من 60 توكن في الثانية لـ Qwen 3.5 35B-A3B على أجهزة مكافئة.13
استهلاك ذاكرة KV Cache
تستهلك نماذج Gemma تاريخياً VRAM لـ KV cache أكثر من البدائل ذات الحجم المماثل. أبلغ أحد المطورين عن تشغيل Qwen 3.5 27B Q4 بسياق 190 ألف على RTX 5090، بينما توقف Gemma 3 27B Q4 على نفس البطاقة عند سياق 20 ألف. يواصل Gemma 4 هذا النمط.13
المقايضة
هذه القيود على السرعة حقيقية ولكنها قد تكون مؤقتة. دعم FlashAttention لأبعاد الرؤوس غير المتجانسة (heterogeneous head dimensions) هو مشكلة هندسية، وليس قيداً معمارياً جوهرياً. يعمل مطورو الإطارات البرمجية (Frameworks) بنشاط على التحسينات. إن الجودة مقابل كل بارامتر التي يحققها Gemma 4 حقيقية — السؤال هو ما إذا كان النظام البيئي للتشغيل (serving ecosystem) سيلحق بالركب بسرعة كافية لعمليات النشر الإنتاجية حيث يهم زمن الاستجابة (latency) بقدر ما تهم الدقة.
الجودة متعددة اللغات: نقطة قوة حقيقية
كشفت اختبارات المجتمع عبر اللغات الألمانية والعربية والفيتنامية والفرنسية أن Gemma 4 يتفوق على Qwen 3.5 في المهام غير الإنجليزية رغم مفردات Qwen الأكبر متعددة اللغات. وصف أحد المختبرين قدرة Gemma 4 متعددة اللغات بأنها "في فئة خاصة بها" من حيث جودة الترجمة.13 ونظراً لأن Gemma 4 مدرب أصلياً على أكثر من 140 لغة، فهذا مجال قد يقدم فيه أقوى ميزة تنافسية لعمليات النشر غير الإنجليزية.1
تحليل عميق للترخيص: لماذا يغير Apache 2.0 كل شيء
التحول من شروط استخدام Gemma المخصصة من Google إلى Apache 2.0 له آثار ملموسة:5
| الجانب | Gemma 4 (Apache 2.0) | Llama 4 (Meta Community) | Qwen 3.5 (Apache 2.0) |
|---|---|---|---|
| الاستخدام التجاري | غير مقيد | محدد بـ 700 مليون مستخدم نشط شهرياً | غير مقيد |
| التعديل | غير مقيد | مسموح به مع قيود | غير مقيد |
| إعادة التوزيع | مسموح به مع إشعار الترخيص | مسموح به بموجب شروط Meta | مسموح به مع إشعار الترخيص |
| سياسة الاستخدام المقبول | لا يوجد من Google | تطبق سياسة Meta (AUP) | لا يوجد من Alibaba |
| النشر السيادي | حرية كاملة | يجب الامتثال لشروط Meta | حرية كاملة |
بالنسبة للشركات الناشئة، هذا يعني عدم القلق بشأن تجاوز حد المستخدمين النشطين شهرياً. بالنسبة للحكومات والصناعات المنظمة التي تبني بنية تحتية سيادية للذكاء الاصطناعي، يقضي Apache 2.0 على التعقيد القانوني للتنقل في ترخيص مخصص.
الخلاصة
يعد Gemma 4 عائلة النماذج المفتوحة الأكثر قدرة في نطاق 26-31 مليار بارامتر اعتباراً من أبريل 2026، مقاساً بالاختبارات الأكاديمية وتصنيفات التفضيل البشري. يزيل ترخيص Apache 2.0 آخر عائق كبير أمام النشر التجاري والسيادي غير المقيد. توفر إصدارات E2B و E4B المحسنة للأجهزة الطرفية ذكاءً حقيقياً متعدد الوسائط — بما في ذلك الصوت — للأجهزة التي تناسب جيبك.
المقايضة هي سرعة الاستنتاج. حتى يدعم النظام البيئي للتشغيل معمارية الـ attention غير المتجانسة في Gemma 4 بشكل كامل، قد يجد المطورون الذين يبنون تطبيقات حساسة لزمن الاستجابة أن Qwen 3.5 أسرع في الممارسة العملية رغم درجات الاختبار الأقل. بالنسبة للتطبيقات التي تهم فيها الدقة أكثر من عدد التوكنز في الثانية — البحث، التحليل، توليد الكود، المحتوى متعدد اللغات — فإن Gemma 4 هو المعيار الافتراضي الجديد في فئة الأوزان المفتوحة.
التوقيت مهم. أبريل 2026 هو أكثر فترات إصدار النماذج كثافة في تاريخ الذكاء الاصطناعي مفتوح المصدر، حيث يتنافس Qwen 3.5 و Llama 4 والآن Gemma 4 على تبني المطورين. يشير اختيار Google للشحن بموجب Apache 2.0 — لمطابقة Qwen والتفوق على قيود Llama — إلى أن سباق النماذج المفتوحة يتم الفوز به الآن بشروط الترخيص بقدر ما يتم الفوز به بنقاط الاختبارات.
إذا كنت تبني خطوط أنابيب ذكاء اصطناعي محلية باستخدام أدوات مثل Ollama، فإن Gemma 4 يحل كترقية مباشرة — يغطي دليلنا حول بناء ذكاء اصطناعي محلي باستخدام وكلاء RAG و Ollama أنماط البنية التحتية التي تنطبق تماماً على Gemma 4. للحصول على سياق حول المشهد التنافسي الأوسع بما في ذلك دفعة Alibaba متعددة الوسائط، راجع تغطيتنا لـ Qwen 3.5 Omni.
Footnotes
-
Google DeepMind, "Gemma 4: Byte for byte, the most capable open models," blog.google, April 2, 2026. ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Google DeepMind, Gemma 4 technical report and benchmark results, deepmind.google/models/gemma/gemma-4/, April 2, 2026. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
بطاقة نموذج Hugging Face، google/gemma-4-26B-A4B، huggingface.co، 2 أبريل 2026. ↩ ↩2
-
مدونة Hugging Face، "أهلاً Gemma 4: ذكاء اصطناعي رائد متعدد الوسائط على الأجهزة"، huggingface.co/blog/gemma4، 2 أبريل 2026. ↩ ↩2 ↩3 ↩4 ↩5
-
VentureBeat، "جوجل تطلق Gemma 4 تحت ترخيص Apache 2.0 — وهذا التغيير في الترخيص قد يهم أكثر من اختبارات الأداء"، 2 أبريل 2026. ↩ ↩2
-
فريق Qwen، ملاحظات إصدار Qwen 3.5، ترخيص Apache 2.0. ↩
-
Kaitchup، "Gemma 4 31B و 26B A4B: المعمارية واستهلاك الذاكرة"، kaitchup.substack.com، أبريل 2026. ↩ ↩2
-
لوحة صدارة النصوص Arena AI، arena.ai/leaderboard/text، تم الوصول إليها في 4 أبريل 2026. ↩
-
ai.rs، "Gemma 4 ضد Qwen 3.5 ضد Llama 4: اختبارات أداء محدثة، متصدر جديد"، أبريل 2026. ↩
-
Meta، مواصفات نموذج Llama 4 Scout، llama.meta.com، 2026. ↩
-
Unsloth، مناقشة gemma-4-31B-it-GGUF، huggingface.co، أبريل 2026. ↩ ↩2 ↩3
-
NVIDIA، nvidia/Gemma-4-31B-IT-NVFP4، huggingface.co، أبريل 2026. ↩
-
مجتمع DEV، "Gemma 4 بعد 24 ساعة: ما وجده المجتمع مقابل ما وعدت به جوجل"، dev.to، أبريل 2026. ↩ ↩2 ↩3 ↩4
-
vLLM GitHub مشكلة رقم 38887، "Gemma 4 E4B بطيء للغاية على v0.19.0"، GitHub.com/vllm-project/vllm، أبريل 2026. ↩