هل Gemma 4 أسرع من Qwen 3.5 في الاستنتاج (inference)؟

ليس حالياً. تظهر اختبارات المجتمع أن Gemma 4 يعمل أبطأ بمقدار 3-6 مرات من Qwen 3.5 على أجهزة متكافئة، ويرجع ذلك أساساً إلى مشكلات توافق FlashAttention مع معمارية الـ attention في Gemma 4. ومن المتوقع أن تؤدي تحديثات الإطارات البرمجية إلى تقليص هذه الفجوة.

أي إصدار يجب أن أستخدمه لوكيل ذكاء اصطناعي (AI agent) على كمبيوتر محمول؟

نموذج E4B هو الأنسب للنشر على الكمبيوتر المحمول. فهو يدعم مدخلات النصوص والصور والصوت، ويتطلب حوالي 5 جيجابايت عند quantization بـ 4 بت، ويوفر سياقاً يبلغ 128K — وهو ما يكفي لمعظم سير عمل الوكلاء.

هل يدعم Gemma 4 استدعاء الدوال (function calling)؟

نعم. تدعم جميع الإصدارات استدعاء الدوال الأصلي، ومخرجات JSON المهيكلة، وتعليمات النظام بشكل مباشر، مما يجعلها مناسبة لتطبيقات الوكلاء التي تحتاج إلى استخدام الأدوات. 1

كيف يؤثر ترخيص Apache 2.0 على الضبط الدقيق (fine-tuning) وإعادة التوزيع؟

يمكنك ضبط Gemma 4 لأي غرض — بما في ذلك المنتجات التجارية — وإعادة توزيع الأوزان المضبوطة بدقة دون أي قيود تتجاوز تضمين إشعار ترخيص Apache 2.0. لا توجد حدود قصوى للمستخدمين النشطين شهرياً أو سياسات استخدام مقبول يجب الامتثال لها.

Google Gemma 4: Frontier Open AI يمكنك تشغيله محلياً (2026)

٤ أبريل ٢٠٢٦

#Gemma 4 #Google DeepMind #open-source AI #local AI deployment #Apache 2.0 #mixture of experts #on-device AI #multimodal AI

Gemma 4 Review: Apache-2.0 Open AI, 89.2% on AIME 2026

ملخص

أصدرت Google DeepMind نموذج Gemma 4 في 2 أبريل 2026 — وهي عائلة من أربعة نماذج مفتوحة بموجب ترخيص Apache 2.0 توفر قدرات متطورة في التفكير، البرمجة، والوسائط المتعددة للأجهزة التي تتراوح من الهواتف الذكية إلى محطات العمل ذات وحدة معالجة رسومات (GPU) واحدة.¹ سجل النموذج الرائد 31B Dense نسبة 89.2% في اختبار الاستدلال الرياضي AIME 2026 ويحتل المرتبة الثالثة بين جميع النماذج المفتوحة في لوحة صدارة Arena AI للنصوص.² ويحقق إصدار 26B Mixture-of-Experts جودة مماثلة مع تنشيط 3.8B معامل فقط لكل توكن.³ أما أصغر إصدار للأجهزة الطرفية (E2B) فيقل حجمه عن 1.5 جيجابايت مع التكميم (quantization) القوي، ويضيف كلا نموذجي الأجهزة الطرفية فهماً أصلياً للصوت — وهو الأول من نوعه في عائلة Gemma.⁴

ما ستتعلمه

لماذا يعد تغيير ترخيص Apache 2.0 أكثر أهمية من الاختبارات القياسية لعمليات نشر الذكاء الاصطناعي التجارية والسيادية
كيف توازن بنية الانتباه الهجين (hybrid attention) في Gemma 4 بين السرعة وفهم السياق الطويل
مقارنات الاختبارات القياسية مقابل Qwen 3.5 و Llama 4 والنماذج المفتوحة الأخرى ذات أعداد المعاملات المماثلة
متطلبات الأجهزة وميزانيات VRAM لتشغيل كل إصدار محلياً
القيود المعروفة التي اكتشفها المجتمع خلال 24 ساعة من الإطلاق
أين يتناسب Gemma 4 في بيئة الإنتاج — من الوكلاء على الأجهزة إلى الاستدلال على نطاق السحاب

لماذا يعد Gemma 4 مهماً

وصلت نماذج الذكاء الاصطناعي مفتوحة الأوزان إلى نقطة تحول. قبل عام، كان تشغيل نموذج يمكنه منافسة واجهات البرمجة (APIs) المملوكة في مهام التفكير والبرمجة يتطلب استئجار مجموعات خوادم (clusters). مع Gemma 4، يمكن لنموذج بـ 31B معامل يتفوق على العديد من البدائل الأكبر حجماً أن يعمل على وحدة معالجة رسومات استهلاكية واحدة مع تكميم 4-bit — وتصدره Google بموجب الترخيص الأكثر تساهلاً الذي استخدمته على الإطلاق لنموذج Gemma.

ترخيص Apache 2.0 هو التغيير الرئيسي الذي يميز Gemma 4 عن أسلافه ومعظم منافسيه. كانت إصدارات Gemma السابقة تُشحن بموجب شروط استخدام Gemma المخصصة من Google، والتي فرضت قيوداً على الاستخدام المقبول وتطلبت الإسناد. يستخدم Llama 4 ترخيص مجتمع Meta، الذي يضع حداً أقصى للاستخدام التجاري عند 700 مليون مستخدم نشط شهرياً ويفرض سياسة الاستخدام المقبول لشركة Meta.⁵ يتم شحن Qwen 3.5 بموجب Apache 2.0 أيضاً، مما يجعله هو و Gemma 4 أكثر عائلتين من نماذج الفئة الرائدة المفتوحة تساهلاً في الترخيص اعتباراً من أبريل 2026.⁶

بالنسبة للمؤسسات التي تبني عمليات نشر ذكاء اصطناعي سيادية — وهي الأنظمة التي يجب أن تعمل بالكامل داخل ولاية قضائية محددة دون تبعيات خارجية لـ API — فإن هذا التمييز في الترخيص ليس أكاديمياً. يعني Apache 2.0 عدم وجود حدود للمستخدمين النشطين شهرياً، وعدم فرض سياسة استخدام مقبول من قبل منشئ النموذج، وحرية كاملة في التعديل وإعادة التوزيع والتسويق التجاري.

البنية: كيف يعمل Gemma 4

تم بناء Gemma 4 على نفس الأبحاث والتقنيات مثل Gemini 3، مع تحسينه للنشر المفتوح الفعال.¹ يتم شحن العائلة في أربعة أحجام، كل منها يستهدف فئة معينة من الأجهزة.

إصدارات النماذج الأربعة

النموذج	إجمالي المعاملات	المعاملات النشطة	نافذة السياق	الأجهزة المستهدفة
E2B	5.1B	2.3B (فعلي)	128K توكن	الهواتف، الأجهزة المدمجة
E4B	~8B	4.5B (فعلي)	128K توكن	أجهزة اللابتوب، الأجهزة اللوحية
26B-A4B (MoE)	26B	3.8B	256K توكن	وحدات معالجة الرسومات الاستهلاكية (RTX 4090، إلخ)
31B Dense	31B	31B	256K توكن	وحدات معالجة الرسومات الاستهلاكية المتطورة/محطات العمل

تسمية النماذج تستحق التوضيح. البادئة "E" في E2B و E4B ترمز إلى "المعاملات الفعالة" (effective parameters) — تستخدم هذه النماذج تضمينات لكل طبقة (PLE)، وهي تقنية تغذي إشارة تضمين ثانوية في كل طبقة فك تشفير (decoder)، مما يمنحها عمقاً تمثيلياً للنماذج الأكبر مع الحفاظ على عدد المعاملات الفعلي صغيراً بما يكفي للنشر على الأجهزة.⁴

اللاحقة "A4B" في نموذج 26B تعني "4B معامل نشط". يحتوي هذا الإصدار من نوع Mixture-of-Experts على 128 خبيراً صغيراً وينشط 8 خبراء بالإضافة إلى خبير واحد مشترك لكل توكن، مما يعني أن 3.8B معامل فقط تعمل خلال كل تمريرة أمامية.³

آلية الانتباه الهجين

تستخدم جميع نماذج Gemma 4 تصميماً للانتباه الهجين يتناوب بين نوعين من طبقات الانتباه:¹

انتباه النافذة المنزلقة المحلية (Local sliding-window attention) يعمل عبر نافذة ثابتة (512 توكن للنماذج الأصغر، و1,024 للنماذج الأكبر). هذه الطبقات رخيصة حسابياً وتتعامل مع السياق المحلي — فهم العلاقة بين التوكنات القريبة.

انتباه السياق الكامل العالمي (Global full-context attention) ترى الطبقات التسلسل بالكامل. تضمن البنية أن تكون الطبقة الأخيرة دائماً طبقة انتباه عالمي، بحيث يكون للتمثيل النهائي للنموذج وعي كامل بالمدخلات بالكامل.

توفر استراتيجية التداخل هذه سرعة المعالجة لنموذج خفيف الوزن في معظم التوكنات مع الحفاظ على الوعي السياقي العميق المطلوب للمهام المعقدة طويلة المدى. تستخدم النماذج أيضاً تكوينات RoPE المزدوجة (Rotary Position Embedding): RoPE القياسي لطبقات النافذة المنزلقة و RoPE النسبي للطبقات العالمية، مما يتيح نوافذ سياق ممتدة تصل إلى 128K و 256K توكن.⁷

تعيد آخر N طبقة من كل نموذج استخدام حالات المفتاح والقيمة (key-value) من الطبقات السابقة، مما يلغي إسقاطات KV الزائدة.⁷ يقلل هذا التحسين من استهلاك الذاكرة أثناء الاستدلال — وهو تحسن ملموس عند تشغيل أعباء عمل ذات سياق طويل على الأجهزة الاستهلاكية.

قدرات الوسائط المتعددة

تعالج جميع الإصدارات الأربعة الصور أصلياً بدقة متغيرة، مما يدعم مهام مثل OCR، وفهم المخططات، والإجابة على الأسئلة البصرية. تضيف نماذج الأجهزة الطرفية E2B و E4B فهماً أصلياً للصوت، بما في ذلك التعرف التلقائي على الكلام وتحويل الكلام إلى نص مترجم عبر لغات متعددة — وهو الأول من نوعه في عائلة Gemma، مع دعم لمدخلات صوتية تصل إلى 30 ثانية.⁴

الاختبارات القياسية: أين يقف Gemma 4

الاختبارات القياسية الأكاديمية

Benchmark	Gemma 4 31B	Gemma 4 26B-A4B	Qwen 3.5 35B-A3B	ملاحظات
AIME 2026 (رياضيات)	89.2%	88.3%	~82%	مسابقة رياضيات للمستوى الجامعي²
MMLU Pro (معرفة)	85.2%	—	—	معرفة أكاديمية واسعة²
GPQA Diamond (علوم)	84.3%	82.3%	—	تفكير علمي للمستوى الجامعي²
LiveCodeBench v6 (برمجة)	80.0%	77.1%	—	مهام برمجية واقعية²
Codeforces ELO	2,150	—	—	برمجة تنافسية²
MMMU Pro (تفكير بصري)	76.9%	—	—	فهم متعدد الوسائط²

لوحة صدارة Arena AI

لوحة صدارة Arena AI القائمة على المجتمع، والتي تصنف النماذج بناءً على تصويتات تفضيل بشرية عمياء، تضع Gemma 4 31B في المركز الثالث بين جميع النماذج المفتوحة بـ ELO تقديري يبلغ 1,452. أما إصدار 26B-A4B MoE فيأتي في المركز السادس بـ 1,441 — وهو أمر لافت للنظر لأنه يحقق ذلك بـ 3.8B معامل نشط فقط لكل توكن.⁸

كيف يقارن بغيره

مقابل أقرب المنافسين في نطاق معاملات 26–35B:

يوفر Qwen 3.5 35B-A3B مفردات أكبر (250 ألف توكن) مُحسنة للغات CJK والنصوص غير اللاتينية، وسرعة الاستنتاج لديه أسرع بكثير على الأدوات الحالية — جزئياً لأنه ينشط 3B معامل فقط لكل توكن. ومع ذلك، يتفوق Gemma 4 31B في التفكير الرياضي (AIME 2026: 89.2% مقابل ~82%) والبرمجة التنافسية (Codeforces ELO).⁹

يوفر Llama 4 Scout (إجمالي 109B، و17B نشط) نافذة سياق ضخمة تصل إلى 10 ملايين توكن ولكنه يتطلب VRAM أكبر بكثير. سياق Gemma 4 البالغ 256 ألف يغطي الغالبية العظمى من حالات الاستخدام الإنتاجي بجزء بسيط من تكلفة الأجهزة.¹⁰

بالنسبة لمعظم المهام باللغة الإنجليزية والبرمجة، يتصدر Gemma 4 حالياً فئة الحجم 26–31B. بالنسبة لأعباء العمل متعددة اللغات التي تعتمد بكثافة على CJK، فإن مفردات Qwen 3.5 تمنحه الأفضلية. وبالنسبة للتطبيقات ذات السياق الطويل للغاية، يظل Llama 4 Scout بلا منازع.

تشغيل Gemma 4 محلياً: دليل الأجهزة

متطلبات VRAM

النموذج	كمية 4-bit	كمية 8-bit	BF16 (كامل)	ملاحظات
E2B	~3 جيجابايت (Q4_K_M GGUF)	~5 جيجابايت	~10 جيجابايت	يعمل على الهواتف مع تكميم فائق⁴
E4B	~5 جيجابايت (Q4_K_M GGUF)	~8 جيجابايت	~16 جيجابايت	مناسب لأجهزة اللابتوب⁴
26B-A4B (MoE)	~10 جيجابايت	~18 جيجابايت	~52 جيجابايت	المعاملات النشطة تحتاج فقط لمعالجة بقيمة ~4B¹¹
31B Dense	~18-20 جيجابايت	~34 جيجابايت	~61 جيجابايت	يناسب RTX 4090 (24 جيجابايت) عند Q4¹¹

تنبيه نافذة السياق

أرقام VRAM هذه تغطي أوزان النموذج فقط. تزيد ذاكرة التخزين المؤقت KV للسياقات الطويلة من متطلبات الذاكرة بشكل كبير. بالنسبة لنموذج 31B عند تكميم 4-bit بدون تكميم KV:¹¹

سياق 32 ألف: ~27 جيجابايت إجمالي VRAM
سياق 128 ألف: ~109 جيجابايت إجمالي VRAM
سياق 256 ألف: ~218 جيجابايت إجمالي VRAM

للنشر المحلي العملي على وحدة معالجة رسومات واحدة، ستكون محدوداً على الأرجح بنوافذ سياق تتراوح بين 8 آلاف و32 ألف مع نموذج 31B. إصدار 26B MoE أكثر كفاءة في الذاكرة هنا لأن عدد معاملاته النشطة أصغر بكثير.

دعم أطر العمل من اليوم الأول

تم إطلاق Gemma 4 مع دعم فوري عبر منظومة الاستنتاج مفتوحة المصدر: Ollama، وLM Studio، وllama.cpp، وvLLM، وSGLang، وHugging Face Transformers، وNVIDIA NIM، وKeras، وغيرها.¹ توفر Google أيضاً نقاط فحص مكممة مباشرة، بما في ذلك إصدار NVIDIA NVFP4 للاستنتاج بـ 4-bit مع حد أدنى من فقدان الدقة.¹²

مشكلة السرعة: ما وجده المجتمع

خلال 24 ساعة من الإطلاق، حدد المجتمع فجوة كبيرة في سرعة الاستنتاج يجب على المطورين فهمها قبل الاعتماد على Gemma 4 لأعباء العمل الإنتاجية الحساسة لزمن الاستجابة.¹³

عدم التوافق بين vLLM وFlashAttention

أبعاد رؤوس الانتباه غير المتجانسة في Gemma 4 (أحجام مختلفة لطبقات النافذة المنزلقة مقابل الطبقات العالمية) تجبر vLLM — إطار عمل الخدمة الإنتاجية الأكثر شعبية — على تعطيل FlashAttention والرجوع إلى نواة انتباه Triton أبطأ. أبلغ أحد المطورين أن نموذج E4B يولد بمعدل 9 توكنات في الثانية تقريباً على RTX 4090، مقارنة بأكثر من 100 توكن في الثانية لنموذج Llama 3.2 3B ذو الحجم المماثل على نفس الأجهزة.¹⁴

بالنسبة لإصدار 26B-A4B MoE، أظهرت تقارير المجتمع حوالي 11 توكن في الثانية مقارنة بأكثر من 60 توكن في الثانية لـ Qwen 3.5 35B-A3B على أجهزة مكافئة.¹³

استهلاك ذاكرة KV Cache

تستهلك نماذج Gemma تاريخياً VRAM لـ KV cache أكثر من البدائل ذات الحجم المماثل. أبلغ أحد المطورين عن تشغيل Qwen 3.5 27B Q4 بسياق 190 ألف على RTX 5090، بينما توقف Gemma 3 27B Q4 على نفس البطاقة عند سياق 20 ألف. يواصل Gemma 4 هذا النمط.¹³

المقايضة

هذه القيود على السرعة حقيقية ولكنها قد تكون مؤقتة. دعم FlashAttention لأبعاد الرؤوس غير المتجانسة (heterogeneous head dimensions) هو مشكلة هندسية، وليس قيداً معمارياً جوهرياً. يعمل مطورو الإطارات البرمجية (Frameworks) بنشاط على التحسينات. إن الجودة مقابل كل بارامتر التي يحققها Gemma 4 حقيقية — السؤال هو ما إذا كان النظام البيئي للتشغيل (serving ecosystem) سيلحق بالركب بسرعة كافية لعمليات النشر الإنتاجية حيث يهم زمن الاستجابة (latency) بقدر ما تهم الدقة.

الجودة متعددة اللغات: نقطة قوة حقيقية

كشفت اختبارات المجتمع عبر اللغات الألمانية والعربية والفيتنامية والفرنسية أن Gemma 4 يتفوق على Qwen 3.5 في المهام غير الإنجليزية رغم مفردات Qwen الأكبر متعددة اللغات. وصف أحد المختبرين قدرة Gemma 4 متعددة اللغات بأنها "في فئة خاصة بها" من حيث جودة الترجمة.¹³ ونظراً لأن Gemma 4 مدرب أصلياً على أكثر من 140 لغة، فهذا مجال قد يقدم فيه أقوى ميزة تنافسية لعمليات النشر غير الإنجليزية.¹

تحليل عميق للترخيص: لماذا يغير Apache 2.0 كل شيء

التحول من شروط استخدام Gemma المخصصة من Google إلى Apache 2.0 له آثار ملموسة:⁵

الجانب	Gemma 4 (Apache 2.0)	Llama 4 (Meta Community)	Qwen 3.5 (Apache 2.0)
الاستخدام التجاري	غير مقيد	محدد بـ 700 مليون مستخدم نشط شهرياً	غير مقيد
التعديل	غير مقيد	مسموح به مع قيود	غير مقيد
إعادة التوزيع	مسموح به مع إشعار الترخيص	مسموح به بموجب شروط Meta	مسموح به مع إشعار الترخيص
سياسة الاستخدام المقبول	لا يوجد من Google	تطبق سياسة Meta (AUP)	لا يوجد من Alibaba
النشر السيادي	حرية كاملة	يجب الامتثال لشروط Meta	حرية كاملة

بالنسبة للشركات الناشئة، هذا يعني عدم القلق بشأن تجاوز حد المستخدمين النشطين شهرياً. بالنسبة للحكومات والصناعات المنظمة التي تبني بنية تحتية سيادية للذكاء الاصطناعي، يقضي Apache 2.0 على التعقيد القانوني للتنقل في ترخيص مخصص.

الخلاصة

يعد Gemma 4 عائلة النماذج المفتوحة الأكثر قدرة في نطاق 26-31 مليار بارامتر اعتباراً من أبريل 2026، مقاساً بالاختبارات الأكاديمية وتصنيفات التفضيل البشري. يزيل ترخيص Apache 2.0 آخر عائق كبير أمام النشر التجاري والسيادي غير المقيد. توفر إصدارات E2B و E4B المحسنة للأجهزة الطرفية ذكاءً حقيقياً متعدد الوسائط — بما في ذلك الصوت — للأجهزة التي تناسب جيبك.

المقايضة هي سرعة الاستنتاج. حتى يدعم النظام البيئي للتشغيل معمارية الـ attention غير المتجانسة في Gemma 4 بشكل كامل، قد يجد المطورون الذين يبنون تطبيقات حساسة لزمن الاستجابة أن Qwen 3.5 أسرع في الممارسة العملية رغم درجات الاختبار الأقل. بالنسبة للتطبيقات التي تهم فيها الدقة أكثر من عدد التوكنز في الثانية — البحث، التحليل، توليد الكود، المحتوى متعدد اللغات — فإن Gemma 4 هو المعيار الافتراضي الجديد في فئة الأوزان المفتوحة.

التوقيت مهم. أبريل 2026 هو أكثر فترات إصدار النماذج كثافة في تاريخ الذكاء الاصطناعي مفتوح المصدر، حيث يتنافس Qwen 3.5 و Llama 4 والآن Gemma 4 على تبني المطورين. يشير اختيار Google للشحن بموجب Apache 2.0 — لمطابقة Qwen والتفوق على قيود Llama — إلى أن سباق النماذج المفتوحة يتم الفوز به الآن بشروط الترخيص بقدر ما يتم الفوز به بنقاط الاختبارات.

إذا كنت تبني خطوط أنابيب ذكاء اصطناعي محلية باستخدام أدوات مثل Ollama، فإن Gemma 4 يحل كترقية مباشرة — يغطي دليلنا حول بناء ذكاء اصطناعي محلي باستخدام وكلاء RAG و Ollama أنماط البنية التحتية التي تنطبق تماماً على Gemma 4. للحصول على سياق حول المشهد التنافسي الأوسع بما في ذلك دفعة Alibaba متعددة الوسائط، راجع تغطيتنا لـ Qwen 3.5 Omni.

Google DeepMind, "Gemma 4: Byte for byte, the most capable open models," blog.google, April 2, 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Google DeepMind, Gemma 4 technical report and benchmark results, deepmind.google/models/gemma/gemma-4/, April 2, 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
بطاقة نموذج Hugging Face، google/gemma-4-26B-A4B، huggingface.co، 2 أبريل 2026. ↩ ↩²
مدونة Hugging Face، "أهلاً Gemma 4: ذكاء اصطناعي رائد متعدد الوسائط على الأجهزة"، huggingface.co/blog/gemma4، 2 أبريل 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵
VentureBeat، "جوجل تطلق Gemma 4 تحت ترخيص Apache 2.0 — وهذا التغيير في الترخيص قد يهم أكثر من اختبارات الأداء"، 2 أبريل 2026. ↩ ↩²
فريق Qwen، ملاحظات إصدار Qwen 3.5، ترخيص Apache 2.0. ↩
Kaitchup، "Gemma 4 31B و 26B A4B: المعمارية واستهلاك الذاكرة"، kaitchup.substack.com، أبريل 2026. ↩ ↩²
لوحة صدارة النصوص Arena AI، arena.ai/leaderboard/text، تم الوصول إليها في 4 أبريل 2026. ↩
ai.rs، "Gemma 4 ضد Qwen 3.5 ضد Llama 4: اختبارات أداء محدثة، متصدر جديد"، أبريل 2026. ↩
Meta، مواصفات نموذج Llama 4 Scout، llama.meta.com، 2026. ↩
Unsloth، مناقشة gemma-4-31B-it-GGUF، huggingface.co، أبريل 2026. ↩ ↩² ↩³
NVIDIA، nvidia/Gemma-4-31B-IT-NVFP4، huggingface.co، أبريل 2026. ↩
مجتمع DEV، "Gemma 4 بعد 24 ساعة: ما وجده المجتمع مقابل ما وعدت به جوجل"، dev.to، أبريل 2026. ↩ ↩² ↩³ ↩⁴
vLLM GitHub مشكلة رقم 38887، "Gemma 4 E4B بطيء للغاية على v0.19.0"، GitHub.com/vllm-project/vllm، أبريل 2026. ↩

الأسئلة الشائعة

نعم. مع تقنية الـ quantization بـ 4 بت، يتناسب نموذج 31B مع RTX 4090 (بذاكرة 24 جيجابايت VRAM) مع نوافذ سياق قصيرة (تصل إلى حوالي 8K–16K توكن). للسياقات الأطول، ستحتاج إلى المزيد من VRAM أو يجب أن تفكر في إصدار 26B MoE، الذي يستخدم ذاكرة أقل بسبب عدد البارامترات النشطة الأصغر.

Google Gemma 4: Frontier Open AI يمكنك تشغيله محلياً (2026)

ملخص

ما ستتعلمه

لماذا يعد Gemma 4 مهماً

البنية: كيف يعمل Gemma 4

إصدارات النماذج الأربعة

آلية الانتباه الهجين

قدرات الوسائط المتعددة

الاختبارات القياسية: أين يقف Gemma 4

الاختبارات القياسية الأكاديمية

لوحة صدارة Arena AI

كيف يقارن بغيره

تشغيل Gemma 4 محلياً: دليل الأجهزة

متطلبات VRAM

تنبيه نافذة السياق

دعم أطر العمل من اليوم الأول

مشكلة السرعة: ما وجده المجتمع

عدم التوافق بين vLLM وFlashAttention

استهلاك ذاكرة KV Cache

المقايضة

الجودة متعددة اللغات: نقطة قوة حقيقية

تحليل عميق للترخيص: لماذا يغير Apache 2.0 كل شيء

الخلاصة

الأسئلة الشائعة

مقالات ذات صلة

Qwen3.5-Omni: نموذج Alibaba للذكاء الاصطناعي شامل الوسائط (2026)

Microsoft Build 2026: Windows أصبح الآن منصة AI Agent

موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج، ١٨ يومًا

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

ابقَ على مسار النيرد

Google Gemma 4: Frontier Open AI يمكنك تشغيله محلياً (2026)

ملخص

ما ستتعلمه

لماذا يعد Gemma 4 مهماً

البنية: كيف يعمل Gemma 4

إصدارات النماذج الأربعة

آلية الانتباه الهجين

مشاركة ذاكرة التخزين المؤقت KV

قدرات الوسائط المتعددة

الاختبارات القياسية: أين يقف Gemma 4

الاختبارات القياسية الأكاديمية

لوحة صدارة Arena AI

كيف يقارن بغيره

تشغيل Gemma 4 محلياً: دليل الأجهزة

متطلبات VRAM

تنبيه نافذة السياق

دعم أطر العمل من اليوم الأول

مشكلة السرعة: ما وجده المجتمع

عدم التوافق بين vLLM وFlashAttention

استهلاك ذاكرة KV Cache

المقايضة

الجودة متعددة اللغات: نقطة قوة حقيقية

تحليل عميق للترخيص: لماذا يغير Apache 2.0 كل شيء

الخلاصة

Footnotes

الأسئلة الشائعة

مقالات ذات صلة

Qwen3.5-Omni: نموذج Alibaba للذكاء الاصطناعي شامل الوسائط (2026)

Microsoft Build 2026: Windows أصبح الآن منصة AI Agent

موجة البرمجة مفتوحة الأوزان في الصين: ٤ نماذج، ١٨ يومًا

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

ابقَ على مسار النيرد