هل Gemini Omni مجاني؟

يوجد مسار مجاني من خلال YouTube Shorts وتطبيق YouTube Create. أما التحرير الكامل في تطبيق Gemini و Google Flow فيتطلب اشتراك Google AI مدفوع: AI Plus بسعر 7.99 دولارًا شهريًا، أو AI Pro بسعر 19.99 دولارًا شهريًا، أو AI Ultra بسعر 100 أو 200 دولار شهريًا. 1 2

كيف يختلف Gemini Omni عن Veo؟

Veo 3.1 هو نموذج فيديو واقعي من Google بدقة 4K ومقاطع تتراوح مدتها بين 4 و 8 ثوانٍ. 4 أما Gemini Omni فهو مبني حول الاستنتاج متعدد المدخلات والتحرير الحواري المستمر للمشاهد والمستند إلى معرفة Gemini بالعالم. 1 إنهما يكملان بعضهما البعض وليسا بدائل.

هل يمكنني استخدام Gemini Omni من خلال API؟

ليس بعد. صرحت Google أن الوصول إلى API للمطورين والمؤسسات سيأتي "في الأسابيع المقبلة"، لكنه غير متاح بعد ولا يوجد تاريخ محدد حتى أوائل يونيو 2026. 1

هل فيديوهات Gemini Omni تحمل علامة مائية؟

نعم. يحمل كل مخرج علامة مائية SynthID غير محسوسة مع عدم وجود خيار لإلغائها، ويمكن التحقق منها عبر تطبيق Gemini، و Gemini في Chrome، و Google Search. 1

ai-ml

Gemini Omni: نموذج جوجل للعالم للفيديو (2026)

٢ يونيو ٢٠٢٦

#gemini omni #google #ai video #world model #generative ai #gemini #synthid #veo

Gemini Omni: Google's World Model for Video (2026)

Gemini Omni هو "نموذج العالم" الجديد من Google الذي يقوم بإنشاء وتحرير الفيديو من أي مزيج من المدخلات النصية، والصورية، والصوتية، وفيديو، مع تعديلات تعتمد على المحادثة باللغة الطبيعية. كشفت Google عنه في مؤتمر I/O 2026 في 19 مايو 2026، وأطلقت النموذج الأول في العائلة، Gemini Omni Flash، في نفس اليوم لتطبيق Gemini، وGoogle Flow، وYouTube Shorts.¹

ملخص

Gemini Omni هو محاولة Google DeepMind لدمج قدرات الاستنتاج في Gemini مع التوليد: فبدلاً من ترجمة موجه نصي إلى بكسلات معزولة، فإنه يجمع المراجع عبر الوسائط المتعددة و"يستنتج ما يجب أن يحدث بعد ذلك"، استناداً إلى معرفة Gemini بالفيزياء والتاريخ والثقافة.¹ نموذج الإطلاق، Gemini Omni Flash، يولد فيديو مع صوت أصلي ويسمح لك بتحسين المقاطع عبر عدة جولات من المحادثة مع الحفاظ على اتساق الشخصيات واستمرارية المشهد.¹ وهو متاح الآن لمشتركي Google AI Plus (7.99 دولار شهرياً)، وAI Pro (19.99 دولار شهرياً)، وAI Ultra (100 و200 دولار شهرياً) عبر تطبيق Gemini وGoogle Flow، ومجاني على YouTube Shorts وتطبيق YouTube Create.¹² تم الوعد بـ API للمطورين والمؤسسات "في الأسابيع المقبلة" ولكنه غير متاح بعد، مع عدم وجود تاريخ محدد.¹ يحمل كل مخرج علامة مائية SynthID غير محسوسة مع عدم وجود خيار لإلغائها.¹ أعلن عنه Koray Kavukcuoglu، المدير التقني لشركة Google DeepMind.¹

ما ستتعلمه

ماذا يعني "نموذج العالم" في سياق Gemini Omni، وكيف يختلف عن مولد الفيديو من النص القياسي
ما يمكن لـ Gemini Omni Flash القيام به بالفعل اليوم: التحرير عبر المحادثة، مراجع المدخلات المتعددة، والأفاتار
أين يمكنك استخدامه الآن، وما هي تكلفته عبر مستويات اشتراك Google AI المختلفة
كيف يقارن Gemini Omni بـ Veo 3.1، نموذج الفيديو الواقعي من Google
حالة الـ API للمطورين، وعلامات SynthID المائية، والميزات التي تؤجلها Google

ما هو Gemini Omni؟

تصف Google نظام Gemini Omni بأنه نموذج يمكنه "إنشاء أي شيء من أي مدخلات — بدءاً من الفيديو".¹ هذا التوصيف مهم. تطلق عليه Google اسم نموذج العالم: وهو نظام لا يكتفي بالتعرف على الأنماط عبر الوسائط المختلفة فحسب، بل يحاكي الواقع الفيزيائي ويستنتج حوله. بكلمات Google، فإن Omni "لا يبني مشاهد تبدو حقيقية فحسب، بل يستنتج ما يجب أن يحدث بعد ذلك"، جامعاً بين "الفهم البديهي للفيزياء ومعرفة Gemini بالتاريخ والعلوم والسياق الثقافي".¹

يعد Omni الخطوة التالية بعد Nano Banana، نموذج إنشاء وتحرير الصور الذي أطلقته Google في العام السابق والذي أصبح مستخدماً على نطاق واسع لترميم الصور والتصميم من المسودات.¹ وبينما جلب Nano Banana ذكاء Gemini إلى الصور الثابتة، يوسع Omni هذا الذكاء ليشمل الحركة، بدءاً من مخرجات الفيديو، وتقول Google إنه سيتوسع ليشمل مخرجات الصور والصوت "بمرور الوقت".¹ (للمزيد من المعلومات، راجع تغطيتنا السابقة لـ Nano Banana.)

النموذج الأول والوحيد المتاح حتى الآن هو Gemini Omni Flash. تمت مناقشة مستوى "Pro" أكثر قدرة في عائلة Omni في تغطية الإطلاق، ولكن لم يتم تحديده رسمياً أو تحديد تاريخ له من قبل Google، لذا تعامل معه كأمر غير مؤكد.

التحرير عبر المحادثة هو الميزة الأبرز

القدرة التي تتصدر بها Google هي تحرير الفيديو من خلال اللغة الطبيعية عبر عدة جولات. كتبت Google: "كل تعليمات تبنى على ما قبلها. تظل شخصياتك متسقة، وتصمد الفيزياء، ويتذكر المشهد ما حدث من قبل".¹

في أمثلة Google الخاصة، يبدأ المستخدم بمقطع لعازف كمان، ثم يصدر مطالبات متتالية: "انقل عازف الكمان إلى بيئة الصورة"، "اجعل الكمان غير مرئي"، "غير زاوية الكاميرا لتكون من فوق كتف عازف الكمان".¹ يحافظ كل تعديل على خيط المشهد الأصلي بدلاً من إعادة التوليد من الصفر. تشمل التعديلات الأخرى المعروضة تغيير المواد ("اجعل التمثال مصنوعاً من الفقاعات")، وإعادة صياغة الحركات في لقطات صورتها بنفسك، وتطبيق الأنماط أو الحركة أو التأثيرات المستمدة من وسائط مرجعية.¹

هذا هو التمييز العملي عن أداة تحويل النص إلى فيديو ذات المحاولة الواحدة: يعامل Omni الفيديو الخاص بك كمستند حي تتحاور معه، وليس كعملية رندر واحدة تقبلها أو ترفضها.

أي مدخلات، مستندة إلى معرفة العالم

يقبل Omni الصور والنصوص والفيديو والصوت كمراجع ويمزجها في مخرج واحد متماسك.¹ يجمع أحد أمثلة الإطلاق بين صورة وفيديو مرجعي وملف صوتي: "فيديو بأسلوب فيلم خيال علمي ديناميكي بناءً على image_0.png. تضاء العناصر بشكل مشابه لـ video_0.mp4 متزامنة مع إيقاع الموسيقى من audio_0.wav".¹

من جانب الفيزياء، تقول Google إن Omni لديه فهم بديهي محسن لقوى مثل الجاذبية، والطاقة الحركية، وديناميكيات السوائل، والتي يستخدمها لتقديم حركة أكثر واقعية.¹ ومن جانب المعرفة، فإنه يعتمد على فهم Gemini الأوسع لإنتاج محتوى بأسلوب توضيحي — حيث تعرض Google "شرحاً بأسلوب الرسوم المتحركة الطينية لطي البروتين" تم إنشاؤه من موجه قصير.¹

هناك تنبيه هام بشأن المدخلات: بالنسبة للمراجع الصوتية، يتم دعم المراجع الصوتية البشرية فقط في البداية، مع توفر أنواع المدخلات الصوتية الأخرى لاحقاً.¹

الأفاتار، وما تؤجله Google

يتضمن Omni ميزة Avatars التي تنشئ نسخة رقمية منك بحيث يمكنك إنشاء فيديوهات تبدو وتصوت مثلك، باستخدام صوتك الخاص.¹ تضع Google هذا في إطار سياسات الذكاء الاصطناعي المسؤول الخاصة بها.

ما ترفضه Google صراحةً حتى الآن هو التحرير الأوسع للصوت والكلام في الفيديوهات الحالية. كتبت الشركة: "فيما يتعلق بتحرير الفيديوهات لتغيير الصوت والكلام، ما زلنا نعمل على اختبار ذلك وفهم كيفية تقديم هذه الإمكانية للمستخدمين بمسؤولية بشكل أفضل".¹ لذا فإن مسار الأفاتار (صوتك الخاص) متاح حالياً؛ أما تحرير الصوت/الكلام العشوائي فمؤجل لحين إجراء المزيد من الاختبارات.

كل فيديو يتم إنشاؤه باستخدام Omni يتضمن علامة مائية غير محسوسة من SynthID، ولا يوجد خيار لإلغاء الاشتراك. تقول Google إنه يمكنك التحقق من الفيديوهات التي تم إنشاؤها بواسطة Omni من خلال تطبيق Gemini، وGemini في Chrome، وبحث Google.¹

أين تستخدمه، وكم تكلفته

بدأ طرح Gemini Omni Flash في يوم الإطلاق لجميع مشتركي Google AI Plus و Pro و Ultra عالمياً من خلال تطبيق Gemini و Google Flow، وبدون تكلفة على YouTube Shorts وتطبيق YouTube Create.¹ أعادت Google تنظيم اشتراكات الذكاء الاصطناعي الخاصة بها في مؤتمر I/O 2026 إلى الفئات التالية:²³

الفئة	السعر (شهرياً)	ملاحظات لمستخدمي Omni
Google AI Plus	$7.99	وصول مدفوع للمبتدئين؛ مساحة تخزين 200 جيجابايت، ضعف حدود Gemini
Google AI Pro	$19.99	مساحة تخزين 5 تيرابايت، أربعة أضعاف الحدود، الوصول إلى طراز Pro
Google AI Ultra	$100	موجه للمطورين والمبدعين؛ 5 أضعاف حدود استخدام Pro
Google AI Ultra	$200	نفس الميزات، 20 ضعف حدود استخدام Pro (تم تخفيضه من $250)
YouTube Shorts / Create	مجاني	وصول بدون تكلفة إلى Omni بدءاً من أسبوع الإطلاق

⚠ الأسعار تتغير بشكل متكرر. القيم المذكورة أعلاه للتوضيح فقط وقد تكون قديمة. تحقق دائماً من الأسعار الحالية مباشرة من المزود قبل اتخاذ قرارات التكلفة: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.

يعد مسار YouTube المجاني هو الطريقة الأسهل لتجربته؛ بينما تفتح مسارات تطبيق Gemini و Flow المدفوعة سير عمل تحرير أكثر اكتمالاً.

Gemini Omni مقابل Veo 3.1

تمتلك Google الآن طرازين للفيديو، وهما يخدمان وظائف مختلفة. Veo 3.1 هو المولد الواقعي الموجه للسينما من Google DeepMind. وفقاً لـ Google DeepMind، ينتج Veo 3.1 مقاطع مدتها 4 أو 6 أو 8 ثوانٍ بدقة 720p أو 1080p أو 4K، مع صوت ستيريو أصلي بتردد 48 كيلو هرتز بمعدل 24 إطاراً في الثانية، وميزة Extend التي تربط اللقطات في تتابعات أطول.⁴ في المقابل، يتم وضع Gemini Omni حول الاستدلال متعدد المدخلات، والتحرير الحواري متعدد الأدوار، والارتباط بالمعرفة العالمية بدلاً من الدقة الواقعية القصوى.¹

البعد	Gemini Omni Flash	Veo 3.1
الفكرة الأساسية	نموذج عالمي: الاستدلال + الإنشاء من أي مدخلات¹	توليد فيديو واقعي⁴
المدخلات	نص، صورة، فيديو، مرجع صوتي¹	نص، صورة⁴
التحرير	حواري، متعدد الأدوار، استمرارية المشهد¹	توليد قائم على الأوامر + Extend⁴
الدقة	لم تنشرها Google رسمياً	720p / 1080p / 4K⁴
الصوت	صوت أصلي؛ مراجع صوتية مدخلة، والمزيد قادم¹	ستيريو أصلي 48 كيلو هرتز، 24 إطاراً في الثانية⁴
العلامة المائية	SynthID، لا يوجد خيار لإلغاء الاشتراك¹	SynthID⁴

ملاحظة حول مواصفات مقاطع Omni: تُظهر مواد إطلاق Google مقاطع قصيرة (أحد الأمثلة يطلب صراحةً فيديو مدته "10 ثوانٍ")، وأفادت التغطية الصحفية بوجود حد أقصى يبلغ حوالي 10 ثوانٍ مع الصوت الأصلي.⁵ لم تنشر Google ورقة مواصفات رسمية لـ Omni Flash تدرج الحد الأقصى للمدة أو دقة الإخراج، لذا يجب التعامل مع هذه الأرقام على أنها منقولة وليست مؤكدة رسمياً.

المطور API: ليس بعد

إذا كنت تبني فوق Omni، فإن الإجابة المختصرة هي انتظر. تقول Google فقط "في الأسابيع المقبلة، سنطرحه أيضاً للمطورين وعملاء المؤسسات عبر واجهات برمجة التطبيقات APIs".¹ حتى وقت كتابة هذا التقرير، لم يتوفر بعد للمطورين، ولم تحدد Google تاريخاً ملتزماً به. خطط له كعنصر مستقبلي، وليس خياراً حالياً.

بالنسبة للمطورين الذين يحتاجون إلى فيديو API اليوم، يظل Veo هو المسار المتاح، وللعمل السريع متعدد الوسائط للنصوص والرؤية، فإن إطلاق Google الآخر في I/O، Gemini 3.5 Flash، متاح بشكل عام الآن.

الخلاصة

يعيد Gemini Omni صياغة فيديو الذكاء الاصطناعي من مجرد توليد بضغطة واحدة إلى وسيط قابل للتحرير وحواري يعتمد على نموذج يستنتج الفيزياء ومعرفة العالم. Gemini Omni Flash متاح اليوم للمشتركين ومجاني على YouTube، ولكن API المطورين — وهو الجزء الذي يهتم به معظم المطورين — لا يزال على بعد أسابيع دون تاريخ محدد. إذا كنت تنشئ فيديو يدويًا، فالأمر يستحق التجربة الآن؛ أما إذا كنت تشحن منتجات تعتمد على نماذج الفيديو، فاستمر في استخدام Veo في الإنتاج وراقب Omni API. في كلتا الحالتين، تشير العلامة المائية SynthID الافتراضية التي لا يمكن إلغاؤها إلى الاتجاه الذي تعتقد Google أن مسؤولية وسائط الذكاء الاصطناعي تتجه إليه.

Koray Kavukcuoglu, "Introducing Gemini Omni," Google (The Keyword), May 19, 2026. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹ ↩²⁰ ↩²¹ ↩²² ↩²³ ↩²⁴ ↩²⁵ ↩²⁶ ↩²⁷ ↩²⁸ ↩²⁹ ↩³⁰ ↩³¹ ↩³² ↩³³ ↩³⁴ ↩³⁵
"Google AI subscription updates from Google I/O 2026," Google (The Keyword), 2026. https://blog.google/products-and-platforms/products/google-one/google-ai-subscriptions/ ↩ ↩² ↩³
"ما هي ميزات Gemini التي تحصل عليها مع Google AI Plus و Pro و Ultra،" 9to5Google، ٢٥ مايو ٢٠٢٦. https://9to5google.com/2026/05/25/google-ai-plus-pro-ultra-gemini-features/ ↩
"Veo 3.1،" Google DeepMind. https://deepmind.google/models/veo/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
"جوجل تطلق Gemini Omni Flash، نموذج توليد فيديو تفاعلي،" The Next Web، ٢٠٢٦. https://thenextweb.com/news/google-gemini-omni-flash-video-model-io-2026 ↩

الأسئلة الشائعة

Gemini Omni هو "نموذج العالم" متعدد الوسائط من Google الذي ينشئ ويحرر الفيديو من مدخلات النصوص والصور والصوت والفيديو، باستخدام التحرير الحواري. أول طراز هو Gemini Omni Flash، الذي تم إطلاقه في 19 مايو 2026. 1