Gemini Omni: نموذج جوجل للعالم للفيديو (2026)
٢ يونيو ٢٠٢٦
Gemini Omni هو "نموذج العالم" الجديد من Google الذي يقوم بإنشاء وتحرير الفيديو من أي مزيج من المدخلات النصية، والصورية، والصوتية، وفيديو، مع تعديلات تعتمد على المحادثة باللغة الطبيعية. كشفت Google عنه في مؤتمر I/O 2026 في 19 مايو 2026، وأطلقت النموذج الأول في العائلة، Gemini Omni Flash، في نفس اليوم لتطبيق Gemini، وGoogle Flow، وYouTube Shorts.1
ملخص
Gemini Omni هو محاولة Google DeepMind لدمج قدرات الاستنتاج في Gemini مع التوليد: فبدلاً من ترجمة موجه نصي إلى بكسلات معزولة، فإنه يجمع المراجع عبر الوسائط المتعددة و"يستنتج ما يجب أن يحدث بعد ذلك"، استناداً إلى معرفة Gemini بالفيزياء والتاريخ والثقافة.1 نموذج الإطلاق، Gemini Omni Flash، يولد فيديو مع صوت أصلي ويسمح لك بتحسين المقاطع عبر عدة جولات من المحادثة مع الحفاظ على اتساق الشخصيات واستمرارية المشهد.1 وهو متاح الآن لمشتركي Google AI Plus (7.99 دولار شهرياً)، وAI Pro (19.99 دولار شهرياً)، وAI Ultra (100 و200 دولار شهرياً) عبر تطبيق Gemini وGoogle Flow، ومجاني على YouTube Shorts وتطبيق YouTube Create.12 تم الوعد بـ API للمطورين والمؤسسات "في الأسابيع المقبلة" ولكنه غير متاح بعد، مع عدم وجود تاريخ محدد.1 يحمل كل مخرج علامة مائية SynthID غير محسوسة مع عدم وجود خيار لإلغائها.1 أعلن عنه Koray Kavukcuoglu، المدير التقني لشركة Google DeepMind.1
ما ستتعلمه
- ماذا يعني "نموذج العالم" في سياق Gemini Omni، وكيف يختلف عن مولد الفيديو من النص القياسي
- ما يمكن لـ Gemini Omni Flash القيام به بالفعل اليوم: التحرير عبر المحادثة، مراجع المدخلات المتعددة، والأفاتار
- أين يمكنك استخدامه الآن، وما هي تكلفته عبر مستويات اشتراك Google AI المختلفة
- كيف يقارن Gemini Omni بـ Veo 3.1، نموذج الفيديو الواقعي من Google
- حالة الـ API للمطورين، وعلامات SynthID المائية، والميزات التي تؤجلها Google
ما هو Gemini Omni؟
تصف Google نظام Gemini Omni بأنه نموذج يمكنه "إنشاء أي شيء من أي مدخلات — بدءاً من الفيديو".1 هذا التوصيف مهم. تطلق عليه Google اسم نموذج العالم: وهو نظام لا يكتفي بالتعرف على الأنماط عبر الوسائط المختلفة فحسب، بل يحاكي الواقع الفيزيائي ويستنتج حوله. بكلمات Google، فإن Omni "لا يبني مشاهد تبدو حقيقية فحسب، بل يستنتج ما يجب أن يحدث بعد ذلك"، جامعاً بين "الفهم البديهي للفيزياء ومعرفة Gemini بالتاريخ والعلوم والسياق الثقافي".1
يعد Omni الخطوة التالية بعد Nano Banana، نموذج إنشاء وتحرير الصور الذي أطلقته Google في العام السابق والذي أصبح مستخدماً على نطاق واسع لترميم الصور والتصميم من المسودات.1 وبينما جلب Nano Banana ذكاء Gemini إلى الصور الثابتة، يوسع Omni هذا الذكاء ليشمل الحركة، بدءاً من مخرجات الفيديو، وتقول Google إنه سيتوسع ليشمل مخرجات الصور والصوت "بمرور الوقت".1 (للمزيد من المعلومات، راجع تغطيتنا السابقة لـ Nano Banana.)
النموذج الأول والوحيد المتاح حتى الآن هو Gemini Omni Flash. تمت مناقشة مستوى "Pro" أكثر قدرة في عائلة Omni في تغطية الإطلاق، ولكن لم يتم تحديده رسمياً أو تحديد تاريخ له من قبل Google، لذا تعامل معه كأمر غير مؤكد.
التحرير عبر المحادثة هو الميزة الأبرز
القدرة التي تتصدر بها Google هي تحرير الفيديو من خلال اللغة الطبيعية عبر عدة جولات. كتبت Google: "كل تعليمات تبنى على ما قبلها. تظل شخصياتك متسقة، وتصمد الفيزياء، ويتذكر المشهد ما حدث من قبل".1
في أمثلة Google الخاصة، يبدأ المستخدم بمقطع لعازف كمان، ثم يصدر مطالبات متتالية: "انقل عازف الكمان إلى بيئة الصورة"، "اجعل الكمان غير مرئي"، "غير زاوية الكاميرا لتكون من فوق كتف عازف الكمان".1 يحافظ كل تعديل على خيط المشهد الأصلي بدلاً من إعادة التوليد من الصفر. تشمل التعديلات الأخرى المعروضة تغيير المواد ("اجعل التمثال مصنوعاً من الفقاعات")، وإعادة صياغة الحركات في لقطات صورتها بنفسك، وتطبيق الأنماط أو الحركة أو التأثيرات المستمدة من وسائط مرجعية.1
هذا هو التمييز العملي عن أداة تحويل النص إلى فيديو ذات المحاولة الواحدة: يعامل Omni الفيديو الخاص بك كمستند حي تتحاور معه، وليس كعملية رندر واحدة تقبلها أو ترفضها.
أي مدخلات، مستندة إلى معرفة العالم
يقبل Omni الصور والنصوص والفيديو والصوت كمراجع ويمزجها في مخرج واحد متماسك.1 يجمع أحد أمثلة الإطلاق بين صورة وفيديو مرجعي وملف صوتي: "فيديو بأسلوب فيلم خيال علمي ديناميكي بناءً على image_0.png. تضاء العناصر بشكل مشابه لـ video_0.mp4 متزامنة مع إيقاع الموسيقى من audio_0.wav".1
من جانب الفيزياء، تقول Google إن Omni لديه فهم بديهي محسن لقوى مثل الجاذبية، والطاقة الحركية، وديناميكيات السوائل، والتي يستخدمها لتقديم حركة أكثر واقعية.1 ومن جانب المعرفة، فإنه يعتمد على فهم Gemini الأوسع لإنتاج محتوى بأسلوب توضيحي — حيث تعرض Google "شرحاً بأسلوب الرسوم المتحركة الطينية لطي البروتين" تم إنشاؤه من موجه قصير.1
هناك تنبيه هام بشأن المدخلات: بالنسبة للمراجع الصوتية، يتم دعم المراجع الصوتية البشرية فقط في البداية، مع توفر أنواع المدخلات الصوتية الأخرى لاحقاً.1
الأفاتار، وما تؤجله Google
يتضمن Omni ميزة Avatars التي تنشئ نسخة رقمية منك بحيث يمكنك إنشاء فيديوهات تبدو وتصوت مثلك، باستخدام صوتك الخاص.1 تضع Google هذا في إطار سياسات الذكاء الاصطناعي المسؤول الخاصة بها.
ما ترفضه Google صراحةً حتى الآن هو التحرير الأوسع للصوت والكلام في الفيديوهات الحالية. كتبت الشركة: "فيما يتعلق بتحرير الفيديوهات لتغيير الصوت والكلام، ما زلنا نعمل على اختبار ذلك وفهم كيفية تقديم هذه الإمكانية للمستخدمين بمسؤولية بشكل أفضل".1 لذا فإن مسار الأفاتار (صوتك الخاص) متاح حالياً؛ أما تحرير الصوت/الكلام العشوائي فمؤجل لحين إجراء المزيد من الاختبارات.
كل فيديو يتم إنشاؤه باستخدام Omni يتضمن علامة مائية غير محسوسة من SynthID، ولا يوجد خيار لإلغاء الاشتراك. تقول Google إنه يمكنك التحقق من الفيديوهات التي تم إنشاؤها بواسطة Omni من خلال تطبيق Gemini، وGemini في Chrome، وبحث Google.1
أين تستخدمه، وكم تكلفته
بدأ طرح Gemini Omni Flash في يوم الإطلاق لجميع مشتركي Google AI Plus و Pro و Ultra عالمياً من خلال تطبيق Gemini و Google Flow، وبدون تكلفة على YouTube Shorts وتطبيق YouTube Create.1 أعادت Google تنظيم اشتراكات الذكاء الاصطناعي الخاصة بها في مؤتمر I/O 2026 إلى الفئات التالية:23
| الفئة | السعر (شهرياً) | ملاحظات لمستخدمي Omni |
|---|---|---|
| Google AI Plus | $7.99 | وصول مدفوع للمبتدئين؛ مساحة تخزين 200 جيجابايت، ضعف حدود Gemini |
| Google AI Pro | $19.99 | مساحة تخزين 5 تيرابايت، أربعة أضعاف الحدود، الوصول إلى طراز Pro |
| Google AI Ultra | $100 | موجه للمطورين والمبدعين؛ 5 أضعاف حدود استخدام Pro |
| Google AI Ultra | $200 | نفس الميزات، 20 ضعف حدود استخدام Pro (تم تخفيضه من $250) |
| YouTube Shorts / Create | مجاني | وصول بدون تكلفة إلى Omni بدءاً من أسبوع الإطلاق |
⚠ الأسعار تتغير بشكل متكرر. القيم المذكورة أعلاه للتوضيح فقط وقد تكون قديمة. تحقق دائماً من الأسعار الحالية مباشرة من المزود قبل اتخاذ قرارات التكلفة: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.
يعد مسار YouTube المجاني هو الطريقة الأسهل لتجربته؛ بينما تفتح مسارات تطبيق Gemini و Flow المدفوعة سير عمل تحرير أكثر اكتمالاً.
Gemini Omni مقابل Veo 3.1
تمتلك Google الآن طرازين للفيديو، وهما يخدمان وظائف مختلفة. Veo 3.1 هو المولد الواقعي الموجه للسينما من Google DeepMind. وفقاً لـ Google DeepMind، ينتج Veo 3.1 مقاطع مدتها 4 أو 6 أو 8 ثوانٍ بدقة 720p أو 1080p أو 4K، مع صوت ستيريو أصلي بتردد 48 كيلو هرتز بمعدل 24 إطاراً في الثانية، وميزة Extend التي تربط اللقطات في تتابعات أطول.4 في المقابل، يتم وضع Gemini Omni حول الاستدلال متعدد المدخلات، والتحرير الحواري متعدد الأدوار، والارتباط بالمعرفة العالمية بدلاً من الدقة الواقعية القصوى.1
| البعد | Gemini Omni Flash | Veo 3.1 |
|---|---|---|
| الفكرة الأساسية | نموذج عالمي: الاستدلال + الإنشاء من أي مدخلات1 | توليد فيديو واقعي4 |
| المدخلات | نص، صورة، فيديو، مرجع صوتي1 | نص، صورة4 |
| التحرير | حواري، متعدد الأدوار، استمرارية المشهد1 | توليد قائم على الأوامر + Extend4 |
| الدقة | لم تنشرها Google رسمياً | 720p / 1080p / 4K4 |
| الصوت | صوت أصلي؛ مراجع صوتية مدخلة، والمزيد قادم1 | ستيريو أصلي 48 كيلو هرتز، 24 إطاراً في الثانية4 |
| العلامة المائية | SynthID، لا يوجد خيار لإلغاء الاشتراك1 | SynthID4 |
ملاحظة حول مواصفات مقاطع Omni: تُظهر مواد إطلاق Google مقاطع قصيرة (أحد الأمثلة يطلب صراحةً فيديو مدته "10 ثوانٍ")، وأفادت التغطية الصحفية بوجود حد أقصى يبلغ حوالي 10 ثوانٍ مع الصوت الأصلي.5 لم تنشر Google ورقة مواصفات رسمية لـ Omni Flash تدرج الحد الأقصى للمدة أو دقة الإخراج، لذا يجب التعامل مع هذه الأرقام على أنها منقولة وليست مؤكدة رسمياً.
المطور API: ليس بعد
إذا كنت تبني فوق Omni، فإن الإجابة المختصرة هي انتظر. تقول Google فقط "في الأسابيع المقبلة، سنطرحه أيضاً للمطورين وعملاء المؤسسات عبر واجهات برمجة التطبيقات APIs".1 حتى وقت كتابة هذا التقرير، لم يتوفر بعد للمطورين، ولم تحدد Google تاريخاً ملتزماً به. خطط له كعنصر مستقبلي، وليس خياراً حالياً.
بالنسبة للمطورين الذين يحتاجون إلى فيديو API اليوم، يظل Veo هو المسار المتاح، وللعمل السريع متعدد الوسائط للنصوص والرؤية، فإن إطلاق Google الآخر في I/O، Gemini 3.5 Flash، متاح بشكل عام الآن.
الخلاصة
يعيد Gemini Omni صياغة فيديو الذكاء الاصطناعي من مجرد توليد بضغطة واحدة إلى وسيط قابل للتحرير وحواري يعتمد على نموذج يستنتج الفيزياء ومعرفة العالم. Gemini Omni Flash متاح اليوم للمشتركين ومجاني على YouTube، ولكن API المطورين — وهو الجزء الذي يهتم به معظم المطورين — لا يزال على بعد أسابيع دون تاريخ محدد. إذا كنت تنشئ فيديو يدويًا، فالأمر يستحق التجربة الآن؛ أما إذا كنت تشحن منتجات تعتمد على نماذج الفيديو، فاستمر في استخدام Veo في الإنتاج وراقب Omni API. في كلتا الحالتين، تشير العلامة المائية SynthID الافتراضية التي لا يمكن إلغاؤها إلى الاتجاه الذي تعتقد Google أن مسؤولية وسائط الذكاء الاصطناعي تتجه إليه.
Footnotes
-
Koray Kavukcuoglu, "Introducing Gemini Omni," Google (The Keyword), May 19, 2026. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22 ↩23 ↩24 ↩25 ↩26 ↩27 ↩28 ↩29 ↩30 ↩31 ↩32 ↩33 ↩34 ↩35
-
"Google AI subscription updates from Google I/O 2026," Google (The Keyword), 2026. https://blog.google/products-and-platforms/products/google-one/google-ai-subscriptions/ ↩ ↩2 ↩3
-
"ما هي ميزات Gemini التي تحصل عليها مع Google AI Plus و Pro و Ultra،" 9to5Google، ٢٥ مايو ٢٠٢٦. https://9to5google.com/2026/05/25/google-ai-plus-pro-ultra-gemini-features/ ↩
-
"Veo 3.1،" Google DeepMind. https://deepmind.google/models/veo/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
"جوجل تطلق Gemini Omni Flash، نموذج توليد فيديو تفاعلي،" The Next Web، ٢٠٢٦. https://thenextweb.com/news/google-gemini-omni-flash-video-model-io-2026 ↩