كيف يقارن بـ GPT-5.4؟

يتصدر GPT-5.4 في التفكير العام ومهام استخدام الكمبيوتر (75% في OSWorld). بينما يتصدر Qwen3.5-Omni في فهم الصوت وتوليد الكلام، وتتصدر عائلة Qwen3.5 الأوسع في التعرف على المستندات. لا يتضمن GPT-5.4 نفسه مخرجات كلام أصلية في API القياسي الخاص به، على الرغم من أن OpenAI تقدم قدرات تحويل الكلام إلى كلام في الوقت الفعلي من خلال Realtime API المنفصل. 14

هل يمكن تشغيله محليًا؟

يمكن تشغيل Qwen3-Omni-30B-A3B مفتوح المصدر محليًا، على الرغم من ضرورة تحميل جميع الـ 35 مليار معامل في الذاكرة بغض النظر عن الـ 3 مليارات معامل النشطة لكل توكن. عند استخدام تكميم Q4 (حوالي 18 جيجابايت للأوزان)، تناسب مخرجات النصوص وحدة معالجة رسومات (GPU) بسعة 24 جيجابايت مثل RTX 4090، ولكن الاستخدام الكامل متعدد الوسائط (مع Talker لمخرجات الكلام) يتطلب ذاكرة فيديو (VRAM) أكبر بكثير. أما Qwen3.5-Omni المملوك فيتطلب الوصول عبر API من خلال Alibaba Cloud.

ما هي اللغات التي يدعمها للكلام؟

يغطي التعرف على الكلام 113 لغة ولهجة. بينما يغطي توليد الكلام 36 لغة. 3

كيف تعمل ميزة استنساخ الصوت؟

يقدم المستخدمون عينة صوتية (من 3 إلى 60 ثانية، مع التوصية بـ 10-20 ثانية للحصول على أفضل النتائج) عبر API، ويتبنى النموذج ذلك الصوت في استجاباته الكلامية. تتوفر ميزة استنساخ الصوت في إصداري Plus و Flash فقط. تتم معالجة الصوت المرجعي كمدخل لتكييف الصوت من أجل توليد الكلام في Talker.

Qwen3.5-Omni: نموذج Alibaba للذكاء الاصطناعي شامل الوسائط (2026)

١ أبريل ٢٠٢٦

#Qwen3.5-Omni #Alibaba Cloud #multimodal AI #omnimodal model #speech recognition #voice cloning #AI models 2026 #Mixture of Experts

Qwen3.5-Omni: Alibaba Omnimodal AI Model (2026)

ملخص

أطلقت Alibaba نموذج Qwen3.5-Omni في 30 مارس 2026 — وهو نموذج ذكاء اصطناعي شامل (omnimodal) أصلي يعالج النصوص والصور والصوت والفيديو ضمن نموذج واحد موحد، ويولد مخرجات كلامية متدفقة في الوقت الفعلي.¹ حقق إصدار Plus نتائج رائدة (state-of-the-art) في 215 مهمة فرعية صوتية — تشمل التعرف على الكلام، وترجمة الكلام، وفهم الصوت — متفوقاً على نموذج Gemini 3.1 Pro من Google في مهام فهم الصوت العام والاستنتاج.² يدعم النموذج التعرف على الكلام بـ 113 لغة ولهجة، وتوليد الكلام بـ 36 لغة، مع نافذة سياق تصل إلى 256 ألف توكن تغطي أكثر من 10 ساعات من الصوت، واستنساخ الصوت من عينات صوتية قصيرة تصل إلى 3 ثوانٍ.³ يتوفر سلفه مفتوح المصدر، Qwen3-Omni-30B-A3B، بموجب ترخيص Apache 2.0 على Hugging Face بإجمالي 35 مليار معلمة تقريباً وحوالي 3 مليارات معلمة نشطة لكل توكن.⁴

ما ستتعلمه

ما الذي يجعل Qwen3.5-Omni مختلفاً عن النماذج متعددة الوسائط السابقة ولماذا تعتبر "الشمولية" (omnimodal) مهمة
كيف تعمل بنية Thinker-Talker مع Hybrid-Attention MoE من الداخل
الابتكارات التقنية الرئيسية: ARIA، والمقاطعة الدلالية، والبنية الموروثة (TMRoPE، Thinker-Talker)
نتائج الاختبارات المعيارية مقابل Gemini 3.1 Pro و GPT-5.2 و ElevenLabs
التسعير، والوصول عبر API، والفرق بين المصدر المفتوح والملكية الخاصة
حالات الاستخدام العملي وما يعنيه هذا للمطورين الذين يبنون أنظمة ذكاء اصطناعي تدعم الصوت

لماذا يعد Qwen3.5-Omni مهماً

لا تزال معظم نماذج اللغات الكبيرة تتعامل مع أنواع المدخلات المختلفة كمشكلات منفصلة. يمر النص عبر مسار واحد، والصور عبر مسار آخر، والصوت عبر مسار ثالث — مع ربط نماذج منفصلة معاً في طبقة التطبيق. يؤدي هذا إلى حدوث تأخير (latency)، وزيادة التعقيد، وفقدان السياق العابر للوسائط.

يتخذ Qwen3.5-Omni نهجاً مختلفاً. فهو يعالج النصوص والصور والصوت والفيديو بشكل أصلي داخل بنية واحدة ويخرج كلاً من النص والكلام المتدفق في وقت واحد. هذا ما يطلقه فريق Qwen في Alibaba عليه اسم "omni-modal" — ليس فقط فهم وسائط متعددة، بل الاستنتاج عبرها في الوقت الفعلي والاستجابة بالوسيط المناسب.

الآثار العملية كبيرة. فالمطور الذي يبني مساعداً صوتياً لم يعد بحاجة إلى ربط نموذج تحويل الكلام إلى نص، ونموذج لغوي، ونموذج تحويل النص إلى كلام معاً. يتولى Qwen3.5-Omni الحلقة بأكملها: فهو يسمع المستخدم، ويستنتج السياق (بما في ذلك أي صور أو فيديو على الشاشة)، ويتحدث رداً على ذلك — كل ذلك ضمن استدلال نموذج واحد.

يمثل هذا الإصدار أيضاً نقطة تحول تنافسية. مع 215 مهمة فرعية SOTA وأداء يضاهي أو يتجاوز Gemini 3.1 Pro في المهام الصوتية، وضعت Alibaba نفسها جنباً إلى جنب مع Google و OpenAI في سباق النماذج الشاملة — وفي بعض المجالات، تفوقت عليهم.²

البنية: تصميم Thinker-Talker

يعتمد Qwen3.5-Omni على بنية Thinker-Talker التي تم تقديمها لأول مرة في Qwen2.5-Omni (مارس 2025)، والتي تفصل بين الاستنتاج وإنتاج الكلام.⁵ كل من تقسيم Thinker-Talker و TMRoPE (الموضح أدناه) هما تصميمان موروثان — الترقية الرئيسية في Qwen3.5-Omni هي استبدال المحول الكثيف (dense transformer) بتصميم Hybrid-Attention MoE في كلا المكونين.

المفكر (The Thinker)

المفكر هو العمود الفقري للاستنتاج. فهو يستوعب جميع وسائط الإدخال — النصوص والصور والصوت والفيديو — من خلال مشفرات متخصصة: مشفر رؤية للصور وإطارات الفيديو، ومشفر Audio Transformer (AuT) أصلي تم تدريبه مسبقاً على أكثر من 100 مليون ساعة من البيانات السمعية والبصرية للصوت — بزيادة قدرها 5 أضعاف عن الـ 20 مليون ساعة تقريباً المستخدمة في سلفه Qwen3-Omni.⁶ يتم تغذية هذه التمثيلات المشفرة في محول Hybrid-Attention Mixture-of-Experts (MoE) الذي يقوم بالاستنتاج عبر الوسائط.

يقوم تصميم MoE بتنشيط مجموعة فرعية فقط من معلمات النموذج لأي توكن معين. وهذا يعني أن النموذج يمكن أن يحتوي على عدد إجمالي كبير من المعلمات للسعة مع الحفاظ على تكاليف حوسبة لكل توكن قابلة للإدارة — وهي ميزة كفاءة حاسمة للتطبيقات في الوقت الفعلي.

يستخدم المفكر TMRoPE (Time-aligned Multimodal Rotary Position Embeddings)، الذي تم تقديمه في الأصل في Qwen2.5-Omni، لمحاذاة الوسائط المختلفة على طول محور زمني مشترك.⁷ وهذا ضروري لمهام مثل مشاهدة فيديو مع تعليق صوتي — يحتاج النموذج إلى معرفة أن الجملة المنطوقة تتوافق مع إطار مرئي محدد، وليس فقط أن كليهما موجودان في مكان ما في المدخلات.

المتحدث (The Talker)

يقوم المتحدث بتحويل التمثيلات الداخلية للمفكر إلى توكنات كلام متدفقة. كما يستخدم بنية Hybrid-Attention MoE، ويولد الكلام بشكل تدريجي — مما يعني أنه يمكنه البدء في التحدث قبل اكتمال حساب الاستجابة الكاملة.

يتم تشغيل قدرة التدفق هذه بواسطة ARIA (Adaptive Rate Interleave Alignment)، وهي تقنية طورها فريق Qwen لمحاذاة توكنات النص والكلام ديناميكياً أثناء التوليد.⁸ بدون ARIA، عادةً ما تخطئ نماذج الكلام المتدفق في قراءة الأرقام، أو تتخطى الكلمات، أو تنتج توقفات غريبة. يحل ARIA ذلك من خلال مطابقة المعدل الذي يتم به إنتاج توكنات النص وتوكنات الكلام بشكل تكيفي، مما يؤدي إلى مخرجات أكثر سلاسة ودقة.

الابتكارات التقنية الرئيسية

المقاطعة الدلالية

واحدة من أصعب المشكلات في الذكاء الاصطناعي الصوتي في الوقت الفعلي هي معرفة متى يريد المستخدم المقاطعة حقاً مقابل متى يقدم مجرد ملاحظات محادثة. قول "أها" في منتصف المحادثة ليس مثل قول "انتظر، توقف — لدي سؤال".

يتعامل Qwen3.5-Omni مع هذا من خلال اكتشاف المقاطعة الدلالية.⁹ يميز النموذج بين الردود الجانبية (ملاحظات المستمع غير ذات المعنى مثل "مم-هم" أو "صحيح") وإشارات تبادل الأدوار الحقيقية حيث ينوي المستخدم التحدث. هذا يمنع التجربة المحبطة الشائعة في المساعدين الصوتيين حيث تقطع كل ضوضاء خلفية أو كلمة حشو استجابة الذكاء الاصطناعي.

استنساخ الصوت

يمكن للمستخدمين تقديم عينة صوتية (3-60 ثانية، مع التوصية بـ 10-20 ثانية للحصول على أفضل النتائج) عبر API الخاص بـ Plus أو Flash، وسيعتمد النموذج هذا الصوت في استجاباته.³ تفتح هذه القدرة الأبواب للمساعدين الصوتييين الشخصيين، وتطبيقات إمكانية الوصول، وإنشاء المحتوى — على الرغم من أنها تثير أيضاً نفس الاعتبارات الأخلاقية حول الموافقة والتزييف العميق التي لا يزال مجال الذكاء الاصطناعي الصوتي الأوسع يصارعها. للحصول على سياق حول تلك التحديات، تستكشف تغطيتنا السابقة لـ أخلاقيات استنساخ الصوت بالذكاء الاصطناعي مشهد التنظيم والموافقة بالتفصيل.

الترميز السمعي البصري للمشاعر (Audio-Visual Vibe Coding)

في عرض توضيحي جذب انتباهاً كبيراً، أظهر فريق Qwen نموذج Qwen3.5-Omni وهو يشاهد تسجيلاً لشاشة لمهمة برمجية ويكتب كوداً فعالاً بناءً على ما رآه وسمعه — باستخدام مدخلات الصوت والفيديو بدلاً من المطالبات النصية.¹⁰ تشير قدرة "vibe coding" هذه إلى تطبيقات عملية للبرمجة الثنائية (pair programming)، ومراجعة الكود من الجلسات المسجلة، وسير عمل التطوير الذي يركز على إمكانية الوصول أولاً.

نتائج الاختبارات القياسية

فهم الصوت

تفوق إصدار Plus على Gemini 3.1 Pro في العديد من الاختبارات القياسية الصوتية الرئيسية.²

الاختبار القياسي	Qwen3.5-Omni Plus	Gemini 3.1 Pro	ماذا يقيس
MMAU	82.2	81.1	فهم الصوت والاستنتاج
MMSU	82.8	81.3	فهم اللغة المنطوقة والاستنتاج
Seed-zh (استقرار الصوت)	1.07	2.42*	الأقل أفضل — اتساق الصوت
VoiceBench	93.1	88.9	جودة المساعد الصوتي (المعرفة، التعليمات، الأمان)

*رقم Seed-zh يخص Gemini 2.5 Pro، حيث لم يتم الإبلاغ عن نتيجة Gemini 3.1 Pro في هذا الاختبار القياسي المحدد.¹¹

التعرف على المستندات والمرئيات

في اختبار OmniDocBench v1.5، الذي يقيس فهم المستندات عبر الوسائط المتعددة، سجلت عائلة نماذج Qwen3.5 الأوسع (وليس إصدار Omni تحديداً) 90.8 — مقارنة بـ 85.7 لـ GPT-5.2، و87.7 لـ Claude Opus 4.5، و88.5 لـ Gemini 3.1 Pro.¹²

الاستيعاب السمعي البصري

في المهام السمعية البصرية المشتركة، تبدو الصورة أكثر دقة. يتصدر Qwen3.5-Omni في DailyOmni (84.6 مقابل 82.7)، لكن Gemini 3.1 Pro يحتفظ بمزايا واضحة في WorldSense (65.5 مقابل 62.8)، وVideoMME مع الصوت (89.0 مقابل 83.7)، واستنتاج وكيل OmniGAIA (68.9 مقابل 57.2).¹¹ الصورة العامة هي أن هذين النموذجين متنافسان حقاً في المجال الشامل (omnimodal)، حيث يتصدر كل منهما في فئات مهام فرعية مختلفة.

جودة توليد الكلام

مقابل نماذج تركيب الكلام المتخصصة، قدم Qwen3.5-Omni Plus أداءً تنافسياً. في اختبارات استقرار الصوت متعددة اللغات عبر 20 لغة، تفوق على ElevenLabs وGPT-Audio وMiniMax.² بالنسبة للمطورين الذين يفكرون فيه كبديل لخطوط معالجة TTS المخصصة، تشير هذه النتائج إلى أنه قابل للاستخدام في إنتاج توليد الكلام — على الرغم من أن النماذج المتخصصة مثل Voxtral TTS قد لا تزال تقدم مزايا لأعباء عمل تحويل النص إلى كلام الصرفة.

إصدارات النموذج والأسعار

يتوفر Qwen3.5-Omni في ثلاث فئات.¹³

الإصدار	حالة الاستخدام	تسعير API
Plus	أعلى جودة — الأبحاث، الاستنتاج المعقد	مجاني حالياً (نسخة تجريبية)
Flash	توازن بين السرعة والجودة	مجاني حالياً (نسخة تجريبية)
Light	حساس لزمن الاستجابة، على الأجهزة	لم يدرج بعد في صفحة الأسعار

ملاحظة: اعتباراً من مارس 2026، يتوفر Qwen3.5-Omni Plus وFlash في نسخة تجريبية مع استدعاء مجاني مؤقت للنموذج عبر Alibaba Cloud Model Studio.¹³ لم يتم نشر التسعير القياسي بعد. كمرجع، يبلغ سعر نموذج Qwen3.5-Plus المخصص للنصوص فقط حوالي 0.26 دولار للمدخلات / 1.56 دولار للمخرجات لكل مليون توكن على OpenRouter — ومن المتوقع أن يختلف تسعير Omni نظراً لأن المدخلات متعددة الوسائط (صوت، فيديو) يتم فوترتها لكل توكن وسائط. وبالمقارنة، يبلغ سعر GPT-5.4 حوالي 2.50 دولار لكل مليون توكن مدخلات.¹⁴

المصدر المفتوح مقابل الملكية الخاصة

تمييز مهم: جميع إصدارات Qwen3.5-Omni الثلاثة (Plus وFlash وLight) هي ملكية خاصة ومتاحة فقط من خلال API الخاص بـ Alibaba Cloud Model Studio — ولم يتم إصدار أي أوزان للنماذج علناً.¹⁵ ويمثل هذا خروجاً عن استراتيجية المصدر المفتوح لشركة Alibaba مع نماذج Qwen السابقة.

ومع ذلك، فإن نموذج Qwen3-Omni-30B-A3B مفتوح المصدر — وهو الإصدار السابق — متاح بموجب ترخيص Apache 2.0 على Hugging Face وGitHub وModelScope.⁴ يحتوي هذا الإصدار على ما يقرب من 35 مليار معلمة إجمالية مع حوالي 3 مليارات معلمة نشطة لكل توكن، ويدعم مجموعة أصغر من اللغات، ويستخدم نافذة سياق أصلية بحجم 32K (قابلة للتوسيع إلى 128K عبر قياس YaRN) بدلاً من 256K في Qwen3.5-Omni (المشتركة بين جميع الإصدارات الثلاثة). لا يزال يمثل خياراً قوياً للمصدر المفتوح الشامل (omnimodal)، وقد ظهرت بالفعل نسخ مكممة (quantizations) من المجتمع مع أدوات ضبط دقيق قيد التطوير.

بالنسبة للمطورين الذين يحتاجون إلى كامل إمكانيات الـ 113 لغة وسياق الـ 256K، فإن API هو الطريق للمضي قدماً. بالنسبة لأولئك الذين يرغبون في الاستضافة الذاتية، أو الضبط الدقيق، أو البناء على أوزان مفتوحة، فإن Qwen3-Omni-30B-A3B يوفر أساساً متيناً.

ماذا يعني هذا للمطورين

نهاية خطوط المعالجة متعددة النماذج

النهج التقليدي لبناء ذكاء اصطناعي مدعوم بالصوت — ربط نماذج ASR وLLM وTTS — يؤدي إلى حدوث تأخير (latency) عند كل نقطة تسليم ويفقد السياق بين المكونات. يقضي Qwen3.5-Omni على هذه الفواصل. يمكن لاستدعاء API واحد قبول مدخلات صوتية، والاستنتاج بشأنها جنباً إلى جنب مع السياق المرئي، وإرجاع مخرجات كلامية.

بالنسبة للفرق التي تبني منتجات ذكاء اصطناعي محادثة، أو وكلاء دعم عملاء، أو أدوات إمكانية الوصول، فإن هذا يبسط البنية التقنية بشكل كبير. المقايضة هي الارتباط بالمورد (vendor lock-in) مع API الخاص بـ Alibaba للحصول على النسخة كاملة الميزات.

التغطية متعددة اللغات

دعم 113 لغة للتعرف على الكلام و36 لغة للتوليد يجعل Qwen3.5-Omni واحداً من أكثر النماذج تنوعاً لغوياً المتاحة. بالنسبة للتطبيقات التي تستهدف الأسواق العالمية — لا سيما في جنوب شرق آسيا والشرق الأوسط وأفريقيا حيث كانت العديد من اللغات تاريخياً غير مخدومة بشكل كافٍ من قبل الذكاء الاصطناعي التجاري — فإن هذا الاتساع يعد ميزة فارقة ذات مغزى.

التكامل مع سير العمل الحالي

يمكن للمطورين الذين يبنون باستخدام أطر عمل مثل وكلاء LangChain أو خطوط معالجة RAG للذكاء الاصطناعي المحلي دمج Qwen3.5-Omni كطبقة استنتاج متعددة الوسائط مع الحفاظ على التنسيق الحالي لديهم. يمكن أيضاً تشغيل Qwen3-Omni-30B-A3B مفتوح المصدر محلياً عبر vLLM أو Transformers أو خوادم استنتاج مماثلة لعمليات النشر الحساسة للخصوصية، على الرغم من أن الدعم الشامل الكامل (مدخلات/مخرجات الصوت) يتطلب أطر عمل تتعامل مع خطوط المعالجة متعددة الوسائط.

الصورة الأكبر

يأتي Qwen3.5-Omni في لحظة تتقارب فيها صناعة الذكاء الاصطناعي بسرعة نحو البنى متعددة الوسائط الشاملة (Omnimodal). قدم GPT-5.4 من OpenAI الاستخدام الأصلي للكمبيوتر. وحقق Gemini 3.1 Pro من Google أرقامًا قياسية جديدة في اختبارات التفكير. والآن قدمت Alibaba ما قد يكون الحزمة الأكثر اكتمالاً للمهام متعددة الوسائط حتى الآن — على الأقل للمهام السمعية والبصرية.

تستحق ديناميكيات المنافسة المراقبة. تقدم Alibaba حاليًا وصولاً مجانيًا للمعاينة، وتعد تغطيتها متعددة اللغات — 113 لغة ولهجة للتعرف على الكلام — من بين الأوسع المتاحة في نموذج متعدد الوسائط شامل، ويوفر Qwen3-Omni مفتوح المصدر أساسًا للابتكار المجتمعي مع مخرجات كلام أصلية لا تقدمها OpenAI ولا Google حاليًا في عائلات نماذجهم مفتوحة الأوزان.

بالنسبة للمطورين، فإن الاستنتاج العملي واضح: عصر تجميع نماذج منفصلة لكل وسيط (Modality) يقترب من نهايته. لم يعد السؤال هو ما إذا كنت ستعتمد الذكاء الاصطناعي متعدد الوسائط الشامل، بل أي مزود تناسب مقايضاته حالة الاستخدام الخاصة بك بشكل أفضل.

Alibaba Qwen Team, "Qwen3.5-Omni Release," March 30, 2026. MarkTechPost ↩
Qwen3.5-Omni benchmark results across 215 audio subtasks (speech recognition, translation, and understanding). StableLearn ↩ ↩² ↩³ ↩⁴
Speech recognition covers 113 languages/dialects, generation covers 36. Decrypt ↩ ↩² ↩³
Qwen3-Omni-30B-A3B open-source release under Apache 2.0. GitHub ↩ ↩² ↩³
Thinker-Talker architecture (from Qwen2.5-Omni) upgraded with Hybrid-Attention MoE. MarkTechPost ↩
Audio Transformer (AuT) encoder pre-trained on 100M+ hours. Analytics Vidhya ↩
TMRoPE for time-aligned multimodal positional encoding. MarkTechPost ↩
ARIA (Adaptive Rate Interleave Alignment) for streaming speech. Apidog ↩
Semantic interruption and turn-taking detection. Decrypt ↩
Audio-visual vibe coding demonstration. The Decoder ↩
Qwen3.5-Omni vs Gemini 3.1 Pro audio-visual benchmark comparison. BuildFastWithAI ↩ ↩²
OmniDocBench v1.5 scores. BuildFastWithAI ↩
أسعار Qwen3.5-Omni — حالياً في مرحلة العرض المسبق مع استدعاء مجاني. Alibaba Cloud Model Studio ↩ ↩²
مواصفات وأسعار GPT-5.4 للمقارنة. OpenAI ↩ ↩²
حالة الملكية الخاصة لـ Qwen3.5-Omni. The Information ↩

الأسئلة الشائعة

جميع إصدارات Qwen3.5-Omni الثلاثة (Plus، Flash، Light) هي إصدارات مملوكة وحصرية عبر API من خلال Alibaba Cloud — ولم يتم إصدار أي أوزان علنًا. أما الإصدار السابق، Qwen3-Omni-30B-A3B، فهو مفتوح المصدر بموجب ترخيص Apache 2.0 مع ما يقرب من 35 مليار معامل إجمالي وحوالي 3 مليارات معامل نشط. 4