Qwen3.5-Omni: نموذج Alibaba للذكاء الاصطناعي شامل الوسائط (2026)
١ أبريل ٢٠٢٦
ملخص
أطلقت Alibaba نموذج Qwen3.5-Omni في 30 مارس 2026 — وهو نموذج ذكاء اصطناعي شامل (omnimodal) أصلي يعالج النصوص والصور والصوت والفيديو ضمن نموذج واحد موحد، ويولد مخرجات كلامية متدفقة في الوقت الفعلي.1 حقق إصدار Plus نتائج رائدة (state-of-the-art) في 215 مهمة فرعية صوتية — تشمل التعرف على الكلام، وترجمة الكلام، وفهم الصوت — متفوقاً على نموذج Gemini 3.1 Pro من Google في مهام فهم الصوت العام والاستنتاج.2 يدعم النموذج التعرف على الكلام بـ 113 لغة ولهجة، وتوليد الكلام بـ 36 لغة، مع نافذة سياق تصل إلى 256 ألف توكن تغطي أكثر من 10 ساعات من الصوت، واستنساخ الصوت من عينات صوتية قصيرة تصل إلى 3 ثوانٍ.3 يتوفر سلفه مفتوح المصدر، Qwen3-Omni-30B-A3B، بموجب ترخيص Apache 2.0 على Hugging Face بإجمالي 35 مليار معلمة تقريباً وحوالي 3 مليارات معلمة نشطة لكل توكن.4
ما ستتعلمه
- ما الذي يجعل Qwen3.5-Omni مختلفاً عن النماذج متعددة الوسائط السابقة ولماذا تعتبر "الشمولية" (omnimodal) مهمة
- كيف تعمل بنية Thinker-Talker مع Hybrid-Attention MoE من الداخل
- الابتكارات التقنية الرئيسية: ARIA، والمقاطعة الدلالية، والبنية الموروثة (TMRoPE، Thinker-Talker)
- نتائج الاختبارات المعيارية مقابل Gemini 3.1 Pro و GPT-5.2 و ElevenLabs
- التسعير، والوصول عبر API، والفرق بين المصدر المفتوح والملكية الخاصة
- حالات الاستخدام العملي وما يعنيه هذا للمطورين الذين يبنون أنظمة ذكاء اصطناعي تدعم الصوت
لماذا يعد Qwen3.5-Omni مهماً
لا تزال معظم نماذج اللغات الكبيرة تتعامل مع أنواع المدخلات المختلفة كمشكلات منفصلة. يمر النص عبر مسار واحد، والصور عبر مسار آخر، والصوت عبر مسار ثالث — مع ربط نماذج منفصلة معاً في طبقة التطبيق. يؤدي هذا إلى حدوث تأخير (latency)، وزيادة التعقيد، وفقدان السياق العابر للوسائط.
يتخذ Qwen3.5-Omni نهجاً مختلفاً. فهو يعالج النصوص والصور والصوت والفيديو بشكل أصلي داخل بنية واحدة ويخرج كلاً من النص والكلام المتدفق في وقت واحد. هذا ما يطلقه فريق Qwen في Alibaba عليه اسم "omni-modal" — ليس فقط فهم وسائط متعددة، بل الاستنتاج عبرها في الوقت الفعلي والاستجابة بالوسيط المناسب.
الآثار العملية كبيرة. فالمطور الذي يبني مساعداً صوتياً لم يعد بحاجة إلى ربط نموذج تحويل الكلام إلى نص، ونموذج لغوي، ونموذج تحويل النص إلى كلام معاً. يتولى Qwen3.5-Omni الحلقة بأكملها: فهو يسمع المستخدم، ويستنتج السياق (بما في ذلك أي صور أو فيديو على الشاشة)، ويتحدث رداً على ذلك — كل ذلك ضمن استدلال نموذج واحد.
يمثل هذا الإصدار أيضاً نقطة تحول تنافسية. مع 215 مهمة فرعية SOTA وأداء يضاهي أو يتجاوز Gemini 3.1 Pro في المهام الصوتية، وضعت Alibaba نفسها جنباً إلى جنب مع Google و OpenAI في سباق النماذج الشاملة — وفي بعض المجالات، تفوقت عليهم.2
البنية: تصميم Thinker-Talker
يعتمد Qwen3.5-Omni على بنية Thinker-Talker التي تم تقديمها لأول مرة في Qwen2.5-Omni (مارس 2025)، والتي تفصل بين الاستنتاج وإنتاج الكلام.5 كل من تقسيم Thinker-Talker و TMRoPE (الموضح أدناه) هما تصميمان موروثان — الترقية الرئيسية في Qwen3.5-Omni هي استبدال المحول الكثيف (dense transformer) بتصميم Hybrid-Attention MoE في كلا المكونين.
المفكر (The Thinker)
المفكر هو العمود الفقري للاستنتاج. فهو يستوعب جميع وسائط الإدخال — النصوص والصور والصوت والفيديو — من خلال مشفرات متخصصة: مشفر رؤية للصور وإطارات الفيديو، ومشفر Audio Transformer (AuT) أصلي تم تدريبه مسبقاً على أكثر من 100 مليون ساعة من البيانات السمعية والبصرية للصوت — بزيادة قدرها 5 أضعاف عن الـ 20 مليون ساعة تقريباً المستخدمة في سلفه Qwen3-Omni.6 يتم تغذية هذه التمثيلات المشفرة في محول Hybrid-Attention Mixture-of-Experts (MoE) الذي يقوم بالاستنتاج عبر الوسائط.
يقوم تصميم MoE بتنشيط مجموعة فرعية فقط من معلمات النموذج لأي توكن معين. وهذا يعني أن النموذج يمكن أن يحتوي على عدد إجمالي كبير من المعلمات للسعة مع الحفاظ على تكاليف حوسبة لكل توكن قابلة للإدارة — وهي ميزة كفاءة حاسمة للتطبيقات في الوقت الفعلي.
يستخدم المفكر TMRoPE (Time-aligned Multimodal Rotary Position Embeddings)، الذي تم تقديمه في الأصل في Qwen2.5-Omni، لمحاذاة الوسائط المختلفة على طول محور زمني مشترك.7 وهذا ضروري لمهام مثل مشاهدة فيديو مع تعليق صوتي — يحتاج النموذج إلى معرفة أن الجملة المنطوقة تتوافق مع إطار مرئي محدد، وليس فقط أن كليهما موجودان في مكان ما في المدخلات.
المتحدث (The Talker)
يقوم المتحدث بتحويل التمثيلات الداخلية للمفكر إلى توكنات كلام متدفقة. كما يستخدم بنية Hybrid-Attention MoE، ويولد الكلام بشكل تدريجي — مما يعني أنه يمكنه البدء في التحدث قبل اكتمال حساب الاستجابة الكاملة.
يتم تشغيل قدرة التدفق هذه بواسطة ARIA (Adaptive Rate Interleave Alignment)، وهي تقنية طورها فريق Qwen لمحاذاة توكنات النص والكلام ديناميكياً أثناء التوليد.8 بدون ARIA، عادةً ما تخطئ نماذج الكلام المتدفق في قراءة الأرقام، أو تتخطى الكلمات، أو تنتج توقفات غريبة. يحل ARIA ذلك من خلال مطابقة المعدل الذي يتم به إنتاج توكنات النص وتوكنات الكلام بشكل تكيفي، مما يؤدي إلى مخرجات أكثر سلاسة ودقة.
الابتكارات التقنية الرئيسية
المقاطعة الدلالية
واحدة من أصعب المشكلات في الذكاء الاصطناعي الصوتي في الوقت الفعلي هي معرفة متى يريد المستخدم المقاطعة حقاً مقابل متى يقدم مجرد ملاحظات محادثة. قول "أها" في منتصف المحادثة ليس مثل قول "انتظر، توقف — لدي سؤال".
يتعامل Qwen3.5-Omni مع هذا من خلال اكتشاف المقاطعة الدلالية.9 يميز النموذج بين الردود الجانبية (ملاحظات المستمع غير ذات المعنى مثل "مم-هم" أو "صحيح") وإشارات تبادل الأدوار الحقيقية حيث ينوي المستخدم التحدث. هذا يمنع التجربة المحبطة الشائعة في المساعدين الصوتيين حيث تقطع كل ضوضاء خلفية أو كلمة حشو استجابة الذكاء الاصطناعي.
استنساخ الصوت
يمكن للمستخدمين تقديم عينة صوتية (3-60 ثانية، مع التوصية بـ 10-20 ثانية للحصول على أفضل النتائج) عبر API الخاص بـ Plus أو Flash، وسيعتمد النموذج هذا الصوت في استجاباته.3 تفتح هذه القدرة الأبواب للمساعدين الصوتييين الشخصيين، وتطبيقات إمكانية الوصول، وإنشاء المحتوى — على الرغم من أنها تثير أيضاً نفس الاعتبارات الأخلاقية حول الموافقة والتزييف العميق التي لا يزال مجال الذكاء الاصطناعي الصوتي الأوسع يصارعها. للحصول على سياق حول تلك التحديات، تستكشف تغطيتنا السابقة لـ أخلاقيات استنساخ الصوت بالذكاء الاصطناعي مشهد التنظيم والموافقة بالتفصيل.
الترميز السمعي البصري للمشاعر (Audio-Visual Vibe Coding)
في عرض توضيحي جذب انتباهاً كبيراً، أظهر فريق Qwen نموذج Qwen3.5-Omni وهو يشاهد تسجيلاً لشاشة لمهمة برمجية ويكتب كوداً فعالاً بناءً على ما رآه وسمعه — باستخدام مدخلات الصوت والفيديو بدلاً من المطالبات النصية.10 تشير قدرة "vibe coding" هذه إلى تطبيقات عملية للبرمجة الثنائية (pair programming)، ومراجعة الكود من الجلسات المسجلة، وسير عمل التطوير الذي يركز على إمكانية الوصول أولاً.
نتائج الاختبارات القياسية
فهم الصوت
تفوق إصدار Plus على Gemini 3.1 Pro في العديد من الاختبارات القياسية الصوتية الرئيسية.2
| الاختبار القياسي | Qwen3.5-Omni Plus | Gemini 3.1 Pro | ماذا يقيس |
|---|---|---|---|
| MMAU | 82.2 | 81.1 | فهم الصوت والاستنتاج |
| MMSU | 82.8 | 81.3 | فهم اللغة المنطوقة والاستنتاج |
| Seed-zh (استقرار الصوت) | 1.07 | 2.42* | الأقل أفضل — اتساق الصوت |
| VoiceBench | 93.1 | 88.9 | جودة المساعد الصوتي (المعرفة، التعليمات، الأمان) |
*رقم Seed-zh يخص Gemini 2.5 Pro، حيث لم يتم الإبلاغ عن نتيجة Gemini 3.1 Pro في هذا الاختبار القياسي المحدد.11
التعرف على المستندات والمرئيات
في اختبار OmniDocBench v1.5، الذي يقيس فهم المستندات عبر الوسائط المتعددة، سجلت عائلة نماذج Qwen3.5 الأوسع (وليس إصدار Omni تحديداً) 90.8 — مقارنة بـ 85.7 لـ GPT-5.2، و87.7 لـ Claude Opus 4.5، و88.5 لـ Gemini 3.1 Pro.12
الاستيعاب السمعي البصري
في المهام السمعية البصرية المشتركة، تبدو الصورة أكثر دقة. يتصدر Qwen3.5-Omni في DailyOmni (84.6 مقابل 82.7)، لكن Gemini 3.1 Pro يحتفظ بمزايا واضحة في WorldSense (65.5 مقابل 62.8)، وVideoMME مع الصوت (89.0 مقابل 83.7)، واستنتاج وكيل OmniGAIA (68.9 مقابل 57.2).11 الصورة العامة هي أن هذين النموذجين متنافسان حقاً في المجال الشامل (omnimodal)، حيث يتصدر كل منهما في فئات مهام فرعية مختلفة.
جودة توليد الكلام
مقابل نماذج تركيب الكلام المتخصصة، قدم Qwen3.5-Omni Plus أداءً تنافسياً. في اختبارات استقرار الصوت متعددة اللغات عبر 20 لغة، تفوق على ElevenLabs وGPT-Audio وMiniMax.2 بالنسبة للمطورين الذين يفكرون فيه كبديل لخطوط معالجة TTS المخصصة، تشير هذه النتائج إلى أنه قابل للاستخدام في إنتاج توليد الكلام — على الرغم من أن النماذج المتخصصة مثل Voxtral TTS قد لا تزال تقدم مزايا لأعباء عمل تحويل النص إلى كلام الصرفة.
إصدارات النموذج والأسعار
يتوفر Qwen3.5-Omni في ثلاث فئات.13
| الإصدار | حالة الاستخدام | تسعير API |
|---|---|---|
| Plus | أعلى جودة — الأبحاث، الاستنتاج المعقد | مجاني حالياً (نسخة تجريبية) |
| Flash | توازن بين السرعة والجودة | مجاني حالياً (نسخة تجريبية) |
| Light | حساس لزمن الاستجابة، على الأجهزة | لم يدرج بعد في صفحة الأسعار |
ملاحظة: اعتباراً من مارس 2026، يتوفر Qwen3.5-Omni Plus وFlash في نسخة تجريبية مع استدعاء مجاني مؤقت للنموذج عبر Alibaba Cloud Model Studio.13 لم يتم نشر التسعير القياسي بعد. كمرجع، يبلغ سعر نموذج Qwen3.5-Plus المخصص للنصوص فقط حوالي 0.26 دولار للمدخلات / 1.56 دولار للمخرجات لكل مليون توكن على OpenRouter — ومن المتوقع أن يختلف تسعير Omni نظراً لأن المدخلات متعددة الوسائط (صوت، فيديو) يتم فوترتها لكل توكن وسائط. وبالمقارنة، يبلغ سعر GPT-5.4 حوالي 2.50 دولار لكل مليون توكن مدخلات.14
المصدر المفتوح مقابل الملكية الخاصة
تمييز مهم: جميع إصدارات Qwen3.5-Omni الثلاثة (Plus وFlash وLight) هي ملكية خاصة ومتاحة فقط من خلال API الخاص بـ Alibaba Cloud Model Studio — ولم يتم إصدار أي أوزان للنماذج علناً.15 ويمثل هذا خروجاً عن استراتيجية المصدر المفتوح لشركة Alibaba مع نماذج Qwen السابقة.
ومع ذلك، فإن نموذج Qwen3-Omni-30B-A3B مفتوح المصدر — وهو الإصدار السابق — متاح بموجب ترخيص Apache 2.0 على Hugging Face وGitHub وModelScope.4 يحتوي هذا الإصدار على ما يقرب من 35 مليار معلمة إجمالية مع حوالي 3 مليارات معلمة نشطة لكل توكن، ويدعم مجموعة أصغر من اللغات، ويستخدم نافذة سياق أصلية بحجم 32K (قابلة للتوسيع إلى 128K عبر قياس YaRN) بدلاً من 256K في Qwen3.5-Omni (المشتركة بين جميع الإصدارات الثلاثة). لا يزال يمثل خياراً قوياً للمصدر المفتوح الشامل (omnimodal)، وقد ظهرت بالفعل نسخ مكممة (quantizations) من المجتمع مع أدوات ضبط دقيق قيد التطوير.
بالنسبة للمطورين الذين يحتاجون إلى كامل إمكانيات الـ 113 لغة وسياق الـ 256K، فإن API هو الطريق للمضي قدماً. بالنسبة لأولئك الذين يرغبون في الاستضافة الذاتية، أو الضبط الدقيق، أو البناء على أوزان مفتوحة، فإن Qwen3-Omni-30B-A3B يوفر أساساً متيناً.
ماذا يعني هذا للمطورين
نهاية خطوط المعالجة متعددة النماذج
النهج التقليدي لبناء ذكاء اصطناعي مدعوم بالصوت — ربط نماذج ASR وLLM وTTS — يؤدي إلى حدوث تأخير (latency) عند كل نقطة تسليم ويفقد السياق بين المكونات. يقضي Qwen3.5-Omni على هذه الفواصل. يمكن لاستدعاء API واحد قبول مدخلات صوتية، والاستنتاج بشأنها جنباً إلى جنب مع السياق المرئي، وإرجاع مخرجات كلامية.
بالنسبة للفرق التي تبني منتجات ذكاء اصطناعي محادثة، أو وكلاء دعم عملاء، أو أدوات إمكانية الوصول، فإن هذا يبسط البنية التقنية بشكل كبير. المقايضة هي الارتباط بالمورد (vendor lock-in) مع API الخاص بـ Alibaba للحصول على النسخة كاملة الميزات.
التغطية متعددة اللغات
دعم 113 لغة للتعرف على الكلام و36 لغة للتوليد يجعل Qwen3.5-Omni واحداً من أكثر النماذج تنوعاً لغوياً المتاحة. بالنسبة للتطبيقات التي تستهدف الأسواق العالمية — لا سيما في جنوب شرق آسيا والشرق الأوسط وأفريقيا حيث كانت العديد من اللغات تاريخياً غير مخدومة بشكل كافٍ من قبل الذكاء الاصطناعي التجاري — فإن هذا الاتساع يعد ميزة فارقة ذات مغزى.
التكامل مع سير العمل الحالي
يمكن للمطورين الذين يبنون باستخدام أطر عمل مثل وكلاء LangChain أو خطوط معالجة RAG للذكاء الاصطناعي المحلي دمج Qwen3.5-Omni كطبقة استنتاج متعددة الوسائط مع الحفاظ على التنسيق الحالي لديهم. يمكن أيضاً تشغيل Qwen3-Omni-30B-A3B مفتوح المصدر محلياً عبر vLLM أو Transformers أو خوادم استنتاج مماثلة لعمليات النشر الحساسة للخصوصية، على الرغم من أن الدعم الشامل الكامل (مدخلات/مخرجات الصوت) يتطلب أطر عمل تتعامل مع خطوط المعالجة متعددة الوسائط.
الصورة الأكبر
يأتي Qwen3.5-Omni في لحظة تتقارب فيها صناعة الذكاء الاصطناعي بسرعة نحو البنى متعددة الوسائط الشاملة (Omnimodal). قدم GPT-5.4 من OpenAI الاستخدام الأصلي للكمبيوتر. وحقق Gemini 3.1 Pro من Google أرقامًا قياسية جديدة في اختبارات التفكير. والآن قدمت Alibaba ما قد يكون الحزمة الأكثر اكتمالاً للمهام متعددة الوسائط حتى الآن — على الأقل للمهام السمعية والبصرية.
تستحق ديناميكيات المنافسة المراقبة. تقدم Alibaba حاليًا وصولاً مجانيًا للمعاينة، وتعد تغطيتها متعددة اللغات — 113 لغة ولهجة للتعرف على الكلام — من بين الأوسع المتاحة في نموذج متعدد الوسائط شامل، ويوفر Qwen3-Omni مفتوح المصدر أساسًا للابتكار المجتمعي مع مخرجات كلام أصلية لا تقدمها OpenAI ولا Google حاليًا في عائلات نماذجهم مفتوحة الأوزان.
بالنسبة للمطورين، فإن الاستنتاج العملي واضح: عصر تجميع نماذج منفصلة لكل وسيط (Modality) يقترب من نهايته. لم يعد السؤال هو ما إذا كنت ستعتمد الذكاء الاصطناعي متعدد الوسائط الشامل، بل أي مزود تناسب مقايضاته حالة الاستخدام الخاصة بك بشكل أفضل.
Footnotes
-
Alibaba Qwen Team, "Qwen3.5-Omni Release," March 30, 2026. MarkTechPost ↩
-
Qwen3.5-Omni benchmark results across 215 audio subtasks (speech recognition, translation, and understanding). StableLearn ↩ ↩2 ↩3 ↩4
-
Speech recognition covers 113 languages/dialects, generation covers 36. Decrypt ↩ ↩2 ↩3
-
Qwen3-Omni-30B-A3B open-source release under Apache 2.0. GitHub ↩ ↩2 ↩3
-
Thinker-Talker architecture (from Qwen2.5-Omni) upgraded with Hybrid-Attention MoE. MarkTechPost ↩
-
Audio Transformer (AuT) encoder pre-trained on 100M+ hours. Analytics Vidhya ↩
-
TMRoPE for time-aligned multimodal positional encoding. MarkTechPost ↩
-
ARIA (Adaptive Rate Interleave Alignment) for streaming speech. Apidog ↩
-
Audio-visual vibe coding demonstration. The Decoder ↩
-
Qwen3.5-Omni vs Gemini 3.1 Pro audio-visual benchmark comparison. BuildFastWithAI ↩ ↩2
-
OmniDocBench v1.5 scores. BuildFastWithAI ↩
-
أسعار Qwen3.5-Omni — حالياً في مرحلة العرض المسبق مع استدعاء مجاني. Alibaba Cloud Model Studio ↩ ↩2
-
حالة الملكية الخاصة لـ Qwen3.5-Omni. The Information ↩