ما هو نموذج VLA؟

يأخذ نموذج الرؤية واللغة والعمل (Vision-Language-Action) صور الكاميرا وتعليمات اللغة الطبيعية كمدخلات وينتج أوامر محرك الروبوت كمخرجات. تشمل الأمثلة RT-2 من Google DeepMind، و OpenVLA من Stanford، و π0 من Physical Intelligence.

هل ينطبق توفير الطاقة بمقدار 100 ضعف على جميع مهام الذكاء الاصطناعي؟

لا. ينطبق رقم الـ 100 ضعف على طاقة التدريب في مهمة معالجة روبوتية منظمة محددة (برج هانوي). وتكون ميزة الأساليب الرمزية العصبية (neuro-symbolic) أكبر في المهام ذات القواعد الواضحة والهيكل المتسلسل. أما بالنسبة للمهام غير المنظمة والمفتوحة، فقد تظل الأساليب العصبية الشاملة (end-to-end) أكثر عملية.

متى سيتم عرض هذا البحث؟

سيتم عرض الورقة البحثية في مؤتمر ICRA 2026 (مؤتمر IEEE الدولي للروبوتات والأتمتة) في فيينا، النمسا، في الفترة من 1 إلى 5 يونيو 2026.

هل الذكاء الاصطناعي الرمزي العصبي جاهز للاستخدام الفعلي في الإنتاج؟

قامت بعض الشركات، بما في ذلك Amazon، بالفعل بنشر أساليب رمزية عصبية في روبوتات المستودعات قيد الإنتاج. ومع ذلك، فإن كتابة مواصفات المهام الرمزية تتطلب خبرة في المجال، ولا يزال التوسع في البيئات الديناميكية للغاية مجالاً للبحث النشط.

ai-ml

Neuro-Symbolic AI يقلل استهلاك الروبوتات للطاقة بمقدار 100 ضعف.

٨ أبريل ٢٠٢٦

#neuro-symbolic AI #AI energy efficiency #robotics #VLA models #ICRA 2026 #sustainable AI #AI research #Tufts University

Neuro-Symbolic AI Cuts Robot Energy Use by 100x

ملخص

أظهرت دراسة أجرتها جامعة Tufts ونُشرت في فبراير 2026 أن بنية الذكاء الاصطناعي الرمزية العصبية (neuro-symbolic) — التي تجمع بين التخطيط الرمزي الكلاسيكي والتحكم الروبوتي المكتسب — تحقق معدل نجاح بنسبة 95% في مهام المناولة المنظمة مع استهلاك 1% فقط من طاقة التدريب التي تتطلبها نماذج الرؤية واللغة والعمل (VLA) القياسية. حقق أفضل نموذج VLA أداءً دقة بلغت 34% فقط في المهمة نفسها. ومن المقرر عرض هذا البحث في مؤتمر ICRA 2026 في فيينا في يونيو القادم، وهو يسلط الضوء على مسار عملي نحو ذكاء اصطناعي أكثر كفاءة في استهلاك الطاقة للروبوتات.¹

ما ستتعلمه

ما هو الذكاء الاصطناعي الرمزي العصبي ولماذا يهم لكفاءة طاقة الروبوتات
كيف تفوق النظام الهجين لفريق Tufts على نموذج VLA رائد مع استخدام طاقة تدريب أقل بـ 100 مرة
المقاييس والنتائج المحددة من تجارب مناولة "برج هانوي"
لماذا تواجه نماذج VLA صعوبة في المهام المنظمة ذات الأفق الطويل رغم قدراتها العامة
ما يعنيه هذا لمستقبل الذكاء الاصطناعي المستدام والنشر الروبوتي

مشكلة الطاقة في روبوتات الذكاء الاصطناعي

تتزايد شهية الذكاء الاصطناعي للكهرباء بوتيرة تثير قلق الباحثين وصناع القرار ومخططي الطاقة على حد سواء. تقدر وكالة الطاقة الدولية أن استهلاك الكهرباء في مراكز البيانات العالمية وصل إلى حوالي 415 تيراواط ساعة في عام 2024، وتتوقع أن يتضاعف تقريبًا إلى حوالي 945 تيراواط ساعة بحلول عام 2030، مدفوعًا بشكل أساسي بأحمال عمل الذكاء الاصطناعي.² استهلك تدريب نموذج رائد واحد مثل GPT-4 ما يقدر بنحو 50 جيجاوات ساعة من الطاقة — وهو ما يكفي لتزويد ما يقرب من 5000 منزل في الولايات المتحدة بالطاقة لمدة عام.³

تضيف الروبوتات بُعدًا آخر لهذا التحدي. تمثل نماذج الرؤية واللغة والعمل (VLA)، التي تجمع بين الإدراك البصري وفهم اللغة وتوليد الإجراءات الفيزيائية في نظام واحد، الحدود الحالية للذكاء الروبوتي العام. نماذج مثل π0 من شركة Physical Intelligence، وهو نظام يحتوي على 3.3 مليار معلمة (مبني على نموذج PaliGemma للرؤية واللغة من Google بالإضافة إلى خبير إجراءات مخصص) تم تدريبه على أكثر من 10,000 ساعة من بيانات الروبوت عبر 68 مهمة، يمكنه طي الغسيل وتنظيف الطاولات وتجميع الصناديق من التعليمات اللغوية وحدها.⁴ لكن تدريب وتشغيل هذه النماذج يتطلب موارد حوسبة كبيرة — وهي موارد لا تتوسع بشكل جيد مع زيادة تعقيد المهام.

أثبت فريق في جامعة Tufts الآن أنه قد تكون هناك طريقة أكثر كفاءة بشكل أساسي للتعامل مع المهام الروبوتية المنظمة، وتوفير الطاقة ليس تدريجيًا، بل هو هائل.

الدراسة: التخطيط الرمزي يلتقي بالتحكم المكتسب

البحث الذي يحمل عنوان "السعر ليس صحيحًا: الأساليب الرمزية العصبية تتفوق على نماذج VLA في مهام المناولة المنظمة ذات الأفق الطويل مع استهلاك أقل بكثير للطاقة"، شارك في تأليفه تيموثي دوجان، وبيريك لورانج، وهونج لو، وماتياس شويتز. شويتز هو أستاذ علوم الكمبيوتر في عائلة كارول للتكنولوجيا التطبيقية في جامعة Tufts ويدير مختبر التفاعل بين الإنسان والروبوت. ويحمل لورانج انتماءً مزدوجًا مع معهد AIT النمساوي للتكنولوجيا.¹

الفكرة الأساسية بسيطة: بدلاً من مطالبة شبكة عصبية واحدة باكتشاف كل شيء بدءًا من الإدراك البصري وصولاً إلى تسلسل الإجراءات، يتم تقسيم المشكلة إلى جزأين. يتولى مخطط رمزي، مكتوب بلغة تعريف مجال التخطيط (PDDL)، التفكير في المهام عالية المستوى — تحديد التسلسل الصحيح للتحركات بناءً على قواعد وأهداف صريحة. ويتولى مكون مكتسب منفصل التحكم الحركي منخفض المستوى — التنفيذ الفيزيائي الفعلي لكل حركة.

هذا هو جوهر الذكاء الاصطناعي الرمزي العصبي: الجمع بين قوة التعرف على الأنماط في الشبكات العصبية وقدرات التفكير المنطقي للأنظمة الرمزية الكلاسيكية. تتفوق الشبكات العصبية في الإدراك والتعامل مع البيانات الحسية الفوضوية في العالم الحقيقي. بينما يتفوق المخططون الرمزيون في التفكير المتسلسل، وتلبية القيود، والتعميم على المشكلات التي لم يروها من قبل — بشرط أن تكون القواعد محددة جيدًا.

المعيار: برج هانوي

اختار الباحثون "برج هانوي" كمعيار لهم، وهي مشكلة تخطيط كلاسيكية تتطلب نقل الأقراص بين الأوتاد بترتيب معين دون وضع قرص أكبر فوق قرص أصغر. في حين أنه من السهل على البشر التفكير فيها، إلا أن هذه المهمة تتطلب بالضبط نوع التخطيط المتسلسل الذي يحترم القيود والذي يختبر ما إذا كان النظام الروبوتي يفهم حقًا بنية المهمة أم أنه مجرد مطابقة للأنماط من بيانات التدريب.

قارنت التجربة بين البنية الرمزية العصبية ونسخة معدلة بدقة من π0، وهو نموذج VLA مفتوح الأوزان من شركة Physical Intelligence. تم تقييم كلا النظامين في المحاكاة على نسخة مناولة فيزيائية من اللغز حيث يجب على ذراع الروبوت نقل أشياء على شكل أقراص بين الأوتاد.¹

النتائج: 95% مقابل 34% — وطاقة أقل بـ 100 مرة

كانت فجوة الأداء مذهلة عبر كل مقياس قام الفريق بقياسه.

معدلات نجاح المهام

في نسخة الـ 3 كتل القياسية من برج هانوي، حقق النظام الرمزي العصبي معدل نجاح بنسبة 95%. بينما حقق أفضل نموذج VLA أداءً 34% فقط. عندما قدم الباحثون متغيرًا أصعب مكونًا من 4 كتل لم يسبق رؤيته — وهو اختبار للتعميم على نسخة أكثر تعقيدًا من نفس المشكلة — استمر النظام الرمزي العصبي في النجاح بنسبة 78% من المرات. وفشلت نماذج VLA تمامًا، حيث لم تكمل أي تجربة ناجحة.¹

كفاءة التدريب

كان الاختلاف في الكفاءة دراماتيكيًا بنفس القدر. تعلم النظام الرمزي العصبي المهمة في 34 دقيقة من التدريب. بينما تطلب نموذج VLA أكثر من يوم ونصف — حوالي 36 ساعة أو أكثر من الضبط الدقيق. ومن حيث استهلاك الطاقة الخام، استهلك تدريب النظام الرمزي العصبي ما يقرب من 1% من الطاقة التي يتطلبها نهج VLA. أثناء الاستدلال (التنفيذ الفعلي للمهمة)، استخدم النظام الرمزي العصبي حوالي 5% من طاقة VLA.¹

يأتي عنوان "طاقة أقل بـ 100 مرة" من مقارنة التدريب: إذا استهلك VLA مائة وحدة من الطاقة أثناء التدريب، فإن النهج الرمزي العصبي يستهلك وحدة واحدة تقريبًا لنفس المهمة.

لماذا الفارق كبير جدًا

توجد الفجوة لأن النهجين يحلان مشكلات مختلفة تمامًا أثناء التدريب. يجب أن يتعلم VLA — من البكسلات الخام واللغة — ماذا يفعل وكيف يفعل ذلك، مع تضمين بنية المهمة بأكملها بشكل ضمني في أوزانه العصبية. في المقابل، يتلقى النظام الرمزي العصبي بنية المهمة بشكل صريح من خلال مخطط PDDL الخاص به. يحتاج فقط إلى تعلم المهارات الحركية منخفضة المستوى للتحركات الفردية، وهي مشكلة تعلم أصغر بكثير.

هذا يشبه الفرق بين تعليم شخص ما الشطرنج من خلال عرض آلاف المباريات عليه مقابل إعطائه القواعد والسماح له بممارسة تحريك القطع. النهج الثاني أسرع على وجه التحديد لأن المعرفة الاستراتيجية يتم توفيرها، وليس اكتشافها.

ما هي نماذج VLA، ولماذا تعاني هنا؟

تمثل نماذج الرؤية واللغة والعمل (Vision-Language-Action) توحيداً مثيراً للقدرات التي كانت تُدرس سابقاً بشكل منفصل في الذكاء الاصطناعي. يأخذ نموذج VLA صور الكاميرا (الرؤية)، وتعليمات اللغة الطبيعية (اللغة)، وينتج أوامر محرك الروبوت (العمل) في تمرير أمامي واحد. وضع نموذج RT-2 من Google DeepMind، الذي تم إصداره في منتصف عام 2023، هذا النموذج. ومنذ ذلك الحين، دفعت نماذج مثل OpenVLA من Stanford و π0 من Physical Intelligence هذا النهج إلى الأمام، مما مكن الروبوتات من التعامل مع مهام معالجة متنوعة من تعليمات اللغة مع حد أدنى من التدريب الخاص بالمهمة.⁵

تكمن قوة نماذج VLA في عموميتها. لأنها تتعلم تمثيلاً موحداً يشمل الرؤية واللغة والعمل، يمكنها التعميم عبر أشياء وبيئات مختلفة، وحتى أجسام روبوتات مختلفة. أظهرت Physical Intelligence نموذج π0 وهو يطوي الغسيل، وينظف الطاولات، ويجمع الصناديق — وهي مهام تتطلب كل منها نظاماً هندسياً يدوياً منفصلاً في ظل الأساليب التقليدية.⁴

لكن هذه العمومية تأتي بتكلفة. تشفر نماذج VLA هيكل المهمة بشكل ضمني، مما يعني أنها تحتاج إلى بيانات تدريب وحوسبة مكثفة لاكتشاف الأنماط التي يمكن ذكرها صراحة في بضعة أسطر من المنطق الرسمي. بالنسبة للمهام ذات القواعد الواضحة والتبعيات المتسلسلة — مثل برج هانوي — فإن هذا النهج الضمني غير فعال وغير موثوق. يجب على VLA إعادة اكتشاف من الصفر أن الأقراص الأكبر لا يمكن أن توضع فوق الأقراص الأصغر، وأن الحركات يجب أن تتبع نمطاً تكرارياً محدداً، وأن حالة الهدف تتطلب جميع الأقراص على وتد مستهدف. يعرف المخطط الرمزي كل هذا من مواصفات PDDL الخاصة به، مما يحرر مكون التعلم للتركيز فقط على التنفيذ المادي.

الصورة الأكبر: متى ينتصر النهج النيرو-سيمبوليك؟

هذه النتيجة لا تعني أن نماذج VLA أصبحت قديمة. اختبرت دراسة Tufts فئة معينة من المهام — مشكلات المعالجة المنظمة والمحكومة بالقواعد وطويلة المدى — حيث يتمتع التخطيط الرمزي بميزة طبيعية. تظل نماذج VLA متفوقة في المهام المفتوحة حيث لا يمكن تحديد القواعد بسهولة: فرز مجموعة غير مألوفة من البقالة، أو التنقل في غرفة فوضوية، أو التكيف مع أشياء جديدة لم تكن موجودة في بيانات التدريب.

البصيرة الحقيقية هي أن ليس كل مهمة روبوتية تحتاج إلى القوة الكاملة للنهج العصبي الشامل (end-to-end). تتضمن العديد من التطبيقات الصناعية واللوجستية والتصنيعية عمليات منظمة بقواعد معروفة: تسلسلات التجميع، بروتوكولات مناولة المواد، وسير عمل فحص الجودة. بالنسبة لهذه التطبيقات، يمكن لنهج نيرو-سيمبوليك أن يقدم أداءً أفضل وتكاليف تشغيل أقل بشكل كبير.

تتوسع تداعيات الطاقة بشكل ملموس. إذا تمكن مستودع يدير 100 روبوت يعمل بنظام VLA من الانتقال إلى معماريات نيرو-سيمبوليك لمهام الالتقاط والوضع المنظمة، فإن توفير طاقة التدريب وحده سيكون كبيراً. وبالاقتران مع خفض طاقة الاستدلال بمقدار 20 ضعفاً (5% مقابل 100%)، تنخفض فاتورة الكهرباء التشغيلية لمكون الذكاء الاصطناعي بمقدار عشرة أضعاف.

يتماشى هذا مع تحول أوسع في الصناعة. قامت مجموعة الاستدلال الآلي في Amazon بدمج التحقق الرمزي جنباً إلى جنب مع الشبكات العصبية في منتجات مثل مساعد التسوق Rufus، ويلاحظ مراقبو الصناعة أن روبوتات Vulcan الخاصة بمستودعاتها تجمع بين الإدراك العصبي والتخطيط المكاني القائم على القواعد — وهو نهج يتوافق مع مبادئ النيرو-سيمبوليك، على الرغم من أن Amazon تصف التكنولوجيا رسمياً بأنها "الذكاء الاصطناعي المادي".⁶ سلط المنتدى الاقتصادي العالمي الضوء على الذكاء الاصطناعي النيرو-سيمبوليك في أواخر عام 2025 كمسار نحو أنظمة ذكاء اصطناعي لا تهلوس، وتنتج استدلالاً قابلاً للتدقيق، وتقدم نتائج واقعية — وهي جميعها خصائص تهم في الروبوتات المادية أكثر مما تهم في توليد النصوص.⁷

القيود والأسئلة المفتوحة

للدراسة محاذير مهمة تخفف من النتائج الرئيسية.

أولاً، برج هانوي هو مهمة جيدة التنظيم وقابلة للملاحظة بالكامل ولها قواعد واضحة. بيئات الروبوتات في العالم الحقيقي فوضوية، وقابلة للملاحظة جزئياً، وتتغير باستمرار. تتضاءل ميزة التخطيط الرمزي عندما تصبح المهمة أصعب في التحديد الرسمي. يظل توسيع الأساليب القائمة على PDDL لتشمل البيئات الديناميكية حيث تكون تأثيرات العمل غير مؤكدة أو متأخرة تحدياً مفتوحاً.⁸

ثانياً، أجريت التجارب في المحاكاة، وليس على أجهزة مادية. إن نقل النتائج من المحاكاة إلى الروبوتات الحقيقية — ما يسمى "فجوة المحاكاة إلى الواقع" — يقدم تحديات إضافية في الإدراك ودقة التحكم والتباين البيئي الذي قد يؤثر على كلا النهجين بشكل مختلف.

ثالثاً، تعتمد ميزة النيرو-سيمبوليك على وجود نموذج رمزي صحيح للمهمة. تتطلب كتابة مواصفات PDDL خبرة في المجال وهي بحد ذاتها عقبة. بالنسبة للمهام التي تكون فيها القواعد غير معروفة أو تتغير بشكل متكرر، قد تعوض التكلفة المسبقة للنمذجة الرمزية توفير الطاقة أثناء التدريب.

أخيراً، ينطبق رقم "100 ضعف" تحديداً على طاقة التدريب لهذه المهمة. ستؤدي المهام المختلفة، ونماذج VLA المختلفة، ومعماريات النيرو-سيمبوليك المختلفة إلى نسب مختلفة. توضح النتيجة الحجم المحتمل لفجوة الكفاءة، وليس ثابتاً عالمياً.

ماذا يعني هذا للمطورين والفرق

بالنسبة للفرق الهندسية التي تنشر أنظمة الروبوتات، فإن الاستنتاج عملي: راجع محفظة مهامك بحثاً عن الهيكل. إذا كان جزء كبير من عبء العمل الروبوتي الخاص بك يتضمن عمليات تسلسلية محكومة بالقواعد، فقد توفر بنية نيرو-سيمبوليك هجينة دقة أفضل بجزء بسيط من تكلفة الحوسبة.

الأدوات موجودة بالفعل. مخططو PDDL ناضجون وموثقون جيداً. توفر نماذج VLA مفتوحة الأوزان مثل π0 (المتاحة من خلال مستودع OpenPi الخاص بـ Physical Intelligence) مكونات تحكم متعلمة مرنة.⁴ نمط التكامل — مخطط رمزي للتسلسل عالي المستوى، وسياسة عصبية للتنفيذ منخفض المستوى — قابل للتنفيذ اليوم دون انتظار أجهزة الجيل القادم.

بالنسبة لصناعة الذكاء الاصطناعي بشكل أوسع، يعزز هذا البحث موضوعاً اكتسب زخماً طوال عام 2026: ابتكارات الكفاءة قد تقدم قيمة عملية أكثر من التوسع الخام. يحقق خوارزمية TurboQuant من Google، التي تم الكشف عنها أيضاً هذا العام، ضغط KV cache بمقدار 3 بت مع فقدان دقة يقترب من الصفر — وهو نهج مختلف لنفس المشكلة الأساسية المتمثلة في جعل أنظمة الذكاء الاصطناعي تفعل المزيد بموارد أقل.⁹

إن عصر "الأكبر هو الأفضل دائماً" في الذكاء الاصطناعي يفسح المجال لفهم أكثر دقة بأن البنية الصحيحة للمهمة تهم بقدر حجم النموذج. بالنسبة للمهام الروبوتية المنظمة، فإن الذكاء الاصطناعي النيرو-سيمبوليك ليس مجرد منافس للنهج العصبية الشاملة — بل هو أكثر كفاءة بشكل كبير.

الخلاصة

تثبت دراسة جامعة Tufts أنه بالنسبة للمهام الروبوتية المنظمة، فإن اختيار بنية الذكاء الاصطناعي يهم أكثر من حجم النموذج. حقق نظام رمزي عصبي نسبة نجاح في المهام بلغت 95% باستخدام 1% فقط من طاقة تدريب نموذج VLA رائد. ومع استمرار ارتفاع تكاليف طاقة الذكاء الاصطناعي وتوجه استهلاك الكهرباء في مراكز البيانات العالمية نحو التضاعف بحلول نهاية العقد، فإن الأساليب التي تقدم نتائج أفضل بحوسبة أقل ليست مجرد موضوع مثير للاهتمام أكاديمياً — بل هي ضرورة اقتصادية وبيئية.

سيتم عرض الورقة البحثية في مؤتمر ICRA 2026 في فيينا في يونيو القادم. وبالنسبة للفرق التي تبني أنظمة روبوتية ذات متطلبات مهام منظمة، فإن الأمر يستحق القراءة بالكامل.

Duggan, T., Lorang, P., Lu, H., & Scheutz, M. (2026). "The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption." arXiv:2602.19260. To be presented at ICRA 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵
International Energy Agency. "Energy and AI." IEA Special Report, April 2025. Projects data center consumption reaching ~945 TWh by 2030. ↩
"We did the math on AI's energy footprint." MIT Technology Review, May 2025. ↩
Physical Intelligence. "π0: A Vision-Language-Action Flow Model for General Robot Control." October 2024. Open-sourced via OpenPi, February 2025. ↩ ↩² ↩³
"Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications." arXiv:2510.07077. ↩
Amazon automated reasoning: Fast Company, "Amazon takes on AI's biggest nightmare: Hallucinations," 2025. Vulcan "physical AI" description: AboutAmazon.com, May 2025. Neuro-symbolic characterization: Cogent, "The Year of Neuro-Symbolic AI," 2026. ↩
World Economic Forum. "The power of neurosymbolic AI: No hallucinations, auditable workings, real-world outcomes." December 2025. ↩
Springer Nature. "A Comprehensive Review of Neuro-symbolic AI for Robustness, Uncertainty Quantification, and Intervenability." Arabian Journal for Science and Engineering, 2025. ↩
Google Research. "TurboQuant: Redefining AI efficiency with extreme compression." Presented at ICLR 2026. ↩

الأسئلة الشائعة

يجمع الذكاء الاصطناعي النيرو-سيمبوليك بين الشبكات العصبية (التي تتفوق في التعرف على الأنماط من البيانات الخام) وأنظمة الاستدلال الرمزي (التي تتفوق في الاستنتاج المنطقي والتخطيط). الهدف هو الحصول على أفضل ما في العالمين: المرونة الإدراكية للتعلم العميق مع الاستدلال المنظم للذكاء الاصطناعي الكلاسيكي.