كيف يعيد الـ Multimodal AI والـ Agents تشكيل العمل في عام

تم التحديث: ٢٧ مارس ٢٠٢٦

How Multimodal AI and Agents Reshape Work in 2026

ملخص

أصبحت نماذج الذكاء الاصطناعي متعددة الوسائط (Multimodal) تفهم الآن النصوص والصور والفيديو في وقت واحد، بينما تتعامل الوكلاء المستقلون (Autonomous agents) مع سير العمل المعقد دون تدخل بشري. يضع تطبيق قانون الذكاء الاصطناعي في الاتحاد الأوروبي (بدءًا من أغسطس 2025) متطلبات امتثال للتطبيقات عالية المخاطر، وتتحدى النماذج مفتوحة المصدر الأنظمة التجارية المغلقة.

إذا كان عام 2023 هو العام الذي اقتحم فيه الذكاء الاصطناعي التيار السائد وكان عام 2024 يدور حول الصقل، فإن عامي 2025-2026 هما عام التقارب. لم يعد الذكاء الاصطناعي يولد النصوص فحسب، بل أصبح يفكر عبر الصور والفيديو والكود البرمجي. إنه يؤتمت سير العمل بالكامل الذي كان يتطلب سابقًا تنسيقًا بشريًا. ولأول مرة، أصبحت الأطر التنظيمية آليات إنفاذ حقيقية، وليست مجرد تهديدات مستقبلية.

لقد تغير المشهد بشكل كبير. قبل ستة أشهر، كان الذكاء الاصطناعي متعدد الوسائط يبدو متطورًا للغاية. اليوم، أصبح أمرًا مفروغًا منه. قبل عام، كانت وكلاء الذكاء الاصطناعي في الغالب أوراقًا بحثية. اليوم، هم في أنظمة الإنتاج يديرون سير عمل بملايين الدولارات. يغطي هذا المنشور ما تغير بالفعل، وأي النماذج هي الأهم، وما تحتاج لمعرفته حول التنظيمات الموجودة بالفعل.

الذكاء الاصطناعي متعدد الوسائط: ما وراء النص

ما الذي تغير

لم يكن الاختراق مجرد "نماذج تقبل الصور". بل كان الفهم عبر الوسائط في وقت واحد. كانت الإصدارات السابقة (مثل GPT-4 Vision) يمكنها وصف صورة. أما النماذج الحالية فيمكنها التفكير عبر الصور والنصوص والفيديو في سياق واحد متماسك - مقارنة الأشياء، واستخراج النصوص المضمنة، وتحديد الأنماط التي لا توجد إلا في العلاقات البصرية.

GPT-4o (الذي تم إصداره في مايو 2024، وتم تحسينه بشكل متكرر حتى أوائل عام 2026) يقبل الصور والمستندات ومدخلات الفيديو الآن. يمكنه استخراج البيانات من لقطات الشاشة، وفهم تخطيطات واجهة المستخدم، وقراءة النصوص المكتوبة بخط اليد.

Claude 3.5 Sonnet (تم إصداره في أكتوبر 2024) و Claude 4 (المتوقع في 2026) يفهمان الصور بدقة مماثلة. غالبًا ما تؤكد إصدارات Anthropic على التفكير البصري - مطالبة النموذج بشرح لماذا يظهر الرسم البياني ما يظهره، وليس فقط ماذا يظهر.

Gemini 2.0 (تمت معاينته في ديسمبر 2024، وأصبح متاحًا بشكل عام في 5 فبراير 2025) تصدر العناوين لفهمه للفيديو. على عكس النماذج السابقة التي كانت تعالج الفيديو إطارًا بإطار، يعالج Gemini 2.0 الفيديو كتدفق مستمر، مع الحفاظ على السياق الزمني. يتيح ذلك اكتشاف الأنماط عبر مقاطع مدتها 30-60 ثانية دون استهلاك مفرط للـ tokens.

التأثير الحقيقي: تقوم منصة تجارة إلكترونية الآن برفع لقطة شاشة لصفحة منتج من عميل، ويقوم Claude باستخراج اسم المنتج وسعره وملخص المراجعة في استدعاء API واحد. يقوم فريق الامتثال بإدخال ملفات PDF وصور للمستندات؛ ويقوم GPT-4o بتسليط الضوء على التناقضات بين النص والرسوم البيانية المضمنة في نفس الاستجابة.

وكلاء الذكاء الاصطناعي: اتجاه أتمتة سير العمل

من الدردشة إلى الأنظمة المستقلة

يمثل عامي 2025-2026 التحول من "الذكاء الاصطناعي كأداة بحث يشغلها الإنسان" إلى "الذكاء الاصطناعي كنظام ينظم سير العمل". الفرق العملي: لم تعد بحاجة إلى توجيه النموذج لكل خطوة.

ما يفعله الوكيل:

  • تقسيم الهدف إلى خطوات
  • تنفيذ كل خطوة (باستخدام البحث في الويب، وقواعد البيانات، وواجهات برمجة التطبيقات APIs، وأنظمة الملفات)
  • التحقق من النتائج مقابل الهدف
  • التكيف أو التراجع إذا لزم الأمر
  • الإبلاغ عن النتيجة

مثال: "ابحث عن أفضل ثلاثة أطر عمل Python LLM مفتوحة المصدر، وقارن بين قيود ترخيصها، وأنشئ مصفوفة قرار." سيقضي الإنسان من ساعتين إلى ثلاث ساعات. أما الوكيل الذي يعمل مع البحث في الويب، والوصول إلى GitHub، و API لجداول البيانات، فيفعل ذلك في 90 ثانية. لا يزال الإنسان يراجع المصفوفة للتأكد من دقتها، لكن العمل الشاق قد ولى.

اللاعبون الحاليون:

  • OpenAI's Assistants API + استدعاء الوظائف (function calling) يسمح لـ GPT-4o باستدعاء واجهات برمجة تطبيقات خارجية في حلقات
  • Claude Opus (عبر API الخاص بـ Anthropic) يدعم التفكير الممتد واستخدام الأدوات، مما يمكن الوكلاء من التفكير في المشكلات متعددة الخطوات
  • Gemini من Google مع استخدام الأدوات يتيح بالمثل السلوك الوكيل (agentic behavior)
  • المصدر المفتوح: أطر عمل مثل LangChain و LlamaIndex تمكن من بناء وكلاء باستخدام أي نموذج مفتوح المصدر كعمود فقري

القيد العملي: الوكلاء جيدون في سير العمل المحدد (استخراج البيانات ← التحقق ← التخزين ← الإخطار) لكنهم يواجهون صعوبة في المهام التي تتطلب إبداعًا حقيقيًا أو أحكامًا تقديرية. النقطة المثالية هي العمل المتكرر والمقيد بالقواعد.

تطبيق قانون الذكاء الاصطناعي في الاتحاد الأوروبي: من النظرية إلى الواقع

ماذا حدث في أغسطس 2025

انتقل قانون الذكاء الاصطناعي في الاتحاد الأوروبي من المبادئ التوجيهية إلى التنفيذ في 2 أغسطس 2025. وهذا يعني:

  • أنظمة الذكاء الاصطناعي عالية المخاطر (التوظيف، تحديد الهوية البيومترية، البنية التحتية الحيوية) تتطلب امتثالاً موثقاً، وسجلات اختبار، وإشرافاً بشرياً
  • الاستخدامات المحظورة (التعرف على المشاعر في المدارس، التقييم الاجتماعي) محظورة تماماً
  • قواعد الشفافية تتطلب الكشف عندما يتفاعل شخص ما مع ذكاء اصطناعي، وليس إنساناً
  • غرامات تصل إلى 7% من إجمالي المبيعات السنوية العالمية للمخالفات الجسيمة

لشركات التكنولوجيا: الامتثال إلزامي وليس اختيارياً. الشركة الناشئة التي تستخدم GPT-4o لخدمة العملاء لا تحتاج إلى بنية تحتية جديدة. أما شركة التكنولوجيا المالية التي تستخدم نموذجاً مخصصاً للموافقة على القروض، فيجب عليها توثيق اختبارات التحيز الخاصة بها، والاحتفاظ بسجلات التدقيق، وتوضيح كيفية تجاوز البشر لقرارات الذكاء الاصطناعي.

للشركات غير التابعة للاتحاد الأوروبي: إذا كنت تخدم مستخدمين في الاتحاد الأوروبي، فأنت مشمول بالقانون. الامتثال يكلف مالاً، لكن الجهل يكلف أكثر.

النتيجة: تغير الإطار. قبل أغسطس 2025، كان "تنظيم الذكاء الاصطناعي" أمراً مجرداً. الآن أصبح بنداً في خرائط طريق المنتجات. تقوم الشركات بتعيين مسؤولي امتثال خصيصاً للذكاء الاصطناعي، وينشر بائعو النماذج تقارير شفافية.

الذكاء الاصطناعي في توليد الكود: تحويل الكود الروتيني إلى سلعة

نماذج مصممة خصيصاً للبرمجة

كان توليد الكود أحد أوائل النجاحات الكبرى للذكاء الاصطناعي. بعد ثلاث سنوات، أصبح أمراً مفروغاً منه.

GitHub Copilot (الآن في إصدار Copilot X، المدمج مع GPT-4o) يولد وظائف من التعليقات ويكمل الكود تلقائياً في الوقت الفعلي. إنه ليس مثالياً - فهو يولد أخطاء - لكنه يقلل الوقت المستغرق في كتابة الكود الروتيني إلى النصف.

Cursor (بيئة تطوير متكاملة IDE مبنية على VS Code) يعامل LLM كمواطن من الدرجة الأولى. تصف ما تريده بلغة إنجليزية بسيطة؛ ويقوم Cursor بتعديل ملفات كاملة بناءً على قصدك. إنه أسرع من Copilot لأن لديه فهماً أعمق لقاعدة الكود الخاصة بك.

Claude Code (عرض Anthropic) يعمل بشكل مشابه، حيث يقرأ مستودع الكود بالكامل ويجري تعديلات عبر ملفات متعددة في وقت واحد. إنه قوي بشكل خاص في إعادة هيكلة الكود (refactoring) والتغييرات المعمارية.

النماذج مفتوحة المصدر: النماذج الأصغر المتخصصة (DeepSeek Coder، ومتغيرات Code Llama) تضاهي الآن أو تتفوق على النماذج المغلقة في مهام القياس. إنها تعمل محلياً، مما يجذب الفرق التي لا تستطيع مشاركة الكود مع واجهات برمجة تطبيقات خارجية.

ما يعنيه هذا: كتابة الكود الروتيني يدوياً أصبحت الآن مضيعة للوقت. يجب على كل مبرمج محترف استخدام إحدى هذه الأدوات. تحول المهارة من "كتابة الكود" إلى "وصف القصد ومراجعة الكود المولد".

نماذج LLM مفتوحة المصدر: المشهد التنافسي

Llama 3، Mistral، DeepSeek، Qwen: من يتصدر

لسنوات، كانت النماذج مفتوحة المصدر متأخرة عن النماذج المغلقة بمدة 6-12 شهراً. هذه الفجوة تتقلص.

Llama 3 (من شركة Meta، مفتوح المصدر، متاح بأحجام 8B و 70B) يضاهي أداء Claude 3.5 Sonnet في العديد من الاختبارات المرجعية عند استخدامه بتقنية quantization للعمل على أجهزة المستهلكين العادية. نسخة 70B تتطلب وحدة معالجة رسومات (GPU) واحدة ولكنها قوية بما يكفي لمعظم حالات الاستخدام.

Mistral 7B و Mistral Large أثبتا أن النماذج الأصغر (7B) يمكنها منافسة النماذج الأكبر بكثير من خلال الكفاءة المعمارية. Mistral هو الخيار المفضل للنشر المباشر على الأجهزة.

DeepSeek (صيني، نماذج مفتوحة المصدر خلال 2025-2026) فاجأ المجتمع بنماذج DeepSeek-V2 (236B) و DeepSeek-R1 (671B)، وكلاهما منافس للنماذج المملوكة في مهام الاستنتاج. العائق الوحيد: أنها ضخمة وتتطلب قدرات حوسبة هائلة.

Qwen 2.5 (من Alibaba، مفتوح المصدر) توسع بشكل مماثل ليصل إلى أداء تنافسي. متاح بأحجام تبدأ من 3B إلى 72B.

النمط العام: النماذج مفتوحة المصدر قوية في المهام اللغوية العامة (الترجمة، التلخيص، الأسئلة والأجوبة) وتتحسن بسرعة في الاستنتاج. نقاط الضعف الحالية: المخرجات المهيكلة (JSON، المخططات المعقدة) والحالات النادرة ذات التعليمات غير التقليدية.

تأثير الأعمال: يمكن للشركة الآن تشغيل LLM تنافسي بالكامل داخل مقراتها. هذا يجذب الصناعات الخاضعة للتنظيم (التمويل، الرعاية الصحية) التي لا تستطيع إرسال بيانات العملاء إلى واجهات برمجة التطبيقات السحابية. التكلفة تنخفض بشكل كبير عندما لا تدفع مقابل كل رمز (token).

النماذج متعددة الوسائط + الوكلاء: وكيل معالجة مستندات يقرأ الصور، ويستخرج النص، ويتحقق منه مقابل قاعدة بيانات، ويحدد التناقضات. كل ذلك دون تدخل بشري.

الوكلاء + توليد الكود: نظام ذكاء اصطناعي يقرأ مشكلة في GitHub، وينشئ حلاً، ويجري الاختبارات، ويفتح طلب سحب (PR). الفرق تختبر هذا الآن.

المصادر المفتوحة + التنظيم: تستخدم الشركات النماذج مفتوحة المصدر للمهام المنظمة (الموافقة على القروض، التشخيص الطبي) لأنها تستطيع تشغيلها محلياً، وتسجيل كل شيء، والحفاظ على سجلات تدقيق كاملة - وكلها متطلبات يفرضها قانون الذكاء الاصطناعي في الاتحاد الأوروبي.

توليد الكود + المصادر المفتوحة: يقوم المطورون بتشغيل Code Llama محلياً للأكواد المملوكة، لتجنب مشكلة "إرسال الكود إلى Anthropic/OpenAI".

الخلاصة

الذكاء الاصطناعي في عام 2026 ليس أكثر بهرجة من عام 2024 - بل هو أكثر فائدة. الفهم متعدد الوسائط أصبح الآن معياراً قياسياً وليس مجرد ابتكار. الوكلاء يخرجون من المختبرات ويدخلون مرحلة الإنتاج. التنظيم أصبح حقيقة وليس فرضية. والنماذج مفتوحة المصدر لم تعد متأخرة بعدة خطوات.

الفائزون ليسوا الشركات التي تصنع "أفضل" النماذج، بل هم الذين يدمجون النماذج في سير العمل الذي يوفر الوقت أو المال فعلياً. الميزة التنافسية تكمن في طبقة التطبيق، وليس في أوزان النموذج.

إذا كنت تبني باستخدام الذكاء الاصطناعي هذا العام، فركز على ثلاثة أشياء: استخدم النماذج متعددة الوسائط لأي شيء مرئي. أتمت سير العمل باستخدام الوكلاء بدلاً من المطالبات الفردية. والتزم بالامتثال - خاصة إذا كان مستخدموك في الاتحاد الأوروبي أو في صناعات خاضعة للتنظيم.


نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.