كيف يعيد الذكاء الاصطناعي متعدد الوسائط والوكلاء تشكيل العمل في عام

تم التحديث: ٢٧ مارس ٢٠٢٦

#multimodal-ai #ai-agents #generative-ai #llm-trends #open-source-llms #eu-ai-act

How Multimodal AI and Agents Reshape Work in 2026

ملخص

أصبحت نماذج الذكاء الاصطناعي متعددة الوسائط تفهم الآن النصوص والصور والفيديو في وقت واحد، بينما تتعامل الوكلاء المستقلون مع تدفقات العمل المعقدة دون تدخل بشري. دخلت التزامات الذكاء الاصطناعي للأغراض العامة في قانون الذكاء الاصطناعي للاتحاد الأوروبي حيز التنفيذ في 2 أغسطس 2025، مما وضع متطلبات الامتثال للتطبيقات عالية المخاطر، وتتحدى النماذج مفتوحة المصدر الأنظمة البيئية التجارية المغلقة.

تاريخ اللقطة: أبريل 2026. تتغير إصدارات النماذج والأسعار بشكل متكرر — الاتجاهات والمقايضات في هذا المنشور تتقادم بشكل أبطأ من أرقام الإصدارات المحددة.

إذا كان عام 2023 هو العام الذي اقتحم فيه الذكاء الاصطناعي التيار السائد وكان عام 2024 يدور حول الصقل، فإن 2025-2026 هو عام التقارب. لم يعد الذكاء الاصطناعي يولد النصوص فحسب، بل أصبح يفكر عبر الصور والفيديو والكود. إنه يقوم بأتمتة تدفقات عمل كاملة كانت تتطلب سابقًا تنسيقًا بشريًا. ولأول مرة، أصبحت الأطر التنظيمية آليات إنفاذ حقيقية، وليست مجرد تهديدات مستقبلية.

لقد تغير المشهد بشكل كبير. قبل ستة أشهر، كان الذكاء الاصطناعي متعدد الوسائط يبدو متطورًا للغاية. اليوم، أصبح من المسلمات. قبل عام، كانت وكلاء الذكاء الاصطناعي مجرد أوراق بحثية في الغالب. اليوم، هم في أنظمة الإنتاج يديرون تدفقات عمل بملايين الدولارات. يغطي هذا المنشور ما تغير بالفعل، وأي النماذج هي الأهم، وما تحتاج لمعرفته حول التنظيم الموجود بالفعل.

الذكاء الاصطناعي متعدد الوسائط: ما وراء النص

ما تغير

لم يكن الاختراق مجرد "نماذج تقبل الصور". بل كان الفهم عبر الوسائط في وقت واحد. كانت الإصدارات السابقة (مثل GPT-4 Vision) يمكنها وصف صورة. أما النماذج الحالية فيمكنها التفكير عبر الصور والنصوص والفيديو في سياق واحد متماسك — مقارنة الأشياء، واستخراج النصوص المضمنة، وتحديد الأنماط التي لا توجد إلا في العلاقات البصرية.

كان GPT-4o (الذي صدر في 13 مايو 2024) هو النموذج "الشامل" الأصلي الذي جعل المدخلات متعددة الوسائط سائدة. ومنذ ذلك الحين، قامت OpenAI بالتطوير عبر خط GPT-5 — GPT-5 (7 أغسطس 2025)، و GPT-5.2 (11 ديسمبر 2025)، و GPT-5.4 (5 مارس 2026)، و GPT-5.5 (23 أبريل 2026) — حيث وسع كل منها قدرات التفكير، وتدفقات العمل القائمة على الوكلاء، والتعامل متعدد الوسائط.

قدم Claude 3.5 Sonnet (الذي صدر في 20 يونيو 2024) تفكيرًا بصريًا قويًا، وأطلقت Anthropic خط Claude 4 في 22 مايو 2025 مع Opus 4 و Sonnet 4. واعتبارًا من أبريل 2026، أصبحت التشكيلة الحالية هي Claude Opus 4.7 (16 أبريل 2026)، و Claude Sonnet 4.6 (17 فبراير 2026)، و Claude Haiku 4.5 (15 أكتوبر 2025). غالبًا ما تركز إصدارات Anthropic على التفكير البصري — حيث تطلب من النموذج شرح لماذا يظهر الرسم البياني ما يظهره، وليس فقط ماذا يظهر.

تصدر Gemini 2.0 (الذي عُرض للمعاينة في 11 ديسمبر 2024؛ وأصبح Flash متاحًا بشكل عام في 5 فبراير 2025) العناوين الرئيسية لفهم الفيديو. ومنذ ذلك الحين، أطلقت Google نموذج Gemini 3.1 Pro (19 فبراير 2026)، وهو الرائد الحالي لشركة Google، مع نافذة سياق تبلغ 1 مليون توكن عبر النصوص والصوت والصور والفيديو وملفات PDF ومستودعات الكود. على عكس النماذج السابقة التي كانت تعالج الفيديو إطارًا بإطار، تعالج خطوط Gemini 2.x و 3.x الفيديو كبث مستمر، مع الحفاظ على السياق الزمني. وهذا يتيح اكتشاف الأنماط عبر مقاطع مدتها 30-60 ثانية دون استهلاك مفرط للتوكنز.

التأثير الحقيقي: تقوم منصة تجارة إلكترونية الآن برفع لقطة شاشة لصفحة منتج من أحد العملاء، ويقوم Claude باستخراج اسم المنتج وسعره وملخص المراجعة في استدعاء API واحد. يقوم فريق الامتثال بإدخال ملفات PDF وصور للمستندات؛ ويقوم GPT-5.x بتسليط الضوء على التناقضات بين النص والمخططات المضمنة في نفس الاستجابة.

وكلاء الذكاء الاصطناعي: اتجاه أتمتة تدفق العمل

من الدردشة إلى الأنظمة المستقلة

يمثل عام 2025-2026 التحول من "الذكاء الاصطناعي كأداة بحث يديرها الإنسان" إلى "الذكاء الاصطناعي كنظام ينسق تدفقات العمل". الفرق العملي: لم تعد بحاجة إلى توجيه النموذج لكل خطوة.

ما يفعله الوكيل:

يقسم الهدف إلى خطوات
ينفذ كل خطوة (باستخدام البحث في الويب، وقواعد البيانات، وواجهات برمجة التطبيقات APIs، وأنظمة الملفات)
يتحقق من النتائج مقابل الهدف
يتكيف أو يتراجع إذا لزم الأمر
يبلغ عن النتيجة

مثال: "ابحث عن أفضل ثلاثة أطر عمل Python LLM مفتوحة المصدر، وقارن بين قيود تراخيصها، وأنشئ مصفوفة قرار". قد يقضي الإنسان ساعتين إلى ثلاث ساعات. أما الوكيل الذي يعمل مع البحث في الويب، والوصول إلى GitHub، و API لجداول البيانات، فيقوم بذلك في 90 ثانية. لا يزال الإنسان يراجع المصفوفة للتأكد من دقتها، لكن العمل الشاق قد انتهى.

اللاعبون الحاليون:

تسمح واجهات برمجة تطبيقات Responses و Assistants من OpenAI + استدعاء الوظائف لنموذج GPT-5.x باستدعاء واجهات برمجة تطبيقات خارجية في حلقات
يدعم Claude Opus 4.7 (عبر API من Anthropic) التفكير الممتد واستخدام الأدوات، مما يمكن الوكلاء من التفكير في المشكلات متعددة الخطوات
وبالمثل، يتيح Gemini 3.1 Pro من Google مع استخدام الأدوات سلوكًا يشبه الوكلاء عبر أعباء العمل ذات السياق الطويل والمستندات المتعددة
المصدر المفتوح: تتيح أطر عمل مثل LangChain و LlamaIndex بناء وكلاء باستخدام أي نموذج مفتوح المصدر كعمود فقري

قيد عملي: الوكلاء جيدون في تدفقات العمل المحددة (استخراج البيانات ← التحقق ← التخزين ← الإخطار) لكنهم يواجهون صعوبة في المهام التي تتطلب إبداعًا حقيقيًا أو أحكامًا تقديرية. النقطة المثالية هي العمل المتكرر والمقيد بالقواعد.

إنفاذ قانون الذكاء الاصطناعي للاتحاد الأوروبي: من النظرية إلى الواقع

ماذا حدث في أغسطس 2025

دخلت التزامات الذكاء الاصطناعي للأغراض العامة (GPAI) في قانون الذكاء الاصطناعي للاتحاد الأوروبي ونظام العقوبات الأوسع حيز التنفيذ في 2 أغسطس 2025 — بناءً على قواعد ممارسات الذكاء الاصطناعي المحظورة التي كانت مطبقة بالفعل منذ 2 فبراير 2025. وهذا يعني:

تتطلب أنظمة الذكاء الاصطناعي عالية المخاطر (التوظيف، تحديد الهوية البيومترية، البنية التحتية الحيوية) امتثالاً موثقًا، وسجلات اختبار، وإشرافًا بشريًا
الاستخدامات المحظورة (التعرف على المشاعر في المدارس، التقييم الاجتماعي) محظورة تمامًا
تتطلب قواعد الشفافية الكشف عن متى يتفاعل شخص ما مع ذكاء اصطناعي، وليس إنسانًا
يجب على مزودي GPAI نشر ملخصات لبيانات التدريب، وتوثيق بنية النموذج، واتباع سياسات تحترم حقوق الطبع والنشر
غرامات متدرجة: تصل إلى 35 مليون يورو أو 7% من إجمالي المبيعات السنوية العالمية لمخالفات الممارسات المحظورة؛ وتصل إلى 15 مليون يورو أو 3% لخرق الالتزامات الأخرى؛ وتصل إلى 7.5 مليون يورو أو 1% لتقديم معلومات مضللة. (تبدأ سلطات الإنفاذ المباشرة للاتحاد الأوروبي على مزودي GPAI أنفسهم فقط في 2 أغسطس 2026.)

بالنسبة لشركات التكنولوجيا: الامتثال إلزامي وليس اختياريًا. لا تحتاج الشركة الناشئة التي تستخدم GPT-5.x لخدمة العملاء إلى بنية تحتية جديدة. أما شركة التكنولوجيا المالية التي تستخدم نموذجًا مخصصًا للموافقة على القروض، فيجب عليها توثيق اختبارات التحيز الخاصة بها، والاحتفاظ بسجلات التدقيق، وتحديد كيفية تجاوز البشر لقرارات الذكاء الاصطناعي.

بالنسبة للشركات غير التابعة للاتحاد الأوروبي: إذا كنت تخدم مستخدمين في الاتحاد الأوروبي، فأنت مشمول بالقانون. الامتثال يكلف مالاً، لكن الجهل يكلف أكثر.

النتيجة: تغير الإطار. قبل أغسطس 2025، كان "تنظيم الذكاء الاصطناعي" أمرًا نظريًا. الآن أصبح بندًا في خرائط طريق المنتجات. تقوم الشركات بتعيين مسؤولي امتثال خصيصًا للذكاء الاصطناعي، وينشر بائعو النماذج تقارير الشفافية.

الذكاء الاصطناعي في توليد الكود: تحويل الكود النمطي إلى سلعة

نماذج مصممة خصيصًا للبرمجة

كان توليد الكود أحد أوائل الانتصارات الكبرى للذكاء الاصطناعي. وبعد ثلاث سنوات، أصبح من المسلمات.

يقوم GitHub Copilot (مع إمكانية اختيار النماذج عبر GPT-5.x و Claude Sonnet 4.6 و Gemini) بتوليد الوظائف من التعليقات وإكمال الكود تلقائيًا في الوقت الفعلي. إنه ليس مثاليًا — فهو يولد أخطاء برمجية — لكنه يقلل الوقت المستغرق في كتابة الكود الروتيني إلى النصف.

يعامل Cursor (بيئة تطوير متكاملة مبنية على VS Code) الـ LLM كمواطن من الدرجة الأولى. أنت تصف ما تريده باللغة الإنجليزية البسيطة؛ ويقوم Cursor بتعديل ملفات كاملة بناءً على قصدك. إنه أسرع من Copilot لأنه يمتلك فهماً أعمق لقاعدة الكود الخاصة بك.

يعمل Claude Code (عرض Anthropic) بشكل مشابه، حيث يقرأ المستودع بالكامل ويجري تعديلات عبر ملفات متعددة في وقت واحد. إنه قوي بشكل خاص في إعادة هيكلة الكود (Refactoring) والتغييرات المعمارية.

النماذج مفتوحة المصدر: النماذج الأصغر المتخصصة (DeepSeek Coder، وإصدارات Code Llama) تضاهي الآن أو تتفوق على النماذج المغلقة في مهام الاختبارات المعيارية. وهي تعمل محلياً، مما يجذب الفرق التي لا تستطيع مشاركة الكود مع واجهات برمجة تطبيقات خارجية.

ما يعنيه هذا: كتابة الكود الروتيني (Boilerplate) يدوياً أصبحت الآن مضيعة للوقت. يجب على كل مطور محترف استخدام إحدى هذه الأدوات. تحول المهارة من "كتابة الكود" إلى "وصف القصد ومراجعة الكود المولد".

نماذج الـ LLM مفتوحة المصدر: المشهد التنافسي

Llama 3، Mistral، DeepSeek، Qwen: من المتصدر؟

لسنوات، كانت النماذج مفتوحة المصدر متأخرة بـ 6-12 شهراً عن النماذج المغلقة. هذه الفجوة تتقلص.

يضاهي Llama 3 (من Meta، مفتوح المصدر، متاح بأحجام 8B و 70B) أداء Claude 3.5 Sonnet في العديد من الاختبارات المعيارية عند تكميمه (Quantized) للعمل على أجهزة المستهلكين. يتطلب إصدار 70B وحدة معالجة رسومات (GPU) واحدة ولكنه قوي بما يكفي لمعظم حالات الاستخدام.

أثبت Mistral 7B و Mistral Large أن النماذج الأصغر (7B) يمكنها منافسة النماذج الأكبر بكثير من خلال الكفاءة المعمارية. يعد Mistral الخيار المفضل للنشر على الأجهزة مباشرة.

فاجأ DeepSeek (صيني، نماذج مفتوحة المصدر خلال 2024-2026) المجتمع بنموذج DeepSeek-V2 (إجمالي 236B / نشط 21B، MoE) ونموذج الاستنتاج DeepSeek-R1 (إجمالي 671B / نشط 37B، MoE)، وكلاهما منافس للنماذج المملوكة. استمر الفريق في الشحن بوتيرة سريعة — V3.1 (أغسطس 2025)، V3.2 (1 ديسمبر 2025)، ومعاينة V4 / V4-Pro (24 أبريل 2026) مع نافذة سياق تبلغ مليون توكن. تعني تصميمات MoE أن جزءاً فقط من المعلمات يتم تنشيطه لكل توكن، ولكنك لا تزال بحاجة إلى ذاكرة GPU كبيرة لاستضافة مجموعة الأوزان الكاملة.

توسع Qwen 2.5 (من Alibaba، مفتوح المصدر) بشكل مشابه ليصل إلى أداء تنافسي. متاح بأحجام من 3B إلى 72B.

النمط: النماذج مفتوحة المصدر قوية في المهام اللغوية العامة (الترجمة، التلخيص، الأسئلة والأجوبة) وتتحسن بسرعة في الاستنتاج. حيث لا تزال تتأخر: المخرجات المهيكلة (JSON، المخططات المعقدة) والحالات النادرة ذات التعليمات غير المعتادة.

تأثير الأعمال: يمكن للشركة الآن تشغيل LLM تنافسي بالكامل في مقراتها. هذا يجذب الصناعات الخاضعة للتنظيم (التمويل، الرعاية الصحية) التي لا تستطيع إرسال بيانات العملاء إلى واجهات برمجة تطبيقات سحابية. تنخفض التكلفة بشكل كبير عندما لا تدفع مقابل كل توكن.

كيف تترابط هذه الاتجاهات

متعدد الوسائط + الوكلاء: وكيل معالجة مستندات يقرأ الصور، ويستخرج النص، ويتحقق منه مقابل قاعدة بيانات، ويحدد التناقضات. كل ذلك دون تدخل بشري.

الوكلاء + توليد الكود: نظام ذكاء اصطناعي يقرأ مشكلة في GitHub، ويولد حلاً، ويجري الاختبارات، ويفتح طلب سحب (PR). تختبر الفرق هذا الآن.

المصدر المفتوح + التنظيم: تستخدم الشركات النماذج مفتوحة المصدر للمهام المنظمة (الموافقة على القروض، التشخيص الطبي) لأنها تستطيع تشغيلها محلياً، وتسجيل كل شيء، والحفاظ على مسارات تدقيق كاملة — وكل ذلك مطلوب بموجب قانون الذكاء الاصطناعي في الاتحاد الأوروبي.

توليد الكود + المصدر المفتوح: يقوم المطورون بتشغيل Code Llama محلياً للكود المملوك، متجنبين مشكلة "إرسال الكود إلى Anthropic/OpenAI".

الخلاصة

الذكاء الاصطناعي في عام 2026 ليس أكثر بهرجة من عام 2024 — بل هو أكثر فائدة. الفهم متعدد الوسائط أصبح الآن معياراً وليس حداثة. الوكلاء يخرجون من المختبرات ويدخلون حيز الإنتاج. التنظيم حقيقي وليس افتراضياً. والنماذج مفتوحة المصدر لم تعد متأخرة بعدة جولات.

الفائزون ليسوا الشركات التي تصنع "أفضل" النماذج. بل هم الذين يدمجون النماذج في سير العمل الذي يوفر الوقت أو المال فعلياً. الخندق التنافسي يكمن في طبقة التطبيق، وليس في أوزان النموذج.

إذا كنت تبني باستخدام الذكاء الاصطناعي هذا العام، فركز على ثلاثة أشياء: استخدم تعدد الوسائط لأي شيء مرئي. أتمت سير العمل باستخدام الوكلاء بدلاً من المطالبات ذات المرة الواحدة. وحافظ على الامتثال — خاصة إذا كان مستخدموك في الاتحاد الأوروبي أو في الصناعات الخاضعة للتنظيم.