GPT-5.4 يتفوق على البشر في استخدام الكمبيوتر: ماذا يعني ذلك

٥ أبريل ٢٠٢٦

GPT-5.4 Beats Humans at Computer Use: What It Means

ملخص

يعد GPT-5.4، الذي أصدرته OpenAI في 5 مارس 2026، النموذج العام الأعلى تسجيلاً للنقاط في اختبار OSWorld-Verified — حيث سجل 75.0% مقابل خط الأساس البشري البالغ 72.4%، وهو الأول الذي يتجاوزه بفارق حاسم. بفضل قدرات استخدام الكمبيوتر الأصلية، ونافذة سياق تبلغ مليون توكن، ومعايير مؤسسية قوية، يمثل GPT-5.4 نقطة تحول حقيقية لوكلاء الذكاء الاصطناعي المستقلين. إليك ما تغير، ولماذا يهم، وكيف يقارن بالمنافسين.


ما ستتعلمه

  • ما تفعله قدرات استخدام الكمبيوتر في GPT-5.4 فعلياً وكيف تعمل
  • كيف يقيس معيار OSWorld أتمتة مهام سطح المكتب الحقيقية
  • أين يقف GPT-5.4 مقارنة بـ Claude Sonnet 4.6 و Claude Opus 4.6 و Gemini 3.1 Pro
  • ماذا يعني هذا لسير عمل المؤسسات ومستقبل وكلاء الذكاء الاصطناعي
  • التسعير، ونافذة السياق، والاعتبارات العملية للمطورين

ما هو GPT-5.4؟

GPT-5.4 هو أحدث نموذج رائد من OpenAI، تم إطلاقه في 5 مارس 2026. وهو يمثل قفزة معمارية كبيرة عن سلفه GPT-5.2، مع ثلاث ميزات رئيسية تميزه: قدرات استخدام الكمبيوتر الأصلية، ونافذة سياق تبلغ مليون توكن (الأكبر التي قدمتها OpenAI على الإطلاق)، وكفاءة توكن محسنة بشكل كبير أثناء مهام الاستنتاج1.

يأتي النموذج في عدة إصدارات. يتعامل GPT-5.4 القياسي مع المهام العامة. تم تحسين GPT-5.4 Thinking لسلاسل الاستنتاج المعقدة. يستهدف GPT-5.4 Pro أعباء عمل المؤسسات عالية الأداء. تبعتها إصدارات أصغر — GPT-5.4 Mini و GPT-5.4 Nano — في 17 مارس، مما جلب تحسينات المعمارية إلى نقاط سعر أقل2.

ما يجعل GPT-5.4 جديراً بالنشر حقاً ليس مجرد مكاسب تدريجية في المعايير. إنه أول نموذج من OpenAI بقدرات استخدام كمبيوتر مدمجة — مما يعني أنه يمكنه التفاعل مباشرة مع برامج سطح المكتب من خلال لقطات الشاشة، وأوامر الماوس، ومدخلات لوحة المفاتيح. (كان نموذج Claude من Anthropic هو أول نموذج رائد يقدم استخدام الكمبيوتر، حيث أطلق الميزة في نسخة تجريبية عامة مع Claude 3.5 Sonnet في أكتوبر 2024.)


اختراق OSWorld: التغلب على الخبراء البشر

يعد معيار OSWorld-Verified هو التقييم القياسي لقياس مدى قدرة نماذج الذكاء الاصطناعي على إكمال مهام سطح المكتب الحقيقية بشكل مستقل — مثل التنقل في الملفات، واستخدام المتصفحات، وتشغيل واجهات Terminal، والتفاعل مع برامج الإنتاجية. وضع المختبرون الخبراء البشر خط الأساس عند 72.4%.

سجل GPT-5.4 نسبة 75.0% — وهي الأعلى لأي نموذج عام والأولى التي تتجاوز خط الأساس البشري بفارق واضح3. وصل إطار عمل Agent S المتخصص من Simular إلى 72.6% في ديسمبر 2025، وتجاوز Claude Opus 4.6 خط الأساس بفارق ضئيل عند 72.7% في فبراير 2026، لكن نسبة 75.0% لـ GPT-5.4 تمثل أول فجوة غير غامضة فوق مستوى الأداء البشري.

لتقدير وتيرة التحسن، تأمل المسار عبر نماذج OpenAI الأخيرة:

النموذج درجة OSWorld-Verified تاريخ الإصدار
GPT-5.2 47.3% ديسمبر 2025
GPT-5.3 Codex 64.7% فبراير 2026
GPT-5.4 75.0% 5 مارس 2026
خط الأساس للخبير البشري 72.4%

هذا تحسن بمقدار 28 نقطة في أقل من أربعة أشهر — من GPT-5.2 في ديسمبر 2025 إلى GPT-5.4 في مارس 2026 — وهو معدل تقدم يشير إلى أن دقة استخدام الكمبيوتر قد تصل إلى أواخر الثمانينات أو أوائل التسعينات خلال العام المقبل إذا استمر الاتجاه.

النتيجة العملية واضحة: يمكن لـ GPT-5.4 الآن ملء النماذج، والتنقل في سير عمل البرامج متعدد الخطوات، واستخراج البيانات من تطبيقات سطح المكتب، والتنسيق عبر علامات تبويب المتصفح بشكل أكثر موثوقية من الخبير البشري المتوسط الذي يؤدي نفس المهام في ظل ظروف محكومة.


كيف يعمل استخدام الكمبيوتر فعلياً

تعمل قدرة استخدام الكمبيوتر في GPT-5.4 من خلال حلقة "إدراك-فعل". يتلقى النموذج لقطة شاشة لحالة الشاشة الحالية، ويفكر في الإجراء الذي يجب اتخاذه بعد ذلك، ثم يصدر أوامر منظمة — نقرات الماوس عند إحداثيات محددة، أو مدخلات لوحة المفاتيح، أو إجراءات التمرير، أو التبديل بين التطبيقات.

هذا يختلف جوهرياً عن استخدام الأدوات القائم على API، حيث يستدعي النموذج وظائف محددة مسبقاً. استخدام الكمبيوتر يعني أن النموذج يتفاعل مع البرامج بنفس الطريقة التي يفعلها الإنسان — من خلال الواجهة المرئية. يمكنه تشغيل التطبيقات التي لا تحتوي على API، والتنقل في واجهات غير مألوفة، والتعافي من الحالات غير المتوقعة مثل النوافذ المنبثقة أو رسائل الخطأ.

يدعم تنفيذ OpenAI أيضاً الأتمتة القائمة على الكود عبر مكتبات مثل Playwright، مما يمنح المطورين نهجاً هجيناً: يمكن للنموذج كتابة وتنفيذ نصوص أتمتة المتصفح عند توفر واجهات برمجة التطبيقات، والرجوع إلى استخدام الكمبيوتر المرئي عندما لا تتوفر4.


كيف يقارن GPT-5.4 بالمنافسين

ليس GPT-5.4 هو النموذج الوحيد الذي يتمتع بقدرات استخدام الكمبيوتر. قدمت نماذج Claude من Anthropic استخدام الكمبيوتر منذ أواخر عام 2024، وتعد أحدث نماذج Claude Sonnet 4.6 و Claude Opus 4.6 منافسة في نفس المعايير.

النموذج OSWorld-Verified نافذة السياق استخدام الكمبيوتر
GPT-5.4 75.0% 1 مليون توكن أصلي
Claude Opus 4.6 72.7% 1 مليون توكن أصلي
Claude Sonnet 4.6 72.5% 1 مليون توكن أصلي
Gemini 3.1 Pro ~72.5% (غير رسمي) 1 مليون توكن نعم

الفجوة بين GPT-5.4 ونماذج Claude تبلغ حوالي 2-3 نقاط مئوية في OSWorld — وهي فجوة ذات مغزى ولكنها ليست ضخمة5. يتميز Claude Sonnet 4.6 بشكل خاص لأنه يقدم أداء استخدام كمبيوتر قريباً من مستوى Opus بنقطة سعر أقل بكثير، مما يجعله الخيار الأكثر فعالية من حيث التكلفة لأعباء عمل الوكلاء التي تعطي الأولوية لاستخدام الكمبيوتر.

لم تنشر Google Gemini 3.1 Pro رسمياً نتائج معيار OSWorld، على الرغم من أن التقييمات الخارجية تشير إلى أنه يسجل حوالي 72.5% — وهو ما ينافس نماذج Claude. تقدم جميع عائلات النماذج الرائدة الثلاثة الآن نوافذ سياق تبلغ مليون توكن، مما يزيل طول السياق كمميز ذي مغزى. ركزت Google جهودها في مجال الوكلاء بشكل أكبر على تكامل البحث والاستنتاج متعدد الوسائط بدلاً من سيناريوهات استخدام كمبيوتر سطح المكتب.


تأثير المؤسسات: من المعايير إلى غرف الاجتماعات

القصة الحقيقية لـ GPT-5.4 ليست رقم المعيار — بل ما يتيحه هذا الرقم في بيئات المؤسسات الإنتاجية.

سلطت OpenAI الضوء على أداء GPT-5.4 في مهام النمذجة المالية على وجه التحديد. في معيار داخلي يحاكي المهام التي قد يؤديها محلل مصرفي استثماري مبتدئ — نمذجة جداول البيانات، وتحليل السيناريوهات، واستخراج البيانات — سجل GPT-5.4 نسبة 87.3%، ارتفاعاً من 68.4% لـ GPT-5.26. هذه قفزة في القدرات تترجم مباشرة إلى توفير الوقت في العمل التحليلي المتكرر.

تشمل حالات استخدام المؤسسات التي يفتحها GPT-5.4 أو يحسنها بشكل كبير مراجعة المستندات على نطاق واسع (المذكرات القانونية، والمؤلفات العلمية، والمخطوطات متعددة الفصول التي تستفيد من نافذة سياق 1 مليون توكن)، وإدخال البيانات واستخراجها تلقائياً عبر الأنظمة القديمة بدون واجهات برمجة تطبيقات، وسير عمل الإعداد الشامل الذي ينسق عبر تطبيقات متعددة، وإنشاء التقارير المالية التي تجمع البيانات من جداول البيانات وقواعد البيانات ومصادر الويب.

يتوفر GPT-5.4 من خلال Microsoft Foundry (منصة الذكاء الاصطناعي الخاصة بـ Azure)، مما يجعله متاحاً لعملاء المؤسسات الذين يعملون بالفعل داخل منظومة Microsoft7.


اعتبارات التسعير والمطورين

يعكس تسعير GPT-5.4 مكانته كنموذج رائد، مع هيكل متدرج يغطي حالات استخدام مختلفة:

النموذج المدخلات (لكل 1 مليون توكن) المخرجات (لكل 1 مليون توكن)
GPT-5.4 $2.50 $15.00
GPT-5.4 Mini $0.75 $4.50
GPT-5.4 Nano $0.20 $1.25
GPT-5.4 Pro $30.00 $180.00

تبلغ تكلفة توكنز المدخلات المخزنة مؤقتاً (Cached) حوالي 1.25 دولار لكل مليون (خصم 50% يتم تطبيقه تلقائياً على السياق المتكرر). يتم تطبيق رسوم إضافية للسياق الممتد بعد 272 ألف توكن، مما يضاعف سعر المدخلات إلى 5.00 دولار لكل مليون8.

بالنسبة للمطورين الذين يبنون أنظمة وكلاء (agent systems)، فإن المقايضة العملية تكون بين GPT-5.4 الكامل (أفضل دقة في استخدام الكمبيوتر) وGPT-5.4 Mini (كافٍ للعديد من مهام الأتمتة بحوالي ثلث التكلفة). إصدار Nano مخصص لـ API فقط وهو الأنسب للمهام ذات الحجم الكبير والتعقيد المنخفض.


الصورة الأكبر: ماذا يعني "استخدام الكمبيوتر بقدرات خارقة"؟

يعد تخطي الخط الأساسي البشري في OSWorld علامة فارقة رمزية، لكن أهميتها تمتد إلى ما هو أبعد من مجرد درجة اختبار واحدة.

أولاً، إنه يثبت صحة نموذج "استخدام الكمبيوتر" نفسه. عندما كانت نماذج الذكاء الاصطناعي قادرة فقط على إكمال 30-40% من مهام سطح المكتب بشكل موثوق، كان استخدام الكمبيوتر مجرد فضول بحثي. أما عند نسبة 75% وفي تصاعد، فإنه يصبح طبقة أتمتة عملية يمكن للمؤسسات نشرها بثقة معقولة لتدفقات العمل المحددة جيداً.

ثانياً، إنه يسرع التحول من "مساعد طيار" (copilot) إلى "وكيل" (agent) في كيفية تفكير المؤسسات في نشر الذكاء الاصطناعي. المساعد يساعد — أما الوكيل فيتصرف. تدفع قدرات GPT-5.4 المزيد من تدفقات العمل إلى فئة "الوكيل"، حيث يمكن للذكاء الاصطناعي تنفيذ عمليات متعددة الخطوات من البداية إلى النهاية مع حد أدنى من الإشراف البشري. إذا كنت ترغب في فهم الأنماط المعمارية وراء أنظمة الوكلاء هذه، فإن دليلنا حول أنماط تنسيق الوكلاء يغطي قرارات التصميم الرئيسية. للحصول على نظرة أوسع حول كيفية إعادة تشكيل وكلاء الذكاء الاصطناعي لتدفقات عمل التطوير، راجع تعمقنا في تدفقات عمل التطوير الذاتية.

ثالثاً، تشتد ديناميكيات المنافسة. نماذج Claude من Anthropic تقع ضمن نطاق 2-3 نقاط من GPT-5.4 في OSWorld، ومن المرجح أن تعمل Google على قدرات مكافئة لـ Gemini. تنتج هذه المنافسة الثلاثية تحسينات سريعة — القفزة البالغة 28 نقطة في OSWorld منذ ديسمبر 2025 هي نتيجة مباشرة لهذا الضغط التنافسي.


ما يجب مراقبته تالياً

يتطور مجال وكلاء الذكاء الاصطناعي بسرعة. تشمل التطورات التي يجب مراقبتها خلال الأشهر القادمة نتائج OSWorld من تحديث نموذج Claude القادم (حيث تعمل Anthropic على سد الفجوة بثبات)، ورد فعل Google بقدرات Gemini الوكيلية (الاستدلال متعدد الوسائط القوي يمنحهم زاوية فريدة لتدفقات عمل الوكلاء)، وبيانات تبني المؤسسات (كم عدد المؤسسات التي تنشر بالفعل وكلاء استخدام الكمبيوتر في بيئة الإنتاج مقابل تشغيل التجارب الأولية)، وأطر السلامة والموثوقية (نتائج الاختبارات الخارقة لا تعني انعدام الأخطاء — تظل أنماط الفشل لوكلاء استخدام الكمبيوتر في بيئات الإنتاج مجالاً نشطاً للبحث).


المراجع

Footnotes

  1. Introducing GPT-5.4 — OpenAI

  2. OpenAI launches GPT-5.4 with Pro and Thinking versions — TechCrunch

  3. OpenAI Launches GPT-5.4 With Computer Agent Capabilities, Beats Human Baseline on OSWorld — AI Haven

  4. GPT-5.4 Unveiled: Native Computer Use and a Million-Token Context Window — Applying AI

  5. 2025-2026 AI Computer-Use Benchmarks and Top AI Agents Guide — o-mega

  6. OpenAI launches GPT-5.4, its most powerful model for enterprise work — Fortune

  7. GPT-5.4 Is Now Available in Microsoft Foundry — Cloud Factory Group

  8. GPT-5.4 Pricing — OpenRouter

الأسئلة الشائعة

GPT-5.4 هو أحدث نموذج لغوي كبير من OpenAI، تم إصداره في 5 مارس 2026. يتميز بقدرات أصلية لاستخدام الكمبيوتر، ونافذة سياق تبلغ مليون توكن، وكفاءة محسنة في الاستدلال. يحمل أعلى درجة لأي نموذج عام في اختبار OSWorld لمهام سطح المكتب، متجاوزاً أداء الخبراء البشر بفارق واضح.

نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.