ما هو اختبار OSWorld؟

OSWorld-Verified هو اختبار معياري يقيس مدى قدرة نماذج الذكاء الاصطناعي على إكمال مهام سطح المكتب الحقيقية بشكل مستقل — مثل التنقل في الملفات، واستخدام المتصفحات، وتشغيل البرامج. يسجل الخبراء البشريون 72.4% في المتوسط؛ بينما يسجل GPT-5.4 نسبة 75.0%.

كيف يقارن GPT-5.4 بـ Claude؟

اعتباراً من أبريل 2026، يتصدر GPT-5.4 في OSWorld-Verified بنسبة (75.0%) مقارنة بـ Claude Opus 4.6 بنسبة (72.7%) و Claude Sonnet 4.6 بنسبة (72.5%). تقدم كلتا عائلتي النماذج قدرات أصلية لاستخدام الكمبيوتر ونوافذ سياق تبلغ مليون توكن.

كم تبلغ تكلفة GPT-5.4؟

يبلغ سعر GPT-5.4 القياسي 2.50 دولار لكل مليون توكن إدخال و 15.00 دولار لكل مليون توكن إخراج. تتوفر متغيرات أصغر (Mini بسعر 0.75 دولار/4.50 دولار، و Nano بسعر 0.20 دولار/1.25 دولار) لحالات الاستخدام الحساسة للتكلفة.

هل يمكن لـ GPT-5.4 استبدال العمال البشريين؟

يتفوق GPT-5.4 في مهام سطح المكتب المحددة جيداً والمتكررة. هو أكثر فعالية كطبقة أتمتة لتدفقات العمل المنظمة بدلاً من كونه بديلاً كاملاً للحكم البشري. تعني درجة 75% في OSWorld أنه لا يزال يفشل في مهمة واحدة تقريباً من بين كل أربع مهام معقدة.

ai-ml

GPT-5.4 يتفوق على البشر في استخدام الكمبيوتر: ماذا يعني ذلك

٥ أبريل ٢٠٢٦

#GPT-5.4 #AI agents #computer use #OpenAI #OSWorld #enterprise AI #autonomous agents #Claude #LLM benchmarks

GPT-5.4 Beats Humans at Computer Use: What It Means

ملخص

يعد GPT-5.4، الذي أصدرته OpenAI في 5 مارس 2026، النموذج العام الأعلى تسجيلاً للنقاط في اختبار OSWorld-Verified — حيث سجل 75.0% مقابل خط الأساس البشري البالغ 72.4%، وهو الأول الذي يتجاوزه بفارق حاسم. بفضل إمكانيات استخدام الكمبيوتر الأصلية، ونافذة سياق تبلغ مليون توكن، ومعايير مؤسسية قوية، يمثل GPT-5.4 نقطة تحول حقيقية لعملاء الذكاء الاصطناعي المستقلين. إليك ما تغير، ولماذا يهم، وكيف يقارن بالمنافسين.

ما ستتعلمه

ما تفعله إمكانيات استخدام الكمبيوتر في GPT-5.4 فعلياً وكيف تعمل
كيف يقيس معيار OSWorld أتمتة مهام سطح المكتب الحقيقية
أين يقف GPT-5.4 مقارنة بـ Claude Sonnet 4.6 و Claude Opus 4.6 و Gemini 3.1 Pro
ماذا يعني هذا لتدفقات العمل في المؤسسات ومستقبل عملاء الذكاء الاصطناعي
التسعير، ونافذة السياق، والاعتبارات العملية للمطورين

ما هو GPT-5.4؟

GPT-5.4 هو أحدث نموذج رائد من OpenAI، تم إطلاقه في 5 مارس 2026. وهو يمثل قفزة معمارية كبيرة عن سلفه GPT-5.2، مع ثلاث ميزات رئيسية تميزه: إمكانيات استخدام الكمبيوتر الأصلية، ونافذة سياق تبلغ مليون توكن (الأكبر التي قدمتها OpenAI على الإطلاق)، وكفاءة توكن محسنة بشكل كبير أثناء مهام التفكير¹.

يأتي النموذج في عدة إصدارات. يتعامل GPT-5.4 القياسي مع المهام العامة. تم تحسين GPT-5.4 Thinking لسلاسل التفكير المعقدة. يستهدف GPT-5.4 Pro أعباء العمل المؤسسية عالية الأداء. تبعتها إصدارات أصغر — GPT-5.4 Mini و GPT-5.4 Nano — في 17 مارس، مما جلب تحسينات المعمارية إلى نقاط سعر أقل².

ما يجعل GPT-5.4 جديراً بالاهتمام حقاً ليس مجرد مكاسب تدريجية في المعايير. إنه أول نموذج من OpenAI يتمتع بإمكانيات استخدام كمبيوتر مدمجة — مما يعني أنه يمكنه التفاعل مباشرة مع برامج سطح المكتب من خلال لقطات الشاشة، وأوامر الماوس، ومدخلات لوحة المفاتيح. (كان نموذج Claude من Anthropic هو أول نموذج رائد يقدم استخدام الكمبيوتر، حيث أطلق الميزة في نسخة تجريبية عامة مع Claude 3.5 Sonnet في أكتوبر 2024.)

اختراق OSWorld: التفوق على الخبراء البشر

يعد معيار OSWorld-Verified هو التقييم القياسي لقياس مدى قدرة نماذج الذكاء الاصطناعي على إكمال مهام سطح المكتب الحقيقية بشكل مستقل — التنقل في الملفات، واستخدام المتصفحات، وتشغيل واجهات الأوامر (terminal)، والتفاعل مع برامج الإنتاجية. حدد المختبرون الخبراء البشر خط الأساس عند 72.4%.

سجل GPT-5.4 نسبة 75.0% — وهي الأعلى لأي نموذج عام والأولى التي تتجاوز خط الأساس البشري بفارق واضح³. وصل إطار عمل Agent S المتخصص من Simular إلى 72.6% في ديسمبر 2025، وتجاوز Claude Opus 4.6 خط الأساس بفارق ضئيل عند 72.7% في فبراير 2026، لكن نسبة 75.0% لـ GPT-5.4 تمثل أول فجوة غير غامضة فوق مستوى الأداء البشري.

لتقدير سرعة التحسن، تأمل المسار عبر نماذج OpenAI الأخيرة:

النموذج	درجة OSWorld-Verified	تاريخ الإصدار
GPT-5.2	47.3%	ديسمبر 2025
GPT-5.3 Codex	64.7%	فبراير 2026
GPT-5.4	75.0%	5 مارس 2026
خط الأساس للخبير البشري	72.4%	—

هذا تحسن بمقدار 28 نقطة في أقل من أربعة أشهر — من GPT-5.2 في ديسمبر 2025 إلى GPT-5.4 في مارس 2026 — وهو معدل تقدم يشير إلى أن دقة استخدام الكمبيوتر قد تصل إلى أواخر الثمانينات أو أوائل التسعينات خلال العام المقبل إذا استمر هذا الاتجاه.

النتيجة العملية واضحة ومباشرة: يمكن لـ GPT-5.4 الآن ملء النماذج، والتنقل في تدفقات عمل البرامج متعددة الخطوات، واستخراج البيانات من تطبيقات سطح المكتب، والتنسيق عبر علامات تبويب المتصفح بشكل أكثر موثوقية من الخبير البشري المتوسط الذي يؤدي نفس المهام تحت ظروف محكومة.

كيف يعمل استخدام الكمبيوتر فعلياً

تعمل إمكانية استخدام الكمبيوتر في GPT-5.4 من خلال حلقة "إدراك-فعل". يتلقى النموذج لقطة شاشة لحالة الشاشة الحالية، ويفكر في الإجراء الذي يجب اتخاذه بعد ذلك، ثم يصدر أوامر منظمة — نقرات الماوس عند إحداثيات محددة، أو مدخلات لوحة المفاتيح، أو إجراءات التمرير، أو تبديل التطبيقات.

يختلف هذا بشكل أساسي عن استخدام الأدوات القائم على API، حيث يستدعي النموذج وظائف محددة مسبقاً. استخدام الكمبيوتر يعني أن النموذج يتفاعل مع البرامج بنفس الطريقة التي يتفاعل بها الإنسان — من خلال الواجهة المرئية. يمكنه تشغيل التطبيقات التي لا تحتوي على API، والتنقل في واجهات غير مألوفة، والتعافي من الحالات غير المتوقعة مثل مربعات الحوار المنبثقة أو رسائل الخطأ.

يدعم تنفيذ OpenAI أيضاً الأتمتة القائمة على الكود عبر مكتبات مثل Playwright، مما يمنح المطورين نهجاً هجيناً: يمكن للنموذج كتابة وتنفيذ سيناريوهات أتمتة المتصفح عند توفر واجهات برمجة التطبيقات، والرجوع إلى استخدام الكمبيوتر المرئي عندما لا تتوفر⁴.

كيف يقارن GPT-5.4 بالمنافسين

ليس GPT-5.4 هو النموذج الوحيد الذي يتمتع بإمكانيات استخدام الكمبيوتر. قدمت نماذج Claude من Anthropic استخدام الكمبيوتر منذ أواخر عام 2024، وتعد أحدث نماذج Claude Sonnet 4.6 و Claude Opus 4.6 منافسة في نفس المعايير.

النموذج	OSWorld-Verified	نافذة السياق	استخدام الكمبيوتر
GPT-5.4	75.0%	1 مليون توكن	أصلي
Claude Opus 4.6	72.7%	1 مليون توكن	أصلي
Claude Sonnet 4.6	72.5%	1 مليون توكن	أصلي
Gemini 3.1 Pro	~72.5% (غير رسمي)	1 مليون توكن	نعم

الفجوة بين GPT-5.4 ونماذج Claude تبلغ حوالي 2-3 نقاط مئوية في OSWorld — وهي فجوة ذات مغزى ولكنها ليست ضخمة⁵. يتميز Claude Sonnet 4.6 بشكل خاص لأنه يقدم أداءً في استخدام الكمبيوتر يقترب من مستوى Opus بنقطة سعر أقل بكثير، مما يجعله الخيار الأكثر فعالية من حيث التكلفة لأعباء عمل الوكلاء التي تعطي الأولوية لاستخدام الكمبيوتر.

لم تنشر Google نتائج معيار OSWorld الرسمية لـ Gemini 3.1 Pro، على الرغم من أن التقييمات الخارجية تشير إلى أنه يسجل حوالي 72.5% — وهو منافس لنماذج Claude. تقدم جميع عائلات النماذج الرائدة الثلاثة الآن نوافذ سياق تبلغ مليون توكن، مما يزيل طول السياق كمميز ذي مغزى. ركزت Google جهودها الوكيلة بشكل أكبر على تكامل البحث والتفكير متعدد الوسائط بدلاً من سيناريوهات استخدام كمبيوتر سطح المكتب.

تأثير المؤسسات: من المعايير إلى غرف الاجتماعات

القصة الحقيقية لـ GPT-5.4 ليست رقم المعيار — بل ما يتيحه هذا الرقم في بيئات المؤسسات الإنتاجية.

سلطت OpenAI الضوء على أداء GPT-5.4 في مهام النمذجة المالية على وجه التحديد. في معيار داخلي يحاكي المهام التي قد يؤديها محلل مصرفي استثماري مبتدئ — نمذجة جداول البيانات، وتحليل السيناريوهات، واستخراج البيانات — سجل GPT-5.4 نسبة 87.3%، ارتفاعاً من 68.4% لـ GPT-5.2⁶. هذه قفزة في القدرات تترجم مباشرة إلى توفير الوقت في العمل التحليلي المتكرر.

تشمل حالات استخدام المؤسسات التي يفتحها GPT-5.4 أو يحسنها بشكل كبير مراجعة المستندات على نطاق واسع (المذكرات القانونية، والأدبيات العلمية، والمخطوطات متعددة الفصول التي تستفيد من نافذة سياق 1 مليون توكن)، وإدخال البيانات واستخراجها تلقائياً عبر الأنظمة القديمة بدون واجهات برمجة تطبيقات، وتدفقات عمل التوظيف الشاملة التي تنسق عبر تطبيقات متعددة، وإنشاء التقارير المالية التي تجمع البيانات من جداول البيانات وقواعد البيانات ومصادر الويب.

يتوفر GPT-5.4 من خلال Microsoft Foundry (منصة الذكاء الاصطناعي الخاصة بـ Azure)، مما يجعله متاحاً لعملاء المؤسسات الذين يعملون بالفعل داخل منظومة Microsoft⁷.

اعتبارات التسعير والمطورين

يعكس تسعير GPT-5.4 مكانته كنموذج رائد، مع هيكل متدرج يغطي حالات استخدام مختلفة:

النموذج	الإدخال (لكل 1 مليون توكن)	الإخراج (لكل 1 مليون توكن)
GPT-5.4	$2.50	$15.00
GPT-5.4 Mini	$0.75	$4.50
GPT-5.4 Nano	$0.20	$1.25
GPT-5.4 Pro	$30.00	$180.00

⚠ الأسعار تتغير بشكل متكرر. القيم المذكورة أعلاه للتوضيح فقط وقد تكون قديمة. تحقق دائماً من التسعير الحالي مباشرة من المزود قبل اتخاذ قرارات التكلفة: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.

تبلغ تكلفة توكنز الإدخال المخزنة مؤقتاً (Cached) حوالي 1.25 دولار لكل مليون (خصم 50% يتم تطبيقه تلقائياً على السياق المتكرر). يتم تطبيق رسوم إضافية للسياق الممتد بعد 272 ألف توكن، مما يضاعف معدل الإدخال إلى 5.00 دولار لكل مليون⁸.

بالنسبة للمطورين الذين يبنون أنظمة وكلاء (agent systems)، فإن المقايضة العملية تكون بين GPT-5.4 الكامل (أفضل دقة في استخدام الكمبيوتر) و GPT-5.4 Mini (كافٍ للعديد من مهام الأتمتة بحوالي ثلث التكلفة). إصدار Nano مخصص لـ API فقط وهو الأنسب للمهام ذات الحجم الكبير والتعقيد المنخفض.

الصورة الأكبر: ماذا يعني استخدام الكمبيوتر بقدرات خارقة؟

إن تجاوز الخط المرجعي البشري في OSWorld يعد علامة فارقة رمزية، لكن أهميته تمتد إلى ما هو أبعد من مجرد درجة اختبار واحدة.

أولاً، إنه يثبت صحة نموذج استخدام الكمبيوتر نفسه. عندما كانت نماذج الذكاء الاصطناعي قادرة فقط على إكمال 30-40% من مهام سطح المكتب بشكل موثوق، كان استخدام الكمبيوتر مجرد فضول بحثي. أما عند نسبة 75% وفي تصاعد، فإنه يصبح طبقة أتمتة عملية يمكن للمؤسسات نشرها بثقة معقولة لسير عمل محدد جيداً.

ثانياً، إنه يسرع التحول من "المساعد" (copilot) إلى "الوكيل" (agent) في كيفية تفكير المؤسسات في نشر الذكاء الاصطناعي. المساعد يساعد — أما الوكيل فيتصرف. تدفع قدرات GPT-5.4 المزيد من تدفقات العمل إلى فئة "الوكيل"، حيث يمكن للذكاء الاصطناعي تنفيذ عمليات متعددة الخطوات من البداية إلى النهاية مع حد أدنى من الإشراف البشري. إذا كنت تريد فهم الأنماط المعمارية وراء أنظمة الوكلاء هذه، فإن دليلنا حول أنماط تنسيق الوكلاء يغطي قرارات التصميم الرئيسية. للحصول على نظرة أوسع حول كيفية إعادة تشكيل وكلاء الذكاء الاصطناعي لتدفقات عمل التطوير، راجع تعمقنا في تدفقات عمل التطوير المستقلة.

ثالثاً، تشتد ديناميكيات المنافسة. نماذج Claude من Anthropic تقع ضمن نطاق 2-3 نقاط من GPT-5.4 في OSWorld، ومن المرجح أن تعمل Google على قدرات مكافئة لـ Gemini. تنتج هذه المنافسة الثلاثية تحسينات سريعة — قفزة الـ 28 نقطة في OSWorld منذ ديسمبر 2025 هي نتيجة مباشرة لهذا الضغط التنافسي.

ما الذي يجب مراقبته تالياً

يتطور مجال وكلاء الذكاء الاصطناعي بسرعة. تشمل التطورات العديدة التي يجب مراقبتها خلال الأشهر القادمة نتائج OSWorld من تحديث نموذج Claude القادم (حيث تعمل Anthropic على سد الفجوة بثبات)، ورد فعل Google مع قدرات Gemini الوكيلية (التفكير متعدد الوسائط القوي يمنحهم زاوية فريدة لتدفقات عمل الوكلاء)، وبيانات تبني المؤسسات (كم عدد المؤسسات التي تنشر بالفعل وكلاء استخدام الكمبيوتر في بيئة الإنتاج مقابل تشغيل المشاريع التجريبية)، وأطر السلامة والموثوقية (درجات الاختبار الخارقة لا تعني انعدام الأخطاء — تظل أنماط الفشل لوكلاء استخدام الكمبيوتر في بيئات الإنتاج مجالاً نشطاً للبحث).

المراجع

الأسئلة الشائعة

GPT-5.4 هو أحدث نموذج لغوي كبير من OpenAI، تم إصداره في 5 مارس 2026. يتميز بقدرات أصلية لاستخدام الكمبيوتر، ونافذة سياق تبلغ مليون توكن، وكفاءة محسنة في التفكير. يحمل أعلى درجة لأي نموذج للأغراض العامة في اختبار OSWorld لمهام سطح المكتب، متجاوزاً أداء الخبراء البشريين بفارق واضح.

GPT-5.4 يتفوق على البشر في استخدام الكمبيوتر: ماذا يعني ذلك

ملخص

ما ستتعلمه

ما هو GPT-5.4؟

اختراق OSWorld: التفوق على الخبراء البشر

كيف يعمل استخدام الكمبيوتر فعلياً

كيف يقارن GPT-5.4 بالمنافسين

تأثير المؤسسات: من المعايير إلى غرف الاجتماعات

اعتبارات التسعير والمطورين

الصورة الأكبر: ماذا يعني استخدام الكمبيوتر بقدرات خارقة؟

ما الذي يجب مراقبته تالياً

المراجع

الأسئلة الشائعة

مقالات ذات صلة

GPT-5.5: أول نموذج أساسي تمت إعادة تدريبه لشركة OpenAI منذ GPT-4.5

Claude Managed Agents: ابنِ عملاء AI جاهزين للإنتاج في غضون أيام

Trace Claude Agent Tool Calls with OpenTelemetry (2026)

Microsoft Work IQ APIs: طبقة سياق العميل الذكي (2026)

GPT-5.4 يتفوق على البشر في استخدام الكمبيوتر: ماذا يعني ذلك

ملخص

ما ستتعلمه

ما هو GPT-5.4؟

اختراق OSWorld: التفوق على الخبراء البشر

كيف يعمل استخدام الكمبيوتر فعلياً

كيف يقارن GPT-5.4 بالمنافسين

تأثير المؤسسات: من المعايير إلى غرف الاجتماعات

اعتبارات التسعير والمطورين

الصورة الأكبر: ماذا يعني استخدام الكمبيوتر بقدرات خارقة؟

ما الذي يجب مراقبته تالياً

المراجع

Footnotes

الأسئلة الشائعة

مقالات ذات صلة

GPT-5.5: أول نموذج أساسي تمت إعادة تدريبه لشركة OpenAI منذ GPT-4.5

Claude Managed Agents: ابنِ عملاء AI جاهزين للإنتاج في غضون أيام

Trace Claude Agent Tool Calls with OpenTelemetry (2026)

Microsoft Work IQ APIs: طبقة سياق العميل الذكي (2026)