Claude Opus 4.7: اختبارات الأداء، المميزات والأسعار

١٧ أبريل ٢٠٢٦

Claude Opus 4.7: Benchmarks, Features & Pricing

ملخص

أصدرت شركة Anthropic نموذج Claude Opus 4.7 في 16 أبريل 2026. يتصدر النموذج اختبار SWE-bench Pro بنسبة 64.3% — متفوقاً على GPT-5.4 (57.7%) وGemini 3.1 Pro (54.2%) — كما سجل رقماً قياسياً جديداً في OSWorld-Verified بنسبة 78.0%، ارتفاعاً من 72.7% لنموذج Opus 4.6. التسعير لم يتغير عند 5.00 دولار / 25.00 دولار لكل مليون توكن (مدخلات/مخرجات)، على الرغم من أن المحلل اللغوي (tokenizer) الجديد يستهلك توكنز أكثر بنسبة تصل إلى 35% لنفس النص. تشمل الإضافات الرئيسية مستوى جهد جديداً xhigh، والتفكير التكيفي (الذي يحل محل ميزانيات التفكير الممتد)، وميزانيات المهام للحلقات الوكيلية (agentic loops)، ودقة صور أعلى بـ 3 أضعاف لاستخدام الكمبيوتر.


ما ستتعلمه

  • كيف يحقق Claude Opus 4.7 نتائج في اختبارات SWE-bench Pro وOSWorld وGPQA وCursorBench وغيرها من المعايير الرئيسية
  • ما الذي تغير مقارنة بـ Claude Opus 4.6 — وما الذي تمت إزالته
  • مستوى الجهد الجديد xhigh ونظام التفكير التكيفي
  • التسعير، وتغييرات المحلل اللغوي (tokenizer)، وما تعنيه للتكاليف الحقيقية لـ API
  • أين يتصدر Opus 4.7، وأين يلحق به المنافسون، وما الذي لا يزال متاحاً بالدعوة فقط

تفاصيل الإصدار

أصبح Claude Opus 4.7 متاحاً بشكل عام في 16 أبريل 2026، قبل يوم واحد من هذا المنشور. معرف نموذج API هو claude-opus-4-7، وهو متاح على API الخاص بـ Anthropic، وAmazon Bedrock، وGoogle Cloud Vertex AI، وMicrosoft Foundry، وSnowflake Cortex AI، وGitHub Copilot Enterprise1.

يأتي النموذج كإصدار واحد فقط — لا توجد فئات Thinking أو Pro أو Mini لـ Opus 4.7. تمت إزالة ميزانيات التفكير الممتد تماماً (ضبط budget_tokens الآن يعيد خطأ 400)؛ ويحل التفكير التكيفي محلها. تاريخ انقطاع المعرفة هو يناير 20262.


نتائج الاختبارات القياسية

البرمجة — حيث يتصدر Opus 4.7 بوضوح

يعد SWE-bench المقياس القياسي لهندسة البرمجيات المستقلة: بالنظر إلى مشكلة في GitHub، هل يستطيع النموذج كتابة طلب سحب (pull request) يجتاز مجموعة الاختبارات؟ يسجل Opus 4.7 نتيجة قصوى جديدة في إصدار SWE-bench Pro الأكثر صعوبة:

النموذجSWE-bench ProSWE-bench Verified
Claude Opus 4.764.3%87.6%
GPT-5.457.7%
Gemini 3.1 Pro54.2%80.6%
Claude Opus 4.653.4%80.8%

في SWE-bench Pro، يتصدر Opus 4.7 بأكثر من 6 نقاط على GPT-5.4 و10 نقاط على Gemini. في لوحة الصدارة القياسية لـ SWE-bench Verified، ارتفع Opus 4.7 من 80.8% إلى 87.6% — وهو تحسن بمقدار 6.8 نقطة عن سلفه3.

أبلغت Anthropic أيضاً عن تحسن بنسبة 13% في اختبار برمجة داخلي مكون من 93 مهمة، ووجد نشر الإنتاج في Rakuten أن Opus 4.7 يحل مهام إنتاج حقيقية أكثر بـ 3 أضعاف من Opus 4.6 في إصدار SWE-bench الخاص بهم4.

استخدام الكمبيوتر — OSWorld

يقيس OSWorld-Verified إكمال مهام سطح المكتب المستقلة (إدارة الملفات، التنقل في المتصفح، سير عمل التطبيقات المتعددة). خط الأساس للخبير البشري هو تقريباً 72.4%:

النموذجOSWorld-Verified
GPT-5.475.0%
Claude Opus 4.778.0%
Claude Opus 4.672.7%
خط الأساس للخبير البشري~72.4%

يتفوق Opus 4.7 على GPT-5.4 في هذا الاختبار، حيث وصل إلى 78.0% ووسع الفجوة فوق خط الأساس البشري. يعود هذا التحسن جزئياً إلى سقف دقة صورة جديد يبلغ 3.75 ميجابكسل لاستخدام الكمبيوتر — ارتفاعاً من 1.15 ميجابكسل في Opus 4.6 — وإحداثيات ترتبط بنسبة 1:1 مع البكسلات، مما يلغي حسابات عامل القياس التي كانت تسبب سابقاً أخطاء في استهداف إحداثيات الشاشة5.

سير عمل المطورين — CursorBench

يقيم CursorBench مهام مساعد البرمجة في العالم الحقيقي كما تحدث في بيئة IDE. سجل Opus 4.7 نسبة 70%، ارتفاعاً من 58% لـ Opus 4.6 — وهي قفزة بمقدار 12 نقطة تضعه فوق النماذج المنافسة في هذا الاختبار6.

العلوم على مستوى الدراسات العليا — GPQA Diamond

في GPQA Diamond (الفيزياء والكيمياء والأحياء على مستوى الدراسات العليا)، لا يمكن التمييز إحصائياً بين النماذج الثلاثة الرائدة:

النموذجGPQA Diamond
GPT-5.4 Pro94.4%
Gemini 3.1 Pro94.3%
Claude Opus 4.794.2%

الاختلافات هنا تقع ضمن نطاق ضجيج القياس. لا يوجد نموذج واحد يمتلك ميزة ذات مغزى في التفكير العلمي على مستوى الدراسات العليا7.

العمل المعرفي — GDPVal-AA

GDPVal-AA هو اختبار قياسي يعتمد على نظام Elo يقيس العمل المعرفي العام عبر تحليل الأعمال، ومعالجة المستندات، ومهام التفكير المهني:

النموذجGDPVal-AA (Elo)
Claude Opus 4.71,753
GPT-5.41,674
Gemini 3.1 Pro1,314

يمتلك Opus 4.7 ميزة بـ 79 نقطة على GPT-5.4 في هذا الاختبار، بينما يتأخر Gemini 3.1 Pro بشكل كبير عند 1,3148.

الأمن — حدة البصر XBOW

في اختبار حدة البصر للأمن السيبراني من XBOW، سجل Opus 4.7 نسبة 98.5%، مقابل 54.5% لـ Opus 4.6 — وهي أكبر قفزة لجيل واحد في أي اختبار قياسي في هذا الإصدار. تصف Anthropic نموذج Opus 4.7 بأنه حقل تجارب لضمانات سيبرانية جديدة يتم التحقق منها قبل الإصدار الأوسع المحتمل لنماذج فئة Mythos9.

في اختبار BigLaw Bench من Harvey (التفكير القانوني المهني)، سجل Opus 4.7 نسبة 90.9% عند مستوى الجهد العالي10.


ما الجديد مقارنة بـ Opus 4.6

التفكير التكيفي يحل محل ميزانيات التفكير الممتد

أكبر تغيير معماري: اختفت ميزانيات التفكير الممتد. ضبط budget_tokens في طلب API الخاص بك يعيد الآن خطأ 400. بدلاً منها، قدمت Anthropic التفكير التكيفي — وهو مغلق افتراضياً، ويتم تفعيله عبر API — والذي تقول Anthropic إنه يتفوق على التفكير الممتد في التقييمات الداخلية. يقوم النظام بتخصيص حوسبة التفكير ديناميكياً بدلاً من مطالبة المطورين بوضع سقف للتوكنز.

تستمر كتل التفكير (Thinking blocks) في الظهور في تدفق الاستجابة (response stream)، ولكن حقل thinking يكون فارغاً بشكل افتراضي ما لم تقم بتعيين display: "summarized" في طلبك11.

مستوى جهد xhigh الجديد

يوجد مستوى جهد جديد xhigh يقع بين المستويين السابقين high و max، مما يمنح المطورين تحكماً أدق في المقايضة بين التفكير وزمن الاستجابة (latency). توصي Anthropic باستخدام xhigh لحالات استخدام البرمجة والوكلاء (agentic use cases) حيث تريد تفكيراً أقوى دون دفع تكلفة max الكاملة12.

ميزانيات المهام للحلقات الوكيلية (Agentic Loops)

تتيح ميزة تجريبية عامة جديدة (رأس البيتا task-budgets-2026-03-13) تعيين ميزانية رموز (token budget) استشارية عبر حلقة وكيلية كاملة — وليس مجرد استدعاء نموذج واحد. الحد الأدنى هو 20,000 رمز. هذا ليس حداً صارماً ولكنه يوجه تخطيط النموذج نحو إكمال المهمة ضمن الميزانية، مما يقلل من استهلاك الرموز غير المنضبط في سير عمل الوكلاء الطويل13.

دقة صورة أعلى بـ 3 أضعاف لاستخدام الكمبيوتر

ترتفع أقصى دقة للصورة من 1,568 بكسل (1.15 ميجابكسل) إلى 2,576 بكسل (3.75 ميجابكسل) — أي أكثر من ثلاثة أضعاف عدد البكسلات. مخرجات الإحداثيات الآن ترتبط بنسبة 1:1 بمواقع البكسل الفعلية، مما يلغي أخطاء تحويل عامل القياس (scale-factor) التي تسببت في نقرات خاطئة في عمليات نشر استخدام الكمبيوتر في Opus 4.6.

للحصول على نظرة أعمق حول كيفية إعادة تشكيل قدرات استخدام الكمبيوتر في Claude لسير عمل الوكلاء، راجع منشورنا حول وكلاء Claude المدارين.

إزالة بارامترات أخذ العينات (Sampling Parameters)

يؤدي تعيين temperature أو top_p أو top_k إلى قيم غير افتراضية الآن إلى إرجاع خطأ 400. لقد فرضت Anthropic سيطرة كاملة على أخذ العينات لنموذج Opus 4.7. سيحتاج المطورون الذين اعتمدوا على ضبط درجة الحرارة (temperature) لتنوع المخرجات إلى استخدام هندسة الأوامر (prompt-engineer) بدلاً من ذلك.

لهجة أكثر مباشرة وأقل خضوعاً

يوصف Opus 4.7 بأنه أكثر مباشرة وتمسكاً برأيه من 4.6 — أقل ميلاً للتأكيد والمجاملة، مع عدد أقل من الرموز التعبيرية في الردود وآراء أقوى عند سؤاله. في مستويات الجهد المنخفضة، يكون أكثر حرفية ولن يقوم بتعميم التعليمات التي يعتبرها غامضة بشكل صامت14.

/ultrareview في Claude Code

يتوفر أمر مائل جديد /ultrareview في Claude Code لإجراء مراجعات أعمق للأكواد15.


التسعير والتكلفة في العالم الحقيقي

بطاقة الأسعار المنشورة لم تتغير عن Opus 4.6:

الفئةالإدخال (Input)الإخراج (Output)
Standard$5.00 / مليون رمز$25.00 / مليون رمز
Batch API (خصم 50%)$2.50 / مليون رمز$12.50 / مليون رمز
Cache reads$0.50 / مليون رمز
Cache writes (5 دقائق)$6.25 / مليون رمز
Cache writes (ساعة واحدة)$10.00 / مليون رمز

التحذير الحاسم: يستخدم Opus 4.7 أداة ترميز (tokenizer) جديدة تحول نفس نص الإدخال إلى ما يصل إلى 35% رموز أكثر من نماذج Claude الأقدم. سعر الرمز الواحد لم يتغير، لكن التكلفة الفعلية لكل طلب أعلى. يجب على المطورين الذين ينتقلون من Opus 4.6 قياس استهلاكهم الفعلي للرموز قبل افتراض تكافؤ التكلفة16.

للمقارنة، يتوفر Gemini 3.1 Pro بسعر تقريبي 2.00 دولار للإدخال / 12.00 دولار للإخراج لكل مليون رمز — أي أرخص بـ 2.5 مرة تقريباً في السعر المعلن — وإن كان بملف قدرات مختلف ولا توجد نتائج منشورة لـ SWE-bench Pro أو GDPVal-AA للمقارنة المباشرة.


ما ليس عليه Opus 4.7: معاينة Claude Mythos

أعلى نموذج قدرة لدى Anthropic ليس Opus 4.7. بل هو Claude Mythos Preview — الذي تم تطويره تحت مشروع Glasswing — وتم إطلاقه مع 12 شريكاً مسمى من المؤسسات والحكومات، مع توسيع نطاق الوصول إلى أكثر من 40 منظمة إضافية تم فحصها على أساس الدعوة فقط. شركاء الإطلاق المسمون هم Anthropic و AWS و Apple و Broadcom و Cisco و CrowdStrike و Google و JPMorganChase و Linux Foundation و Microsoft و Nvidia و Palo Alto Networks.

يركز Mythos على سير عمل الأمن السيبراني الدفاعي. تصفه Anthropic بأنه "أكثر قدرة وأفضل توافقاً" من Opus 4.7 في تقييماتها الداخلية. يتم وضع Opus 4.7 صراحةً كنموذج تختبر عليه Anthropic ضمانات سيبرانية جديدة — للتحقق من المناهج قبل الانتقال في النهاية نحو إصدار أوسع من فئة Mythos.

للحصول على سياق حول تقييم الأمن السيبراني لـ Mythos، راجع منشورنا حول تقييم AISI لـ Claude Mythos سيبرانياً.


ملف السلامة

تصف Anthropic توافق Opus 4.7 بأنه "متوافق جيداً وجدير بالثقة إلى حد كبير، وإن لم يكن مثالياً تماماً في سلوكه". تشمل التحسينات المحددة على 4.6 صدقاً أفضل ومقاومة محسنة لهجمات حقن الأوامر (prompt injection). تراجع ملحوظ واحد: Opus 4.7 "أضعف قليلاً" من 4.6 في تجنب تقديم نصائح مفصلة للغاية حول تقليل الضرر فيما يتعلق بالمواد الخاضعة للرقابة17.

يكتشف النموذج تلقائياً الطلبات التي تشير إلى استخدامات محظورة أو عالية المخاطر في الأمن السيبراني ويحظرها. يتوفر برنامج التحقق السيبراني (Cyber Verification Program) لمتخصصي الأمن الشرعيين الذين يحتاجون إلى قدرات موسعة. تم نشر بطاقة نظام Claude Opus 4.7 كاملة18.


كيف يقارن: النسخة القصيرة

يعد Opus 4.7 أقوى نموذج للبرمجة الذاتية والمهام الوكيلية في الوقت الحالي. في SWE-bench Pro يتصدر بأكثر من 6 نقاط؛ وفي OSWorld يتفوق على GPT-5.4 بنسبة 78.0%. بالنسبة للتفكير العلمي العام (GPQA Diamond)، فقد انهارت الفجوة فعلياً بين النماذج الرائدة — حيث تقع النماذج الثلاثة ضمن نطاق 0.2 نقطة من بعضها البعض.

أين يفقد Opus 4.7 مكانته: التسعير (Gemini 3.1 Pro أرخص في السعر المعلن بحوالي 2.00 دولار / 12.00 دولار لكل مليون رمز، على الرغم من أن مقارنات المعايير غير مكتملة). نوافذ السياق متساوية — كلا النموذجين يدعمان مليون رمز. إذا كنت تقوم بالتحسين من أجل التكلفة في سير عمل المستندات الطويلة بدلاً من وكلاء البرمجة، فإن المقايضات تتغير.

للحصول على نظرة أوسع حول مكانة وكلاء الذكاء الاصطناعي الآن بالنسبة للأداء البشري عبر كل فئة من فئات المعايير، راجع تقرير مؤشر ستانفورد للذكاء الاصطناعي 2026 وتحليلنا السابق لـ نتائج استخدام الكمبيوتر لـ GPT-5.4.


References

Footnotes

  1. Claude Opus 4.7 announcement — Anthropic

  2. Claude models overview — Anthropic platform docs

  3. Claude Opus 4.7 SWE-bench Pro scores — The Next Web

  4. Claude Opus 4.7 coding benchmarks — Anthropic announcement

  5. What's new in Claude 4.7 — Anthropic platform docs

  6. CursorBench scores — Anthropic announcement

  7. GPQA Diamond benchmark comparison — Startup Fortune

  8. GDPVal-AA Elo scores — benchmark aggregators citing Anthropic data

  9. XBOW visual acuity benchmark and cyber safeguards — Anthropic announcement

  10. BigLaw Bench — Anthropic announcement

  11. Adaptive thinking replaces extended thinking budgets — Anthropic platform docs

  12. xhigh effort level — Anthropic platform docs

  13. Task budgets beta — Anthropic platform docs

  14. Tone and instruction-following changes — Anthropic platform docs

  15. /ultrareview in Claude Code — Anthropic platform docs

  16. Claude Opus 4.7 pricing and tokenizer — Anthropic pricing docs

  17. Claude Opus 4.7 safety profile — Anthropic announcement

  18. Claude Opus 4.7 System Card — Anthropic

الأسئلة الشائعة

Claude Opus 4.7 هو أحدث نموذج لغوي كبير متاح للجمهور من Anthropic، تم إصداره في 16 أبريل 2026. إنه أقوى نموذج Claude متاح للمستخدمين العامين، مع أعلى النتائج في معايير البرمجة (SWE-bench Pro: 64.3%) واستخدام الكمبيوتر (OSWorld-Verified: 78.0%).

نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.