DeepSWE: AI Coding Benchmark يكشف غش Claude في
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
أطلقت OpenAI ميزة ChatGPT Personal Finance لمستخدمي Pro في 15 مايو 2026 عبر Plaid. روابط بنكية للقراءة فقط، قدرات الاستنتاج في GPT-5.5، ولماذا لا يعتبر الأول فعلياً.
في غضون 17 يومًا، أطلقت GLM-5.1 و Kimi K2.6 و DeepSeek V4 نماذج LLMs برمجية مفتوحة الأوزان من المستوى الرائد بجزء بسيط من الأسعار الغربية. داخل موجة أبريل 2026.
كشف التقييم السيبراني لمعهد أمن الذكاء الاصطناعي في المملكة المتحدة بتاريخ ٣٠ أبريل عن تكافؤ GPT-5.5 مع Claude Mythos في مهام CTF للمحترفين ونطاق هجوم Last Ones المكون من ٣٢ خطوة.
موديل GPT-5.5 Instant من OpenAI بيحل محل GPT-5.3 كالموديل الافتراضي لـ ChatGPT في 5 مايو 2026، وده بيقلل الهلوسة بنسبة 52.5% في أوامر الطب والقانون والتمويل.
DeepSeek V4 تطلق 1.6T MoE أوزان مفتوحة مع سياق 1M-token: بنسبة 80.6% على SWE-bench Verified بسعر 1.74 دولار / 3.48 دولار لكل مليون — تقريباً 1/7 تكلفة المخرجات لـ Claude Opus 4.7.
أطلقت OpenAI إصدار GPT-5.5 في 23 أبريل 2026 — أول نموذج أساسي تم إعادة تدريبه بالكامل منذ GPT-4.5. مقارنة بين نتائج الاختبارات، وتسعير API بقيمة 5 دولار / 30 دولار، وسياق 1M، و Opus 4.7.
بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.
بدون إزعاج. إلغاء الاشتراك في أي وقت.