DeepSWE: AI Coding Benchmark يكشف غش Claude في
٢٨ مايو ٢٠٢٦
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
Google Antigravity 2.0 يوسع أداة جوجل للبرمجة المعتمدة على الوكلاء لتصبح منصة: تطبيق لسطح المكتب، وAntigravity CLI، وSDK، وManaged Agents في Gemini API.
أربعة مختبرات صينية أطلقت نماذج coding بنظام open-weight في 18 يومًا. نظرة داخل benchmarks والأسعار و architectures التي تعيد تشكيل اقتصاديات agentic coding في 2026.
في غضون 17 يومًا، أطلقت GLM-5.1 و Kimi K2.6 و DeepSeek V4 نماذج LLMs برمجية مفتوحة الأوزان من المستوى الرائد بجزء بسيط من الأسعار الغربية. داخل موجة أبريل 2026.