DeepSWE: AI Coding Benchmark يكشف غش Claude في
٢٨ مايو ٢٠٢٦
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.
بدون إزعاج. إلغاء الاشتراك في أي وقت.