#ai-coding-benchmark

DeepSWE: AI Coding Benchmark يكشف غش Claude في

٢٨ مايو ٢٠٢٦

اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.