FrontierMath v2: ٤٢٪ من المسائل الرياضية كان بها أخطاء
٢٦ يونيو ٢٠٢٦
صلح FrontierMath v2 الخاص بـ Epoch AI أخطاء في ٤٢٪ من المسائل في ١٢ يونيو ٢٠٢٦. إليكم إيه اللي باظ، وإزاي تم اكتشافه، وده معناه إيه بالنسبة للثقة في مقاييس أداء الذكاء الاصطناعي.
صلح FrontierMath v2 الخاص بـ Epoch AI أخطاء في ٤٢٪ من المسائل في ١٢ يونيو ٢٠٢٦. إليكم إيه اللي باظ، وإزاي تم اكتشافه، وده معناه إيه بالنسبة للثقة في مقاييس أداء الذكاء الاصطناعي.
دليل عملي لـ promptfoo: اختبر برومبتات الـ LLM باستخدام تأكيدات حتمية ومقيمة بواسطة النموذج، واكتشف تراجعات البرومبت، وتحكم في الـ CI الخاص بك باستخدام GitHub Actions.