#llm-evaluation

FrontierMath v2: ٤٢٪ من المسائل الرياضية كان بها أخطاء

٢٦ يونيو ٢٠٢٦

صلح FrontierMath v2 الخاص بـ Epoch AI أخطاء في ٤٢٪ من المسائل في ١٢ يونيو ٢٠٢٦. إليكم إيه اللي باظ، وإزاي تم اكتشافه، وده معناه إيه بالنسبة للثقة في مقاييس أداء الذكاء الاصطناعي.

#frontiermath #ai benchmarks

دليل Promptfoo: اختبار مطالبات LLM في CI (2026)

٢٢ مايو ٢٠٢٦

دليل عملي لـ promptfoo: اختبر مطالبات LLM باستخدام تأكيدات حتمية وأخرى يتم تقييمها بواسطة النماذج، واكتشف تراجعات المطالبات، وقم بضبط بوابة CI الخاصة بك باستخدام GitHub Actions.

#promptfoo #llm testing