ai-ml

FrontierMath v2: ٤٢٪ من المسائل الرياضية كان بها أخطاء

٢٦ يونيو ٢٠٢٦

FrontierMath v2: 42% of Math Problems Had Errors

في 12 يونيو 2026، أطلقت Epoch AI إصدار FrontierMath v2 — وهو تحديث عالج أخطاء في 42% من مسائل المعيار المرجعي، حيث قام بتصحيح 135 مسألة وحذف 12 أخرى. يعد FrontierMath أحد أصعب اختبارات الرياضيات في الذكاء الاصطناعي، ومنذ ظهوره لأول مرة في عام 2024، كانت نتائجه ركيزة لادعاءات "أحدث ما توصل إليه العلم" (state-of-the-art) في الاستنتاج. ويعد الإصدار v2 تذكيرًا بأنه حتى المعايير المرجعية الرائدة يمكن أن تكون مخطئة في حصة كبيرة من أسئلتها الخاصة.

ملخص

  • ماذا حدث: أصدرت Epoch AI نسخة FrontierMath v2 في 12 يونيو 2026، بعد عملية تدقيق كشفت عن أخطاء أثرت على 42% من المسائل.1
  • الأرقام: قام الإصدار v2 بتصحيح 123 مسألة في المستويات (Tiers) من 1 إلى 3 و12 مسألة في المستوى 4، وحذف 5 مسائل من المستويات 1-3 و7 مسائل من المستوى 4. تضم مجموعة البيانات الآن 338 مسألة — مجموعة أساسية مكونة من 295 مسألة (المستويات 1-3) بالإضافة إلى توسعة للمستوى 4 تضم 43 مسألة.1
  • ما الذي تعطل: كانت معظم الأخطاء عبارة عن زلات حسابية بسيطة ارتكبها المؤلف أثناء استخراج الإجابة النهائية (أخطاء بزيادة أو نقصان واحد، أو عكس الإشارات). كانت هناك حفنة من صياغات المسائل غامضة بشكل قاتل.2
  • كيف تم اكتشاف ذلك: بدأ التدقيق في أبريل 2026 بعد أن أشارت OpenAI إلى وجود أخطاء أكثر من المتوقع في مراجعة داخلية. استخدمت Epoch نماذج GPT-5.5 و Claude Opus 4.7 للكشف عن المسائل المشبوهة، ثم استعانت بعلماء رياضيات لتأكيدها.2
  • التأثير: ارتفعت النتائج بضع نقاط في المجمل، لكن ترتيب النماذج ظل كما هو بشكل عام.2
  • لماذا يهم هذا: كل ادعاء بـ "الأفضل في FrontierMath" تم تقديمه قبل 12 يونيو تم تقييمه بناءً على اختبار كان مخطئًا في مسألتين من كل خمس مسائل من أسئلته الخاصة.

ما ستتعلمه

  • ما هو FrontierMath ولماذا أصبح معيارًا مرجعيًا
  • ما الذي تغير بالضبط في تحديث v2
  • أنواع الأخطاء التي أفلتت من مراجعة الخبراء
  • كيف وجدها التدقيق — ودور نماذج الذكاء الاصطناعي في ذلك
  • كيف تحركت لوحة المتصدرين بعد الإصلاح
  • ماذا تعني هذه الواقعة لأي شخص يختار النماذج بناءً على أرقام المعايير المرجعية

ما هو FrontierMath؟

FrontierMath هو معيار مرجعي يضم مئات المسائل الرياضية الأصلية التي صاغها خبراء، وبنته Epoch AI لقياس الاستنتاج الرياضي المتقدم. تم إطلاقه في 8 نوفمبر 2024، وتم تطويره بالتعاون مع أكثر من 60 عالم رياضيات، بما في ذلك أساتذة، وكتاب أسئلة أولمبياد الرياضيات الدولي، وحائزون على ميدالية فيلدز.3 تغطي المسائل نظرية الأعداد الحسابية، والتحليل الحقيقي، والهندسة الجبرية، ونظرية الفئات، وتستغرق المسألة النموذجية من باحث متخصص ساعات — وأحيانًا أيامًا — لحلها.3

هناك خياران في التصميم جعلاه موثوقًا. أولاً، المسائل جديدة وغير منشورة، لذا لا يمكن للنموذج أن يكون قد حفظ الإجابة من بيانات التدريب. ثانيًا، كل إجابة هي رقم كبير أو كائن رياضي معقد يتم التحقق منه تلقائيًا عن طريق تشغيل دالة Python answer()، مع تصميم "مقاوم للتخمين" عن عمد: فرصة أقل من 1% للتخمين بشكل صحيح دون إجراء الحسابات الرياضية.3

عند إطلاقه، كان FrontierMath قاسيًا. النماذج الرائدة في ذلك الوقت — Claude 3.5 Sonnet، و OpenAI o1-preview، و GPT-4o، و Gemini 1.5 Pro — حلت كل منها أقل من 2% من المسائل، مقابل نتائج تزيد عن 90% في الاختبارات الأقدم مثل GSM-8K و MATH.3 هذه الفجوة هي بالضبط ما جعل المعيار المرجعي مفيدًا: فقد كان لديه مساحة للتطور لا يوفرها أي اختبار رياضيات آخر.

ما الذي تغير في FrontierMath v2

قام تحديث v2، الذي نُشر في مركز المعايير المرجعية الخاص بـ Epoch في 12 يونيو 2026، بإعادة صياغة حصة كبيرة من مجموعة البيانات.1 إليك الحساب الدقيق من سجل التغييرات الخاص بـ Epoch:

التغييرالمستويات 1-3المستوى 4الإجمالي
مسائل تم تصحيحها12312135
مسائل تم حذفها5712

بعد التنظيف، أصبحت مجموعة البيانات الكاملة 338 مسألة: مجموعة أساسية مكونة من 295 مسألة تسميها Epoch المستويات 1-3، بالإضافة إلى توسعة مكونة من 43 مسألة صعبة للغاية تسمى المستوى 4.1 هناك اثنتا عشرة مسألة عامة (عشر من المستويات 1-3 واثنتان من المستوى 4)؛ والباقي يظل خاصًا للحد من التلوث.1 وبحساب التصحيحات والحذف معًا، مس التحديث 147 مسألة من أصل 350 مسألة في النسخة السابقة (v1) — وهو رقم 42% الذي تستشهد به Epoch.1

ليست هذه هي المرة الأولى التي تقر فيها Epoch بالمخاطر. عند الإطلاق في عام 2024، قدرت مراجعة ثانية لعينة عشوائية أن حوالي 1 من كل 20 مسألة (~5%) تحتوي على أخطاء، وهو ما أشارت Epoch إلى أنه مماثل لمعدلات الخطأ في معايير مرجعية مثل ImageNet.3 إن انتهاء تدقيق v2 بلمس 42% يظهر مدى البعد الذي يمكن أن يصل إليه تقدير خطأ صغير يبدو معقولاً عن نتيجة مراجعة عميقة ومخصصة.

ما نوع الأخطاء التي تم العثور عليها

لم تكن الأخطاء غريبة. وفقًا لتقرير Epoch، كانت الغالبية العظمى عبارة عن أخطاء حسابية بسيطة تسللت عندما كان مؤلف المسألة يستخرج الإجابة النهائية — فئة الزلات المتمثلة في زيادة أو نقصان واحد وعكس الإشارة التي يدركها أي عالم رياضيات ممارس.2 نظرًا لأن FrontierMath يعتمد في تقييمه على المطابقة التامة بين الكائن الذي يقدمه النموذج وإجابة واحدة مخزنة، فإن رقمًا واحدًا خاطئًا في تلك الإجابة المخزنة يضع علامة خطأ بصمت على كل نموذج صحيح.

كانت هناك مجموعة أصغر من المسائل تحتوي على صياغات غامضة بشكل قاتل — تمت صياغتها بطريقة تسمح بأكثر من إجابة يمكن الدفاع عنها، مما يجعل التقييم التلقائي بلا معنى.2 كانت تلك هي المسائل الأكثر عرضة للحذف بدلاً من التصحيح.

الخلاصة دقيقة ولكنها مهمة: الرياضيات وراء المسائل كانت سليمة. ما فشل هو مسك الدفاتر المتعلق بمفتاح الإجابة، وهذا هو بالضبط المستوى الذي يكون فيه التقييم التلقائي القائم على المطابقة التامة أقل قدرة على اكتشافه بمفرده.

كيف تم اكتشاف الأخطاء

بدأ التدقيق في أبريل 2026، بعد أن أخبرت OpenAI شركة Epoch أنها وجدت أخطاء أكثر من المتوقع خلال مراجعة داخلية للمعيار المرجعي.2 قامت OpenAI بتمويل إنشاء FrontierMath ولديها وصول حصري إلى مجموعة فرعية منه، لذا فهي تمتلك رؤية عملية وثيقة للأسئلة.1

اعتمدت عملية Epoch على نفس النماذج التي من المفترض أن يقيمها الاختبار المعياري. قام الفريق بتشغيل GPT-5.5 و Claude Opus 4.7 على مجموعة البيانات لتحديد المشكلات التي تبدو مشبوهة، ثم سلموا تلك الملاحظات إلى علماء رياضيات بشريين لمراجعتها.2 وتبين أن جميع العناصر المحددة تقريبًا كانت أخطاء حقيقية وجسيمة — من النوع الذي يجعل حل المشكلة مستحيلاً كما هي مكتوبة.2 بمعنى آخر، كانت النماذج الرائدة جيدة بما يكفي للمساعدة في العثور على الثغرات في اختبار صُمم لكشف حدودها.

كيف تحركت لوحة الصدارة

أدى تنظيف مفتاح الإجابة إلى رفع الدرجات، لأن المشكلات المصححة التي حلتها النماذج بالفعل أصبحت تُحتسب الآن لصالحها. أفادت Epoch أن الدرجات ارتفعت بشكل عام بينما ظلت التصنيفات ثابتة إلى حد كبير.2

قمة الجدول الحالية متقاربة للغاية. وفقًا لمجمع LM Council — وهو متتبع ثانوي، وليس تصنيف Epoch الرسمي — فإن كل من GPT-5.5 Pro و Claude Fable 5 يحققان حوالي 87% في المستويات 1-3، وهي فجوة تقع تمامًا ضمن هوامش الخطأ المتداخلة بينهما.4 تعامل مع أي رقم منفرد على أنه تقريبي: تبلغ المجمعات عن أرقام مختلفة نوعًا ما (يضع متتبع آخر درجة GPT-5.5 في المستويات 1-3 أقرب إلى 85%)، ولا يعد أي منها تصنيف Epoch الرسمي. القصة القوية والمدعومة بالمصادر هي المسار — من أقل من 2% عند الإطلاق في عام 2024 إلى أواخر الثمانينيات في المستويات 1-3 في عام 2026.34

هذا المنحنى مذهل حقًا. وهو أيضًا السبب وراء أهمية دقة مفتاح الإجابة الأساسي: فعندما تتجمع النماذج في حدود نقطة أو نقطتين من بعضها البعض بالقرب من القمة، يمكن لحفنة من الإجابات المسجلة بشكل خاطئ أن تعيد ترتيب لوحة الصدارة.

ما يعنيه هذا للثقة في اختبارات الذكاء الاصطناعي المعيارية

تختار الفرق الهندسية النماذج، وتبرر الميزانيات، وتلتزم بالبنى التحتية جزئيًا بناءً على أرقام الاختبارات المعيارية. يعد FrontierMath v2 دراسة حالة واضحة لسبب استحقاق هذه الأرقام لنظرة ثانية.

هناك ثلاثة دروس بارزة. أولاً، معدل الخطأ المنشور هو الحد الأدنى، وليس السقف. تقدير Epoch الدقيق وقت الإطلاق بنسبة ~5% كان أقل بكثير من 42% التي وصل إليها تدقيق v2 — ليس لأن الفريق كان مهملًا، ولكن لأن العينة الفرعية الخفيفة والتدقيق العميق هما أداتان مختلفتان.23 ثانياً، التقييم بالمطابقة التامة يخفي أخطاء مفتاح الإجابة. عندما تحدد قيمة مخزنة واحدة الصواب من الخطأ، فإن أي خطأ مطبعي في تلك القيمة يعاقب كل نموذج صحيح بشكل غير مرئي. ثالثاً، الهوامش أهم من الترتيب. النموذج الذي "يتصدر" بنصف نقطة في اختبار به أخطاء معروفة في مفتاح الإجابة لم يثبت حقًا أنه يتصدر على الإطلاق.

لا شيء من هذا يجعل FrontierMath اختبارًا معياريًا سيئًا — بل العكس. لقد وجدت Epoch الأخطاء، ونشرت التصحيحات مسألة بمسألة، وأصدرت نسخًا من مجموعة البيانات، وأبقت v1 متاحًا للمقارنة.1 هذه الشفافية هي النموذج الذي يجب على القائمين على الاختبارات المعيارية الآخرين نسخه. إذا كنت تستشهد بدرجات الاختبارات المعيارية في قرار ما، فإن الخطوة العملية هي ملاحظة إصدار الاختبار وتاريخه، والتعامل مع الفجوات التي تقل عن الهامش كتعادل، وتفضيل الاختبارات المعيارية التي تنشر سجل تغييرات على تلك التي تستبدل أرقامها بهدوء.

لمزيد من المعلومات حول كيفية انهيار نزاهة الاختبارات المعيارية بطرق أكثر دقة، راجع تحليلنا لـ اختبار DeepSWE المعياري ومخاوف التلوث. وللحصول على سياق حول النماذج التي تتصدر FrontierMath اليوم، راجع تغطيتنا لـ إطلاق Claude Opus 4.8 و Claude Fable 5.

الخلاصة

لم يكسر FrontierMath v2 الاختبار المعياري — بل أصلحه بشكل علني. لكن حجم الإصلاح هو القصة: اختبار رائد تم بناؤه بمساعدة الحائزين على ميدالية فيلدز والتحقق الآلي كان لا يزال بحاجة إلى معالجة أخطاء في 42% من مسائله.1 في المرة القادمة التي يعتمد فيها إطلاق نموذج على رقم اختبار معياري واحد، اسأل عن الإصدار الذي تم التقييم بناءً عليه، ومدى اتساع هوامش الخطأ، وما إذا كان القائم على الاختبار ينشر سجل تغييرات. في FrontierMath، أصبحت لهذه الأسئلة الآن إجابات واضحة.


المصادر

Footnotes

  1. Epoch AI، "FrontierMath Tiers 1-3 (v2)" — مركز الاختبارات القياسية، سجل التغييرات، وتكوين مجموعة البيانات. https://epoch.ai/benchmarks/frontiermath-tiers-1-3-v2 2 3 4 5 6 7 8 9 10 11

  2. تحليل تصحيح الأخطاء في FrontierMath v2، أنواع الأخطاء، وعملية التدقيق. https://www.digitalapplied.com/blog/epoch-frontiermath-v2-error-corrected-ai-benchmark-analysis 2 3 4 5 6 7 8 9 10 11 12 13

  3. Epoch AI، "FrontierMath: A benchmark for evaluating advanced mathematical reasoning in AI" (8 نوفمبر 2024). https://epoch.ai/frontiermath/the-benchmark 2 3 4 5 6 7 8

  4. مجمع الاختبارات القياسية LM Council — لوحة صدارة FrontierMath (مصدر ثانوي). https://lmcouncil.ai/benchmarks 2 3

الأسئلة الشائعة

FrontierMath v2 هو النسخة المصححة من اختبار الاستدلال الرياضي FrontierMath التابع لـ Epoch AI، والذي تم إصداره في 12 يونيو 2026. وقد عالج الأخطاء في 42% من المسائل، حيث صحح 135 مسألة وحذف 12، مما ترك 338 مسألة في المجمل. 1