🎙️ حلقة 31606:17 • ٢٦ يونيو ٢٠٢٦

FrontierMath v2: ٤٢٪ من المسائل الرياضية كان بها أخطاء

#ai #ai-generated #aws #nerd-level-tech #python #tech-podcast #technology

اسمع الحلقة دي

مناقشة من إنشاء الذكاء الاصطناعي بواسطة أليكس وجيمي

عن الحلقة دي

انضموا إلى المضيفين Alex وJamie في هذه الحلقة من Nerd Level Tech البودكاست الذكي وهم يكشفون العيوب المفاجئة في تحديث FrontierMath v2 من Epoch AI، حيث تبين أن نسبة مذهلة بلغت 42% من المسائل تحتوي على أخطاء. اكتشفوا تداعيات هذا الكشف على مقاييس أداء الرياضيات في الذكاء الاصطناعي واعرفوا لماذا يُعتبر FrontierMath الاختبار النهائي لنماذج الذكاء الاصطناعي، الذي يدفعها إلى أقصى حدودها كما لم يحدث من قبل. استعدوا لمزيج من الفكاهة والرؤى الثاقبة وهم يستكشفون ما الذي حدث من خطأ وماذا يعني ذلك لمستقبل ذكاء الذكاء الاصطناعي!

النص

[Alex]: أهلاً بكم من جديد في حلقة تانية من نيرد ليفل تك البودكاست الذكي—البرنامج الوحيد اللي فيه غلطات الحساب بتخلينا نشك في معنى الحياة، والكون، وكل حاجة. أنا Alex.

[Jamie]: وأنا Jamie. وAlex، حلقة النهاردة ببساطة عن المعادل الرياضي لاكتشاف إن الآلة الحاسبة بتاعتك كانت بتشتغلك بقالها سنتين. [يضحك] إحنا بنتكلم عن تحديث FrontierMath v2 من Epoch AI—وإزاي، اممم، 42% من المسائل بتاعته كان فيها أخطاء؟

[Alex]: مظبوط. اتنين وأربعين في المية! وده بالمناسبة رقم يخلينا نشك في Douglas Adams، بس أنا متأكد إن دي مكنتش مقلب من علماء رياضيات شايلين فوط.

[Jamie]: إنت متأكد؟ لأني لو كنت بشتغل في كتابة مسائل الرياضيات، كنت أكيد هحشر رقم "42" في أي حتة.

[Alex]: مكنتش أتوقع منك أقل من كده. [وقفة قصيرة] فـ النهاردة إحنا بنتعمق في إيه اللي باظ في واحد من أهم مقاييس أداء الذكاء الاصطناعي في الرياضيات، وإزاي اتصلح، وإيه معنى ده لو إنت مهتم فعلاً تعرف أنهي نموذج ذكاء اصطناعي هو "الأذكى" في الحساب.

[Jamie]: طيب يا Alex—خلينا نبدأ من الأول. إيه هو FrontierMath بالظبط؟ وليه الكل كان واثق فيه أصلاً؟

[Alex]: سؤال ممتاز. بص، FrontierMath هو ببساطة أولمبياد مقاييس أداء الذكاء الاصطناعي في الرياضيات—مئات المسائل الأصلية اللي صممها خبراء، وعلماء رياضيات حقيقيين، وكتاب أسئلة أولمبياد، وحتى حاصلين على ميدالية فيلدز. انطلق في نوفمبر 2024، وهو صعب جداً. من نوعية الصعوبة اللي تخلي "دكتوراه في الرياضيات يعيط وهو بيشرب قهوته".

[Jamie]: تمام، يعني مش مسائل "اتنين زائد اتنين" العادية. فهمت.

[Alex]: ولا حتى قريبة منها. المسائل بتغطي كل حاجة من نظرية الأعداد الحسابية والتحليل الحقيقي لحد الهندسة الجبرية ونظرية الفئات. والمسائل جديدة وغير منشورة، فـ النماذج مش هتعرف تغش عن طريق حفظ الإجابات من الإنترنت.

[Jamie]: يعني زي امتحان SAT للذكاء الاصطناعي، بس في مستوى الخبراء. [يضحك] طيب النماذج عملت إيه فيه فعلاً؟

[Alex]: لما انطلق، أقوى نماذج الذكاء الاصطناعي—GPT-4o وGemini 1.5 Pro وClaude 3.5 Sonnet—كانوا بيحلوا أقل من 2% من المسائل. ده مقارنة بـ 90% مثلاً في المقاييس الأسهل. فـ كان تحدي حقيقي، وده اللي خلاه قيم جداً لاختبار التقدم.

[Jamie]: ماشي، يعني المقياس ده مفروض يكون هو المعيار الذهبي. بس دلوقتي بنكتشف، بعد سنتين، إن 42% من المسائل كان فيها أخطاء؟ إحنا بنتكلم عن أنهي نوع من الغلطات؟

[Alex]: غالباً نوع الأخطاء اللي بتطارد كوابيس أي طالب رياضيات: غلطة بسيطة في رقم واحد، أو إشارات معكوسة، أو غلطة مطبعية في الإجابة النهائية. تخيل تقضي ساعات بتحل مسألة، وفي الآخر نموذج الإجابة يقولك إنك غلط عشان إشارة سالب هربت منك.

[Jamie]: يعني المشكلة مش إن المسائل كانت مستحيلة الحل—بس الإجابات هي اللي كانت... مش دقيقة؟

[Alex]: بالظبط. وبما إن FrontierMath بيصحح بناءً على التطابق التام—يعني إجابتك لازم تطابق الإجابة المتخزنة بالملي—فـ أي غلطة صغيرة في نموذج الإجابة معناها إن كل نموذج حل صح اتحسبتله غلط بظلم.

[Jamie]: أنا حاسس بالموضوع ده جداً دلوقتي. أنا مرة نقصت درجات في امتحان رياضة عشان كتبت "-5" بدل "5". لسه شايل منها لحد دلوقتي.

[Alex]: FrontierMath كان هينقصك إنت كمان. بس فيه مجموعة من المسائل كانت غامضة فعلاً—بمعنى إن الطريقة اللي اتكتبت بيها، كان ممكن يكون ليها أكتر من إجابة منطقية. ودول غالباً اتشالوا خالص.

[Jamie]: طيب، هما إزاي أصلاً اكتشفوا كل الغلطات دي؟ هل فيه حد كان قاعد بيعيد حل 350 مسألة رياضة مجنونة؟

[Alex]: دي بقى هتعجبك: المراجعة بدأت بعد ما OpenAI بلغت عن أخطاء مشبوهة في مراجعتهم الداخلية. بعدين Epoch AI عملت حاجة غريبة—استخدموا نفس نماذج الذكاء الاصطناعي اللي المقياس متصمم عشان يختبرها، زي GPT-5.5 وClaude Opus 4.7، عشان يدوروا على المسائل المشكوك فيها.

[Jamie]: استنى، يعني الطلبة هما اللي صححوا للمدرس؟

[Alex]: تقريباً! النماذج حددت المسائل اللي شكلها غلط، وبعدين علماء رياضيات بشريين راجعوا وراهم. اتضح إن الذكاء الاصطناعي دلوقتي بقى شاطر كفاية في الرياضيات لدرجة إنه يساعد في كشف الأخطاء في الاختبارات المستخدمة لقياس قدراته هو نفسه.

[Jamie]: فرقة مراجعة ذكاء اصطناعي بتطور نفسها بنفسها. إحنا رسمياً في المستقبل.

[Alex]: طيب بعد كل التصليحات دي، إيه اللي حصل للنتائج؟ هل كل النماذج فجأة بقت عبقرية؟

[Jamie]: أيوه، هل فيه حد اتحول من "طالب مقبول" لـ "الأول على الدفعة" بين يوم وليلة؟

[Alex]: مش بالظبط. النتائج زادت كام نقطة بشكل عام—يعني النماذج خدت حقها في المسائل اللي حلتها صح فعلاً—بس الترتيب النسبي مغيرش كتير. النماذج التوب—زي GPT-5.5 Pro وClaude Fable 5—دلوقتي الاتنين حوالين 87% في المجموعة الأساسية. بس التكة هنا: هما قريبين جداً من بعض، لدرجة إن كام غلطة في نموذج الإجابة ممكن تقلب مين هو "الأفضل".

[Jamie]: يعني لو كنت بتاخد قرارات بيزنس بناءً على "الفايز بنص نقطة"—فـ بلاش أحسن؟

[Alex]: بالظبط. اتعامل مع الفروق الصغيرة دي كأنها تعادل، خصوصاً لما هوامش الخطأ تتداخل. ودايماً اتأكد أنهي نسخة من المقياس هي اللي استخدمت.

[Jamie]: دي نقطة كويسة. لو بتختار نموذج ذكاء اصطناعي لشركتك، محتاج تعرف إن الاختبار مكنش بايظ في السر.

[Alex]: والحقيقة إن كل ده ميخليش FrontierMath مقياس وحش. بالعكس، شفافية Epoch هي مثال يحتذى بيه. نشروا كل تصحيح، وعملوا نسخ (versions) لمجموعة البيانات، وسابوا النسخة القديمة متاحة للمقارنة. ده هو المعيار الذهبي لمقاييس الذكاء الاصطناعي.

[Jamie]: يعني الخلاصة هي: ثق، بس اتأكد. وراجع نموذج الإجابة مرتين.

[Alex]: ولو إنت في يوم بتعمل مقياس أداء لنماذجك الخاصة، دايماً دور على سجل التغييرات المنشور وأرقام النسخ. لو الأرقام اتغيرت في هدوء بالليل—اهرب.

[Jamie]: أو على الأقل ابعت فرقة مراجعي الذكاء الاصطناعي بتاعتك.

[Alex]: [يضحك] بالظبط.

[Jamie]: تمام، دي كانت حلقتنا للنهاردة! لو عجبكم كلامنا النيردي عن أخطاء الرياضيات ومقاييس الذكاء الاصطناعي، متنسوش تشتركوا وتسيبوا لنا تقييم.

[Alex]: وافتكروا—المرة الجاية لما حد يدعي إن نموذجه هو "الأحدث والأقوى"، اسألوه استخدم أنهي نسخة من الاختبار. أو ابعتوا له الحلقة دي.

[Jamie]: هنرجع لكم قريب بتعمق أكتر في مواضيع نيرد ليفل تك. شكراً لاستماعكم لـ نيرد ليفل تك البودكاست الذكي!

[Alex]: نشوفكم المرة الجاية! [موسيقى النهاية تتلاشى]