ai-ml

LifeSciBench: AI يفشل في 64% من مهام علوم الحياة

٢٤ يونيو ٢٠٢٦

LifeSciBench: AI Fails 64% of Life-Science Tasks 2026

يقوم LifeSciBench الجديد من OpenAI بتقييم الذكاء الاصطناعي بناءً على 750 مهمة بحثية حقيقية في علوم الحياة ذات إجابات حرة، كتبها 173 عالماً ممارساً يحملون درجة الدكتوراه — وحتى نموذج الشركة المصمم خصيصاً للعلوم يجتاز أقل من أربعة من كل عشرة منها.1

ملخص

في 17 يونيو 2026، أصدرت OpenAI تقييم LifeSciBench، وهو معيار قياسي يضم 750 مهمة لتقييم الذكاء الاصطناعي في أعمال واقعية لاكتشاف الأدوية وأبحاث البيولوجيا.1 سجل أقوى نماذجها، GPT-Rosalind المتخصص في علوم الحياة، معدل نجاح بنسبة 36.1% — وهو أفضل من نسبة 25.7% التي حققها GPT-5.5، لكنه لا يزال يفشل في ما يقرب من ثلثي مهام الخبراء.1

ما ستتعلمه

  • ما هو LifeSciBench ولماذا يختلف عن معايير البيولوجيا الحالية
  • كيف قامت OpenAI ببنائه بمشاركة 173 عالماً و19,020 معيار تقييم
  • النتيجة الرئيسية: GPT-Rosalind يجتاز 36.1% فقط من المهام
  • أين يتحسن الذكاء الاصطناعي بشكل أسرع وأين لا يزال يتعثر
  • لماذا تعتبر عتبة النجاح بنسبة 70% ونظام الدرجات الجزئية أمرين مهمين
  • ماذا يعني هذا المعيار القياسي لأي شخص يدمج الذكاء الاصطناعي في العمل العلمي

ما هو LifeSciBench؟

LifeSciBench هو معيار قياسي كتبه وراجعه خبراء من OpenAI، يقيس ما إذا كانت أنظمة الذكاء الاصطناعي قادرة على دعم أبحاث علوم الحياة الحقيقية، وليس مجرد الإجابة على معلومات عامة في البيولوجيا.1 نُشر في 17 يونيو 2026، ويحتوي على 750 مهمة ذات إجابة حرة تغطي سبعة مسارات عمل بحثية وسبعة مجالات بيولوجية، كل منها يرتكز على أحكام علماء ممارسين حاصلين على تدريب بمستوى الدكتوراه وخبرة مباشرة في تطوير برامج اكتشاف الأدوية في شركات التكنولوجيا الحيوية والأدوية.1

هذا التمييز مهم. تستخدم معظم تقييمات علوم الحياة الحالية أسئلة الاختيار من متعدد مع إجابات مرجعية واضحة. بدلاً من ذلك، يقدم LifeSciBench كل مهمة بالطريقة التي يقدم بها الباحث ملخصاً لزميل مطلع: مطالبة علمية، وأي سياق ذي صلة أو ملفات بيانات، وإجابة حرة يقوم خبير بعد ذلك بتقييمها بناءً على معايير مفصلة.1 الأبحاث الحقيقية، كما تصيغها OpenAI، "نادراً ما تبدو كسؤال واحد لاسترجاع الحقائق" — فالعلماء يوفقون بين النتائج المتضاربة، ويصلحون أعطال المقايسات، ويصممون التجارب، ويقررون ما يجب فعله تالياً في ظل عدم اليقين.1

كيف قامت OpenAI ببنائه

حجم الجهد البشري وراء LifeSciBench هو الجزء الأكثر إثارة للإعجاب في المشروع. تمت كتابة المهام من قبل 173 عالماً خبيراً، يحمل كل منهم تدريباً بمستوى الدكتوراه بالإضافة إلى خبرة في صناعة التكنولوجيا الحيوية أو الأدوية.1 يغطي المعيار القياسي سبعة مسارات عمل — التعامل مع الأدلة؛ التحليل؛ التصميم والتحسين والتنبؤ؛ التفكير العلمي؛ التحقق والعمليات؛ الترجمة؛ والتواصل العلمي.1

عملية التقييم هي المكان الذي يصبح فيه LifeSciBench دقيقاً بشكل غير عادي. تحمل كل مهمة معايير تقييم مخصصة تقسم الإجابة المتوقعة إلى ادعاءات وحسابات وقرارات ومبررات محددة. عبر المعيار القياسي، تصل تلك المعايير إلى 19,020 معياراً — بمتوسط 25 لكل مهمة.1 يعكس التصميم كيفية الحكم على العلم فعلياً: يمكن أن تصل الاستجابة إلى الاستنتاج الصحيح رفيع المستوى ولكنها تظل غير مكتملة إذا أغفلت قيداً رئيسياً في المقايسة أو فشلت في الإشارة إلى فارق بيولوجي جوهري.1

المهام أيضاً متطلبة بطبيعتها. تسعة وسبعون بالمائة منها تتطلب خطوات تفكير أو اتخاذ قرار متعددة، بمتوسط أربع خطوات لكل منها، ويأتي المعيار القياسي مع 1,062 مرفقاً — أشكال، ملفات PDF، جداول، ملفات تسلسل جينومي، هياكل كيميائية، ومراجع ويب.1 أكثر من نصف جميع المهام (53%) تتطلب من النموذج تفسير أو تجميع المعلومات من واحد على الأقل من تلك المرفقات بدلاً من الاعتماد على نص المطالبة وحده.1

النتيجة الرئيسية: الذكاء الاصطناعي يجتاز بالكاد الثلث

إليك الرقم الذي تصدر العناوين: وصل GPT-Rosalind، نموذج OpenAI الرائد المصمم خصيصاً لعلوم الحياة، إلى معدل نجاح إجمالي دقيق قدره 36.1% فقط.1 تُعتبر المهمة "مجتازة" فقط عندما يستوفي النموذج عتبة نجاح على مستوى المهمة تبلغ 70%، لذا فإن معدل نجاح 36.1% يعني أن النموذج حل بالكامل ما يزيد قليلاً عن ثلث المعيار القياسي — وفشل في الـ 63.9% المتبقية.1

GPT-Rosalind هو نموذج أبحاث علوم الحياة من OpenAI، سُمي على اسم رائدة بنية الحمض النووي Rosalind Franklin وتم إطلاقه كمعاينة بحثية محدودة في أبريل 2026 لعملاء المؤسسات المؤهلين.2 إنه خطوة كبيرة للأمام مقارنة بـ GPT-5.5 العام، الذي أطلقته OpenAI في 23 أبريل 2026 وسجل 25.7% في نفس المعيار القياسي.13 تُظهر الزيادة البالغة 10.4 نقطة مئوية أن التدريب العلمي المستهدف يساعد — لكن السقف المطلق يؤكد مدى بعد الذكاء الاصطناعي حتى الآن عن العمل المستقل بمستوى الأبحاث.

أين يتحسن الذكاء الاصطناعي بشكل أسرع

LifeSciBench ليس قصة فشل موحد. النماذج الرائدة هي الأقوى نسبياً في المهام التي تتضمن التوليف العلمي، والتواصل، والتفسير المنظم.1 تظهر أكبر المكاسب من GPT-5.5 إلى GPT-Rosalind في مساري عمل:

  • التواصل العلمي ارتفع من 56.3% إلى 71.1% — رغم أن OpenAI تحذر من أن هذه الفئة صغيرة (n=9) ويجب قراءتها بحذر.1
  • الترجمة، وهي عمل "من المختبر إلى المريض" لربط الأدلة قبل السريرية بالآثار السريرية، ارتفعت من 36.8% إلى 57.7%.1

تعزز النتائج على مستوى معايير التقييم هذا النمط. في المهام التي تتطلب مخرجات مفيدة للخبراء وقابلة للتنفيذ، سجل GPT-Rosalind نسبة 44.7% مقابل 29.1% لـ GPT-5.5؛ وفي المهام التي تتطلب تعاملاً دقيقاً مع عدم اليقين والتحذيرات، سجل 44.8% مقابل 29.3%.1 باختصار، النماذج الحالية هي الأكثر فائدة عندما يكون للمهمة حدود أدلة واضحة وتكافئ الحكم العلمي المنظم.

أين لا يزال الذكاء الاصطناعي يتعثر

ينهار الأداء في المهام التي تعتمد بكثافة على الملفات المرفقة (artifacts)، والتصميم، والدقة.1 تظل عمليات التصميم والتحسين والتنبؤ من أصعب تدفقات العمل، حيث اجتاز نموذج GPT-Rosalind بنسبة 30.7% فقط، كما أن التحليل صعب بالمثل بنسبة 30.3%.1

أوضح نقاط الضعف هي التعامل مع الملفات العلمية الحقيقية. ينخفض معدل اجتياز GPT-Rosalind من 45.1% في المهام النصية فقط إلى 28.1% بمجرد أن تتضمن المهمة ملفات مرفقة أو روابط URL؛ ويظهر GPT-5.5 نفس التراجع، من 29.9% إلى 21.9%.1 ويؤكد تحليل OpenAI أن النماذج الرائدة تواجه صعوبة في استخراج المعلومات من الأشكال المعقدة أو ملفات التسلسل الضخمة ودمجها في إجابة نهائية.1

الدقة المتناهية هي العائق الآخر. المهام التي تتطلب إجابات رقمية دقيقة شهدت وصول GPT-Rosalind إلى 14.8% فقط، بينما حققت المخرجات على مستوى التسلسل أو الهيكل 24.0%، واستقرت مهام توليد النماذج (construct-generation) عند 27.3% مع تحسن طفيف عن GPT-5.5.1 هذه الإخفاقات ذات مغزى علمي: فتدفقات العمل مثل تصميم متبرع CRISPR/HDR أو تصميم siRNA تحتاج إلى مخرجات دقيقة بما يكفي لاستخدامها مباشرة.1 ومن الجدير بالذكر أنه في حوالي 14% من المهام، حصلت النماذج على درجات تقييم كبيرة رغم فشلها في تجاوز عتبة النجاح — بالنسبة لـ GPT-Rosalind، سجلت 109 مهام أقل من 20% في معدل الاجتياز، ومع ذلك حصلت على 50% على الأقل من مكافأة التقييم.1

لماذا يهم وجود مقياسين

يقدم LifeSciBench رقمين متكاملين، والفجوة بينهما هي الجوهر. معدل الاجتياز (Pass rate) هو حصة المهام التي يتجاوز فيها النموذج عتبة 70% على مستوى المهمة. الدرجة (Score) هي متوسط مكافأة التقييم، مما يعطي رصيداً جزئياً للمعايير الفردية حتى عندما لا يتم حل المهمة بالكامل.1 يمكن أن تكون الإجابة العلمية صحيحة جزئياً وتظل مفيدة — أو تصل إلى الاستنتاج الصحيح مع إغفال تحذير نقدي يجعلها غير قابلة للاستخدام. إن الإبلاغ عن كليهما يمنع رقماً واحداً في العناوين من إخفاء هذا الفارق الدقيق، ويوضح لماذا يمكن أن يبدو النموذج وكأنه "على وشك الوصول" في الدرجة بينما لا يزال يفشل كمتعاون بحثي.

كيف تحقق الخبراء منه

للتأكد من أن المهام كانت عادلة، أجرت OpenAI مراجعة مستقلة مع 453 مراجعاً لم يشاركوا في كتابة أي مهام.1 كانت مؤهلاتهم ثقيلة الوزن: 97% منهم يحملون درجة الدكتوراه أو ما يعادلها، مع متوسط 12 عاماً من الخبرة الميدانية و14 بحثاً منشوراً محكماً، وأفاد 88% منهم بحصولهم على جائزة أو زمالة واحدة على الأقل.1 تجاوز اتفاق المراجعين 96% في كل فئة، بما في ذلك اتفاق إجمالي بنسبة 98.3% على أن المهام تعكس عملاً بحثياً واقعياً و96.5% على أنها قائمة على أسس علمية وقابلة للإجابة.1 هذا المستوى من الإجماع هو ما يميز LifeSciBench عن المعايير التي يتم تجميعها بسرعة — فالصعوبة تم التحقق منها، ولم يتم افتراضها.

ماذا يعني هذا للمطورين

بالنسبة لأي شخص يدمج الذكاء الاصطناعي في تدفقات العمل العلمية أو التقنية، فإن LifeSciBench هو اختبار واقعي مفيد متنكر في شكل ورقة بحثية. إن أنماط الفشل نفسها التي يكشف عنها في اكتشاف الأدوية — تدهور الأداء بمجرد دخول الملفات الحقيقية في الأوامر (prompts)، والهشاشة في المخرجات الرقمية الدقيقة، والإجابات الجزئية الواثقة التي تفتقد إلى قيد حاسم — هي بالضبط المخاطر التي تظهر عندما توجه نموذجاً عاماً نحو بيانات المؤسسات غير المنظمة. الدرس ليس أن النماذج عديمة الفائدة؛ فمكاسب GPT-Rosalind في التوليف والتواصل حقيقية. الدرس هو أن "اجتياز العرض التوضيحي" و"الجدارة بالثقة بناءً على تقييم مكون من 25 معياراً" هما مستويان مختلفان تماماً، وأن المراجعة البشرية تظل غير قابلة للتفاوض للمخرجات عالية المخاطر. هذا هو نفس الموضوع وراء بناء ذكاء اصطناعي جدير بالثقة مع ضوابط العالم الحقيقي والعمل المستمر على منع الهلوسة واختبارها.

كما أنه يعيد صياغة سباق لوحات المتصدرين. بينما ركزت معظم تغطية معايير عام 2026 على درجات البرمجة من نماذج مثل Claude Opus 4.8 و Kimi K2.7 Code، يقيس LifeSciBench شيئاً أصعب في التلاعب به: ما إذا كان النموذج يمكنه القيام بالعمل الذي يتطلب حكماً دقيقاً من عالم مدرب. بهذا المقياس، لا تزال الحدود مفتوحة على مصراعيها.

الخلاصة

يعد LifeSciBench أحد أكثر تقييمات الذكاء الاصطناعي صرامة حتى الآن، وحكمه واقعي: حتى النموذج المدرب خصيصاً لعلوم الحياة يجتاز 36.1% فقط من المهام البحثية المتخصصة. تثبت المكاسب التي يظهرها GPT-Rosalind مقارنة بـ GPT-5.5 أن التدريب الذي يركز على المجال يحدث فرقاً، خاصة في التواصل العلمي والترجمة. لكن إخفاقات المعيار في التعامل مع الملفات المرفقة والدقة والتصميم تتطابق تماماً مع متطلبات البحث الحقيقي. في الوقت الحالي، يعد الذكاء الاصطناعي متعاوناً سريعاً وقادراً بشكل متزايد في العلوم — وليس بديلاً للعالم الذي يضع معايير التقييم.


Footnotes

  1. OpenAI، "تقديم LifeSciBench،" ١٧ يونيو ٢٠٢٦. https://openai.com/index/introducing-life-sci-bench/ 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

  2. VentureBeat، "OpenAI تطلق GPT-Rosalind، نموذج جديد محدود الوصول لعلوم الحياة،" أبريل ٢٠٢٦. https://venturebeat.com/technology/openai-debuts-gpt-rosalind-a-new-limited-access-model-for-life-sciences-and-broader-codex-plugin-on-GitHub/ ؛ OpenAI، "تقديم GPT-Rosalind لأبحاث علوم الحياة." https://openai.com/index/introducing-gpt-rosalind/ 2

  3. TechCrunch، "OpenAI تصدر GPT-5.5، مما يقرب الشركة خطوة واحدة من 'تطبيق فائق' للذكاء الاصطناعي،" ٢٣ أبريل ٢٠٢٦. https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/

الأسئلة الشائعة

LifeSciBench هو معيار من OpenAI يتكون من 750 مهمة بحثية في علوم الحياة ذات إجابات حرة، كتبها 173 عالماً على مستوى الدكتوراه وتم التحقق منها من قبل لجنة خبراء مستقلة، ويقيس ما إذا كان الذكاء الاصطناعي يمكنه دعم الأبحاث الحقيقية في اكتشاف الأدوية وعلم الأحياء بدلاً من الإجابة على أسئلة الاختيار من متعدد. 1