LifeSciBench: AI يفشل في 64% من مهام علوم الحياة
٢٤ يونيو ٢٠٢٦
OpenAI's LifeSciBench تقيم الذكاء الاصطناعي في 750 مهمة بحثية في علوم الحياة كتبها خبراء. أفضل نماذجها، GPT-Rosalind، يجتاز 36.1% فقط — إليك ما يعنيه ذلك.
OpenAI's LifeSciBench تقيم الذكاء الاصطناعي في 750 مهمة بحثية في علوم الحياة كتبها خبراء. أفضل نماذجها، GPT-Rosalind، يجتاز 36.1% فقط — إليك ما يعنيه ذلك.