#gpt-55

LifeSciBench: AI يفشل في 64% من مهام علوم الحياة

٢٤ يونيو ٢٠٢٦

OpenAI's LifeSciBench تقيم الذكاء الاصطناعي في 750 مهمة بحثية في علوم الحياة كتبها خبراء. أفضل نماذجها، GPT-Rosalind، يجتاز 36.1% فقط — إليك ما يعنيه ذلك.

#LifeSciBench #OpenAI

DeepSWE: AI Coding Benchmark يكشف غش Claude في

٢٨ مايو ٢٠٢٦

اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.

#DeepSWE #GPT-5.5

ChatGPT للتمويل الشخصي: إطلاق Plaid من OpenAI في عام

١٦ مايو ٢٠٢٦

أطلقت OpenAI ميزة ChatGPT Personal Finance لمستخدمي Pro في 15 مايو 2026 عبر Plaid. روابط بنكية للقراءة فقط، قدرات الاستنتاج في GPT-5.5، ولماذا لا يعتبر الأول فعلياً.

#ChatGPT #OpenAI

نماذج LLMs الصينية مفتوحة الأوزان للبرمجة: اكتساح الثلاثة أسابيع لعام

١١ مايو ٢٠٢٦

في غضون 17 يومًا، أطلقت GLM-5.1 و Kimi K2.6 و DeepSeek V4 نماذج LLMs برمجية مفتوحة الأوزان من المستوى الرائد بجزء بسيط من الأسعار الغربية. داخل موجة أبريل 2026.

#open-weight LLM #open-source coding LLM

GPT-5.5 Cyber Eval: AISI يجد تكافؤاً مع Mythos

٨ مايو ٢٠٢٦

كشف التقييم السيبراني لمعهد أمن الذكاء الاصطناعي في المملكة المتحدة بتاريخ ٣٠ أبريل عن تكافؤ GPT-5.5 مع Claude Mythos في مهام CTF للمحترفين ونطاق هجوم Last Ones المكون من ٣٢ خطوة.

#AISI #GPT-5.5

GPT-5.5 Instant: الموديل الافتراضي الجديد لـ ChatGPT في

٦ مايو ٢٠٢٦

موديل GPT-5.5 Instant من OpenAI بيحل محل GPT-5.3 كالموديل الافتراضي لـ ChatGPT في 5 مايو 2026، وده بيقلل الهلوسة بنسبة 52.5% في أوامر الطب والقانون والتمويل.

#GPT-5.5 #GPT-5.5 Instant

DeepSeek V4: رائد النماذج مفتوحة الأوزان بـ 1/7 من التكلفة

٢ مايو ٢٠٢٦

DeepSeek V4 تطلق 1.6T MoE أوزان مفتوحة مع سياق 1M-token: بنسبة 80.6% على SWE-bench Verified بسعر 1.74 دولار / 3.48 دولار لكل مليون — تقريباً 1/7 تكلفة المخرجات لـ Claude Opus 4.7.

#DeepSeek V4 #DeepSeek V4 Pro

GPT-5.5: أول قاعدة معاد تدريبها لشركة OpenAI منذ GPT-4.5

٢٤ أبريل ٢٠٢٦

أطلقت OpenAI إصدار GPT-5.5 في 23 أبريل 2026 — أول نموذج أساسي تم إعادة تدريبه بالكامل منذ GPT-4.5. مقارنة بين نتائج الاختبارات، وتسعير API بقيمة 5 دولار / 30 دولار، وسياق 1M، و Opus 4.7.

#GPT-5.5 #GPT-5.5 Pro