PaperOrchestra: ذكاء اصطناعي من Google بـ 5 وكلاء يكتب أوراقاً بحثية
١٠ أبريل ٢٠٢٦
ملخص
قدم فريق أبحاث Google Cloud AI نظام PaperOrchestra، وهو إطار عمل متعدد الوكلاء (multi-agent) يحول مواد ما قبل الكتابة غير المنظمة — مثل الأفكار الأولية، سجلات التجارب، وجداول النتائج — إلى مسودات أبحاث بتنسيق LaTeX جاهزة للتقديم. يتولى خمسة وكلاء متخصصين مهام وضع المخطط التفصيلي، رسم المخططات البيانية، مراجعة الأدبيات، كتابة الأقسام، والتحسين بأسلوب مراجعة النظراء. تكتمل العملية بالكامل في حوالي 39.6 دقيقة لكل ورقة بحثية باستخدام حوالي 60-70 استدعاء لواجهة برمجة تطبيقات (API) للنماذج اللغوية الكبيرة (LLM). وفي التقييمات البشرية المباشرة، تفوق النظام على النماذج الأساسية ذاتية التشغيل بنسبة 50%–68% في جودة مراجعة الأدبيات وبنسبة 14%–38% في الجودة العامة للمخطوطة. نُشر البحث على arXiv في أبريل 2026 وقدم معياراً جديداً يسمى PaperWritingBench، تم بناؤه من 200 ورقة بحثية مقبولة في مؤتمري CVPR 2025 و ICLR 2025.12
ما ستتعلمه
- ما هو PaperOrchestra ولماذا تعتبر بنيته المكونة من خمسة وكلاء مهمة
- كيف يساهم كل وكيل من الوكلاء الخمسة المتخصصين في عملية الكتابة
- كيف تم بناء مجموعة تقييم PaperWritingBench وما الذي تختبره
- معدلات الفوز الدقيقة مقابل النماذج الأساسية ذاتية التشغيل مثل AI Scientist-v2 في التقييمات البشرية والآلية
- كيف يتم استخدام مراجعة النظراء المحاكاة لتحسين المسودات قبل التقديم
- ماذا يعني هذا لمستقبل الكتابة العلمية بمساعدة الذكاء الاصطناعي
مساعد كتابة للباحثين، وليس بديلاً لهم
كانت أنظمة "العالِم الاصطناعي" (AI scientist) ذاتية التشغيل رائجة في المجتمع البحثي لأكثر من عام، واعدة بعمليات متكاملة تبدأ من توليد الأفكار، وإجراء التجارب، وصولاً إلى كتابة النتائج دون تدخل بشري. أثبت المثال الأكثر استشهاداً، AI Scientist-v2 من شركة Sakana AI، أن المفهوم قابل للتنفيذ ولكنه كشف عن قيد صارم: هذه الأنظمة لا يمكنها إلا كتابة الأوراق التي أنتجتها بنفسها من خلال دورات البحث الداخلية الخاصة بها. إذا كان لديك بالفعل نتائج تجريبية، وملاحظات أولية، وتوجه بحثي محدد، فلن يقدم لك "العالِم الاصطناعي" المتكامل أي شيء.
يتخذ PaperOrchestra زاوية معاكسة. تم بناؤه بواسطة Yiwen Song و Yale Song و Tomas Pfister و Jinsung Yoon في Google Cloud AI Research، ويفترض أن الإنسان قد قام بالفعل بالعمل العلمي المثير للاهتمام.1 أعطه ملخصاً لفكرة أولية وسجلات تجارب خام، وسيعيد لك مخطوطة LaTeX جاهزة للتقديم — مع استشهادات موثقة، وأشكال بيانية مولدة، ولغة مصقولة من خلال مراجعة نظراء محاكاة. الهدف هو ضغط الجزء الأكثر مللاً في الكتابة البحثية، وليس استبدال الأفكار الكامنة وراءها.
الوكلاء الخمسة
يقوم PaperOrchestra بفصل عملية الكتابة استراتيجياً عبر خمسة وكلاء متخصصين، كل منهم مسؤول عن مرحلة مختلفة من بناء المخطوطة.2
1. وكيل المخطط التفصيلي (Outline Agent)
يستوعب الوكيل الأول المواد الخام للباحث وينتج مخططاً هيكلياً مصمماً خصيصاً للمكان المستهدف للنشر. تختلف تنسيقات المؤتمرات — يستخدم CVPR تخطيطاً من عمودين، بينما يستخدم ICLR تخطيطاً من عمود واحد، ولكل منهما تقاليده الخاصة فيما يتعلق بعمق الأقسام ومواقع الأشكال البيانية. ينتج وكيل المخطط التفصيلي خطة تناسب التنسيق المستهدف والأدلة المحددة التي قدمها الباحث.
2. وكيل الرسم البياني (Plotting Agent)
يولد وكيل الرسم البياني كلاً من الرسوم التخطيطية للمنهجية المفاهيمية والمخططات الإحصائية مباشرة من سجل التجارب. يقوم داخلياً باستدعاء PaperVizAgent (الذي صدر أصلاً تحت اسم PaperBanana) — وهو إطار عمل شقيق للرسوم التوضيحية الأكاديمية من نفس فريق Google Cloud AI Research — والذي يستخدم نموذج لغة بصرية (Vision-Language Model) كناقد لتحسين الأشكال المولدة بشكل متكرر مقابل المحتوى المصدر حتى تصل إلى معيار جودة التصميم المطلوب.3 ثم يتم دمج الأشكال المولدة في كود LaTeX المصدري جنباً إلى جنب مع الجداول المستخرجة مباشرة من سجل التجارب.
3. وكيل مراجعة الأدبيات (Literature Review Agent)
هذا هو المكون الأهم بلا شك لضمان النزاهة العلمية. بدلاً من الاعتماد على المعرفة الداخلية للنماذج اللغوية الكبيرة — والمعروفة بميلها إلى هلوسة استشهادات لأوراق بحثية غير موجودة — يقوم وكيل مراجعة الأدبيات بتشغيل عملية استشهاد من مرحلتين: أولاً يستخدم نموذجاً لغوياً مع البحث في الويب لإظهار الأوراق المرشحة، ثم يتحقق من كل مرشح مقابل واجهة برمجة تطبيقات (API) Semantic Scholar باستخدام مطابقة Levenshtein الغامضة للعنوان، واسترجاع الملخص والبيانات الوصفية، مع تحديد تاريخ نهائي مرتبط بالموعد النهائي لتقديم المؤتمر المستهدف.2 يتم استبعاد المراجع التي لا يمكن التحقق منها وتجميع الباقي في ملف BibTeX. ثم يستخدم الوكيل تلك المجموعة الموثقة لصياغة أقسام المقدمة و الأعمال ذات الصلة تحت قيد صارم بأن يتم الاستشهاد بـ 90% على الأقل من مجموعة الأدبيات التي تم جمعها — وهي آلية مصممة لمنع كل من الاستشهادات الملفقة وأقسام الأعمال ذات الصلة الضحلة. في معيار PaperWritingBench، أنتج PaperOrchestra متوسطاً يتراوح بين 45.73 إلى 47.98 استشهاداً موثقاً لكل ورقة، مقابل حوالي 59 استشهاداً في الأوراق المكتوبة بشرياً — وهو ما يقترب من المستوى البشري دون التضحية بالدقة.2
4. وكيل كتابة الأقسام (Section Writing Agent)
مع وجود المخطط التفصيلي، والاستشهادات الموثقة، والأشكال المولدة، يقوم وكيل كتابة الأقسام بصياغة بقية متن الورقة — الملخص، المنهجية، التجارب، والخاتمة — تاركاً المقدمة والأعمال ذات الصلة لوكيل مراجعة الأدبيات. يستخرج القيم الرقمية مباشرة من سجل التجارب لبناء جداول النتائج ويدمج الأشكال المولدة في كود LaTeX المصدري، رابطاً المخطوطة بأكملها في مسودة متماسكة تحترم قيود الطول والأسلوب للمؤتمر المستهدف.
5. وكيل تحسين المحتوى (Content Refinement Agent)
يستخدم الوكيل الأخير AgentReview، وهو نظام مراجعة نظراء محاكى تم نشره مسبقاً، لنقد ومراجعة المسودة بشكل متكرر.2 تم تقديم AgentReview في ورقة بحثية منفصلة عام 2024 كإطار عمل يعتمد على النماذج اللغوية الكبيرة لمحاكاة عملية مراجعة النظراء.4 في PaperOrchestra، يعمل كبوابة جودة: لا يتم قبول المسودة إلا إذا أدت كل جولة تحسين إما إلى رفع درجة AgentReview الإجمالية أو تساوت معها مع تحقيق مكاسب فرعية غير سلبية. هذا يمنع حلقة التحسين من الانجراف نحو مسودات أسوأ في السعي وراء التجديد.
PaperWritingBench: معيار جديد لكتابة الأوراق البحثية بالذكاء الاصطناعي
لتقييم إطار العمل بصرامة، بنى المؤلفون PaperWritingBench، الذي يوصف بأنه أول معيار قياسي موحد للمواد الخام المستخرجة عكسياً من أوراق بحثية في مؤتمرات الذكاء الاصطناعي الكبرى.2
يحتوي الاختبار المرجعي على 200 ورقة بحثية مقبولة — 100 من CVPR 2025 و 100 من ICLR 2025. تم اختيار هذين المؤتمرين تحديداً لاختلاف تنسيقهما: يستخدم CVPR تخطيط العمودين بينما يستخدم ICLR تخطيط العمود الواحد، مما يجبر أي نظام لكتابة الأوراق البحثية على التكيف مع كليهما. لكل ورقة، قام المؤلفون بالهندسة العكسية للمواد الخام السابقة للكتابة التي قد يبدأ بها الباحث — ملخص فكرة تقريبي، سجلات تجريبية، جداول نتائج — واستخدموا ذلك كمدخل لنظام كتابة الأوراق. وهذا يمنح PaperOrchestra نفس نقطة البداية التي كانت ستتوفر لمؤلف بشري، ويتيح للمقيمين مقارنة المخطوطة الناتجة مباشرة بالورقة التي كتبها البشر في النهاية.
كيفية أداء PaperOrchestra
قام المؤلفون بتقييم PaperOrchestra بطريقتين متكاملتين: تقييم آلي جنباً إلى جنب (SxS) باستخدام حكام من نماذج LLM، و تقييم بشري جنباً إلى جنب حيث قام مقيمون خبراء بمقارنة المخطوطات الناتجة بالمخرجات المرجعية.
التقييم البشري
أجرى المؤلفون دراسة جنباً إلى جنب (SxS) مع 11 باحثاً في الذكاء الاصطناعي أجروا 180 مقارنة للمخطوطات المزدوجة، حيث حكموا بشكل أعمى على مسودات PaperOrchestra مقابل المخرجات المرجعية المستقلة وضد الحقيقة الأرضية التي كتبها البشر.2 في جودة مراجعة الأدبيات، حقق PaperOrchestra هوامش فوز مطلقة تتراوح بين 50% إلى 68% على الأنظمة المرجعية. وفي الجودة العامة للمخطوطة، تراوحت الهوامش بين 14% إلى 38%.2
تعتبر فجوة مراجعة الأدبيات هي النتيجة الأكثر لفتاً للنظر. فهي تعكس ثمار ربط كل استشهاد بـ Semantic Scholar API بدلاً من ترك النموذج يهلوس بالمراجع من بيانات تدريبه — وهي مشكلة مزمنة في مولدات الأوراق البحثية التي تعتمد على LLM فقط.
التقييم الآلي
في تقييمات SxS الآلية، كانت الفجوة أكبر. سيطر PaperOrchestra على جودة مراجعة الأدبيات بهوامش فوز مطلقة تتراوح بين 88% إلى 99% على المراجع القائمة على الذكاء الاصطناعي. بالنسبة لجودة الورقة الإجمالية، فقد تفوق على AI Scientist-v2 بنسبة 39% إلى 86% وعلى Single Agent المرجعي بنسبة 52% إلى 88% عبر جميع الإعدادات.2
تجدر الإشارة إلى الفجوة بين الأرقام البشرية والآلية: المقيمون البشريون أكثر صرامة، والحكام الآليون أكثر سخاءً في الدرجات العليا. القراءة الصادقة هي أن PaperOrchestra يفوز بوضوح على كلا المحورين، لكن الأرقام البشرية هي التي يجب الاستشهاد بها عند المقارنة بالأعمال السابقة.
القبول المحاكى
تحت نظام ScholarPeer — وهو وكيل مراجعة شقيق من Google Research تم إصداره جنباً إلى جنب مع PaperOrchestra وبناه فريق متداخل — حققت المخطوطات التي أنتجها PaperOrchestra معدلات قبول محاكاة بلغت 84% في CVPR و 81% في ICLR، مقارنة بمعدلات الحقيقة الأرضية (التي كتبها البشر) البالغة 86% و 94% على التوالي.25 عند التفسير بعناية — فهذه حالات قبول محاكاة من مراجع LLM شقيق، وليست قرارات مؤتمرات حقيقية — تشير النتائج إلى أن مسودات PaperOrchestra تقترب بفارق نقاط مئوية قليلة من النسخ البشرية في جانب CVPR وحوالي 13 نقطة خلفها في ICLR. كما سجل الإطار مكاسب قبول مطلقة بلغت 13% في CVPR و 9% في ICLR مقارنة بأقوى نظام مرجعي مستقل.2
وقت التشغيل والتكلفة
السرعة مهمة لأتمتة الأبحاث، لأن أي نظام يستغرق ساعات أو أياماً لكل مخطوطة لن يتناسب أبداً مع سير عمل الكتابة الحقيقي. يكمل PaperOrchestra خط المعالجة الكامل في متوسط 39.6 دقيقة لكل ورقة ويستهلك ما يقرب من 60 إلى 70 مكالمة LLM API لكل مخطوطة.2 وللمقارنة، يعمل النظام المرجعي المستقل AI Scientist-v2 في 35.1 دقيقة من البداية للنهاية، لذا فإن PaperOrchestra يقدم مكاسبه الكبيرة في الجودة بتكلفة وقت تشغيل تبلغ حوالي 4.5 دقيقة إضافية فقط لكل ورقة — تقريباً نفس ميزانية الوقت الفعلي، وليس نظاماً أبطأ.2 لا تنشر الورقة تكلفة إجمالية بالدولار، ويعتمد الرقم الفعلي على النموذج الأساسي المستخدم وفئة التسعير في وقت التشغيل؛ يجب على القراء مراجعة الورقة الكاملة لمعرفة التكوين الدقيق المستخدم في التجارب المبلغ عنها.
لماذا يفوز نهج الوكلاء المتعددين
البصيرة الجوهرية وراء PaperOrchestra هي أن كتابة الأوراق البحثية ليست مهمة واحدة. إنها مجموعة من المهام المختلفة تماماً التي يميل استدعاء LLM واحد ضخم إلى أدائها بشكل سيء عند تجميعها معاً. إن طلب موجه واحد لتحديد الخطوط العريضة، ورسم المخططات، والاستشهاد، والكتابة، وتحسين المخطوطة في وقت واحد ينتج مسودة متوسطة في كل خطوة من تلك الخطوات. فك الارتباط بينها يسمح لكل وكيل بالتخصص — يمكن ضبط وكيل مراجعة الأدبيات (Literature Review Agent) لزيادة استرجاع الاستشهادات إلى أقصى حد، ويمكن ضبط وكيل الرسم (Plotting Agent) لمطابقة التقاليد البصرية للمؤتمر المستهدف، ويمكن لوكيل تحسين المحتوى (Content Refinement Agent) التركيز على نقد مراجعة النظراء دون القلق بشأن إدخال هلوسات جديدة.
هذا النمط — تخصص الوكلاء المتعددين يتفوق على توجيه الوكيل الواحد — يستمر في الظهور عبر أبحاث الوكلاء في عامي 2025 و 2026. يضيف PaperOrchestra نقطة بيانات أخرى إلى هذا الاتجاه، وتعد فجوة مراجعة الأدبيات المقيمة بشرياً بنسبة 50%–68% واحدة من أوضح عمليات الاستئصال (ablations) لهذا التأثير المنشورة حتى الآن.
ماذا يعني هذا للباحثين
إن PaperOrchestra ليس بديلاً للتفكير العلمي. فهو لا يجري تجارب، ولا يقترح فرضيات، ولا يقيم ما إذا كانت النتيجة مثيرة للاهتمام. ما يفعله هو أتمتة العمل الميكانيكي الذي يحيط بالعمل المنجز — وضع الخطوط العريضة، ورسم المخططات، والاستشهاد، وكتابة المقدمة والأعمال ذات الصلة، وتحسين اللغة تحت مراجعة محاكاة.
بالنسبة للباحثين الذين يجدون كتابة الأوراق هي عنق الزجاجة بين إنتاج النتيجة ومشاركتها مع المجتمع، فإن خط معالجة مدته 40 دقيقة ينتج مسودة جاهزة للتقديم هو أمر مهم. بالنسبة للمراجعين ولجان البرامج، فإنه يثير أسئلة مهمة حول كيفية التعامل مع التقديمات التي تمت صياغتها جزئياً أو كلياً بواسطة نظام مثل هذا. إن تأطير Google — بأن PaperOrchestra هو مساعد كتابة، وليس مؤلفاً مستقلاً — يتوافق مع الطريقة التي يرغب معظم الباحثين العاملين في استخدامه بها، ولكن الخط الفاصل بين "المساعد" و "المولد" سيصبح ضبابياً بسرعة.
الخلاصة
يعد PaperOrchestra دليلاً ملموساً على المكان الذي تضيف فيه الأنظمة متعددة الوكلاء (multi-agent systems) أكبر قيمة: المهام التي تتحلل بشكل طبيعي إلى مهام فرعية متخصصة، حيث تستفيد كل مهمة فرعية من "برومبت" مخصص، وأدوات مخصصة، ومعيار جودة مخصص. إن مسار العمل المكون من خمسة وكلاء والذي ينتج مخطوطة جاهزة للتقديم في 40 دقيقة — مع استشهادات تستند إلى قاعدة بيانات بيبليوغرافية حقيقية وحلقة تحسين بأسلوب مراجعة الأقران — يعد خطوة ذات مغزى تتجاوز الجيل الأول من أنظمة كتابة الأوراق البحثية المستقلة.
وسواء احتضن المجتمع البحثي هذا التوجه أو قاوم المد المتصاعد للمشاركات المدعومة بالذكاء الاصطناعي، فهذا سؤال منفصل. لكن الاتجاه التقني واضح: التخصص يتفوق على الأنظمة الموحدة (monoliths)، والأدوات المستندة إلى الحقائق تتفوق على الهلوسة، وطبقة الكتابة في العلوم على وشك أن تصبح أكثر أتمتة بكثير.
المصادر
Footnotes
-
Song, Y., Song, Y., Pfister, T., & Yoon, J. (2026). PaperOrchestra: A Multi-Agent Framework for Automated AI Research Paper Writing. arXiv:2604.05018. Available at: https://arxiv.org/abs/2604.05018 ↩ ↩2 ↩3
-
MarkTechPost. (April 8, 2026). Google AI Research Introduces PaperOrchestra: A Multi-Agent Framework for Automated AI Research Paper Writing. Available at: https://www.marktechpost.com/2026/04/08/google-ai-research-introduces-paperorchestra-a-multi-agent-framework-for-automated-ai-research-paper-writing/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17
-
Zhu, D., Meng, R., Song, Y., Wei, X., Li, S., Pfister, T., & Yoon, J. (2026). PaperVizAgent (originally released as PaperBanana): Automating Academic Illustration for AI Scientists. arXiv:2601.23265. Available at: https://arxiv.org/abs/2601.23265 ↩
-
Jin, Y., Zhao, Q., Wang, Y., Chen, H., Zhu, K., Xiao, Y., & Wang, J. (2024). AgentReview: Exploring Peer Review Dynamics with LLM Agents. EMNLP 2024. arXiv:2406.12708. Available at: https://arxiv.org/abs/2406.12708 ↩
-
Goyal, P., Parmar, M., Song, Y., Palangi, H., Pfister, T., & Yoon, J. (2026). ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review. arXiv:2601.22638. Available at: https://arxiv.org/abs/2601.22638 ↩