The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
academic- معرّف الورقة: 2502.00874
- العنوان: الموضع: يجب على مجتمع الذكاء الاصطناعي والتعلم الآلي اعتماد عملية مراجعة نظراء أكثر شفافية وتنظيماً
- المؤلف: جينج يانج (جامعة جنوب كاليفورنيا، papercopilot.com)
- التصنيف: cs.DL cs.AI cs.CV cs.CY
- وقت النشر/المؤتمر: وقائع المؤتمر الدولي الثاني والأربعين للتعلم الآلي، فانكوفر، كندا. PMLR 267، 2025
- رابط الورقة: https://arxiv.org/abs/2502.00874
مع النمو السريع في عدد الأوراق المقدمة إلى مؤتمرات الذكاء الاصطناعي (AI) والتعلم الآلي (ML) الرائدة، انتقلت العديد من المؤتمرات من منصات المراجعة المغلقة إلى منصات المراجعة المفتوحة. تعتمد بعض المؤتمرات بالكامل على المراجعة النظيرة المفتوحة، مما يسمح برؤية عامة لكامل العملية، بينما يعتمد البعض الآخر على نهج هجين، مثل نشر المراجعات فقط بعد القرار النهائي أو الحفاظ على خصوصية المراجعات رغم استخدام أنظمة المراجعة المفتوحة. تحلل هذه الورقة مزايا وقيود هذه الأنماط، مع تسليط الضوء على الاهتمام المتزايد للمجتمع بالمراجعة النظيرة الشفافة. لدعم هذا النقاش، نفحص رؤى Paper Copilot، وهو موقع ويب تم إطلاقه قبل سنتين لتجميع وتحليل بيانات مؤتمرات AI/ML وجذب جمهور عالمي. جذب الموقع أكثر من 200,000 باحث في بداية حياتهم المهنية من 177 دولة، خاصة الباحثين الذين تتراوح أعمارهم بين 18-34 سنة، يشارك الكثير منهم بنشاط في عملية المراجعة النظيرة. بناءً على نتائجنا، تدعو ورقة الموضع هذه إلى مراجعة نظيرة أكثر شفافية وانفتاحاً وتنظيماً، بهدف تعزيز مشاركة مجتمعية أكبر ودفع التقدم في هذا المجال.
المشكلة الأساسية التي تعالجها هذه الورقة هي عدم كفاية الشفافية والتنظيم في عملية المراجعة النظيرة في الأوساط الأكاديمية في مجال AI/ML. وتشمل بشكل محدد:
- الزيادة الهائلة في عدد الأوراق المقدمة إلى مؤتمرات AI/ML الرائدة (تتجاوز 10,000 ورقة)، مما يضع ضغطاً هائلاً على الممارسات التقليدية من حيث العدالة والكفاءة والحفاظ على الجودة
- اعتماد مؤتمرات مختلفة لنماذج شفافية مراجعة مختلفة (مفتوحة بالكامل، مفتوحة جزئياً، مغلقة بالكامل)، مما يفتقر إلى معايير موحدة
- زيادة نسبة المراجعين الشباب لكن يفتقرون إلى الخبرة، مما قد يؤثر على جودة المراجعة
- افتقار استخدام أدوات الذكاء الاصطناعي في المراجعة إلى التنظيم، مع وجود مخاطر أخلاقية
تتجلى أهمية هذه المشكلة في:
- الحفاظ على النزاهة الأكاديمية: تساعد عملية المراجعة الشفافة على اكتشاف ومنع سوء السلوك الأكاديمي
- تعزيز مشاركة المجتمع: يمكن للمراجعة المفتوحة أن تعزز مشاركة وتعاون أعضاء المجتمع
- تحسين جودة المراجعة: يمكن للإشراف العام أن يحسن الموضوعية والبناء في المراجعة
- تسريع نشر المعرفة: تساعد عملية المراجعة الشفافة على نشر المعرفة الأكاديمية بسرعة
- المراجعة المغلقة بالكامل: تفتقر إلى آليات الإشراف والمساءلة، مما يسهل حدوث عدم الاتساق والتحيز
- المراجعة المفتوحة جزئياً: على الرغم من نشر المراجعات بعد القرار، إلا أنها تحد من المشاركة المجتمعية في الوقت الفعلي
- المراجعة المفتوحة بالكامل: قد تؤدي إلى حذر مفرط من المراجعين، مما يؤثر على الملاحظات الصريحة
جمع المؤلف كمية كبيرة من البيانات من خلال منصة Paper Copilot، واكتشف:
- أكثر من 200,000 مستخدم نشط من 177 دولة يظهرون اهتماماً قوياً بالمراجعة الشفافة
- الباحثون الشباب الذين تتراوح أعمارهم بين 18-34 سنة هم المجموعة الرئيسية للمستخدمين
- مؤتمرات المراجعة المفتوحة تحقق مستويات أعلى من المشاركة المجتمعية
- توفير بيانات إحصائية مفتوحة: توفير إحصائيات مرئية من خلال Paper Copilot تتضمن توزيع درجات المراجعة وخطوط زمنية المراجعة وتحليلات المؤلفين/المؤسسات
- تحديد كمي لأدلة الاهتمام المجتمعي: توفير أدلة كمية على الاهتمام المتزايد للمجتمع بشفافية المراجعة بناءً على بيانات المشاركة لمدة سنتين
- التحليل النقدي: تحليل منهجي لمزايا وعيوب أنماط المراجعة المختلفة
- توصيات السياسة: الدعوة إلى اعتماد عملية مراجعة نظيرة أكثر شفافية وانفتاحاً وتنظيماً
- واجهات برمجية عامة وعناكب الويب:
- الحصول على درجات المراجعة والثقة والآراء من مؤتمرات المراجعة المفتوحة مثل ICLR من خلال OpenReview API
- نشر عناكب مخصصة للحصول على البيانات يومياً، مما يخلق أرشيفات السلاسل الزمنية
- الحصول على معلومات المؤلف والمؤسسة من المواقع الرسمية
- التقديمات المجتمعية:
- جمع معلومات المراجعة المجهولة من مؤتمرات المراجعة المفتوحة جزئياً أو المغلقة من خلال نماذج Google
- تم جمع 3,876 استجابة صحيحة خلال السنة الماضية
- خط أنابيب تنظيف وتوحيد ودمج وتخزين البيانات
- مجموعة بيانات مفتوحة المصدر
- واجهة أمامية تفاعلية للتصور
- مفتوحة بالكامل: جميع المراجعات والمناقشات مرئية علناً في الوقت الفعلي (مثل ICLR)
- مفتوحة جزئياً: المراجعات والمناقشات مفتوحة فقط بعد انتهاء مرحلة القرار (مثل NeurIPS و CoRL)
- مغلقة بالكامل: المراجعات والمناقشات تبقى خاصة بشكل دائم (مثل ICML و CVPR)
- توزيع العمر والجنس
- التوزيع الجغرافي (177 دولة)
- تحليل وقت المشاركة ومعدلات النقر
- أداء تصنيف محرك البحث
- الفترة الزمنية: 10 سنوات من البيانات المتاحة
- تغطية المؤتمرات: 24 مؤتمراً، تغطي 9 مجالات فرعية في AI/ML
- بيانات المستخدم: أكثر من 200,000 مستخدم نشط من 177 دولة
- إحصائيات الموقع: 6 ملايين عرض، مليون زيارة موقع، 4 ملايين حدث تفعيل المستخدم
- مشاركة المستخدم: عدد مشاهدات الصفحة والمستخدمين النشطين ومتوسط وقت المشاركة
- أداء البحث: معدل النقر (CTR) في Google وموضع ترتيب الصفحة
- جودة المراجعة: درجات الثقة وعدد ردود المناقشة
- اهتمام المجتمع: معدل تقديم البيانات الطوعية ومعدل الاستجابة للاستطلاع
- مقارنة مشاركة المستخدم بين مؤتمرات بمستويات شفافية مختلفة
- مقارنة مفصلة بين ICLR (مفتوح بالكامل) و NeurIPS (مفتوح جزئياً)
- تحليل مشاركة مؤتمرات المراجعة المغلقة
- ICLR (مفتوح بالكامل): 414,096 مشاهدة، 88,220 مستخدم نشط، متوسط وقت مشاركة 3 دقائق و50 ثانية
- NeurIPS (مفتوح جزئياً): مشاركة أقل بشكل واضح من ICLR
- المؤتمرات المغلقة (CVPR و ECCV): عدد مشاهدات أقل من 35,000، متوسط وقت مشاركة أقل من 1.5 دقيقة
- معدل النقر (CTR) في Google يبقى متسقاً بين 66.08% و 86.49%
- صفحات المراجعة المفتوحة ذات ترتيب أعلى في نتائج البحث
- أنتجت عمليات البحث العضوية في Google وحدها 50,000 نقرة خلال آخر 28 يوماً
- درجات الثقة:
- ICLR: 3.53 ± 0.48 (2024)
- NeurIPS: 3.58 ± 0.54 (2024)
- تظهر المراجعة المفتوحة بالكامل تركيزاً أقل قليلاً على درجات الثقة العالية
- نشاط المناقشة:
- يظهر ICLR توزيعاً أوسع من الردود (أقصى 76 رد مقابل 49 رد في NeurIPS)
- يظهر تباين المناقشة في ICLR بشكل أكبر بكثير، مما يعكس بيئة مراجعة أكثر ديناميكية
- المجموعة الرئيسية للمستخدمين: يشكل الأشخاص الذين تتراوح أعمارهم بين 18-24 سنة أكبر نسبة
- وقت المشاركة: يحقق المستخدمون الذكور الشباب أطول متوسط وقت مشاركة (4 دقائق و15 ثانية)
- مستخدمات الإناث: وقت المشاركة نسبياً متسق عبر جميع الفئات العمرية
- الدول الرئيسية: الولايات المتحدة (60,648 مستخدم) والصين (59,269 مستخدم)
- المناطق عالية المشاركة: سنغافورة وأستراليا بمتوسط وقت مشاركة يتجاوز 3 دقائق
- اختلافات المشاركة: المملكة المتحدة وألمانيا بوقت مشاركة نسبياً أقصر (أقل من دقيقتين)
- الأساس النظري: وضع Ross-Hellauer (2017) وآخرون الإطار النظري لـ OPR
- الاستكشاف العملي: عززت منصة OpenReview تطبيق OPR في مجال AI/ML
- أبحاث الجودة: درس Church وآخرون (2024) تأثير المراجعة المفتوحة على جودة الملاحظات
- الاعتبارات الأخلاقية: أبحاث حول مخاطر الخصوصية والمضايقة المحتملة من المراجعة العامة
- المراجعة بمساعدة الذكاء الاصطناعي: استكشاف تطبيق أدوات الذكاء الاصطناعي في المراجعة واحتياجات التنظيم
- التحيز والعدالة: تحليل التحيزات المنهجية في عملية المراجعة
- احتياجات المجتمع واضحة: تثبت مشاركة أكثر من 200,000 مستخدم عالمي الطلب القوي على المراجعة الشفافة
- مزايا المراجعة المفتوحة واضحة: تعزز عملية المراجعة المفتوحة بالكامل مشاركة مجتمعية أكبر ومناقشات أكاديمية أكثر ثراءً
- قيادة الباحثين الشباب: الباحثون الذين تتراوح أعمارهم بين 18-34 سنة هم الدافعون الرئيسيون للمراجعة الشفافة
- يمكن تحقيق الجودة والشفافية معاً: لم تضر المراجعة المفتوحة بجودة المراجعة، بل عززت التقييمات الأكثر حذراً
- تحديات المراجعين الشباب: يجد المراجعون الذين يفتقرون إلى الخبرة صعوبة في الحصول على التوجيه في بيئة مغلقة
- افتقار الاستخدام المنظم للذكاء الاصطناعي: يصعب مراقبة وتنظيم استخدام أدوات الذكاء الاصطناعي في البيئات المغلقة
- عدم كفاية آليات المساءلة: يصعب اكتشاف وتصحيح المشاكل مثل عدم اتساق معلومات المؤلف في الوقت المناسب
- التقدم التدريجي نحو الانفتاح: يوصى بأن تعتمد المزيد من المؤتمرات نموذج مراجعة مفتوح على الأقل جزئياً
- وضع معايير تنظيمية: وضع إرشادات لاستخدام المراجعة بمساعدة الذكاء الاصطناعي
- تعزيز دعم التدريب: توفير المزيد من التدريب والتوجيه للمراجعين الشباب
- تحسين آليات الإشراف: إنشاء أنظمة مراقبة جودة وآليات مساءلة أكثر فعالية
- دراسة تجريبية واسعة النطاق: أول دراسة تحلل احتياجات شفافية المراجعة بناءً على بيانات السلوك الفعلي لأكثر من 200,000 مستخدم
- تحليل متعدد الأبعاد: يجمع بين سلوك المستخدم وبيانات البحث وجودة المراجعة وأبعاد متعددة أخرى
- جمع البيانات في الوقت الفعلي: جمع وتحليل البيانات بشكل مستمر من خلال منصة Paper Copilot
- منظور عالمي: تغطي 177 دولة، توفر منظوراً عالمياً حقيقياً
- حجم البيانات الكبير: 10 سنوات من البيانات التاريخية، 24 مؤتمراً، 9 مجالات فرعية
- التحقق من مصادر متعددة: دمج بيانات API وبيانات الموقع وبيانات المجتمع
- الجمع بين الكمي والنوعي: بيانات إحصائية وأبحاث المستخدمين
- تحليل السلاسل الزمنية: تتبع التغييرات الديناميكية في عملية المراجعة
- اتساق النتائج: تشير مؤشرات متعددة إلى مزايا المراجعة المفتوحة
- الدلالة الإحصائية: اختلافات واضحة ومتسقة في مشاركة المستخدم
- التأثير العملي: منصة Paper Copilot نفسها هي ممارسة ناجحة للشفافية
- التحيز في الاختيار: قد تحتوي البيانات المقدمة طوعاً على تحيز في الاختيار
- العلاقات السببية: لا يمكن تحديد العلاقة السببية بين الشفافية ومشاركة المستخدم بالكامل
- الاختلافات الثقافية: قد يختلف مستوى قبول الشفافية بين الدول المختلفة
- تأثيرات زمنية: قد يتطلب تأثير نماذج المراجعة وقتاً أطول ليظهر
- تقييم جودة محدود: التركيز الرئيسي على مشاركة المستخدم، التقييم النسبي لجودة المراجعة الفعلية محدود
- تحليل غير كافٍ للتأثيرات السلبية: النقاش حول التأثيرات السلبية المحتملة للمراجعة المفتوحة غير عميق بما يكفي
- نقص في تفاصيل التنفيذ: التوجيه التشغيلي حول كيفية تنفيذ المراجعة الشفافة بشكل محدد غير كافٍ
- الخصوصية المجالية: تستند بشكل أساسي إلى مجال AI/ML، وقابلية التطبيق في المجالات الأخرى غير معروفة
- الخلفية الثقافية: يختلف مستوى قبول الشفافية بشكل كبير بين الثقافات الأكاديمية المختلفة
- العتبة التكنولوجية: تتطلب المراجعة المفتوحة بنية تحتية تكنولوجية معينة
- ملء الفجوة البحثية: أول تحليل كمي واسع النطاق لاحتياجات المجتمع لشفافية المراجعة
- قيمة مرجعية السياسة: توفير مرجع قرار يعتمد على البيانات لمنظمي المؤتمرات
- مساهمة منهجية: إنشاء إطار عمل منهجي جديد لتحليل عملية المراجعة
- التطبيق المباشر: تم استخدام منصة Paper Copilot على نطاق واسع
- التأثير على السياسة: قد يؤثر على صياغة سياسات المراجعة المستقبلية للمؤتمرات
- قيمة الأداة: توفر البيانات وأدوات التحليل قيمة مستمرة
- البيانات المفتوحة المصدر: التزام بفتح مجموعة البيانات المجمعة
- شفافية الطريقة: وصف مفصل لطرق جمع وتحليل البيانات
- إمكانية الوصول إلى المنصة: منصة Paper Copilot تعمل بشكل مستمر، والنتائج قابلة للتحقق
- مؤتمرات AI/ML: يمكن تطبيقها مباشرة على مختلف مؤتمرات AI/ML
- علوم الحاسوب: يمكن توسيعها إلى مجالات فرعية أخرى من علوم الحاسوب
- المجالات التي تقودها التكنولوجيا: تنطبق على المجالات التكنولوجية الأخرى سريعة النمو
- التخصصات التقليدية: تتطلب العلوم الإنسانية والاجتماعية التقليدية الأخذ في الاعتبار العوامل الثقافية
- المجالات الحساسة: يتطلب البحث الذي ينطوي على أسرار تجارية أو أمن قومي اعتبارات خاصة
- المؤتمرات الصغيرة: قد تتطلب المؤتمرات المتخصصة الصغيرة تعديل طرق التنفيذ
- التحقق عبر المجالات: التحقق من استنتاجات البحث في مجالات تخصصية أخرى
- أبحاث التأثير طويلة الأجل: تتبع التأثيرات طويلة الأجل لتغييرات نماذج المراجعة
- طرق تقييم الجودة: تطوير طرق أكثر دقة لتقييم جودة المراجعة
- صياغة إرشادات التنفيذ: وضع إرشادات محددة لتنفيذ المراجعة الشفافة
- أبحاث التكيف الثقافي: دراسة التعديلات التكيفية لخلفيات ثقافية مختلفة
تستشهد هذه الورقة بأبحاث ذات صلة غنية، تشمل بشكل أساسي:
- Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
- Wang, G., et al. (2023). What have we learned from openreview?
- Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
- Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary
التقييم الشامل: هذه ورقة موضع ذات أهمية عملية كبيرة، توفر تحليلاً منهجياً لشفافية المراجعة في مجال AI/ML بناءً على بيانات حقيقية واسعة النطاق وتقدم توصيات. تكمن القيمة الرئيسية للورقة في توفير أدلة كمية تدعم ضرورة المراجعة الشفافة، وإظهار التطبيق العملي الفعلي من خلال منصة Paper Copilot. على الرغم من وجود مجال للتحسن في المنهجية وعمق التحليل، فإن دورها في دفع إصلاح نظام المراجعة الأكاديمية يستحق الإشادة.