The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
- ID de l'article : 2502.00874
- Titre : Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
- Auteur : Jing Yang (Université de Californie du Sud, papercopilot.com)
- Classification : cs.DL cs.AI cs.CV cs.CY
- Date de publication/Conférence : Actes de la 42e Conférence internationale sur l'apprentissage automatique, Vancouver, Canada. PMLR 267, 2025
- Lien de l'article : https://arxiv.org/abs/2502.00874
Avec la croissance rapide du nombre de soumissions aux principales conférences en intelligence artificielle (IA) et apprentissage automatique (AA), de nombreuses conférences sont passées de plateformes d'examen fermées à des plateformes d'examen ouvertes. Certaines conférences adoptent entièrement l'examen par les pairs ouvert, permettant une visibilité publique de l'ensemble du processus, tandis que d'autres adoptent des approches hybrides, telles que la publication des évaluations uniquement après la décision finale ou le maintien de la confidentialité des évaluations malgré l'utilisation de systèmes d'examen ouverts. Cet article analyse les avantages et les limites de ces modèles, mettant en évidence l'intérêt croissant de la communauté pour un examen par les pairs transparent. Pour soutenir cette discussion, nous examinons les perspectives de Paper Copilot, un site Web lancé il y a deux ans pour agréger et analyser les données des conférences IA/AA et attirer un public mondial. Le site a attiré plus de 200 000 jeunes chercheurs en début de carrière provenant de 177 pays, en particulier des chercheurs âgés de 18 à 34 ans, dont beaucoup participent activement au processus d'examen par les pairs. Sur la base de nos conclusions, cet article de position préconise un examen par les pairs plus transparent, ouvert et normalisé, visant à promouvoir une plus grande participation communautaire et à faire progresser le domaine.
Le problème fondamental que cet article cherche à résoudre est le manque de transparence et de normalisation du processus d'examen par les pairs dans le monde universitaire de l'IA/AA. Cela comprend spécifiquement :
- L'augmentation exponentielle du nombre de soumissions aux principales conférences IA/AA (plus de 10 000 articles), mettant une pression énorme sur les pratiques d'examen traditionnelles en termes d'équité, d'efficacité et de maintien de la qualité
- L'adoption par différentes conférences de modèles de transparence d'examen différents (complètement ouvert, partiellement ouvert, complètement fermé), sans normes uniformes
- L'augmentation de la proportion d'évaluateurs jeunes mais manquant d'expérience, ce qui pourrait affecter la qualité de l'examen
- L'absence de réglementation concernant l'utilisation des outils d'IA dans l'examen, présentant des risques éthiques
L'importance de ce problème se manifeste par :
- Maintien de l'intégrité académique : Un processus d'examen transparent aide à détecter et prévenir les inconduits académiques
- Promotion de la participation communautaire : L'examen ouvert peut renforcer l'engagement et la collaboration des membres de la communauté
- Amélioration de la qualité de l'examen : La surveillance publique peut améliorer l'objectivité et le caractère constructif des évaluations
- Accélération de la diffusion des connaissances : Un processus d'examen transparent facilite la diffusion rapide des connaissances académiques
- Examen complètement fermé : Manque de mécanismes de surveillance et de responsabilité, susceptible de générer des incohérences et des biais
- Examen partiellement ouvert : Bien que les évaluations soient rendues publiques après la décision, cela limite la participation communautaire en temps réel
- Examen complètement ouvert : Peut conduire les évaluateurs à être trop prudents, affectant la sincérité des commentaires
L'auteur a collecté des données volumineuses via la plateforme Paper Copilot et a découvert :
- Plus de 200 000 utilisateurs actifs provenant de 177 pays manifestent un intérêt marqué pour l'examen transparent
- Les jeunes chercheurs âgés de 18 à 34 ans constituent le principal groupe d'utilisateurs
- Les conférences avec examen ouvert obtiennent un taux de participation communautaire plus élevé
- Fourniture de données statistiques ouvertes : Fourniture via Paper Copilot de visualisations statistiques incluant la distribution des scores d'examen, les chronologies d'examen, l'analyse des auteurs/institutions, etc.
- Quantification des preuves d'intérêt communautaire : Basée sur deux ans de données de participation, fourniture de preuves quantitatives de l'intérêt croissant de la communauté pour la transparence de l'examen
- Analyse critique : Analyse systématique des avantages et des inconvénients de divers modèles d'examen
- Recommandations politiques : Plaidoyer pour l'adoption d'un processus d'examen par les pairs plus transparent, ouvert et normalisé
- API publiques et web scraping :
- Récupération des scores, niveaux de confiance et commentaires d'examen des conférences d'examen ouvert comme ICLR via l'API OpenReview
- Déploiement de web scrapers personnalisés pour la collecte quotidienne de données, créant des archives de séries chronologiques
- Récupération des informations d'auteur et d'institution à partir des sites Web officiels
- Soumissions communautaires :
- Collecte d'informations d'examen anonymes provenant de conférences avec examen partiellement ouvert ou fermé via Google Forms
- Collecte de 3 876 réponses valides au cours de la dernière année
- Pipeline standardisé de nettoyage, fusion et stockage des données
- Ensemble de données en open source
- Interface de visualisation interactive en front-end
- Complètement ouvert : Tous les examens et discussions sont visibles en temps réel publiquement (par exemple, ICLR)
- Partiellement ouvert : Les examens et discussions ne sont rendus publics qu'après la fin de la phase de décision (par exemple, NeurIPS, CoRL)
- Complètement fermé : Les examens et discussions restent privés de manière permanente (par exemple, ICML, CVPR)
- Distribution par âge et sexe
- Distribution géographique (177 pays)
- Analyse du temps de participation et des taux de clic
- Performance de classement des moteurs de recherche
- Période couverte : 10 ans de données disponibles
- Couverture des conférences : 24 conférences, couvrant 9 sous-domaines IA/AA
- Données utilisateur : Plus de 200 000 utilisateurs actifs provenant de 177 pays
- Statistiques du site Web : 6 millions d'impressions, 1 million de visites du site, 4 millions d'événements déclenchés par les utilisateurs
- Engagement des utilisateurs : Pages vues, nombre d'utilisateurs actifs, temps d'engagement moyen
- Performance de recherche : Taux de clic Google (CTR), position de classement des pages
- Qualité de l'examen : Scores de confiance, nombre de réponses aux discussions
- Intérêt communautaire : Taux de soumission volontaire de données, taux de réponse aux enquêtes
- Comparaison de l'engagement des utilisateurs entre conférences avec différents niveaux de transparence
- Comparaison détaillée entre ICLR (complètement ouvert) et NeurIPS (partiellement ouvert)
- Analyse de l'engagement des conférences avec examen fermé
- ICLR (complètement ouvert) : 414 096 pages vues, 88 220 utilisateurs actifs, temps d'engagement moyen de 3 minutes 50 secondes
- NeurIPS (partiellement ouvert) : Engagement nettement inférieur à ICLR
- Conférences fermées (CVPR, ECCV) : Pages vues inférieures à 35 000, temps d'engagement moyen inférieur à 1,5 minute
- Le CTR Google reste constant entre 66,08 % et 86,49 %
- Les pages relatives à l'examen ouvert se classent plus haut dans les résultats de recherche
- Au cours des 28 derniers jours, la recherche Google seule a généré 50 000 clics organiques
- Scores de confiance :
- ICLR : 3,53 ± 0,48 (2024)
- NeurIPS : 3,58 ± 0,54 (2024)
- L'examen complètement ouvert montre une concentration légèrement plus faible de scores de confiance élevée
- Activité de discussion :
- ICLR montre une distribution de réponses plus large (maximum 76 réponses vs 49 pour NeurIPS)
- La variance des discussions d'ICLR est significativement plus grande, reflétant un environnement d'examen plus dynamique
- Principal groupe d'utilisateurs : Les 18-24 ans représentent la plus grande proportion
- Temps de participation : Les jeunes utilisateurs masculins ont le temps de participation moyen le plus long (4 minutes 15 secondes)
- Utilisatrices : Le temps de participation est relativement constant dans tous les groupes d'âge
- Pays principaux : États-Unis (60 648 utilisateurs), Chine (59 269 utilisateurs)
- Régions à fort engagement : Singapour, Australie avec temps de participation moyen supérieur à 3 minutes
- Variations d'engagement : Royaume-Uni, Allemagne avec temps de participation relativement plus court (inférieur à 2 minutes)
- Fondements théoriques : Ross-Hellauer (2017) et autres ont établi le cadre théorique de l'EPO
- Explorations pratiques : La plateforme OpenReview a promu l'application de l'EPO dans le domaine IA/AA
- Recherche sur la qualité : Church et al. (2024) ont étudié l'impact de l'examen ouvert sur la qualité des commentaires
- Considérations éthiques : Recherche sur les risques de confidentialité et de harcèlement potentiels de l'examen public
- Examen assisté par IA : Exploration de l'application des outils d'IA dans l'examen et des besoins de réglementation
- Biais et équité : Analyse des biais systématiques dans le processus d'examen
- Besoins communautaires clairs : Le taux d'engagement élevé de plus de 200 000 utilisateurs mondiaux prouve un besoin fort d'examen transparent
- Avantages significatifs de l'examen ouvert : Un processus d'examen complètement ouvert favorise une plus grande participation communautaire et des discussions académiques plus riches
- Leadership des jeunes chercheurs : Les chercheurs âgés de 18 à 34 ans sont les principaux moteurs de l'examen transparent
- Qualité et transparence compatibles : L'examen ouvert n'a pas endommagé la qualité de l'examen, mais a plutôt favorisé des évaluations plus prudentes
- Défis des jeunes évaluateurs : Les évaluateurs inexpérimentés ont du mal à obtenir des conseils dans un environnement fermé
- Manque de réglementation sur l'utilisation de l'IA : L'environnement fermé rend difficile la surveillance et la réglementation de l'utilisation des outils d'IA
- Mécanismes de responsabilité insuffisants : Il est difficile de corriger rapidement les problèmes tels que les incohérences d'informations d'auteur
- Progression progressive vers l'ouverture : Recommandation pour que davantage de conférences adoptent au moins un modèle d'examen partiellement ouvert
- Établissement de normes de régulation : Élaboration de directives pour l'utilisation de l'examen assisté par IA
- Renforcement du soutien à la formation : Fourniture de plus de formation et de conseils aux jeunes évaluateurs
- Amélioration des mécanismes de surveillance : Établissement de systèmes de contrôle de qualité et de responsabilité plus efficaces
- Étude empirique à grande échelle : Première analyse basée sur les données de comportement réel de plus de 200 000 utilisateurs concernant les besoins de transparence de l'examen
- Analyse multidimensionnelle : Combinaison du comportement des utilisateurs, des données de recherche, de la qualité de l'examen et d'autres dimensions
- Collecte de données en temps réel : Collecte et analyse continues de données via la plateforme Paper Copilot
- Perspective mondiale : Couverture de 177 pays, fournissant une véritable perspective mondialisée
- Taille de données importante : 10 ans de données historiques, 24 conférences, 9 sous-domaines
- Validation multi-sources : Combinaison de données API, données de site Web, données de soumissions communautaires
- Combinaison quantitative et qualitative : À la fois données statistiques et enquêtes utilisateurs
- Analyse de séries chronologiques : Suivi des changements dynamiques du processus d'examen
- Conclusions cohérentes : Plusieurs indicateurs pointent vers les avantages de l'examen ouvert
- Signification statistique : Les différences d'engagement des utilisateurs sont évidentes et cohérentes
- Impact pratique : Paper Copilot lui-même est une pratique de transparence réussie
- Biais de sélection : Les données soumises volontairement peuvent présenter un biais de sélection
- Relations causales : Impossible de déterminer complètement la relation causale entre transparence et engagement
- Différences culturelles : L'acceptation de la transparence peut varier selon les pays
- Effets temporels : L'impact des modèles d'examen peut nécessiter plus de temps pour se manifester
- Évaluation limitée de la qualité : Accent principal sur l'engagement, évaluation relativement limitée de la qualité réelle de l'examen
- Analyse insuffisante des impacts négatifs : Discussion insuffisante des impacts potentiellement négatifs de l'examen ouvert
- Manque de détails d'implémentation : Manque de conseils opérationnels détaillés sur la mise en œuvre concrète de l'examen transparent
- Spécificité du domaine : Basé principalement sur le domaine IA/AA, l'applicabilité dans d'autres domaines est inconnue
- Contexte culturel : L'acceptation de la transparence varie considérablement selon les cultures académiques
- Barrières technologiques : L'examen ouvert nécessite une certaine infrastructure technologique de base
- Combler une lacune de recherche : Première analyse quantitative à grande échelle des besoins communautaires en matière de transparence de l'examen
- Valeur de référence politique : Fournir aux organisateurs de conférences une référence décisionnelle basée sur les données
- Contributions méthodologiques : Établir un nouveau cadre méthodologique pour l'analyse des processus d'examen
- Application directe : La plateforme Paper Copilot est largement utilisée
- Impact politique : Peut influencer la formulation des politiques d'examen des conférences futures
- Valeur des outils : Les données et outils d'analyse fournis ont une valeur continue
- Données en open source : Engagement à ouvrir l'ensemble de données collectées
- Transparence méthodologique : Description détaillée des méthodes de collecte et d'analyse de données
- Accessibilité de la plateforme : La plateforme Paper Copilot fonctionne en continu, les résultats peuvent être vérifiés
- Conférences IA/AA : Application directe aux divers types de conférences dans le domaine IA/AA
- Informatique : Extensible à d'autres sous-domaines de l'informatique
- Domaines technologiques : Applicable à d'autres domaines technologiques en rapide développement
- Disciplines traditionnelles : Les sciences humaines et sociales doivent tenir compte des facteurs culturels
- Domaines sensibles : La recherche impliquant des secrets commerciaux ou la sécurité nationale nécessite des considérations particulières
- Petites conférences : Les petites conférences spécialisées peuvent nécessiter des ajustements dans la mise en œuvre
- Validation interdisciplinaire : Vérification des conclusions de la recherche dans d'autres domaines académiques
- Recherche sur l'impact à long terme : Suivi des impacts à long terme des changements de modèles d'examen
- Méthodes d'évaluation de la qualité : Développement de méthodes plus précises d'évaluation de la qualité de l'examen
- Élaboration de directives de mise en œuvre : Formulation de directives concrètes pour la mise en œuvre d'un examen transparent
- Recherche sur l'adaptabilité culturelle : Étude des ajustements d'adaptabilité dans différents contextes culturels
Cet article cite une riche littérature connexe, comprenant principalement :
- Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
- Wang, G., et al. (2023). What have we learned from openreview?
- Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
- Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary
Évaluation globale : Ceci est un article de position d'une importance pratique significative, fournissant une analyse systématique et des recommandations concernant la transparence de l'examen dans le monde universitaire IA/AA basées sur des données réelles à grande échelle. La valeur principale de l'article réside dans la fourniture de preuves quantifiées soutenant la nécessité d'un examen transparent et la démonstration d'effets d'application pratiques via la plateforme Paper Copilot. Bien qu'il y ait de la place pour l'amélioration en termes de rigueur méthodologique et de profondeur analytique, sa contribution à la promotion de la réforme du système d'examen académique mérite d'être reconnue.