2025-11-25T01:52:16.261661

Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process

Yang

The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.

academic

Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process

基本信息

论文ID: 2502.00874
标题: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
作者: Jing Yang (University of Southern California, papercopilot.com)
分类: cs.DL cs.AI cs.CV cs.CY
发表时间/会议: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
论文链接: https://arxiv.org/abs/2502.00874

摘要

随着顶级人工智能(AI)和机器学习(ML)会议投稿数量的快速增长，许多会议从封闭式评审平台转向开放式评审平台。一些会议完全采用开放同行评审，允许整个过程的公开可见性，而另一些则采用混合方法，如仅在最终决定后发布评审或尽管使用开放评审系统但保持评审私密。本文分析了这些模式的优势和局限性，突出了社区对透明同行评审日益增长的兴趣。为支持这一讨论，我们检查了Paper Copilot的见解，这是一个两年前推出的网站，用于聚合和分析AI/ML会议数据并吸引全球受众。该网站吸引了来自177个国家的20万多名早期职业研究人员，特别是18-34岁的研究者，其中许多人积极参与同行评审过程。基于我们的发现，本立场论文倡导更透明、开放和规范化的同行评审，旨在促进更大的社区参与并推动该领域的进步。

研究背景与动机

问题定义

本文要解决的核心问题是AI/ML学术界同行评审过程的透明度和规范性不足。具体包括：

顶级AI/ML会议投稿数量激增（超过10,000篇），传统评审实践面临公平性、效率和质量维护的巨大压力
不同会议采用不同的评审透明度模式（完全开放、部分开放、完全封闭），缺乏统一标准
年轻评审者比例增加但缺乏经验，可能影响评审质量
AI工具在评审中的使用缺乏规范，存在伦理风险

重要性

这个问题的重要性体现在：

学术诚信维护：透明的评审过程有助于发现和防止学术不端行为
社区参与促进：开放评审能够增强社区成员的参与度和协作
评审质量提升：公开监督可以提高评审的客观性和建设性
知识传播加速：透明的评审过程有利于学术知识的快速传播

现有方法局限性

完全封闭评审：缺乏监督和问责机制，容易出现不一致和偏见
部分开放评审：虽然在决策后公开评审，但限制了实时社区参与
完全开放评审：可能导致评审者过于谨慎，影响坦诚反馈

研究动机

作者通过Paper Copilot平台收集了大量数据，发现：

来自177个国家的20万+活跃用户对透明评审表现出强烈兴趣
18-34岁的年轻研究者是主要用户群体
开放评审会议获得更高的社区参与度

核心贡献

提供开放统计数据：通过Paper Copilot提供评审分数分布、评审时间线、作者/机构分析等可视化统计
量化社区兴趣证据：基于两年的参与数据，提供社区对评审透明度日益增长兴趣的定量证据
批判性分析：系统分析各种评审模式的优势和劣势
政策建议：倡导采用更透明、开放和规范的同行评审过程

方法详解

数据收集方法论

自动化数据获取

公共API和网站爬虫：
- 通过OpenReview API获取ICLR等开放评审会议的评分、置信度和评审意见
- 部署定制爬虫每日获取数据，创建时间序列档案
- 从官方网站获取作者身份和机构信息
社区提交：
- 通过Google Forms收集部分开放或封闭评审会议的匿名评审信息
- 过去一年收集了3,876个有效回应

数据处理流程

标准化数据清洗、合并和存储管道
开源数据集
交互式前端可视化界面

分析框架

评审透明度分类

完全开放：所有评审、讨论实时公开可见（如ICLR）
部分开放：评审和讨论仅在决策阶段结束后公开（如NeurIPS、CoRL）
完全封闭：评审和讨论永久保持私密（如ICML、CVPR）

用户分析维度

年龄和性别分布
地理分布（177个国家）
参与时间和点击率分析
搜索引擎排名表现

实验设置

数据集规模

时间跨度：10年可用数据
会议覆盖：24个会议，涵盖9个AI/ML子领域
用户数据：20万+活跃用户，来自177个国家
网站统计：600万次展示，100万次网站访问，400万用户触发事件

评价指标

用户参与度：页面浏览量、活跃用户数、平均参与时间
搜索表现：Google点击率(CTR)、页面排名位置
评审质量：置信度分数、讨论回复数量
社区兴趣：自愿数据提交率、调查回应率

对比分析

不同透明度级别会议的用户参与度对比
ICLR（完全开放）vs NeurIPS（部分开放）的详细比较
封闭评审会议的参与度分析

实验结果

主要发现

用户参与度差异显著

ICLR（完全开放）：414,096次浏览，88,220活跃用户，平均参与时间3分50秒
NeurIPS（部分开放）：参与度明显低于ICLR
封闭会议（CVPR、ECCV）：浏览量低于35,000，平均参与时间少于1.5分钟

搜索引擎表现

Google CTR在66.08%-86.49%之间保持一致
开放评审相关页面在搜索结果中排名较高
过去28天内仅Google搜索就产生50,000次有机点击

评审质量分析

置信度分数：
- ICLR: 3.53 ± 0.48 (2024)
- NeurIPS: 3.58 ± 0.54 (2024)
- 完全开放评审显示略低的高置信度评分集中度
讨论活跃度：
- ICLR显示更广泛的回复分布（最大76次回复 vs NeurIPS的49次）
- ICLR的讨论方差显著更大，反映更动态的评审环境

用户画像分析

年龄和性别分布

主要用户群体：18-24岁占最大比例
参与时间：年轻男性用户平均参与时间最长（4分15秒）
女性用户：各年龄段参与时间相对一致

地理分布

主要国家：美国（60,648用户）、中国（59,269用户）
高参与度地区：新加坡、澳大利亚平均参与时间超过3分钟
参与差异：英国、德国参与时间相对较短（低于2分钟）

结论与讨论

主要结论

社区需求明确：全球20万+用户的高参与度证明了对透明评审的强烈需求
开放评审优势显著：完全开放的评审过程促进更多社区参与和更丰富的学术讨论
年轻研究者主导：18-34岁研究者是透明评审的主要推动者
质量与透明度可兼得：开放评审并未损害评审质量，反而促进更谨慎的评估

封闭评审的问题

年轻评审者挑战：缺乏经验的评审者在封闭环境中难以获得指导
AI使用缺乏监管：封闭环境难以监督和规范AI工具的使用
问责机制不足：发现作者信息不一致等问题难以及时纠正

政策建议

逐步推进开放：建议更多会议采用至少部分开放的评审模式
建立规范标准：制定AI辅助评审的使用准则
加强培训支持：为年轻评审者提供更多培训和指导
完善监督机制：建立更有效的质量控制和问责体系

深度评价

优点

方法创新性

大规模实证研究：首次基于20万+用户的真实行为数据分析评审透明度需求
多维度分析：结合用户行为、搜索数据、评审质量等多个维度
实时数据收集：通过Paper Copilot平台持续收集和分析数据
全球视角：覆盖177个国家，提供真正的全球化视角

实验充分性

数据规模庞大：10年历史数据，24个会议，9个子领域
多源验证：结合API数据、网站数据、社区提交数据
定量定性结合：既有统计数据也有用户调研
时间序列分析：追踪评审过程的动态变化

结果说服力

一致性发现：多个指标均指向开放评审的优势
统计显著性：用户参与度差异明显且一致
实际影响：Paper Copilot本身就是成功的透明化实践

不足

方法局限性

选择偏差：自愿提交数据可能存在选择偏差
因果关系：无法完全确定透明度与参与度的因果关系
文化差异：不同国家对透明度的接受程度可能不同
时间效应：评审模式的影响可能需要更长时间才能显现

分析深度

质量评估有限：主要关注参与度，对实际评审质量的评估相对有限
负面影响分析不足：对开放评审可能带来的负面影响讨论不够深入
实施细节缺乏：对如何具体实施透明评审的操作指导不够详细

普适性问题

领域特异性：主要基于AI/ML领域，其他领域的适用性未知
文化背景：不同学术文化对透明度的接受程度差异较大
技术门槛：开放评审需要一定的技术基础设施支持

影响力评估

学术贡献

填补研究空白：首次大规模量化分析评审透明度的社区需求
政策参考价值：为会议组织者提供数据驱动的决策参考
方法论贡献：建立了评审过程分析的新方法框架

实用价值

直接应用：Paper Copilot平台已被广泛使用
政策影响：可能影响未来会议的评审政策制定
工具价值：提供的数据和分析工具具有持续价值

可复现性

开源数据：承诺开源收集的数据集
方法透明：详细描述了数据收集和分析方法
平台可访问：Paper Copilot平台持续运行，结果可验证

适用场景

直接适用

AI/ML会议：可直接应用于AI/ML领域的各类会议
计算机科学：可扩展到其他计算机科学子领域
技术驱动领域：适用于其他快速发展的技术领域

需要调整

传统学科：人文社科等传统学科需要考虑文化因素
敏感领域：涉及商业机密或国家安全的研究需要特殊考虑
小规模会议：小型专业会议可能需要调整实施方式

未来研究方向

跨领域验证：在其他学科领域验证研究结论
长期影响研究：追踪评审模式变化的长期影响
质量评估方法：开发更精确的评审质量评估方法
实施指南制定：制定具体的透明评审实施指南
文化适应性研究：研究不同文化背景下的适应性调整

参考文献

本文引用了丰富的相关研究，主要包括：

Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
Wang, G., et al. (2023). What have we learned from openreview?
Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary

总体评价：这是一篇具有重要现实意义的立场论文，基于大规模真实数据提出了AI/ML学术界评审透明度的系统性分析和建议。论文的主要价值在于提供了量化的证据支持透明评审的必要性，并通过Paper Copilot平台展示了实际的应用效果。虽然在方法论和分析深度上还有改进空间，但其对学术界评审制度改革的推动作用值得肯定。