The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
academicPosition: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
- 论文ID: 2502.00874
- 标题: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
- 作者: Jing Yang (University of Southern California, papercopilot.com)
- 分类: cs.DL cs.AI cs.CV cs.CY
- 发表时间/会议: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
- 论文链接: https://arxiv.org/abs/2502.00874
随着顶级人工智能(AI)和机器学习(ML)会议投稿数量的快速增长,许多会议从封闭式评审平台转向开放式评审平台。一些会议完全采用开放同行评审,允许整个过程的公开可见性,而另一些则采用混合方法,如仅在最终决定后发布评审或尽管使用开放评审系统但保持评审私密。本文分析了这些模式的优势和局限性,突出了社区对透明同行评审日益增长的兴趣。为支持这一讨论,我们检查了Paper Copilot的见解,这是一个两年前推出的网站,用于聚合和分析AI/ML会议数据并吸引全球受众。该网站吸引了来自177个国家的20万多名早期职业研究人员,特别是18-34岁的研究者,其中许多人积极参与同行评审过程。基于我们的发现,本立场论文倡导更透明、开放和规范化的同行评审,旨在促进更大的社区参与并推动该领域的进步。
本文要解决的核心问题是AI/ML学术界同行评审过程的透明度和规范性不足。具体包括:
- 顶级AI/ML会议投稿数量激增(超过10,000篇),传统评审实践面临公平性、效率和质量维护的巨大压力
- 不同会议采用不同的评审透明度模式(完全开放、部分开放、完全封闭),缺乏统一标准
- 年轻评审者比例增加但缺乏经验,可能影响评审质量
- AI工具在评审中的使用缺乏规范,存在伦理风险
这个问题的重要性体现在:
- 学术诚信维护:透明的评审过程有助于发现和防止学术不端行为
- 社区参与促进:开放评审能够增强社区成员的参与度和协作
- 评审质量提升:公开监督可以提高评审的客观性和建设性
- 知识传播加速:透明的评审过程有利于学术知识的快速传播
- 完全封闭评审:缺乏监督和问责机制,容易出现不一致和偏见
- 部分开放评审:虽然在决策后公开评审,但限制了实时社区参与
- 完全开放评审:可能导致评审者过于谨慎,影响坦诚反馈
作者通过Paper Copilot平台收集了大量数据,发现:
- 来自177个国家的20万+活跃用户对透明评审表现出强烈兴趣
- 18-34岁的年轻研究者是主要用户群体
- 开放评审会议获得更高的社区参与度
- 提供开放统计数据:通过Paper Copilot提供评审分数分布、评审时间线、作者/机构分析等可视化统计
- 量化社区兴趣证据:基于两年的参与数据,提供社区对评审透明度日益增长兴趣的定量证据
- 批判性分析:系统分析各种评审模式的优势和劣势
- 政策建议:倡导采用更透明、开放和规范的同行评审过程
- 公共API和网站爬虫:
- 通过OpenReview API获取ICLR等开放评审会议的评分、置信度和评审意见
- 部署定制爬虫每日获取数据,创建时间序列档案
- 从官方网站获取作者身份和机构信息
- 社区提交:
- 通过Google Forms收集部分开放或封闭评审会议的匿名评审信息
- 过去一年收集了3,876个有效回应
- 标准化数据清洗、合并和存储管道
- 开源数据集
- 交互式前端可视化界面
- 完全开放:所有评审、讨论实时公开可见(如ICLR)
- 部分开放:评审和讨论仅在决策阶段结束后公开(如NeurIPS、CoRL)
- 完全封闭:评审和讨论永久保持私密(如ICML、CVPR)
- 年龄和性别分布
- 地理分布(177个国家)
- 参与时间和点击率分析
- 搜索引擎排名表现
- 时间跨度:10年可用数据
- 会议覆盖:24个会议,涵盖9个AI/ML子领域
- 用户数据:20万+活跃用户,来自177个国家
- 网站统计:600万次展示,100万次网站访问,400万用户触发事件
- 用户参与度:页面浏览量、活跃用户数、平均参与时间
- 搜索表现:Google点击率(CTR)、页面排名位置
- 评审质量:置信度分数、讨论回复数量
- 社区兴趣:自愿数据提交率、调查回应率
- 不同透明度级别会议的用户参与度对比
- ICLR(完全开放)vs NeurIPS(部分开放)的详细比较
- 封闭评审会议的参与度分析
- ICLR(完全开放):414,096次浏览,88,220活跃用户,平均参与时间3分50秒
- NeurIPS(部分开放):参与度明显低于ICLR
- 封闭会议(CVPR、ECCV):浏览量低于35,000,平均参与时间少于1.5分钟
- Google CTR在66.08%-86.49%之间保持一致
- 开放评审相关页面在搜索结果中排名较高
- 过去28天内仅Google搜索就产生50,000次有机点击
- 置信度分数:
- ICLR: 3.53 ± 0.48 (2024)
- NeurIPS: 3.58 ± 0.54 (2024)
- 完全开放评审显示略低的高置信度评分集中度
- 讨论活跃度:
- ICLR显示更广泛的回复分布(最大76次回复 vs NeurIPS的49次)
- ICLR的讨论方差显著更大,反映更动态的评审环境
- 主要用户群体:18-24岁占最大比例
- 参与时间:年轻男性用户平均参与时间最长(4分15秒)
- 女性用户:各年龄段参与时间相对一致
- 主要国家:美国(60,648用户)、中国(59,269用户)
- 高参与度地区:新加坡、澳大利亚平均参与时间超过3分钟
- 参与差异:英国、德国参与时间相对较短(低于2分钟)
- 理论基础:Ross-Hellauer (2017)等建立了OPR的理论框架
- 实践探索:OpenReview平台促进了OPR在AI/ML领域的应用
- 质量研究:Church等(2024)研究开放评审对反馈质量的影响
- 伦理考量:研究公开评审可能带来的隐私和骚扰风险
- AI辅助评审:探讨AI工具在评审中的应用和监管需求
- 偏见和公平性:分析评审过程中的系统性偏见问题
- 社区需求明确:全球20万+用户的高参与度证明了对透明评审的强烈需求
- 开放评审优势显著:完全开放的评审过程促进更多社区参与和更丰富的学术讨论
- 年轻研究者主导:18-34岁研究者是透明评审的主要推动者
- 质量与透明度可兼得:开放评审并未损害评审质量,反而促进更谨慎的评估
- 年轻评审者挑战:缺乏经验的评审者在封闭环境中难以获得指导
- AI使用缺乏监管:封闭环境难以监督和规范AI工具的使用
- 问责机制不足:发现作者信息不一致等问题难以及时纠正
- 逐步推进开放:建议更多会议采用至少部分开放的评审模式
- 建立规范标准:制定AI辅助评审的使用准则
- 加强培训支持:为年轻评审者提供更多培训和指导
- 完善监督机制:建立更有效的质量控制和问责体系
- 大规模实证研究:首次基于20万+用户的真实行为数据分析评审透明度需求
- 多维度分析:结合用户行为、搜索数据、评审质量等多个维度
- 实时数据收集:通过Paper Copilot平台持续收集和分析数据
- 全球视角:覆盖177个国家,提供真正的全球化视角
- 数据规模庞大:10年历史数据,24个会议,9个子领域
- 多源验证:结合API数据、网站数据、社区提交数据
- 定量定性结合:既有统计数据也有用户调研
- 时间序列分析:追踪评审过程的动态变化
- 一致性发现:多个指标均指向开放评审的优势
- 统计显著性:用户参与度差异明显且一致
- 实际影响:Paper Copilot本身就是成功的透明化实践
- 选择偏差:自愿提交数据可能存在选择偏差
- 因果关系:无法完全确定透明度与参与度的因果关系
- 文化差异:不同国家对透明度的接受程度可能不同
- 时间效应:评审模式的影响可能需要更长时间才能显现
- 质量评估有限:主要关注参与度,对实际评审质量的评估相对有限
- 负面影响分析不足:对开放评审可能带来的负面影响讨论不够深入
- 实施细节缺乏:对如何具体实施透明评审的操作指导不够详细
- 领域特异性:主要基于AI/ML领域,其他领域的适用性未知
- 文化背景:不同学术文化对透明度的接受程度差异较大
- 技术门槛:开放评审需要一定的技术基础设施支持
- 填补研究空白:首次大规模量化分析评审透明度的社区需求
- 政策参考价值:为会议组织者提供数据驱动的决策参考
- 方法论贡献:建立了评审过程分析的新方法框架
- 直接应用:Paper Copilot平台已被广泛使用
- 政策影响:可能影响未来会议的评审政策制定
- 工具价值:提供的数据和分析工具具有持续价值
- 开源数据:承诺开源收集的数据集
- 方法透明:详细描述了数据收集和分析方法
- 平台可访问:Paper Copilot平台持续运行,结果可验证
- AI/ML会议:可直接应用于AI/ML领域的各类会议
- 计算机科学:可扩展到其他计算机科学子领域
- 技术驱动领域:适用于其他快速发展的技术领域
- 传统学科:人文社科等传统学科需要考虑文化因素
- 敏感领域:涉及商业机密或国家安全的研究需要特殊考虑
- 小规模会议:小型专业会议可能需要调整实施方式
- 跨领域验证:在其他学科领域验证研究结论
- 长期影响研究:追踪评审模式变化的长期影响
- 质量评估方法:开发更精确的评审质量评估方法
- 实施指南制定:制定具体的透明评审实施指南
- 文化适应性研究:研究不同文化背景下的适应性调整
本文引用了丰富的相关研究,主要包括:
- Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
- Wang, G., et al. (2023). What have we learned from openreview?
- Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
- Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary
总体评价:这是一篇具有重要现实意义的立场论文,基于大规模真实数据提出了AI/ML学术界评审透明度的系统性分析和建议。论文的主要价值在于提供了量化的证据支持透明评审的必要性,并通过Paper Copilot平台展示了实际的应用效果。虽然在方法论和分析深度上还有改进空间,但其对学术界评审制度改革的推动作用值得肯定。