The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
academic- 論文ID: 2502.00874
- タイトル: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
- 著者: Jing Yang(南カリフォルニア大学、papercopilot.com)
- 分類: cs.DL cs.AI cs.CV cs.CY
- 発表時期/会議: 第42回国際機械学習会議論文集、バンクーバー、カナダ。PMLR 267、2025年
- 論文リンク: https://arxiv.org/abs/2502.00874
トップティアの人工知能(AI)および機械学習(ML)会議への投稿数の急速な増加に伴い、多くの会議は閉鎖型査読プラットフォームからオープン査読プラットフォームへ移行している。一部の会議はプロセス全体の公開可視性を許可する完全なオープン査読を採用している一方で、その他は最終決定後のみ査読を公開するなど、オープン査読システムを使用しながらも査読を非公開に保つハイブリッドアプローチを採用している。本論文は、これらのモデルの利点と限界を分析し、透明な査読に対するコミュニティの関心の高まりを強調している。この議論を支援するため、2年前に立ち上げられたAI/ML会議データを集約・分析し、グローバルな視聴者を引き付けるウェブサイトであるPaper Copilotの知見を検証した。このウェブサイトは177カ国から20万人以上の初期段階の研究者を引き付けており、特に18~34歳の研究者が多く、その多くが査読プロセスに積極的に参加している。本発見に基づき、本立場論文はより透明で開放的で規範化された査読を提唱し、より大きなコミュニティの参加を促進し、この分野の進歩を推進することを目指している。
本論文が解決しようとする中核的な問題は、AI/ML学術界における査読プロセスの透明性と規範性の不足である。具体的には以下を含む:
- トップティアのAI/ML会議への投稿数の激増(10,000件以上)により、従来の査読実践は公平性、効率性、および品質維持に関して大きな圧力に直面している
- 異なる会議が異なる査読透明度モデル(完全開放、部分開放、完全閉鎖)を採用しており、統一的な基準が欠けている
- 若い査読者の割合が増加しているが経験が不足しており、査読品質に悪影響を及ぼす可能性がある
- 査読におけるAIツールの使用が規範化されておらず、倫理的リスクが存在する
この問題の重要性は以下に示される:
- 学術的誠実性の維持:透明な査読プロセスは学術的不正行為の発見と防止に役立つ
- コミュニティ参加の促進:オープン査読はコミュニティメンバーの参加度と協力を強化できる
- 査読品質の向上:公開監督は査読の客観性と建設的性質を向上させることができる
- 知識伝播の加速:透明な査読プロセスは学術知識の迅速な伝播に有利である
- 完全閉鎖型査読:監督と説明責任メカニズムが欠けており、矛盾と偏見が生じやすい
- 部分開放型査読:決定後に査読を公開するが、リアルタイムのコミュニティ参加を制限している
- 完全開放型査読:査読者が過度に慎重になる可能性があり、率直なフィードバックに影響を与える
著者はPaper Copilotプラットフォームを通じて大量のデータを収集し、以下を発見した:
- 177カ国からの20万人以上のアクティブユーザーが透明な査読に強い関心を示している
- 18~34歳の若い研究者が主要なユーザー層である
- オープン査読会議はより高いコミュニティ参加度を獲得している
- オープンな統計データの提供:Paper Copilotを通じて、査読スコア分布、査読タイムライン、著者/機関分析などの可視化統計を提供する
- コミュニティ関心の定量化証拠:2年間の参加データに基づき、査読透明度に対するコミュニティの関心の高まりに関する定量的証拠を提供する
- 批判的分析:様々な査読モデルの利点と欠点を体系的に分析する
- 政策提言:より透明で開放的で規範化された査読プロセスの採用を提唱する
- 公開API およびウェブスクレイピング:
- OpenReview APIを通じてICLRなどのオープン査読会議のスコア、信頼度、査読意見を取得する
- カスタムスクレイパーを毎日展開してデータを取得し、時系列アーカイブを作成する
- 公式ウェブサイトから著者情報と機関情報を取得する
- コミュニティ提出:
- Google Formsを通じて部分開放型または閉鎖型査読会議の匿名査読情報を収集する
- 過去1年間に3,876件の有効な回答を収集した
- 標準化されたデータクリーニング、マージ、およびストレージパイプライン
- オープンソースデータセット
- インタラクティブなフロントエンド可視化インターフェース
- 完全開放:すべての査読と議論がリアルタイムで公開可視(例:ICLR)
- 部分開放:査読と議論は決定段階の終了後のみ公開(例:NeurIPS、CoRL)
- 完全閉鎖:査読と議論は永続的に非公開(例:ICML、CVPR)
- 年齢および性別分布
- 地理的分布(177カ国)
- 参加時間およびクリック率分析
- 検索エンジンランキングパフォーマンス
- 時間範囲:10年間の利用可能なデータ
- 会議カバレッジ:24の会議、9つのAI/MLサブフィールドをカバー
- ユーザーデータ:20万人以上のアクティブユーザー、177カ国から
- ウェブサイト統計:600万回のインプレッション、100万回のウェブサイト訪問、400万ユーザートリガーイベント
- ユーザー参加度:ページビュー数、アクティブユーザー数、平均参加時間
- 検索パフォーマンス:Googleクリックスルーレート(CTR)、ページランク位置
- 査読品質:信頼度スコア、議論返信数
- コミュニティ関心:自発的なデータ提出率、調査回答率
- 異なる透明度レベルの会議のユーザー参加度の比較
- ICLR(完全開放)対NeurIPS(部分開放)の詳細な比較
- 閉鎖型査読会議の参加度分析
- ICLR(完全開放):414,096回のビュー、88,220アクティブユーザー、平均参加時間3分50秒
- NeurIPS(部分開放):参加度はICLRより明らかに低い
- 閉鎖型会議(CVPR、ECCV):ビュー数が35,000未満、平均参加時間が1.5分未満
- Google CTRは66.08~86.49%の間で一貫性を保つ
- オープン査読関連ページは検索結果で高くランク付けされている
- 過去28日間でGoogle検索だけで50,000回のオーガニッククリックが生成された
- 信頼度スコア:
- ICLR: 3.53 ± 0.48(2024年)
- NeurIPS: 3.58 ± 0.54(2024年)
- 完全開放型査読は高信頼度スコアの集中度がやや低い
- 議論活動:
- ICLRはより広い返信分布を示す(最大76回の返信対NeurIPSの49回)
- ICLRの議論分散は有意に大きく、より動的な査読環境を反映している
- 主要ユーザー層:18~24歳が最大の割合を占める
- 参加時間:若い男性ユーザーは平均参加時間が最長(4分15秒)
- 女性ユーザー:各年齢層での参加時間は相対的に一貫している
- 主要国:米国(60,648ユーザー)、中国(59,269ユーザー)
- 高参加度地域:シンガポール、オーストラリアの平均参加時間は3分以上
- 参加差異:英国、ドイツの参加時間は相対的に短い(2分未満)
- 理論的基礎:Ross-Hellauer(2017)などがOPRの理論的枠組みを確立した
- 実践的探索:OpenReviewプラットフォームはAI/ML分野でのOPRの応用を促進した
- 品質研究:Church等(2024)はオープン査読がフィードバック品質に与える影響を研究した
- 倫理的考慮:公開査読がもたらす可能性のあるプライバシーとハラスメントのリスクを研究する
- AI支援査読:査読におけるAIツールの応用と規制の必要性を検討する
- 偏見と公平性:査読プロセスにおけるシステム的偏見の問題を分析する
- コミュニティニーズは明確:グローバルな20万人以上のユーザーの高い参加度は透明な査読に対する強い需要を証明している
- オープン査読の利点は顕著:完全開放型の査読プロセスはより多くのコミュニティ参加とより豊かな学術的議論を促進する
- 若い研究者が主導:18~34歳の研究者は透明な査読の主要な推進者である
- 品質と透明性は両立可能:オープン査読は査読品質を損なわず、むしろより慎重な評価を促進する
- 若い査読者の課題:経験不足の査読者は閉鎖環境では指導を受けにくい
- AIの使用が規制されていない:閉鎖環境ではAIツールの使用を監督・規制することが困難である
- 説明責任メカニズムが不十分:著者情報の矛盾などの問題を発見しても迅速に是正することが困難である
- 段階的な開放の推進:より多くの会議が少なくとも部分開放型の査読モデルを採用することを推奨する
- 規範基準の確立:AI支援査読の使用ガイドラインを策定する
- トレーニング支援の強化:若い査読者により多くのトレーニングと指導を提供する
- 監督メカニズムの改善:より効果的な品質管理と説明責任体制を構築する
- 大規模実証研究:20万人以上のユーザーの実際の行動データに基づいて査読透明度のニーズを分析した最初の研究
- 多次元分析:ユーザー行動、検索データ、査読品質など複数の次元を組み合わせている
- リアルタイムデータ収集:Paper Copilotプラットフォームを通じて継続的にデータを収集・分析する
- グローバルな視点:177カ国をカバーし、真のグローバルな視点を提供する
- データ規模が大きい:10年間の履歴データ、24の会議、9つのサブフィールド
- 複数ソースの検証:APIデータ、ウェブサイトデータ、コミュニティ提出データを組み合わせている
- 定量的・定性的の組み合わせ:統計データとユーザー調査の両方を含む
- 時系列分析:査読プロセスの動的な変化を追跡する
- 一貫性のある発見:複数の指標がすべてオープン査読の利点を指している
- 統計的有意性:ユーザー参加度の差異は明らかで一貫している
- 実際の影響:Paper Copilot自体が成功した透明化実践である
- 選択バイアス:自発的なデータ提出には選択バイアスが存在する可能性がある
- 因果関係:透明度と参加度の因果関係を完全に確定することはできない
- 文化的差異:異なる国での透明度への受け入れ程度は異なる可能性がある
- 時間効果:査読モデルの影響は、より長い期間を経てから現れる可能性がある
- 品質評価の限定性:主に参加度に焦点を当てており、実際の査読品質の評価は相対的に限定的である
- 負の影響分析の不足:オープン査読がもたらす可能性のある負の影響についての議論が十分ではない
- 実装の詳細が不足:透明な査読を具体的にどのように実装するかについての操作的ガイダンスが不十分である
- 分野特異性:主にAI/ML分野に基づいており、他の分野への適用可能性は不明である
- 文化的背景:異なる学術文化は透明度への受け入れ程度が大きく異なる
- 技術的障壁:オープン査読には一定の技術インフラストラクチャサポートが必要である
- 研究ギャップの埋め合わせ:査読透明度のコミュニティニーズを大規模に定量化した最初の研究
- 政策参考価値:会議主催者にデータ駆動型の意思決定参考資料を提供する
- 方法論的貢献:査読プロセス分析の新しい方法論的枠組みを確立する
- 直接的な応用:Paper Copilotプラットフォームは広く使用されている
- 政策への影響:将来の会議の査読政策策定に影響を与える可能性がある
- ツールの価値:提供されるデータと分析ツールは継続的な価値を持つ
- オープンソースデータ:収集したデータセットをオープンソース化することを約束している
- 方法の透明性:データ収集と分析方法を詳細に説明している
- プラットフォームのアクセス可能性:Paper Copilotプラットフォームは継続的に運用されており、結果は検証可能である
- AI/ML会議:AI/ML分野の様々な会議に直接適用可能
- コンピュータサイエンス:他のコンピュータサイエンスのサブフィールドに拡張可能
- 技術駆動型分野:他の急速に発展する技術分野に適用可能
- 伝統的な学問:人文社会科学などの伝統的な学問は文化的要因を考慮する必要がある
- 機密分野:商業機密や国家安全保障に関わる研究には特別な配慮が必要である
- 小規模会議:小規模な専門会議は実装方法の調整が必要な場合がある
- 分野横断的な検証:他の学問分野で研究結論を検証する
- 長期的影響研究:査読モデル変化の長期的影響を追跡する
- 品質評価方法の開発:より正確な査読品質評価方法を開発する
- 実装ガイドラインの策定:透明な査読の具体的な実装ガイドラインを策定する
- 文化適応性研究:異なる文化的背景での適応性調整を研究する
本論文は豊富な関連研究を引用しており、主なものは以下の通りである:
- Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
- Wang, G., et al. (2023). What have we learned from openreview?
- Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
- Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary
総合評価:これは重要な現実的意義を持つ立場論文であり、大規模な実データに基づいてAI/ML学術界の査読透明度に関する体系的な分析と提言を提示している。本論文の主な価値は、透明な査読の必要性を支持する定量的証拠を提供し、Paper Copilotプラットフォームを通じて実際の応用効果を実証したことにある。方法論と分析の深さに改善の余地があるが、学術界の査読制度改革の推進における価値は認められるべきである。