2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

ベンチマーキングは破綻している――AIに自らの判定を任せるな

基本情報

  • 論文ID: 2510.07575
  • タイトル: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • 著者: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • 分類: cs.AI cs.LG
  • 発表時期/会議: 第39回ニューラル情報処理システム会議(NeurIPS 2025)
  • 論文リンク: https://arxiv.org/abs/2510.07575

要約

AI技術の急速な発展と市場価値の急増に伴い、AI評価は重大な課題に直面している。現在のベンチマークテストは、データ汚染とモデル開発者による選別的報告を含む深刻な脆弱性を露呈しており、これらの問題は誇大広告を助長し、データ品質管理の不足は偏った評価につながる可能性がある。AI分野への大量の参入者の流入という背景の中で、このような「無法地帯」的な評価方法により、真の進歩と誇大された主張を区別することが異常に困難になっている。本論文は、現在の自由放任的アプローチは持続不可能であり、真のAI進歩には統一された、リアルタイムの、品質管理された統合的ベンチマークフレームワークが必要であると主張している。そのため、本論文は現在のAI評価の体系的欠陥を分析し、次世代評価の基本要件を提示し、コミュニティガバナンス型の監督的評価設計図であるPeerBenchを紹介している。

研究背景と動機

核心的問題

本研究が対処するAIベンチマークテスト分野の体系的問題:

  1. データ汚染:公開ベンチマークテストが訓練セットに漏洩する可能性があり、テストセット記憶と得点の水増しを招く
  2. 選別的報告:モデル作成者は有利なタスク部分集合の結果のみを報告する可能性がある
  3. 評価の断片化:統一された評価基準とインターフェースの欠如
  4. 公平性保障の欠如:人間の高リスク試験と比較して、AI評価は監督と身元確認を欠いている

問題の重要性

  • AI技術の社会的影響がますます深刻化し、信頼できる評価メカニズムが必要
  • 現在の評価エコシステムの欠陥は科学的シグナルを曖昧にし、公衆の信頼を損なう
  • 金融市場が信頼できる規制機関を必要とするのと同様に、AI分野も信頼できる評価基準を必要とする

既存方法の限界

  1. 静的ベンチマークテスト:MMLU、GSM8Kなどは急速に飽和し、記憶されやすい
  2. 動的ベンチマークテスト:LiveBenchなどは継続的に更新されるが、単一チームに依存し、規模が限定的
  3. プライベートベンチマークテスト:汚染を減らすが透明性を欠き、偏見のリスクが存在
  4. クラウドソーシング評価:Chatbot Arenaなどは身元確認を欠き、操作されやすい

核心的貢献

  1. 体系的批判:汚染、断片化、独占化の問題を含む、現在のベンチマークテストの構造的欠陥の包括的分析
  2. 立場表明:AI評価を安全で標準化された試験として再配置する観点、および開放性と厳密性のバランスを取る設計原則を提示
  3. プロトタイプアーキテクチャ:具体的な10段階のワークフロー、暗号学的署名アーティファクト、軽量な評判メカニズム、スコア正規化方法を含むPeerBenchシステムを設計
  4. 実装実績:PeerBenchのプロトタイプ実装(https://peerbench.ai)を提供し、概念の実現可能性を実証

方法論の詳細

新パラダイムの7つの原則

  1. 秘密テストセット:評価項目は実行前に非公開のままである
  2. 監督的実行:モデルは統一された密閉サンドボックスで評価され、すべての入出力が記録され暗号学的に署名される
  3. コミュニティガバナンス:複数の利害関係者検証者ネットワークが規則とガバナンスを実行
  4. 継続的更新と活動性:各ラウンドで固定比率の問題が廃止され置き換えられる
  5. 監査可能性と完全性:検証者は発行前にテストと回答ハッシュ値を事前提出
  6. 公平なアクセス:真正なチームはすべて計算補償費用を支払うだけでモデルを提出可能
  7. 複数指標報告:領域固有の部分スコアとパーセンタイルランキングを提供

PeerBenchアーキテクチャ設計

参加者の役割

  • データ貢献者:プライベートテストスイートと実行可能な採点関数を作成
  • 審査者:提出されたテストの品質を評価し、序数評価を生成
  • モデル作成者:推論エンドポイントを公開し、特定のストリームに登録
  • コーディネーションサーバー:アップロード認証、アクティブライブラリ管理、ピアレビュースケジューリング
  • エンドユーザー:研究者、記者など、リアルタイムリーダーボードを参照

3つのリーダーボードシステム

  1. データ貢献者リーダーボード
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. 審査者リーダーボード
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. モデルリーダーボード
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

エンドツーエンドワークフロー

セットアップフェーズ

  • 参加者は検証可能な認証情報を使用して登録
  • 公開鍵署名鍵を生成
  • 貢献者と審査者は保証金を供託

継続的評価プロセス

T1. テスト提出とコミットメント:貢献者はテストT^(c)と採点関数F^(c)を提出し、システムはバインディングコミットメント h = Com(T^(c), F^(c))を記録

T2. モデル評価:サーバーはすべての現在登録されているモデルへのクエリを即座にスケジュール

T3. 審査プロセス:審査者にランダムに割り当て、最低3つの有効な審査を要求

T4. 重み計算

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. ライブラリ管理:新しいテストがアクティブライブラリに追加され、ゼロ重みテストが優先的に廃止

T6. 評判更新:各ラウンド後にすべての関連参加者の評判を更新

実験設定

時間的公平性のジレンマ

論文は2つの設計選択肢を識別:

  • 選択肢A:オンデマンド即時採点:モデルリクエスト時に即座に採点し、応答性を最大化
  • 選択肢B:定期的同期評価:モデルは事前定義された評価ウィンドウに登録し、最強形式の公平性を保証

PeerBenchはハイブリッドアプローチを採用し、両方のパラダイムをサポートし、プロトタイプでは即時採点の柔軟性を優先

セキュリティと監査メカニズム

  • 部分開示:審査者にテストのランダムな小部分を読み取り専用、コピー不可形式で表示
  • 完全公開:廃止後にテスト、ログ、モデル応答を公開
  • 削減メカニズム:評判が閾値を下回る参加者は削除され、悪意のある行動は保証金削減につながる

実験結果

プロトタイプ実装

論文はPeerBenchの実際のプロトタイプ実装(

  • 完全なワークフロー実装
  • 評判システムの運用メカニズム
  • 複数ストリーム評価サポート(数学、コード生成、翻訳など)

設計選択肢の有効性

論文はアーキテクチャ設計を通じて一般的な問題を解決:

  • データ汚染と選別:検証者はテストセットに事前にコミットし、ラウンド終了まで非公開に保つ
  • プライベートデータ不正行為:公開ランダムソースが開示クエリを決定し、検証者が監査項目を予測するのを防止
  • テスト品質:各テストは複数の独立した審査を受け、データ品質は最終スコアでの重みを決定
  • アクセス可能性:すべての役割の登録は軽量で、広範な参加をサポート

関連研究

静的ベンチマークテストとリーダーボード

  • MMLU、GSM8K、SuperGLUEなどは進歩の明確なスナップショットを提供するが、急速に飽和し訓練コーパスに漏洩
  • BIG-Benchはタスクカバレッジを拡大するが、タスクは発行時に公開
  • HELMは複数の指標を追加するが、発行間隔の間は静的

動的または汚染耐性ベンチマークテスト

  • LiveBenchはタスクを継続的に更新するが、単一の集中チームに依存
  • Dynabenchはループ内の人間による対抗的データ収集を探索
  • 対抗的「モデル破壊」コンテストは弱点を露呈するが、体系的スコア集約を欠く

人間の嗜好とオープン評価プラットフォーム

  • Chatbot ArenaのEloラダーとOpenAI Evalsはオープン性を促進
  • HuggingFaceオープンLLMリーダーボードはユーザーがテストスクリプトをアップロード可能
  • しかしこれらのプラットフォームはスパム、ボット投票、追跡されない汚染の影響を受けやすい

結論と考察

主要な結論

  1. 現在のAIベンチマークテストシステムは体系的欠陥を有し、パラダイムシフトが必要
  2. 人間の標準化試験に触発された監督的評価パラダイムは実行可能な解決策
  3. PeerBenchはコミュニティガバナンス、汚染耐性評価の実用性を実証
  4. 開放性と厳密性の間でバランスを見つける必要がある

限界

  1. 時間的公平性:即時評価と同期評価の間に根本的な緊張が存在
  2. 実装コスト:継続的な高品質テスト作成とインフラストラクチャ維持が必要
  3. 参加インセンティブ:審査者参加を維持するための適切な経済的インセンティブが必要
  4. ガバナンスの複雑性:複数利害関係者ガバナンスは調整上の課題に直面する可能性

今後の方向性

  1. メカニズム設計:フレームワークの経済的および対抗的堅牢性を強化するための博弈論的安全分析の進一步研究
  2. ガバナンス最適化:複数機関ガバナンス構造とローテーション会員制度の改善
  3. コスト最適化:コンテナ化推論提出など運用コスト削減方法の探索
  4. 標準化:NIST、MLCommonsなどの既存中立組織との協力推進

深層評価

長所

  1. 問題識別の正確性:現在のAI評価エコシステムの核心的問題を正確に識別
  2. ソリューションの革新性:静的リーダーボードから監督的試験へのパラダイムシフトを提案
  3. 実用性の強さ:具体的な実装プロトタイプと詳細なワークフローを提供
  4. 理論基礎の堅牢性:人間の標準化試験の成熟した経験から借用
  5. コミュニティ指向:コミュニティガバナンスと分散化を強調し、単一障害点を回避

不足

  1. スケーラビリティの課題:大規模実装は参加者調整とインセンティブの問題に直面する可能性
  2. コールドスタート問題:新システムは信頼性を確立するために十分な初期参加者が必要
  3. 経済モデルの不完全性:削減メカニズムは言及されるが、経済的インセンティブの詳細はさらなる改善が必要
  4. 技術実装の複雑性:暗号学的署名、評判システムなどの技術コンポーネントの実装複雑度が高い

影響力

  1. 学術的貢献:AI評価分野に新しい理論フレームワークと実践方向を提供
  2. 産業への影響:AI業界がより公正で信頼できる評価基準を確立するよう推進する可能性
  3. 政策的意義:AI規制と標準制定に技術基礎を提供
  4. 長期的価値:持続可能なAI評価エコシステムの設計図を確立

適用シーン

  1. 高リスクAI応用評価:特に高い信頼性が必要なAIシステム評価に適切
  2. 学術研究:研究コミュニティに公正なモデル比較プラットフォームを提供
  3. 産業標準制定:業界標準評価フレームワークの基礎として機能
  4. 規制コンプライアンス:AIシステムの規制評価に技術サポートを提供

参考文献

論文は56の関連文献を引用し、AI評価、ベンチマークテスト、データ汚染、評判システムなど複数分野の重要な研究をカバーし、その立場に十分な理論的支持を提供している。


総合評価:これは重要な意義を持つ立場論文であり、現在のAI評価システムの問題を深く分析するだけでなく、具体的で実行可能なソリューションを提案している。PeerBenchの設計は、著者たちのAI評価の将来発展に対する深い思考を体現しており、そのプロトタイプ実装は概念の実現可能性を示している。大規模実装の面ではまだ課題が残っているが、AI評価分野の発展に方向性を示している。