2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

Benchmarking is Broken -- Don't Let AI be its Own Judge

基本信息

  • 论文ID: 2510.07575
  • 标题: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • 作者: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • 分类: cs.AI cs.LG
  • 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2510.07575

摘要

随着AI技术的迅猛发展和市值的快速增长,AI评估面临着关键挑战。当前基准测试暴露出严重漏洞,包括数据污染和模型开发者的选择性报告等问题,这些问题助长了炒作,而数据质量控制不足可能导致有偏见的评估。在大量参与者涌入AI领域的背景下,这种"狂野西部"式的评估方式使得区分真正的进展和夸大的声明变得异常困难。本文认为当前的自由放任方法是不可持续的,真正的AI进展需要一个统一的、实时的、质量可控的基准测试框架。为此,本文剖析了当前AI评估的系统性缺陷,提出了下一代评估的基本要求,并介绍了PeerBench——一个社区治理的、监督式评估蓝图。

研究背景与动机

核心问题

本研究要解决AI基准测试领域的系统性问题:

  1. 数据污染:公开基准测试可能泄露到训练集中,导致测试集记忆和分数虚高
  2. 选择性报告:模型创建者可能只报告有利的任务子集结果
  3. 评估碎片化:缺乏统一的评估标准和接口
  4. 缺乏公平性保障:与人类高风险考试相比,AI评估缺乏监考和身份验证

问题重要性

  • AI技术的社会影响日益深远,需要可信的评估机制
  • 当前评估生态系统的缺陷模糊了科学信号,侵蚀了公众信心
  • 类比金融市场需要可信的监管机构,AI领域同样需要可信的评估标准

现有方法局限性

  1. 静态基准测试:如MMLU、GSM8K等快速饱和,容易被记忆
  2. 动态基准测试:如LiveBench虽然持续更新,但依赖单一团队,规模有限
  3. 私有基准测试:减少污染但缺乏透明度,存在偏见风险
  4. 众包评估:如Chatbot Arena缺乏身份验证,容易被操控

核心贡献

  1. 系统性批判:对当前基准测试的结构性缺陷进行了全面分析,包括污染、碎片化和垄断化问题
  2. 立场声明:提出将AI评估重新定位为安全、标准化考试的观点,以及平衡开放性和严谨性的设计原则
  3. 原型架构:设计了PeerBench系统,包含具体的十步工作流程、密码学签名工件、轻量级声誉机制和分数标准化方法
  4. 实际实现:提供了PeerBench的原型实现(https://peerbench.ai),展示了概念的可行性

方法详解

新范式的七大原则

  1. 秘密测试集:评估项目在运行时之前保持未公开状态
  2. 监督执行:模型在统一的密封沙箱中评估,所有输入输出都被记录和密码学签名
  3. 社区治理:多利益相关者验证者网络执行规则和治理
  4. 持续更新和活跃性:每轮评估中固定比例的问题被退役和替换
  5. 可审计性和完整性:验证者在发布前预先提交测试和答案哈希值
  6. 公平访问:任何真正的团队都可以提交模型,只需支付计算补偿费用
  7. 多指标报告:提供领域特定子分数和百分位排名

PeerBench架构设计

参与者角色

  • 数据贡献者:创建私有测试套件和可执行评分函数
  • 审查者:评估提交测试的质量,产生序数评级
  • 模型创建者:暴露推理端点并注册特定流
  • 协调服务器:认证上传、管理活跃库、调度同行评审
  • 终端用户:查阅实时排行榜的研究人员、记者等

三个排行榜系统

  1. 数据贡献者排行榜
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. 审查者排行榜
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. 模型排行榜
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

端到端工作流程

设置阶段

  • 参与者使用可验证凭据注册
  • 生成公钥签名密钥
  • 贡献者和审查者抵押保证金

持续评估流程

T1. 测试提交和承诺:贡献者提交测试T^(c)和评分函数F^(c),系统记录绑定承诺h = Com(T^(c), F^(c))

T2. 模型评估:服务器立即调度对所有当前注册模型的查询

T3. 审查过程:随机分配给审查者,要求至少三个有效审查

T4. 权重计算

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. 库管理:新测试加入活跃库,优先退役零权重测试

T6. 声誉更新:每轮后更新所有相关参与者的声誉

实验设置

时间公平性困境

论文识别了两种设计选择:

  • 选择A:按需即时评分:模型请求时立即评分,最大化响应性
  • 选择B:定期同步评估:模型注册预定评估窗口,保证最强形式的公平性

PeerBench采用混合方法,支持两种范式,在原型中优先考虑即时评分的灵活性。

安全和审计机制

  • 部分披露:向审查者以只读、不可复制格式显示测试的小部分随机部分
  • 完整发布:退役后发布测试、日志和模型响应
  • 削减机制:声誉低于阈值的参与者被移除,恶意行为导致保证金削减

实验结果

原型实现

论文提供了PeerBench的实际原型实现(

  • 完整的工作流程实现
  • 声誉系统的运行机制
  • 多流评估支持(数学、代码生成、翻译等)

设计选择的有效性

论文通过架构设计解决了常见问题:

  • 数据污染和挑选:验证者预先承诺测试集,保持私有直到轮次结束
  • 私有数据作弊:公共随机源确定披露的查询,防止验证者预期审计项目
  • 测试质量:每个测试接受多个独立审查,数据质量决定其在最终分数中的权重
  • 可访问性:所有角色的注册都很轻便,支持广泛参与

相关工作

静态基准测试和排行榜

  • MMLU、GSM8K、SuperGLUE等提供清晰的进展快照,但快速饱和并泄露到训练语料库
  • BIG-Bench扩大了任务覆盖范围,但任务在发布时变为公开
  • HELM添加了多个指标,但在发布间隔之间保持静态

动态或抗污染基准测试

  • LiveBench持续刷新任务,但依赖单一集中团队
  • Dynabench探索了人在回路的对抗性数据收集
  • 对抗性"破坏模型"竞赛暴露弱点但缺乏系统性分数聚合

人类偏好和开放评估平台

  • Chatbot Arena的Elo阶梯和OpenAI Evals促进开放性
  • HuggingFace开放LLM排行榜允许用户上传测试脚本
  • 但这些平台容易受到垃圾邮件、机器人投票和未跟踪污染的影响

结论与讨论

主要结论

  1. 当前AI基准测试系统存在系统性缺陷,需要范式转变
  2. 受人类标准化考试启发的监督式评估范式是可行的解决方案
  3. PeerBench展示了社区治理、抗污染评估的实用性
  4. 需要在开放性和严谨性之间找到平衡

局限性

  1. 时间公平性:即时评估和同步评估之间存在根本张力
  2. 实施成本:需要持续的高质量测试创建和基础设施维护
  3. 参与激励:需要适当的经济激励来维持审查者参与
  4. 治理复杂性:多利益相关者治理可能面临协调挑战

未来方向

  1. 机制设计:进一步研究博弈论安全分析以加强框架的经济和对抗鲁棒性
  2. 治理优化:改进多机构治理结构和轮换成员制度
  3. 成本优化:探索降低运营成本的方法,如容器化推理提交
  4. 标准化:推动与现有中性组织(如NIST或MLCommons)的合作

深度评价

优点

  1. 问题识别准确:准确识别了当前AI评估生态系统的核心问题
  2. 解决方案创新:提出了从静态排行榜到监督考试的范式转变
  3. 实用性强:提供了具体的实现原型和详细的工作流程
  4. 理论基础扎实:借鉴了人类标准化考试的成熟经验
  5. 社区导向:强调社区治理和去中心化,避免单点故障

不足

  1. 扩展性挑战:大规模实施可能面临参与者协调和激励问题
  2. 冷启动问题:新系统需要足够的初始参与者来建立可信度
  3. 经济模型不完整:虽然提到了削减机制,但经济激励的细节需要进一步完善
  4. 技术实现复杂性:密码学签名、声誉系统等技术组件的实现复杂度较高

影响力

  1. 学术贡献:为AI评估领域提供了新的理论框架和实践方向
  2. 产业影响:可能推动AI行业建立更加公正和可信的评估标准
  3. 政策意义:为AI监管和标准制定提供了技术基础
  4. 长期价值:建立了可持续的AI评估生态系统的蓝图

适用场景

  1. 高风险AI应用评估:特别适合需要高可信度的AI系统评估
  2. 学术研究:为研究社区提供公正的模型比较平台
  3. 产业标准制定:可作为行业标准评估框架的基础
  4. 监管合规:为AI系统的监管评估提供技术支持

参考文献

论文引用了56篇相关文献,涵盖了AI评估、基准测试、数据污染、声誉系统等多个领域的重要工作,为其立场提供了充分的理论支撑。


总体评价:这是一篇具有重要意义的立场论文,不仅深刻分析了当前AI评估系统的问题,还提出了具体可行的解决方案。PeerBench的设计体现了作者们对AI评估未来发展的深入思考,其原型实现展示了概念的可行性。虽然在大规模实施方面仍面临挑战,但为AI评估领域的发展指明了方向。