Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
제목: Benchmarking is Broken -- Don't Let AI be its Own Judge
저자: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
분류: cs.AI cs.LG
발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
AI 기술의 급속한 발전과 시장 가치의 빠른 증가에 따라 AI 평가는 중요한 도전에 직면하고 있습니다. 현재의 벤치마크 테스트는 데이터 오염 및 모델 개발자의 선택적 보고 등 심각한 결함을 노출하고 있으며, 이러한 문제들은 과장된 주장을 조장하고 있습니다. 데이터 품질 관리 부족은 편향된 평가로 이어질 수 있습니다. AI 분야로 대량의 참여자가 유입되는 상황에서, 이러한 "무법천지" 식의 평가 방식은 진정한 진전과 과장된 주장을 구별하기 어렵게 만듭니다. 본 논문은 현재의 자유방임적 접근 방식이 지속 불가능하며, 진정한 AI 진전을 위해서는 통합되고 실시간이며 품질 관리가 가능한 벤치마크 프레임워크가 필요하다고 주장합니다. 이를 위해 본 논문은 현재 AI 평가의 체계적 결함을 분석하고, 차세대 평가의 기본 요구사항을 제시하며, 커뮤니티 거버넌스 기반의 감시식 평가 청사진인 PeerBench를 소개합니다.
논문은 AI 평가, 벤치마크 테스트, 데이터 오염, 평판 시스템 등 여러 분야의 중요한 연구를 포함한 56개의 관련 문헌을 인용하여 입장에 충분한 이론적 지원을 제공합니다.
종합 평가: 이는 현재 AI 평가 시스템의 문제를 깊이 있게 분석할 뿐만 아니라 구체적이고 실행 가능한 해결책을 제시하는 중요한 의견 논문입니다. PeerBench의 설계는 저자들의 AI 평가 미래 발전에 대한 심층적 사고를 반영하며, 프로토타입 구현은 개념의 실행 가능성을 입증합니다. 대규모 구현 측면에서 여전히 도전 과제가 있지만, AI 평가 분야의 발전 방향을 명확히 제시합니다.