Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
Бенчмаркинг сломан — не позволяйте ИИ быть своим собственным судьей
Название: Benchmarking is Broken -- Don't Let AI be its Own Judge
Авторы: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Классификация: cs.AI cs.LG
Дата публикации/конференция: 39-я конференция по системам обработки нейронной информации (NeurIPS 2025)
По мере быстрого развития технологий ИИ и роста его рыночной стоимости оценка ИИ сталкивается с критическими вызовами. Современные тесты выявляют серьёзные уязвимости, включая загрязнение данных и избирательное представление результатов разработчиками моделей, что способствует созданию ажиотажа, а недостаточный контроль качества данных может привести к предвзятым оценкам. На фоне притока множества участников в область ИИ такой подход к оценке в стиле «дикого запада» делает чрезвычайно сложным различие между подлинным прогрессом и преувеличенными заявлениями. В данной работе утверждается, что текущий либеральный подход неустойчив, и подлинный прогресс ИИ требует единой, реальной, контролируемой по качеству системы бенчмаркинга. Для этого авторы анализируют системные недостатки современной оценки ИИ, формулируют фундаментальные требования к оценке следующего поколения и представляют PeerBench — управляемый сообществом, контролируемый план оценки.
Системная критика: всесторонний анализ структурных недостатков современного бенчмаркинга, включая загрязнение, фрагментацию и монополизацию
Позиционное заявление: переопределение оценки ИИ как безопасного, стандартизированного экзамена и принципы проектирования, уравновешивающие открытость и строгость
Архитектура прототипа: проектирование системы PeerBench с конкретным десятиэтапным рабочим процессом, криптографическими подписанными артефактами, облегчённым механизмом репутации и методами нормализации оценок
Практическая реализация: предоставление прототипной реализации PeerBench (https://peerbench.ai), демонстрирующей осуществимость концепции
Секретные тестовые наборы: элементы оценки остаются неопубликованными до запуска
Контролируемое выполнение: модели оцениваются в единой защищённой песочнице, все входные и выходные данные записываются и криптографически подписываются
Управление сообществом: сеть многосторонних верификаторов обеспечивает соблюдение правил и управление
Непрерывное обновление и активность: фиксированный процент вопросов выводится из обращения и заменяется в каждом раунде
Аудируемость и целостность: верификаторы предварительно подают хеши тестов и ответов перед публикацией
Справедливый доступ: любая подлинная команда может отправить модель, требуется только оплата вычислительных расходов
Многометричное представление: предоставление субоценок по областям и процентильных рангов
T1. Отправка тестов и обязательства: авторы данных отправляют тест T^(c) и функцию оценки F^(c), система записывает обязательство h = Com(T^(c), F^(c))
T2. Оценка модели: сервер немедленно планирует запросы ко всем текущим зарегистрированным моделям
T3. Процесс рецензирования: случайное распределение рецензентам, требуется минимум три действительных рецензии
Вариант A: оценка по требованию в реальном времени: модели оцениваются немедленно при запросе, максимизируя оперативность
Вариант B: периодическая синхронная оценка: модели регистрируют предварительно запланированные окна оценки, обеспечивая наиболее строгую форму справедливости
PeerBench применяет гибридный подход, поддерживающий обе парадигмы, в прототипе приоритизируя гибкость оценки в реальном времени.
Статья цитирует 56 связанных источников, охватывающих оценку ИИ, бенчмаркинг, загрязнение данных, системы репутации и другие области, предоставляя достаточную теоретическую поддержку для своей позиции.
Общая оценка: Это позиционная статья большого значения, которая не только глубоко анализирует проблемы текущей системы оценки ИИ, но и предлагает конкретные и осуществимые решения. Проектирование PeerBench отражает глубокие размышления авторов о будущем развитии оценки ИИ, а его прототипная реализация демонстрирует осуществимость концепции. Хотя при крупномасштабной реализации остаются вызовы, статья указывает направление развития области оценки ИИ.