2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.

The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.

academic

Бенчмаркинг сломан — не позволяйте ИИ быть своим собственным судьей

Основная информация

ID статьи: 2510.07575
Название: Benchmarking is Broken -- Don't Let AI be its Own Judge
Авторы: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Классификация: cs.AI cs.LG
Дата публикации/конференция: 39-я конференция по системам обработки нейронной информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2510.07575

Аннотация

По мере быстрого развития технологий ИИ и роста его рыночной стоимости оценка ИИ сталкивается с критическими вызовами. Современные тесты выявляют серьёзные уязвимости, включая загрязнение данных и избирательное представление результатов разработчиками моделей, что способствует созданию ажиотажа, а недостаточный контроль качества данных может привести к предвзятым оценкам. На фоне притока множества участников в область ИИ такой подход к оценке в стиле «дикого запада» делает чрезвычайно сложным различие между подлинным прогрессом и преувеличенными заявлениями. В данной работе утверждается, что текущий либеральный подход неустойчив, и подлинный прогресс ИИ требует единой, реальной, контролируемой по качеству системы бенчмаркинга. Для этого авторы анализируют системные недостатки современной оценки ИИ, формулируют фундаментальные требования к оценке следующего поколения и представляют PeerBench — управляемый сообществом, контролируемый план оценки.

Исследовательский контекст и мотивация

Основные проблемы

Данное исследование решает системные проблемы в области бенчмаркинга ИИ:

Загрязнение данных: открытые тесты могут попасть в обучающие наборы, что приводит к переобучению на тестовом наборе и завышенным оценкам
Избирательное представление: создатели моделей могут сообщать результаты только для благоприятного подмножества задач
Фрагментация оценки: отсутствие единых стандартов и интерфейсов оценки
Отсутствие гарантий справедливости: в отличие от высокорисковых экзаменов для людей, оценка ИИ лишена контроля и верификации личности

Значимость проблемы

Социальное воздействие технологий ИИ становится всё более глубоким, требуя надёжных механизмов оценки
Недостатки текущей экосистемы оценки затемняют научные сигналы и подрывают доверие общественности
По аналогии с финансовыми рынками, требующими надёжных регуляторов, область ИИ нуждается в надёжных стандартах оценки

Ограничения существующих подходов

Статические тесты: такие как MMLU, GSM8K, быстро насыщаются и легко запоминаются
Динамические тесты: такие как LiveBench, хотя и постоянно обновляются, зависят от одной команды и имеют ограниченный масштаб
Приватные тесты: снижают загрязнение, но лишены прозрачности и подвержены предвзятости
Краудсорсинговая оценка: такая как Chatbot Arena, лишена верификации личности и подвержена манипуляциям

Основные вклады

Системная критика: всесторонний анализ структурных недостатков современного бенчмаркинга, включая загрязнение, фрагментацию и монополизацию
Позиционное заявление: переопределение оценки ИИ как безопасного, стандартизированного экзамена и принципы проектирования, уравновешивающие открытость и строгость
Архитектура прототипа: проектирование системы PeerBench с конкретным десятиэтапным рабочим процессом, криптографическими подписанными артефактами, облегчённым механизмом репутации и методами нормализации оценок
Практическая реализация: предоставление прототипной реализации PeerBench (https://peerbench.ai), демонстрирующей осуществимость концепции

Подробное описание методов

Семь принципов новой парадигмы

Секретные тестовые наборы: элементы оценки остаются неопубликованными до запуска
Контролируемое выполнение: модели оцениваются в единой защищённой песочнице, все входные и выходные данные записываются и криптографически подписываются
Управление сообществом: сеть многосторонних верификаторов обеспечивает соблюдение правил и управление
Непрерывное обновление и активность: фиксированный процент вопросов выводится из обращения и заменяется в каждом раунде
Аудируемость и целостность: верификаторы предварительно подают хеши тестов и ответов перед публикацией
Справедливый доступ: любая подлинная команда может отправить модель, требуется только оплата вычислительных расходов
Многометричное представление: предоставление субоценок по областям и процентильных рангов

Архитектура PeerBench

Роли участников

Авторы данных: создают приватные наборы тестов и исполняемые функции оценки
Рецензенты: оценивают качество отправленных тестов, выдают порядковые оценки
Авторы моделей: предоставляют конечные точки вывода и регистрируют определённые потоки
Координирующий сервер: аутентификация загрузок, управление активной библиотекой, планирование рецензирования
Конечные пользователи: исследователи, журналисты и другие, консультирующие реальные рейтинги

Три системы рейтингов

Рейтинг авторов данных:

ContributorScore(c) = Σ quality(T_i^(c)) + bonuses

Рейтинг рецензентов:

ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})

Рейтинг моделей:

ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))

Сквозной рабочий процесс

Этап настройки

Участники регистрируются с использованием проверяемых учётных данных
Генерируются ключи подписи открытого ключа
Авторы данных и рецензенты вносят залоговые средства

Процесс непрерывной оценки

T1. Отправка тестов и обязательства: авторы данных отправляют тест T^(c) и функцию оценки F^(c), система записывает обязательство h = Com(T^(c), F^(c))

T2. Оценка модели: сервер немедленно планирует запросы ко всем текущим зарегистрированным моделям

T3. Процесс рецензирования: случайное распределение рецензентам, требуется минимум три действительных рецензии

T4. Расчёт весов:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Управление библиотекой: новые тесты добавляются в активную библиотеку, нулевые тесты выводятся в приоритетном порядке

T6. Обновление репутации: обновление репутации всех соответствующих участников после каждого раунда

Экспериментальная установка

Дилемма справедливости по времени

Статья выявляет два варианта проектирования:

Вариант A: оценка по требованию в реальном времени: модели оцениваются немедленно при запросе, максимизируя оперативность
Вариант B: периодическая синхронная оценка: модели регистрируют предварительно запланированные окна оценки, обеспечивая наиболее строгую форму справедливости

PeerBench применяет гибридный подход, поддерживающий обе парадигмы, в прототипе приоритизируя гибкость оценки в реальном времени.

Механизмы безопасности и аудита

Частичное раскрытие: показ рецензентам небольшой случайной части теста в формате только для чтения, без возможности копирования
Полная публикация: публикация тестов, журналов и ответов моделей после вывода из обращения
Механизмы сокращения: удаление участников с репутацией ниже порога, конфискация залога за вредоносное поведение

Результаты экспериментов

Реализация прототипа

Статья предоставляет практическую реализацию прототипа PeerBench (https://peerbench.ai), демонстрирующую:

Полную реализацию рабочего процесса
Механизм работы системы репутации
Поддержку многопоточной оценки (математика, генерация кода, перевод и т.д.)

Эффективность выбора проектирования

Статья решает общие проблемы посредством архитектурного проектирования:

Загрязнение данных и выборка: верификаторы предварительно обязуются использовать тестовые наборы, сохраняя их приватность до конца раунда
Обман с приватными данными: общественный случайный источник определяет раскрытые запросы, предотвращая предвидение верификаторами элементов аудита
Качество тестов: каждый тест получает несколько независимых рецензий, качество данных определяет его вес в финальной оценке
Доступность: регистрация для всех ролей лёгкая, поддерживает широкое участие

Связанные работы

Статические тесты и рейтинги

MMLU, GSM8K, SuperGLUE предоставляют чёткие снимки прогресса, но быстро насыщаются и попадают в обучающие корпусы
BIG-Bench расширяет охват задач, но задачи становятся общедоступными при публикации
HELM добавляет несколько метрик, но остаётся статичным между интервалами публикации

Динамические или устойчивые к загрязнению тесты

LiveBench постоянно обновляет задачи, но зависит от одной централизованной команды
Dynabench исследует сбор данных в состязательном режиме с участием человека
Состязательные конкурсы «взлома моделей» выявляют слабые места, но лишены систематической агрегации оценок

Предпочтения людей и открытые платформы оценки

Лестница Elo Chatbot Arena и OpenAI Evals способствуют открытости
Открытая доска лидеров HuggingFace LLM позволяет пользователям загружать тестовые скрипты
Однако эти платформы подвержены спаму, голосам ботов и неотслеживаемому загрязнению

Заключение и обсуждение

Основные выводы

Текущая система бенчмаркинга ИИ имеет системные недостатки, требующие смены парадигмы
Контролируемая парадигма оценки, вдохновлённая стандартизированными экзаменами для людей, является жизнеспособным решением
PeerBench демонстрирует практичность управления сообществом и устойчивой к загрязнению оценки
Необходимо найти баланс между открытостью и строгостью

Ограничения

Справедливость по времени: фундаментальное напряжение между оценкой в реальном времени и синхронной оценкой
Стоимость реализации: требует постоянного создания высококачественных тестов и поддержки инфраструктуры
Стимулы участия: требует надлежащих экономических стимулов для поддержания участия рецензентов
Сложность управления: многостороннее управление может столкнуться с проблемами координации

Будущие направления

Проектирование механизмов: дальнейшие исследования теоретико-игровой безопасности для укрепления экономической и состязательной устойчивости структуры
Оптимизация управления: улучшение многоучреждённых структур управления и систем ротации членов
Оптимизация затрат: изучение методов снижения операционных расходов, таких как контейнеризованные отправки вывода
Стандартизация: продвижение сотрудничества с существующими нейтральными организациями, такими как NIST или MLCommons

Углубленная оценка

Сильные стороны

Точное выявление проблем: точное определение основных проблем текущей экосистемы оценки ИИ
Инновационное решение: предложение смены парадигмы от статических рейтингов к контролируемым экзаменам
Высокая практичность: предоставление конкретного прототипа реализации и подробного рабочего процесса
Прочная теоретическая база: заимствование зрелого опыта стандартизированных экзаменов для людей
Ориентация на сообщество: подчёркивание управления сообществом и децентрализации, избегание единой точки отказа

Недостатки

Вызовы масштабируемости: крупномасштабная реализация может столкнуться с проблемами координации участников и стимулов
Проблема холодного старта: новой системе требуется достаточное количество начальных участников для установления доверия
Неполная экономическая модель: хотя упоминаются механизмы сокращения, детали экономических стимулов требуют дальнейшего совершенствования
Сложность технической реализации: высокая сложность реализации технических компонентов, таких как криптографические подписи и системы репутации

Влияние

Академический вклад: предоставление новой теоретической структуры и практического направления для области оценки ИИ
Влияние на промышленность: возможное продвижение установления более справедливых и надёжных стандартов оценки в индустрии ИИ
Политическое значение: предоставление технической базы для регулирования ИИ и установления стандартов
Долгосрочная ценность: создание чертежа устойчивой экосистемы оценки ИИ

Применимые сценарии

Оценка высокорисковых приложений ИИ: особенно подходит для оценки систем ИИ, требующих высокой степени доверия
Академические исследования: предоставление справедливой платформы сравнения моделей для исследовательского сообщества
Установление промышленных стандартов: может служить основой для структуры стандартной оценки отрасли
Соответствие нормативным требованиям: предоставление технической поддержки для нормативной оценки систем ИИ

Библиография

Статья цитирует 56 связанных источников, охватывающих оценку ИИ, бенчмаркинг, загрязнение данных, системы репутации и другие области, предоставляя достаточную теоретическую поддержку для своей позиции.

Общая оценка: Это позиционная статья большого значения, которая не только глубоко анализирует проблемы текущей системы оценки ИИ, но и предлагает конкретные и осуществимые решения. Проектирование PeerBench отражает глубокие размышления авторов о будущем развитии оценки ИИ, а его прототипная реализация демонстрирует осуществимость концепции. Хотя при крупномасштабной реализации остаются вызовы, статья указывает направление развития области оценки ИИ.