2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.

The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.

academic

Los Benchmarks están Rotos -- No Dejes que la IA sea su Propio Juez

Información Básica

ID del Artículo: 2510.07575
Título: Benchmarking is Broken -- Don't Let AI be its Own Judge
Autores: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Clasificación: cs.AI cs.LG
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2510.07575

Resumen

Con el rápido desarrollo de la tecnología de IA y el crecimiento acelerado de su valor de mercado, la evaluación de IA enfrenta desafíos críticos. Los benchmarks actuales exponen vulnerabilidades graves, incluyendo contaminación de datos y reportes selectivos por parte de desarrolladores de modelos, problemas que fomentan la especulación, mientras que el control de calidad insuficiente de datos puede conducir a evaluaciones sesgadas. En el contexto de una afluencia masiva de participantes al campo de la IA, este enfoque evaluativo de "salvaje oeste" hace que sea extraordinariamente difícil distinguir el progreso genuino de las afirmaciones exageradas. Este artículo sostiene que el enfoque actual de laissez-faire es insostenible, y que el verdadero progreso en IA requiere un marco de benchmarking unificado, en tiempo real y con control de calidad. Con este fin, el artículo analiza los defectos sistémicos de la evaluación actual de IA, propone requisitos fundamentales para la evaluación de próxima generación e introduce PeerBench, un modelo de evaluación supervisada gobernado por la comunidad.

Antecedentes de Investigación y Motivación

Problemas Centrales

Esta investigación aborda problemas sistémicos en el campo de los benchmarks de IA:

Contaminación de Datos: Los benchmarks públicos pueden filtrarse en conjuntos de entrenamiento, causando memorización de conjuntos de prueba y puntuaciones infladas
Reportes Selectivos: Los creadores de modelos pueden reportar solo resultados de subconjuntos de tareas favorables
Fragmentación de Evaluación: Falta de estándares e interfaces de evaluación unificadas
Falta de Garantías de Equidad: En comparación con exámenes de alto riesgo para humanos, la evaluación de IA carece de supervisión y verificación de identidad

Importancia del Problema

El impacto social de la tecnología de IA es cada vez más profundo, requiriendo mecanismos de evaluación confiables
Los defectos del ecosistema de evaluación actual oscurecen las señales científicas y erosionan la confianza pública
Por analogía con los mercados financieros que requieren organismos reguladores confiables, el campo de la IA necesita igualmente estándares de evaluación confiables

Limitaciones de Métodos Existentes

Benchmarks Estáticos: Como MMLU, GSM8K, etc., se saturan rápidamente y son fáciles de memorizar
Benchmarks Dinámicos: Como LiveBench, aunque se actualizan continuamente, dependen de un único equipo y tienen escala limitada
Benchmarks Privados: Reducen la contaminación pero carecen de transparencia, con riesgo de sesgo
Evaluación Colaborativa: Como Chatbot Arena, carece de verificación de identidad y es susceptible a manipulación

Contribuciones Principales

Crítica Sistémica: Análisis exhaustivo de los defectos estructurales de los benchmarks actuales, incluyendo problemas de contaminación, fragmentación y monopolización
Declaración de Posición: Propone reposicionar la evaluación de IA como un examen seguro y estandarizado, con principios de diseño que equilibren apertura y rigor
Arquitectura Prototípica: Diseña el sistema PeerBench, incluyendo un flujo de trabajo específico de diez pasos, artefactos de firma criptográfica, mecanismo de reputación ligero y métodos de normalización de puntuaciones
Implementación Práctica: Proporciona una implementación prototípica de PeerBench (https://peerbench.ai), demostrando la viabilidad del concepto

Detalle de Métodos

Siete Principios del Nuevo Paradigma

Conjunto de Pruebas Secreto: Los elementos de evaluación permanecen sin publicar antes de la ejecución
Ejecución Supervisada: Los modelos se evalúan en un sandbox sellado unificado, con todas las entradas y salidas registradas y firmadas criptográficamente
Gobernanza Comunitaria: Red de validadores de múltiples partes interesadas que ejecutan reglas y gobernanza
Actualización Continua y Actividad: Una proporción fija de preguntas se retira y reemplaza en cada ronda de evaluación
Auditabilidad e Integridad: Los validadores envían previamente hashes de pruebas y respuestas antes de la publicación
Acceso Equitativo: Cualquier equipo genuino puede enviar modelos, solo necesita compensar los costos computacionales
Reportes de Múltiples Métricas: Proporciona puntuaciones de subdominio específicas y clasificaciones percentiles

Diseño de Arquitectura de PeerBench

Roles de Participantes

Contribuidores de Datos: Crean suites de pruebas privadas y funciones de puntuación ejecutables
Revisores: Evalúan la calidad de las pruebas enviadas, produciendo calificaciones ordinales
Creadores de Modelos: Exponen puntos finales de inferencia y registran flujos específicos
Servidor Coordinador: Autentica cargas, gestiona bibliotecas activas, programa revisión por pares
Usuarios Finales: Investigadores, periodistas y otros que consultan la clasificación en tiempo real

Tres Sistemas de Clasificación

Clasificación de Contribuidores de Datos:

ContributorScore(c) = Σ quality(T_i^(c)) + bonuses

Clasificación de Revisores:

ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})

Clasificación de Modelos:

ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))

Flujo de Trabajo de Extremo a Extremo

Fase de Configuración

Los participantes se registran usando credenciales verificables
Generan pares de claves de firma pública
Contribuidores y revisores depositan garantías

Proceso de Evaluación Continua

T1. Envío de Pruebas y Compromiso: Los contribuidores envían pruebas T^(c) y función de puntuación F^(c), el sistema registra el compromiso vinculante h = Com(T^(c), F^(c))

T2. Evaluación de Modelos: El servidor programa inmediatamente consultas a todos los modelos registrados actualmente

T3. Proceso de Revisión: Se asigna aleatoriamente a revisores, requiriendo al menos tres revisiones válidas

T4. Cálculo de Pesos:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Gestión de Biblioteca: Las nuevas pruebas se agregan a la biblioteca activa, priorizando la retirada de pruebas con peso cero

T6. Actualización de Reputación: Se actualiza la reputación de todos los participantes relevantes después de cada ronda

Configuración Experimental

Dilema de Equidad Temporal

El artículo identifica dos opciones de diseño:

Opción A: Puntuación Inmediata Bajo Demanda: Puntuación inmediata cuando el modelo lo solicita, maximizando capacidad de respuesta
Opción B: Evaluación Sincronizada Periódica: Los modelos registran ventanas de evaluación predeterminadas, garantizando la forma más fuerte de equidad

PeerBench adopta un enfoque híbrido, soportando ambos paradigmas, priorizando la flexibilidad de puntuación inmediata en el prototipo.

Mecanismos de Seguridad y Auditoría

Divulgación Parcial: Muestra a revisores una pequeña porción aleatoria de pruebas en formato de solo lectura e incopia
Publicación Completa: Publica pruebas, registros y respuestas de modelos después de la retirada
Mecanismo de Corte: Se eliminan participantes con reputación por debajo del umbral, el comportamiento malicioso resulta en corte de garantías

Resultados Experimentales

Implementación Prototípica

El artículo proporciona una implementación prototípica práctica de PeerBench (https://peerbench.ai), demostrando:

Implementación completa del flujo de trabajo
Mecanismos operativos del sistema de reputación
Soporte de evaluación multiflujo (matemáticas, generación de código, traducción, etc.)

Validez de Opciones de Diseño

El artículo aborda problemas comunes a través del diseño de arquitectura:

Contaminación de Datos y Selección: Los validadores se comprometen previamente con conjuntos de pruebas, manteniéndolos privados hasta el final de la ronda
Fraude de Datos Privados: Una fuente aleatoria pública determina las consultas divulgadas, evitando que validadores anticipen elementos auditados
Calidad de Pruebas: Cada prueba recibe múltiples revisiones independientes, la calidad de datos determina su peso en la puntuación final
Accesibilidad: El registro para todos los roles es ligero, soportando participación amplia

Trabajo Relacionado

Benchmarks Estáticos y Clasificaciones

MMLU, GSM8K, SuperGLUE, etc., proporcionan instantáneas claras de progreso, pero se saturan rápidamente y se filtran en corpus de entrenamiento
BIG-Bench amplía la cobertura de tareas, pero las tareas se hacen públicas en la publicación
HELM agrega múltiples métricas, pero permanece estático entre intervalos de publicación

Benchmarks Dinámicos o Resistentes a Contaminación

LiveBench actualiza continuamente tareas, pero depende de un único equipo centralizado
Dynabench explora recopilación de datos adversaria con humanos en el circuito
Competiciones adversarias de "romper modelos" exponen debilidades pero carecen de agregación de puntuaciones sistemática

Preferencias Humanas y Plataformas de Evaluación Abierta

La escalera Elo de Chatbot Arena y OpenAI Evals promueven apertura
La Clasificación Abierta de LLM de HuggingFace permite a usuarios cargar scripts de prueba
Pero estas plataformas son susceptibles a spam, votación de bots y contaminación sin seguimiento

Conclusiones y Discusión

Conclusiones Principales

El sistema actual de benchmarks de IA tiene defectos sistémicos que requieren un cambio de paradigma
Un paradigma de evaluación supervisada inspirado en exámenes estandarizados humanos es una solución viable
PeerBench demuestra la practicidad de la evaluación gobernada por comunidad y resistente a contaminación
Es necesario encontrar equilibrio entre apertura y rigor

Limitaciones

Equidad Temporal: Existe tensión fundamental entre evaluación inmediata y sincronizada
Costo de Implementación: Requiere creación continua de pruebas de alta calidad y mantenimiento de infraestructura
Incentivos de Participación: Requiere incentivos económicos apropiados para mantener participación de revisores
Complejidad de Gobernanza: La gobernanza multiactor puede enfrentar desafíos de coordinación

Direcciones Futuras

Diseño de Mecanismos: Investigación adicional en análisis de seguridad de teoría de juegos para fortalecer robustez económica y adversaria del marco
Optimización de Gobernanza: Mejorar estructuras de gobernanza multiinstitucional y sistemas de rotación de miembros
Optimización de Costos: Explorar métodos para reducir costos operativos, como envíos de inferencia containerizados
Estandarización: Impulsar colaboración con organizaciones neutrales existentes como NIST o MLCommons

Evaluación Profunda

Fortalezas

Identificación Precisa de Problemas: Identifica con precisión los problemas centrales del ecosistema de evaluación actual de IA
Solución Innovadora: Propone un cambio de paradigma de clasificaciones estáticas a exámenes supervisados
Fuerte Practicidad: Proporciona prototipo de implementación concreto y flujo de trabajo detallado
Fundamento Teórico Sólido: Se basa en experiencia madura de exámenes estandarizados humanos
Orientación Comunitaria: Enfatiza gobernanza comunitaria y descentralización, evitando puntos únicos de fallo

Insuficiencias

Desafíos de Escalabilidad: La implementación a gran escala puede enfrentar problemas de coordinación de participantes e incentivos
Problema de Arranque en Frío: El nuevo sistema necesita suficientes participantes iniciales para establecer credibilidad
Modelo Económico Incompleto: Aunque menciona mecanismos de corte, los detalles de incentivos económicos necesitan mayor refinamiento
Complejidad de Implementación Técnica: Los componentes técnicos como firmas criptográficas y sistemas de reputación tienen complejidad de implementación relativamente alta

Impacto

Contribución Académica: Proporciona nuevo marco teórico y dirección práctica para el campo de evaluación de IA
Impacto Industrial: Puede impulsar el establecimiento de estándares de evaluación más justos y confiables en la industria de IA
Significancia Política: Proporciona base técnica para evaluación de IA y formulación de estándares regulatorios
Valor a Largo Plazo: Establece un modelo para un ecosistema de evaluación de IA sostenible

Escenarios Aplicables

Evaluación de Aplicaciones de IA de Alto Riesgo: Particularmente adecuado para evaluación de sistemas de IA que requieren alta confiabilidad
Investigación Académica: Proporciona plataforma de comparación de modelos justa para la comunidad investigadora
Formulación de Estándares Industriales: Puede servir como base para marcos de evaluación de estándares industriales
Cumplimiento Regulatorio: Proporciona soporte técnico para evaluación regulatoria de sistemas de IA

Referencias

El artículo cita 56 referencias relacionadas, cubriendo múltiples campos incluyendo evaluación de IA, benchmarking, contaminación de datos, sistemas de reputación, etc., proporcionando soporte teórico suficiente para sus posiciones.

Evaluación General: Este es un artículo de posición de importancia significativa que no solo analiza profundamente los problemas del sistema de evaluación actual de IA, sino que también propone soluciones específicas y viables. El diseño de PeerBench refleja la reflexión profunda de los autores sobre el desarrollo futuro de la evaluación de IA, y su implementación prototípica demuestra la viabilidad del concepto. Aunque aún enfrenta desafíos en implementación a gran escala, proporciona dirección clara para el desarrollo del campo de evaluación de IA.