2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

Los Benchmarks están Rotos -- No Dejes que la IA sea su Propio Juez

Información Básica

  • ID del Artículo: 2510.07575
  • Título: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • Autores: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • Clasificación: cs.AI cs.LG
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.07575

Resumen

Con el rápido desarrollo de la tecnología de IA y el crecimiento acelerado de su valor de mercado, la evaluación de IA enfrenta desafíos críticos. Los benchmarks actuales exponen vulnerabilidades graves, incluyendo contaminación de datos y reportes selectivos por parte de desarrolladores de modelos, problemas que fomentan la especulación, mientras que el control de calidad insuficiente de datos puede conducir a evaluaciones sesgadas. En el contexto de una afluencia masiva de participantes al campo de la IA, este enfoque evaluativo de "salvaje oeste" hace que sea extraordinariamente difícil distinguir el progreso genuino de las afirmaciones exageradas. Este artículo sostiene que el enfoque actual de laissez-faire es insostenible, y que el verdadero progreso en IA requiere un marco de benchmarking unificado, en tiempo real y con control de calidad. Con este fin, el artículo analiza los defectos sistémicos de la evaluación actual de IA, propone requisitos fundamentales para la evaluación de próxima generación e introduce PeerBench, un modelo de evaluación supervisada gobernado por la comunidad.

Antecedentes de Investigación y Motivación

Problemas Centrales

Esta investigación aborda problemas sistémicos en el campo de los benchmarks de IA:

  1. Contaminación de Datos: Los benchmarks públicos pueden filtrarse en conjuntos de entrenamiento, causando memorización de conjuntos de prueba y puntuaciones infladas
  2. Reportes Selectivos: Los creadores de modelos pueden reportar solo resultados de subconjuntos de tareas favorables
  3. Fragmentación de Evaluación: Falta de estándares e interfaces de evaluación unificadas
  4. Falta de Garantías de Equidad: En comparación con exámenes de alto riesgo para humanos, la evaluación de IA carece de supervisión y verificación de identidad

Importancia del Problema

  • El impacto social de la tecnología de IA es cada vez más profundo, requiriendo mecanismos de evaluación confiables
  • Los defectos del ecosistema de evaluación actual oscurecen las señales científicas y erosionan la confianza pública
  • Por analogía con los mercados financieros que requieren organismos reguladores confiables, el campo de la IA necesita igualmente estándares de evaluación confiables

Limitaciones de Métodos Existentes

  1. Benchmarks Estáticos: Como MMLU, GSM8K, etc., se saturan rápidamente y son fáciles de memorizar
  2. Benchmarks Dinámicos: Como LiveBench, aunque se actualizan continuamente, dependen de un único equipo y tienen escala limitada
  3. Benchmarks Privados: Reducen la contaminación pero carecen de transparencia, con riesgo de sesgo
  4. Evaluación Colaborativa: Como Chatbot Arena, carece de verificación de identidad y es susceptible a manipulación

Contribuciones Principales

  1. Crítica Sistémica: Análisis exhaustivo de los defectos estructurales de los benchmarks actuales, incluyendo problemas de contaminación, fragmentación y monopolización
  2. Declaración de Posición: Propone reposicionar la evaluación de IA como un examen seguro y estandarizado, con principios de diseño que equilibren apertura y rigor
  3. Arquitectura Prototípica: Diseña el sistema PeerBench, incluyendo un flujo de trabajo específico de diez pasos, artefactos de firma criptográfica, mecanismo de reputación ligero y métodos de normalización de puntuaciones
  4. Implementación Práctica: Proporciona una implementación prototípica de PeerBench (https://peerbench.ai), demostrando la viabilidad del concepto

Detalle de Métodos

Siete Principios del Nuevo Paradigma

  1. Conjunto de Pruebas Secreto: Los elementos de evaluación permanecen sin publicar antes de la ejecución
  2. Ejecución Supervisada: Los modelos se evalúan en un sandbox sellado unificado, con todas las entradas y salidas registradas y firmadas criptográficamente
  3. Gobernanza Comunitaria: Red de validadores de múltiples partes interesadas que ejecutan reglas y gobernanza
  4. Actualización Continua y Actividad: Una proporción fija de preguntas se retira y reemplaza en cada ronda de evaluación
  5. Auditabilidad e Integridad: Los validadores envían previamente hashes de pruebas y respuestas antes de la publicación
  6. Acceso Equitativo: Cualquier equipo genuino puede enviar modelos, solo necesita compensar los costos computacionales
  7. Reportes de Múltiples Métricas: Proporciona puntuaciones de subdominio específicas y clasificaciones percentiles

Diseño de Arquitectura de PeerBench

Roles de Participantes

  • Contribuidores de Datos: Crean suites de pruebas privadas y funciones de puntuación ejecutables
  • Revisores: Evalúan la calidad de las pruebas enviadas, produciendo calificaciones ordinales
  • Creadores de Modelos: Exponen puntos finales de inferencia y registran flujos específicos
  • Servidor Coordinador: Autentica cargas, gestiona bibliotecas activas, programa revisión por pares
  • Usuarios Finales: Investigadores, periodistas y otros que consultan la clasificación en tiempo real

Tres Sistemas de Clasificación

  1. Clasificación de Contribuidores de Datos:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. Clasificación de Revisores:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. Clasificación de Modelos:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

Flujo de Trabajo de Extremo a Extremo

Fase de Configuración

  • Los participantes se registran usando credenciales verificables
  • Generan pares de claves de firma pública
  • Contribuidores y revisores depositan garantías

Proceso de Evaluación Continua

T1. Envío de Pruebas y Compromiso: Los contribuidores envían pruebas T^(c) y función de puntuación F^(c), el sistema registra el compromiso vinculante h = Com(T^(c), F^(c))

T2. Evaluación de Modelos: El servidor programa inmediatamente consultas a todos los modelos registrados actualmente

T3. Proceso de Revisión: Se asigna aleatoriamente a revisores, requiriendo al menos tres revisiones válidas

T4. Cálculo de Pesos:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Gestión de Biblioteca: Las nuevas pruebas se agregan a la biblioteca activa, priorizando la retirada de pruebas con peso cero

T6. Actualización de Reputación: Se actualiza la reputación de todos los participantes relevantes después de cada ronda

Configuración Experimental

Dilema de Equidad Temporal

El artículo identifica dos opciones de diseño:

  • Opción A: Puntuación Inmediata Bajo Demanda: Puntuación inmediata cuando el modelo lo solicita, maximizando capacidad de respuesta
  • Opción B: Evaluación Sincronizada Periódica: Los modelos registran ventanas de evaluación predeterminadas, garantizando la forma más fuerte de equidad

PeerBench adopta un enfoque híbrido, soportando ambos paradigmas, priorizando la flexibilidad de puntuación inmediata en el prototipo.

Mecanismos de Seguridad y Auditoría

  • Divulgación Parcial: Muestra a revisores una pequeña porción aleatoria de pruebas en formato de solo lectura e incopia
  • Publicación Completa: Publica pruebas, registros y respuestas de modelos después de la retirada
  • Mecanismo de Corte: Se eliminan participantes con reputación por debajo del umbral, el comportamiento malicioso resulta en corte de garantías

Resultados Experimentales

Implementación Prototípica

El artículo proporciona una implementación prototípica práctica de PeerBench (https://peerbench.ai), demostrando:

  • Implementación completa del flujo de trabajo
  • Mecanismos operativos del sistema de reputación
  • Soporte de evaluación multiflujo (matemáticas, generación de código, traducción, etc.)

Validez de Opciones de Diseño

El artículo aborda problemas comunes a través del diseño de arquitectura:

  • Contaminación de Datos y Selección: Los validadores se comprometen previamente con conjuntos de pruebas, manteniéndolos privados hasta el final de la ronda
  • Fraude de Datos Privados: Una fuente aleatoria pública determina las consultas divulgadas, evitando que validadores anticipen elementos auditados
  • Calidad de Pruebas: Cada prueba recibe múltiples revisiones independientes, la calidad de datos determina su peso en la puntuación final
  • Accesibilidad: El registro para todos los roles es ligero, soportando participación amplia

Trabajo Relacionado

Benchmarks Estáticos y Clasificaciones

  • MMLU, GSM8K, SuperGLUE, etc., proporcionan instantáneas claras de progreso, pero se saturan rápidamente y se filtran en corpus de entrenamiento
  • BIG-Bench amplía la cobertura de tareas, pero las tareas se hacen públicas en la publicación
  • HELM agrega múltiples métricas, pero permanece estático entre intervalos de publicación

Benchmarks Dinámicos o Resistentes a Contaminación

  • LiveBench actualiza continuamente tareas, pero depende de un único equipo centralizado
  • Dynabench explora recopilación de datos adversaria con humanos en el circuito
  • Competiciones adversarias de "romper modelos" exponen debilidades pero carecen de agregación de puntuaciones sistemática

Preferencias Humanas y Plataformas de Evaluación Abierta

  • La escalera Elo de Chatbot Arena y OpenAI Evals promueven apertura
  • La Clasificación Abierta de LLM de HuggingFace permite a usuarios cargar scripts de prueba
  • Pero estas plataformas son susceptibles a spam, votación de bots y contaminación sin seguimiento

Conclusiones y Discusión

Conclusiones Principales

  1. El sistema actual de benchmarks de IA tiene defectos sistémicos que requieren un cambio de paradigma
  2. Un paradigma de evaluación supervisada inspirado en exámenes estandarizados humanos es una solución viable
  3. PeerBench demuestra la practicidad de la evaluación gobernada por comunidad y resistente a contaminación
  4. Es necesario encontrar equilibrio entre apertura y rigor

Limitaciones

  1. Equidad Temporal: Existe tensión fundamental entre evaluación inmediata y sincronizada
  2. Costo de Implementación: Requiere creación continua de pruebas de alta calidad y mantenimiento de infraestructura
  3. Incentivos de Participación: Requiere incentivos económicos apropiados para mantener participación de revisores
  4. Complejidad de Gobernanza: La gobernanza multiactor puede enfrentar desafíos de coordinación

Direcciones Futuras

  1. Diseño de Mecanismos: Investigación adicional en análisis de seguridad de teoría de juegos para fortalecer robustez económica y adversaria del marco
  2. Optimización de Gobernanza: Mejorar estructuras de gobernanza multiinstitucional y sistemas de rotación de miembros
  3. Optimización de Costos: Explorar métodos para reducir costos operativos, como envíos de inferencia containerizados
  4. Estandarización: Impulsar colaboración con organizaciones neutrales existentes como NIST o MLCommons

Evaluación Profunda

Fortalezas

  1. Identificación Precisa de Problemas: Identifica con precisión los problemas centrales del ecosistema de evaluación actual de IA
  2. Solución Innovadora: Propone un cambio de paradigma de clasificaciones estáticas a exámenes supervisados
  3. Fuerte Practicidad: Proporciona prototipo de implementación concreto y flujo de trabajo detallado
  4. Fundamento Teórico Sólido: Se basa en experiencia madura de exámenes estandarizados humanos
  5. Orientación Comunitaria: Enfatiza gobernanza comunitaria y descentralización, evitando puntos únicos de fallo

Insuficiencias

  1. Desafíos de Escalabilidad: La implementación a gran escala puede enfrentar problemas de coordinación de participantes e incentivos
  2. Problema de Arranque en Frío: El nuevo sistema necesita suficientes participantes iniciales para establecer credibilidad
  3. Modelo Económico Incompleto: Aunque menciona mecanismos de corte, los detalles de incentivos económicos necesitan mayor refinamiento
  4. Complejidad de Implementación Técnica: Los componentes técnicos como firmas criptográficas y sistemas de reputación tienen complejidad de implementación relativamente alta

Impacto

  1. Contribución Académica: Proporciona nuevo marco teórico y dirección práctica para el campo de evaluación de IA
  2. Impacto Industrial: Puede impulsar el establecimiento de estándares de evaluación más justos y confiables en la industria de IA
  3. Significancia Política: Proporciona base técnica para evaluación de IA y formulación de estándares regulatorios
  4. Valor a Largo Plazo: Establece un modelo para un ecosistema de evaluación de IA sostenible

Escenarios Aplicables

  1. Evaluación de Aplicaciones de IA de Alto Riesgo: Particularmente adecuado para evaluación de sistemas de IA que requieren alta confiabilidad
  2. Investigación Académica: Proporciona plataforma de comparación de modelos justa para la comunidad investigadora
  3. Formulación de Estándares Industriales: Puede servir como base para marcos de evaluación de estándares industriales
  4. Cumplimiento Regulatorio: Proporciona soporte técnico para evaluación regulatoria de sistemas de IA

Referencias

El artículo cita 56 referencias relacionadas, cubriendo múltiples campos incluyendo evaluación de IA, benchmarking, contaminación de datos, sistemas de reputación, etc., proporcionando soporte teórico suficiente para sus posiciones.


Evaluación General: Este es un artículo de posición de importancia significativa que no solo analiza profundamente los problemas del sistema de evaluación actual de IA, sino que también propone soluciones específicas y viables. El diseño de PeerBench refleja la reflexión profunda de los autores sobre el desarrollo futuro de la evaluación de IA, y su implementación prototípica demuestra la viabilidad del concepto. Aunque aún enfrenta desafíos en implementación a gran escala, proporciona dirección clara para el desarrollo del campo de evaluación de IA.