Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
Los Benchmarks están Rotos -- No Dejes que la IA sea su Propio Juez
Título: Benchmarking is Broken -- Don't Let AI be its Own Judge
Autores: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Clasificación: cs.AI cs.LG
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
Con el rápido desarrollo de la tecnología de IA y el crecimiento acelerado de su valor de mercado, la evaluación de IA enfrenta desafíos críticos. Los benchmarks actuales exponen vulnerabilidades graves, incluyendo contaminación de datos y reportes selectivos por parte de desarrolladores de modelos, problemas que fomentan la especulación, mientras que el control de calidad insuficiente de datos puede conducir a evaluaciones sesgadas. En el contexto de una afluencia masiva de participantes al campo de la IA, este enfoque evaluativo de "salvaje oeste" hace que sea extraordinariamente difícil distinguir el progreso genuino de las afirmaciones exageradas. Este artículo sostiene que el enfoque actual de laissez-faire es insostenible, y que el verdadero progreso en IA requiere un marco de benchmarking unificado, en tiempo real y con control de calidad. Con este fin, el artículo analiza los defectos sistémicos de la evaluación actual de IA, propone requisitos fundamentales para la evaluación de próxima generación e introduce PeerBench, un modelo de evaluación supervisada gobernado por la comunidad.
Esta investigación aborda problemas sistémicos en el campo de los benchmarks de IA:
Contaminación de Datos: Los benchmarks públicos pueden filtrarse en conjuntos de entrenamiento, causando memorización de conjuntos de prueba y puntuaciones infladas
Reportes Selectivos: Los creadores de modelos pueden reportar solo resultados de subconjuntos de tareas favorables
Fragmentación de Evaluación: Falta de estándares e interfaces de evaluación unificadas
Falta de Garantías de Equidad: En comparación con exámenes de alto riesgo para humanos, la evaluación de IA carece de supervisión y verificación de identidad
El impacto social de la tecnología de IA es cada vez más profundo, requiriendo mecanismos de evaluación confiables
Los defectos del ecosistema de evaluación actual oscurecen las señales científicas y erosionan la confianza pública
Por analogía con los mercados financieros que requieren organismos reguladores confiables, el campo de la IA necesita igualmente estándares de evaluación confiables
Crítica Sistémica: Análisis exhaustivo de los defectos estructurales de los benchmarks actuales, incluyendo problemas de contaminación, fragmentación y monopolización
Declaración de Posición: Propone reposicionar la evaluación de IA como un examen seguro y estandarizado, con principios de diseño que equilibren apertura y rigor
Arquitectura Prototípica: Diseña el sistema PeerBench, incluyendo un flujo de trabajo específico de diez pasos, artefactos de firma criptográfica, mecanismo de reputación ligero y métodos de normalización de puntuaciones
Implementación Práctica: Proporciona una implementación prototípica de PeerBench (https://peerbench.ai), demostrando la viabilidad del concepto
Conjunto de Pruebas Secreto: Los elementos de evaluación permanecen sin publicar antes de la ejecución
Ejecución Supervisada: Los modelos se evalúan en un sandbox sellado unificado, con todas las entradas y salidas registradas y firmadas criptográficamente
Gobernanza Comunitaria: Red de validadores de múltiples partes interesadas que ejecutan reglas y gobernanza
Actualización Continua y Actividad: Una proporción fija de preguntas se retira y reemplaza en cada ronda de evaluación
Auditabilidad e Integridad: Los validadores envían previamente hashes de pruebas y respuestas antes de la publicación
Acceso Equitativo: Cualquier equipo genuino puede enviar modelos, solo necesita compensar los costos computacionales
Reportes de Múltiples Métricas: Proporciona puntuaciones de subdominio específicas y clasificaciones percentiles
T1. Envío de Pruebas y Compromiso: Los contribuidores envían pruebas T^(c) y función de puntuación F^(c), el sistema registra el compromiso vinculante h = Com(T^(c), F^(c))
T2. Evaluación de Modelos: El servidor programa inmediatamente consultas a todos los modelos registrados actualmente
T3. Proceso de Revisión: Se asigna aleatoriamente a revisores, requiriendo al menos tres revisiones válidas
El artículo aborda problemas comunes a través del diseño de arquitectura:
Contaminación de Datos y Selección: Los validadores se comprometen previamente con conjuntos de pruebas, manteniéndolos privados hasta el final de la ronda
Fraude de Datos Privados: Una fuente aleatoria pública determina las consultas divulgadas, evitando que validadores anticipen elementos auditados
Calidad de Pruebas: Cada prueba recibe múltiples revisiones independientes, la calidad de datos determina su peso en la puntuación final
Accesibilidad: El registro para todos los roles es ligero, soportando participación amplia
Desafíos de Escalabilidad: La implementación a gran escala puede enfrentar problemas de coordinación de participantes e incentivos
Problema de Arranque en Frío: El nuevo sistema necesita suficientes participantes iniciales para establecer credibilidad
Modelo Económico Incompleto: Aunque menciona mecanismos de corte, los detalles de incentivos económicos necesitan mayor refinamiento
Complejidad de Implementación Técnica: Los componentes técnicos como firmas criptográficas y sistemas de reputación tienen complejidad de implementación relativamente alta
El artículo cita 56 referencias relacionadas, cubriendo múltiples campos incluyendo evaluación de IA, benchmarking, contaminación de datos, sistemas de reputación, etc., proporcionando soporte teórico suficiente para sus posiciones.
Evaluación General: Este es un artículo de posición de importancia significativa que no solo analiza profundamente los problemas del sistema de evaluación actual de IA, sino que también propone soluciones específicas y viables. El diseño de PeerBench refleja la reflexión profunda de los autores sobre el desarrollo futuro de la evaluación de IA, y su implementación prototípica demuestra la viabilidad del concepto. Aunque aún enfrenta desafíos en implementación a gran escala, proporciona dirección clara para el desarrollo del campo de evaluación de IA.