Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
L'évaluation comparative est défectueuse -- Ne laissez pas l'IA être son propre juge
Titre: Benchmarking is Broken -- Don't Let AI be its Own Judge
Auteurs: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Classification: cs.AI cs.LG
Date de publication/Conférence: 39e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025)
Avec le développement rapide de la technologie de l'IA et la croissance accélérée de sa valeur marchande, l'évaluation de l'IA fait face à des défis critiques. Les tests d'évaluation actuels exposent des failles graves, notamment la pollution des données et les rapports sélectifs des développeurs de modèles, qui alimentent le battage médiatique, tandis que le contrôle insuffisant de la qualité des données peut conduire à des évaluations biaisées. Dans un contexte où de nombreux acteurs affluent dans le domaine de l'IA, cette approche d'évaluation de type « Far West » rend extrêmement difficile la distinction entre les véritables progrès et les affirmations exagérées. Cet article soutient que l'approche actuelle du laisser-faire est insoutenable et que les véritables progrès en IA nécessitent un cadre d'évaluation comparative unifié, en temps réel et contrôlé en qualité. À cette fin, l'article analyse les défauts systémiques de l'évaluation actuelle de l'IA, énonce les exigences fondamentales pour l'évaluation de nouvelle génération, et présente PeerBench -- un plan d'évaluation supervisée gouverné par la communauté.
Cette recherche vise à résoudre les problèmes systémiques du domaine des tests d'évaluation de l'IA:
Pollution des données: Les tests d'évaluation publics peuvent fuir dans les ensembles d'entraînement, entraînant une mémorisation de l'ensemble de test et des scores gonflés
Rapports sélectifs: Les créateurs de modèles peuvent ne signaler que les résultats d'un sous-ensemble de tâches favorables
Fragmentation de l'évaluation: Absence de normes et d'interfaces d'évaluation unifiées
Absence de garanties d'équité: Comparée aux examens à enjeux élevés pour les humains, l'évaluation de l'IA manque de surveillance et de vérification d'identité
L'impact social de la technologie de l'IA devient de plus en plus profond, nécessitant des mécanismes d'évaluation fiables
Les défauts de l'écosystème d'évaluation actuel brouillent les signaux scientifiques et érodent la confiance du public
Par analogie avec les marchés financiers qui nécessitent des organismes de réglementation fiables, le domaine de l'IA a également besoin de normes d'évaluation fiables
Critique systémique: Analyse complète des défauts structurels des tests d'évaluation actuels, y compris les problèmes de pollution, de fragmentation et de monopolisation
Déclaration de position: Propose de repositionner l'évaluation de l'IA comme un examen sûr et standardisé, ainsi que des principes de conception équilibrant l'ouverture et la rigueur
Architecture prototype: Conçoit le système PeerBench, comprenant un flux de travail spécifique en dix étapes, des artefacts de signature cryptographique, un mécanisme de réputation léger et des méthodes de normalisation des scores
Implémentation pratique: Fournit une implémentation prototype de PeerBench (https://peerbench.ai), démontrant la faisabilité du concept
Ensemble de test secret: Les éléments d'évaluation restent non divulgués avant l'exécution
Exécution supervisée: Les modèles sont évalués dans un bac à sable scellé unifié, avec tous les entrées et sorties enregistrées et signées cryptographiquement
Gouvernance communautaire: Un réseau de validateurs multi-parties prenantes applique les règles et la gouvernance
Mise à jour continue et activité: Une proportion fixe de questions est retirée et remplacée à chaque tour d'évaluation
Auditabilité et intégrité: Les validateurs soumettent à l'avance les hachages des tests et des réponses avant la publication
Accès équitable: Toute équipe authentique peut soumettre des modèles, moyennant une compensation pour les frais de calcul
Rapports multi-métriques: Fournit des sous-scores spécifiques au domaine et des classements par percentile
T1. Soumission et engagement de test: Les contributeurs soumettent le test T^(c) et la fonction de notation F^(c), le système enregistre l'engagement lié h = Com(T^(c), F^(c))
T2. Évaluation du modèle: Le serveur planifie immédiatement les requêtes pour tous les modèles actuellement enregistrés
T3. Processus d'examen: Attribution aléatoire aux examinateurs, nécessitant au moins trois examens valides
Divulgation partielle: Affichage aux examinateurs d'une petite portion aléatoire du test en format lecture seule et non copiable
Publication complète: Publication des tests, journaux et réponses des modèles après retrait
Mécanisme de réduction: Les participants dont la réputation est inférieure au seuil sont supprimés, les comportements malveillants entraînent une réduction du dépôt de garantie
L'article résout les problèmes courants par la conception architecturale:
Pollution et sélection des données: Les validateurs s'engagent à l'avance sur l'ensemble de test, le maintenant privé jusqu'à la fin du tour
Triche avec données privées: Une source aléatoire publique détermine les requêtes divulguées, empêchant les validateurs d'anticiper les éléments d'audit
Qualité des tests: Chaque test reçoit plusieurs examens indépendants, la qualité des données déterminant son poids dans le score final
Accessibilité: L'enregistrement pour tous les rôles est léger, supportant une participation large
Conception de mécanismes: Recherche supplémentaire en analyse de sécurité théorique des jeux pour renforcer la robustesse économique et adversariale du cadre
Optimisation de la gouvernance: Amélioration des structures de gouvernance multi-institutions et des systèmes de rotation des membres
Optimisation des coûts: Exploration de méthodes pour réduire les coûts opérationnels, comme les soumissions d'inférence conteneurisées
Normalisation: Promotion de la collaboration avec les organisations neutres existantes (comme le NIST ou MLCommons)
Défis d'extensibilité: La mise en œuvre à grande échelle peut faire face à des problèmes de coordination et d'incitation des participants
Problème de démarrage à froid: Le nouveau système a besoin de suffisamment de participants initiaux pour établir la crédibilité
Modèle économique incomplet: Bien que les mécanismes de réduction soient mentionnés, les détails des incitations économiques nécessitent un perfectionnement supplémentaire
Complexité de la mise en œuvre technique: Les composants techniques tels que les signatures cryptographiques et les systèmes de réputation ont une complexité d'implémentation élevée
L'article cite 56 travaux connexes, couvrant plusieurs domaines importants tels que l'évaluation de l'IA, les tests d'évaluation, la pollution des données et les systèmes de réputation, fournissant un soutien théorique suffisant pour sa position.
Évaluation globale: Cet article de position est d'une grande importance, non seulement en analysant profondément les problèmes du système actuel d'évaluation de l'IA, mais aussi en proposant des solutions concrètes et viables. La conception de PeerBench reflète la réflexion approfondie des auteurs sur le développement futur de l'évaluation de l'IA, et son implémentation prototype démontre la faisabilité du concept. Bien qu'il fasse face à des défis dans la mise en œuvre à grande échelle, il indique clairement la direction du développement du domaine de l'évaluation de l'IA.