2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

L'évaluation comparative est défectueuse -- Ne laissez pas l'IA être son propre juge

Informations de base

  • ID de l'article: 2510.07575
  • Titre: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • Auteurs: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • Classification: cs.AI cs.LG
  • Date de publication/Conférence: 39e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025)
  • Lien de l'article: https://arxiv.org/abs/2510.07575

Résumé

Avec le développement rapide de la technologie de l'IA et la croissance accélérée de sa valeur marchande, l'évaluation de l'IA fait face à des défis critiques. Les tests d'évaluation actuels exposent des failles graves, notamment la pollution des données et les rapports sélectifs des développeurs de modèles, qui alimentent le battage médiatique, tandis que le contrôle insuffisant de la qualité des données peut conduire à des évaluations biaisées. Dans un contexte où de nombreux acteurs affluent dans le domaine de l'IA, cette approche d'évaluation de type « Far West » rend extrêmement difficile la distinction entre les véritables progrès et les affirmations exagérées. Cet article soutient que l'approche actuelle du laisser-faire est insoutenable et que les véritables progrès en IA nécessitent un cadre d'évaluation comparative unifié, en temps réel et contrôlé en qualité. À cette fin, l'article analyse les défauts systémiques de l'évaluation actuelle de l'IA, énonce les exigences fondamentales pour l'évaluation de nouvelle génération, et présente PeerBench -- un plan d'évaluation supervisée gouverné par la communauté.

Contexte de recherche et motivation

Problèmes fondamentaux

Cette recherche vise à résoudre les problèmes systémiques du domaine des tests d'évaluation de l'IA:

  1. Pollution des données: Les tests d'évaluation publics peuvent fuir dans les ensembles d'entraînement, entraînant une mémorisation de l'ensemble de test et des scores gonflés
  2. Rapports sélectifs: Les créateurs de modèles peuvent ne signaler que les résultats d'un sous-ensemble de tâches favorables
  3. Fragmentation de l'évaluation: Absence de normes et d'interfaces d'évaluation unifiées
  4. Absence de garanties d'équité: Comparée aux examens à enjeux élevés pour les humains, l'évaluation de l'IA manque de surveillance et de vérification d'identité

Importance du problème

  • L'impact social de la technologie de l'IA devient de plus en plus profond, nécessitant des mécanismes d'évaluation fiables
  • Les défauts de l'écosystème d'évaluation actuel brouillent les signaux scientifiques et érodent la confiance du public
  • Par analogie avec les marchés financiers qui nécessitent des organismes de réglementation fiables, le domaine de l'IA a également besoin de normes d'évaluation fiables

Limitations des approches existantes

  1. Tests d'évaluation statiques: Comme MMLU, GSM8K, etc., qui saturent rapidement et sont facilement mémorisés
  2. Tests d'évaluation dynamiques: Comme LiveBench, bien que continuellement mis à jour, dépendent d'une seule équipe et ont une portée limitée
  3. Tests d'évaluation privés: Réduisent la pollution mais manquent de transparence, avec des risques de biais
  4. Évaluation participative: Comme Chatbot Arena, manquent de vérification d'identité et sont susceptibles d'être manipulées

Contributions principales

  1. Critique systémique: Analyse complète des défauts structurels des tests d'évaluation actuels, y compris les problèmes de pollution, de fragmentation et de monopolisation
  2. Déclaration de position: Propose de repositionner l'évaluation de l'IA comme un examen sûr et standardisé, ainsi que des principes de conception équilibrant l'ouverture et la rigueur
  3. Architecture prototype: Conçoit le système PeerBench, comprenant un flux de travail spécifique en dix étapes, des artefacts de signature cryptographique, un mécanisme de réputation léger et des méthodes de normalisation des scores
  4. Implémentation pratique: Fournit une implémentation prototype de PeerBench (https://peerbench.ai), démontrant la faisabilité du concept

Détails de la méthode

Sept principes du nouveau paradigme

  1. Ensemble de test secret: Les éléments d'évaluation restent non divulgués avant l'exécution
  2. Exécution supervisée: Les modèles sont évalués dans un bac à sable scellé unifié, avec tous les entrées et sorties enregistrées et signées cryptographiquement
  3. Gouvernance communautaire: Un réseau de validateurs multi-parties prenantes applique les règles et la gouvernance
  4. Mise à jour continue et activité: Une proportion fixe de questions est retirée et remplacée à chaque tour d'évaluation
  5. Auditabilité et intégrité: Les validateurs soumettent à l'avance les hachages des tests et des réponses avant la publication
  6. Accès équitable: Toute équipe authentique peut soumettre des modèles, moyennant une compensation pour les frais de calcul
  7. Rapports multi-métriques: Fournit des sous-scores spécifiques au domaine et des classements par percentile

Conception de l'architecture PeerBench

Rôles des participants

  • Contributeurs de données: Créent des suites de tests privés et des fonctions de notation exécutables
  • Examinateurs: Évaluent la qualité des tests soumis, produisant des évaluations ordinales
  • Créateurs de modèles: Exposent les points de terminaison d'inférence et enregistrent des flux spécifiques
  • Serveur de coordination: Authentifie les téléchargements, gère la bibliothèque active, planifie l'examen par les pairs
  • Utilisateurs finaux: Consultent les classements en temps réel, chercheurs, journalistes, etc.

Trois systèmes de classement

  1. Classement des contributeurs de données:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. Classement des examinateurs:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. Classement des modèles:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

Flux de travail de bout en bout

Phase de configuration

  • Les participants s'enregistrent avec des identifiants vérifiables
  • Génération de clés de signature à clé publique
  • Les contributeurs et examinateurs constituent un dépôt de garantie

Processus d'évaluation continue

T1. Soumission et engagement de test: Les contributeurs soumettent le test T^(c) et la fonction de notation F^(c), le système enregistre l'engagement lié h = Com(T^(c), F^(c))

T2. Évaluation du modèle: Le serveur planifie immédiatement les requêtes pour tous les modèles actuellement enregistrés

T3. Processus d'examen: Attribution aléatoire aux examinateurs, nécessitant au moins trois examens valides

T4. Calcul des poids:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Gestion de la bibliothèque: Les nouveaux tests rejoignent la bibliothèque active, avec retrait prioritaire des tests à poids zéro

T6. Mise à jour de la réputation: Mise à jour de la réputation de tous les participants concernés après chaque tour

Configuration expérimentale

Dilemme de l'équité temporelle

L'article identifie deux choix de conception:

  • Option A: Notation immédiate à la demande: Les modèles sont notés immédiatement à la demande, maximisant la réactivité
  • Option B: Évaluation synchrone périodique: Les modèles enregistrent les fenêtres d'évaluation prévues, garantissant la forme la plus forte d'équité

PeerBench adopte une approche hybride, supportant les deux paradigmes, privilégiant la flexibilité de la notation immédiate dans le prototype.

Mécanismes de sécurité et d'audit

  • Divulgation partielle: Affichage aux examinateurs d'une petite portion aléatoire du test en format lecture seule et non copiable
  • Publication complète: Publication des tests, journaux et réponses des modèles après retrait
  • Mécanisme de réduction: Les participants dont la réputation est inférieure au seuil sont supprimés, les comportements malveillants entraînent une réduction du dépôt de garantie

Résultats expérimentaux

Implémentation du prototype

L'article fournit une implémentation prototype pratique de PeerBench (https://peerbench.ai), démontrant:

  • Implémentation complète du flux de travail
  • Mécanismes de fonctionnement du système de réputation
  • Support d'évaluation multi-flux (mathématiques, génération de code, traduction, etc.)

Validité des choix de conception

L'article résout les problèmes courants par la conception architecturale:

  • Pollution et sélection des données: Les validateurs s'engagent à l'avance sur l'ensemble de test, le maintenant privé jusqu'à la fin du tour
  • Triche avec données privées: Une source aléatoire publique détermine les requêtes divulguées, empêchant les validateurs d'anticiper les éléments d'audit
  • Qualité des tests: Chaque test reçoit plusieurs examens indépendants, la qualité des données déterminant son poids dans le score final
  • Accessibilité: L'enregistrement pour tous les rôles est léger, supportant une participation large

Travaux connexes

Tests d'évaluation statiques et classements

  • MMLU, GSM8K, SuperGLUE, etc., fournissent des instantanés clairs de la progression, mais saturent rapidement et fuient dans les corpus d'entraînement
  • BIG-Bench élargit la couverture des tâches, mais les tâches deviennent publiques à la publication
  • HELM ajoute plusieurs métriques, mais reste statique entre les intervalles de publication

Tests d'évaluation dynamiques ou résistants à la pollution

  • LiveBench actualise continuellement les tâches, mais dépend d'une seule équipe centralisée
  • Dynabench explore la collecte de données adversariales avec l'humain en boucle
  • Les compétitions adversariales de « rupture de modèle » exposent les faiblesses mais manquent d'agrégation systématique des scores

Préférences humaines et plateformes d'évaluation ouvertes

  • L'échelle Elo de Chatbot Arena et OpenAI Evals favorisent l'ouverture
  • Le classement LLM ouvert de HuggingFace permet aux utilisateurs de télécharger des scripts de test
  • Mais ces plateformes sont susceptibles au spam, aux votes de robots et à la pollution non suivie

Conclusion et discussion

Conclusions principales

  1. Le système actuel d'évaluation comparative de l'IA présente des défauts systémiques nécessitant un changement de paradigme
  2. Un paradigme d'évaluation supervisée inspiré par les examens standardisés humains est une solution viable
  3. PeerBench démontre la praticité de l'évaluation gouvernée par la communauté et résistante à la pollution
  4. Il est nécessaire de trouver un équilibre entre l'ouverture et la rigueur

Limitations

  1. Équité temporelle: Tension fondamentale entre l'évaluation immédiate et l'évaluation synchrone
  2. Coûts de mise en œuvre: Nécessite la création continue de tests de haute qualité et la maintenance de l'infrastructure
  3. Incitations à la participation: Nécessite des incitations économiques appropriées pour maintenir la participation des examinateurs
  4. Complexité de la gouvernance: La gouvernance multi-parties prenantes peut faire face à des défis de coordination

Directions futures

  1. Conception de mécanismes: Recherche supplémentaire en analyse de sécurité théorique des jeux pour renforcer la robustesse économique et adversariale du cadre
  2. Optimisation de la gouvernance: Amélioration des structures de gouvernance multi-institutions et des systèmes de rotation des membres
  3. Optimisation des coûts: Exploration de méthodes pour réduire les coûts opérationnels, comme les soumissions d'inférence conteneurisées
  4. Normalisation: Promotion de la collaboration avec les organisations neutres existantes (comme le NIST ou MLCommons)

Évaluation approfondie

Points forts

  1. Identification précise des problèmes: Identifie avec précision les problèmes fondamentaux de l'écosystème actuel d'évaluation de l'IA
  2. Solution innovante: Propose un changement de paradigme des classements statiques aux examens supervisés
  3. Forte praticité: Fournit un prototype d'implémentation concret et un flux de travail détaillé
  4. Fondations théoriques solides: S'appuie sur l'expérience mature des examens standardisés humains
  5. Orientation communautaire: Souligne la gouvernance communautaire et la décentralisation, évitant les points de défaillance uniques

Insuffisances

  1. Défis d'extensibilité: La mise en œuvre à grande échelle peut faire face à des problèmes de coordination et d'incitation des participants
  2. Problème de démarrage à froid: Le nouveau système a besoin de suffisamment de participants initiaux pour établir la crédibilité
  3. Modèle économique incomplet: Bien que les mécanismes de réduction soient mentionnés, les détails des incitations économiques nécessitent un perfectionnement supplémentaire
  4. Complexité de la mise en œuvre technique: Les composants techniques tels que les signatures cryptographiques et les systèmes de réputation ont une complexité d'implémentation élevée

Impact

  1. Contribution académique: Fournit un nouveau cadre théorique et une direction pratique pour le domaine de l'évaluation de l'IA
  2. Impact industriel: Peut promouvoir l'établissement de normes d'évaluation plus justes et fiables dans l'industrie de l'IA
  3. Signification politique: Fournit une base technique pour la réglementation et l'établissement de normes de l'IA
  4. Valeur à long terme: Établit un plan pour un écosystème d'évaluation de l'IA durable

Scénarios d'application

  1. Évaluation d'applications d'IA à haut risque: Particulièrement adapté à l'évaluation des systèmes d'IA nécessitant une haute crédibilité
  2. Recherche académique: Fournit une plateforme de comparaison de modèles juste pour la communauté de recherche
  3. Établissement de normes industrielles: Peut servir de base pour un cadre d'évaluation des normes industrielles
  4. Conformité réglementaire: Fournit un support technique pour l'évaluation réglementaire des systèmes d'IA

Références

L'article cite 56 travaux connexes, couvrant plusieurs domaines importants tels que l'évaluation de l'IA, les tests d'évaluation, la pollution des données et les systèmes de réputation, fournissant un soutien théorique suffisant pour sa position.


Évaluation globale: Cet article de position est d'une grande importance, non seulement en analysant profondément les problèmes du système actuel d'évaluation de l'IA, mais aussi en proposant des solutions concrètes et viables. La conception de PeerBench reflète la réflexion approfondie des auteurs sur le développement futur de l'évaluation de l'IA, et son implémentation prototype démontre la faisabilité du concept. Bien qu'il fasse face à des défis dans la mise en œuvre à grande échelle, il indique clairement la direction du développement du domaine de l'évaluation de l'IA.