Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
I Benchmark sono Difettosi -- Non Lasciare che l'IA sia il Proprio Giudice
Titolo: Benchmarking is Broken -- Don't Let AI be its Own Judge
Autori: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Classificazione: cs.AI cs.LG
Data di Pubblicazione/Conferenza: 39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale (NeurIPS 2025)
Con il rapido sviluppo della tecnologia IA e la crescita del suo valore di mercato, la valutazione dell'IA affronta sfide critiche. I benchmark attuali espongono gravi vulnerabilità, inclusa la contaminazione dei dati e la segnalazione selettiva da parte degli sviluppatori di modelli, problemi che alimentano l'hype, mentre il controllo insufficiente della qualità dei dati può portare a valutazioni distorte. Nel contesto dell'afflusso massicciodi partecipanti nel settore dell'IA, questo approccio valutativo di tipo "Far West" rende straordinariamente difficile distinguere i veri progressi dalle affermazioni esagerate. L'articolo sostiene che l'attuale metodo del laissez-faire è insostenibile e che il vero progresso dell'IA richiede un framework di benchmark unificato, in tempo reale e con controllo della qualità. A tal fine, l'articolo analizza i difetti sistemici della valutazione dell'IA attuale, propone i requisiti fondamentali per la valutazione di prossima generazione e introduce PeerBench, un blueprint di valutazione supervisionato con governance comunitaria.
Questa ricerca affronta i problemi sistemici nel campo dei benchmark dell'IA:
Contaminazione dei Dati: I benchmark pubblici possono filtrare nei set di addestramento, causando memorizzazione del set di test e punteggi gonfiati
Segnalazione Selettiva: I creatori di modelli possono riportare solo i risultati di sottoinsiemi di compiti favorevoli
Frammentazione della Valutazione: Mancanza di standard e interfacce di valutazione unificate
Mancanza di Garanzie di Equità: Rispetto agli esami ad alto rischio per gli umani, la valutazione dell'IA manca di sorveglianza e verifica dell'identità
L'impatto sociale della tecnologia IA è sempre più profondo, richiedendo meccanismi di valutazione affidabili
I difetti dell'ecosistema di valutazione attuale offuscano i segnali scientifici ed erodono la fiducia pubblica
Per analogia con i mercati finanziari che richiedono organismi di regolamentazione affidabili, il settore dell'IA ha ugualmente bisogno di standard di valutazione affidabili
Critica Sistemica: Analisi completa dei difetti strutturali dei benchmark attuali, inclusi problemi di contaminazione, frammentazione e monopolizzazione
Dichiarazione di Posizione: Propone il riposizionamento della valutazione dell'IA come esame standardizzato sicuro e i principi di progettazione per bilanciare apertura e rigore
Architettura Prototipale: Progetta il sistema PeerBench, includendo un flusso di lavoro specifico di dieci fasi, artefatti con firma crittografica, meccanismo di reputazione leggero e metodi di normalizzazione dei punteggi
Implementazione Pratica: Fornisce un'implementazione prototipale di PeerBench (https://peerbench.ai), dimostrando la fattibilità del concetto
Set di Test Segreti: Gli elementi di valutazione rimangono non divulgati prima dell'esecuzione
Esecuzione Supervisionata: I modelli vengono valutati in una sandbox sigillata unificata, con tutti gli input e output registrati e firmati crittograficamente
Governance Comunitaria: Una rete di validatori multi-stakeholder applica le regole e la governance
Aggiornamento Continuo e Attività: Una proporzione fissa di domande viene ritirata e sostituita in ogni round di valutazione
Verificabilità e Integrità: I validatori pre-sottomettono hash dei test e delle risposte prima della pubblicazione
Accesso Equo: Qualsiasi team autentico può sottoporre modelli, pagando solo una compensazione computazionale
Rapporto Multi-Metrica: Fornisce sottopunteggi specifici del dominio e ranking percentili
T1. Sottomissione di Test e Impegno: I contributori sottomettono il test T^(c) e la funzione di scoring F^(c), il sistema registra l'impegno vincolante h = Com(T^(c), F^(c))
T2. Valutazione del Modello: Il server pianifica immediatamente query su tutti i modelli attualmente registrati
T3. Processo di Revisione: Assegnazione casuale ai revisori, richiedendo almeno tre revisioni valide
Divulgazione Parziale: Mostra ai revisori una piccola porzione casuale del test in formato di sola lettura e non copiabile
Divulgazione Completa: Pubblica test, log e risposte del modello dopo il ritiro
Meccanismo di Riduzione: I partecipanti con reputazione al di sotto della soglia vengono rimossi, il comportamento malevolo causa riduzione della garanzia
Progettazione dei Meccanismi: Ulteriore ricerca sull'analisi di sicurezza della teoria dei giochi per rafforzare la robustezza economica e avversariale del framework
Ottimizzazione della Governance: Miglioramento delle strutture di governance multi-istituzionali e dei sistemi di rotazione dei membri
Ottimizzazione dei Costi: Esplorazione di metodi per ridurre i costi operativi, come la containerizzazione dei submit di inferenza
Standardizzazione: Promozione della collaborazione con organizzazioni neutre esistenti come NIST o MLCommons
Sfide di Scalabilità: L'implementazione su larga scala potrebbe affrontare problemi di coordinamento dei partecipanti e incentivi
Problema del Cold Start: Il nuovo sistema richiede una partecipazione iniziale sufficiente per stabilire credibilità
Modello Economico Incompleto: Sebbene menzioni meccanismi di riduzione, i dettagli degli incentivi economici richiedono ulteriore perfezionamento
Complessità dell'Implementazione Tecnica: I componenti tecnici come firme crittografiche e sistemi di reputazione hanno elevata complessità di implementazione
L'articolo cita 56 lavori correlati, coprendo molteplici aree inclusa la valutazione dell'IA, i benchmark, la contaminazione dei dati, i sistemi di reputazione e altri campi importanti, fornendo un supporto teorico completo per le sue posizioni.
Valutazione Complessiva: Questo è un articolo di posizione di grande significato che non solo analizza profondamente i problemi del sistema di valutazione dell'IA attuale, ma propone anche soluzioni concrete e fattibili. La progettazione di PeerBench riflette la profonda riflessione degli autori sullo sviluppo futuro della valutazione dell'IA, e la sua implementazione prototipale dimostra la fattibilità del concetto. Sebbene affronti ancora sfide nell'implementazione su larga scala, fornisce una direzione chiara per lo sviluppo del campo della valutazione dell'IA.