Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
Benchmarking ist fehlerhaft -- Lassen Sie nicht zu, dass KI ihr eigener Richter ist
Titel: Benchmarking is Broken -- Don't Let AI be its Own Judge
Autoren: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Klassifizierung: cs.AI cs.LG
Veröffentlichungszeitpunkt/Konferenz: 39. Konferenz über Neural Information Processing Systems (NeurIPS 2025)
Mit der rasanten Entwicklung der KI-Technologie und dem schnellen Wachstum ihres Marktwerts sieht sich die KI-Bewertung mit kritischen Herausforderungen konfrontiert. Aktuelle Benchmark-Tests weisen erhebliche Schwachstellen auf, einschließlich Datenverschmutzung und selektive Berichterstattung durch Modellentwickler, die Hype fördern, während unzureichende Datenkontrolle zu verzerrten Bewertungen führen kann. Angesichts der Vielzahl von Akteuren, die in den KI-Bereich strömen, macht dieser "Wilde-Westen"-Ansatz zur Bewertung es außerordentlich schwierig, echte Fortschritte von übertriebenen Behauptungen zu unterscheiden. Dieses Papier argumentiert, dass der aktuelle Laissez-faire-Ansatz nicht nachhaltig ist und echter KI-Fortschritt ein einheitliches, echtzeitfähiges, qualitätskontrolliertes Benchmark-Framework erfordert. Zu diesem Zweck analysiert das Papier systematische Mängel in der aktuellen KI-Bewertung, legt grundlegende Anforderungen für die Bewertung der nächsten Generation dar und stellt PeerBench vor – ein von der Gemeinschaft verwaltetes, beaufsichtigtes Bewertungskonzept.
Statische Benchmark-Tests: Wie MMLU, GSM8K usw. sättigen sich schnell und werden leicht memorisiert
Dynamische Benchmark-Tests: Wie LiveBench, die zwar kontinuierlich aktualisiert werden, aber von einem einzelnen Team abhängen und begrenzte Skalierbarkeit haben
Private Benchmark-Tests: Reduzieren Verschmutzung, aber mangelnde Transparenz und Verzerrungsrisiken
Crowdsourced-Bewertung: Wie Chatbot Arena mangelt es an Identitätsverifizierung und ist anfällig für Manipulation
Systematische Kritik: Umfassende Analyse der strukturellen Mängel in aktuellen Benchmark-Tests, einschließlich Verschmutzung, Fragmentierung und Monopolisierungsproblemen
Positionspapier: Vorschlag zur Neupositionierung der KI-Bewertung als sichere, standardisierte Prüfung sowie Designprinzipien zum Ausgleich von Offenheit und Strenge
Prototyp-Architektur: Entwurf des PeerBench-Systems mit konkretem zehnstufigem Workflow, kryptographischen Signaturen, leichtgewichtigem Reputationsmechanismus und Score-Normalisierungsmethoden
Praktische Implementierung: Bereitstellung einer Prototypimplementierung von PeerBench (https://peerbench.ai), die die Machbarkeit des Konzepts demonstriert
Geheime Testsets: Bewertungselemente bleiben vor der Laufzeit unveröffentlicht
Beaufsichtigte Ausführung: Modelle werden in einer einheitlichen versiegelten Sandbox bewertet, alle Ein- und Ausgaben werden aufgezeichnet und kryptographisch signiert
Gemeinschaftliche Verwaltung: Netzwerk von Validatoren mit mehreren Interessengruppen setzt Regeln und Governance um
Kontinuierliche Aktualisierung und Aktivität: Ein fester Prozentsatz der Fragen wird in jeder Runde ausgemustert und ersetzt
Prüfbarkeit und Integrität: Validatoren reichen vor der Veröffentlichung vorab Hash-Werte von Tests und Antworten ein
Fairer Zugang: Jedes echte Team kann Modelle einreichen, muss nur Rechenausgleichsgebühren zahlen
Multi-Metrik-Berichterstattung: Bereitstellung von domänenspezifischen Unterpunktzahlen und Perzentil-Rankings
T1. Test-Einreichung und Verpflichtung: Beitragende reichen Test T^(c) und Bewertungsfunktion F^(c) ein, System zeichnet Verpflichtungsbindung h = Com(T^(c), F^(c)) auf
T2. Modellbewertung: Server plant sofort Abfragen für alle aktuell registrierten Modelle
T3. Überprüfungsprozess: Zufällig Reviewern zugewiesen, erfordert mindestens drei gültige Bewertungen
Mechanismusdesign: Weitere Forschung zu spieltheoretischer Sicherheitsanalyse zur Stärkung der wirtschaftlichen und adversarischen Robustheit des Frameworks
Governance-Optimierung: Verbesserung von Multi-Institutional-Governance-Strukturen und Rotationsmitgliedschaftssystemen
Kostenoptimierung: Erkundung von Methoden zur Senkung der Betriebskosten, wie containerisierte Inferenz-Einreichungen
Standardisierung: Förderung der Zusammenarbeit mit bestehenden neutralen Organisationen wie NIST oder MLCommons
Skalierungschallengen: Großflächige Implementierung könnte Herausforderungen bei Teilnehmerkoordination und Anreizen gegenüberstehen
Cold-Start-Problem: Neues System benötigt ausreichende anfängliche Teilnehmer zur Glaubwürdigkeitsbildung
Unvollständiges Wirtschaftsmodell: Obwohl Kürzungsmechanismen erwähnt werden, benötigen Details wirtschaftlicher Anreize weitere Verfeinerung
Technische Implementierungskomplexität: Kryptographische Signaturen, Reputationssysteme und andere technische Komponenten haben hohe Implementierungskomplexität
Das Papier zitiert 56 relevante Arbeiten, die mehrere Bereiche abdecken, einschließlich KI-Bewertung, Benchmark-Tests, Datenverschmutzung, Reputationssysteme und andere wichtige Arbeiten, die seine Position mit ausreichender theoretischer Unterstützung versehen.
Gesamtbewertung: Dies ist ein bedeutsames Positionspapier, das nicht nur die Probleme des aktuellen KI-Bewertungssystems tiefgreifend analysiert, sondern auch konkrete und praktikable Lösungen vorschlägt. Das Design von PeerBench spiegelt die tiefgreifenden Überlegungen der Autoren zur zukünftigen Entwicklung der KI-Bewertung wider, und die Prototypimplementierung demonstriert die Machbarkeit des Konzepts. Obwohl es bei großflächiger Implementierung noch Herausforderungen gibt, weist es eine klare Richtung für die Entwicklung des KI-Bewertungsfelds auf.