2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

Benchmarking ist fehlerhaft -- Lassen Sie nicht zu, dass KI ihr eigener Richter ist

Grundlegende Informationen

  • Paper-ID: 2510.07575
  • Titel: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • Autoren: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • Klassifizierung: cs.AI cs.LG
  • Veröffentlichungszeitpunkt/Konferenz: 39. Konferenz über Neural Information Processing Systems (NeurIPS 2025)
  • Paper-Link: https://arxiv.org/abs/2510.07575

Zusammenfassung

Mit der rasanten Entwicklung der KI-Technologie und dem schnellen Wachstum ihres Marktwerts sieht sich die KI-Bewertung mit kritischen Herausforderungen konfrontiert. Aktuelle Benchmark-Tests weisen erhebliche Schwachstellen auf, einschließlich Datenverschmutzung und selektive Berichterstattung durch Modellentwickler, die Hype fördern, während unzureichende Datenkontrolle zu verzerrten Bewertungen führen kann. Angesichts der Vielzahl von Akteuren, die in den KI-Bereich strömen, macht dieser "Wilde-Westen"-Ansatz zur Bewertung es außerordentlich schwierig, echte Fortschritte von übertriebenen Behauptungen zu unterscheiden. Dieses Papier argumentiert, dass der aktuelle Laissez-faire-Ansatz nicht nachhaltig ist und echter KI-Fortschritt ein einheitliches, echtzeitfähiges, qualitätskontrolliertes Benchmark-Framework erfordert. Zu diesem Zweck analysiert das Papier systematische Mängel in der aktuellen KI-Bewertung, legt grundlegende Anforderungen für die Bewertung der nächsten Generation dar und stellt PeerBench vor – ein von der Gemeinschaft verwaltetes, beaufsichtigtes Bewertungskonzept.

Forschungshintergrund und Motivation

Kernprobleme

Diese Forschung befasst sich mit systematischen Problemen im Bereich der KI-Benchmark-Tests:

  1. Datenverschmutzung: Öffentlich verfügbare Benchmark-Tests können in Trainingssätze gelangen, was zu Testset-Memorisierung und überhöhten Scores führt
  2. Selektive Berichterstattung: Modellentwickler können möglicherweise nur Ergebnisse aus günstigen Aufgabenuntergruppen berichten
  3. Fragmentierte Bewertung: Mangel an einheitlichen Bewertungsstandards und Schnittstellen
  4. Fehlende Fairness-Garantien: Im Vergleich zu hochriskanten menschlichen Prüfungen fehlt der KI-Bewertung Aufsicht und Identitätsverifizierung

Bedeutung des Problems

  • Die gesellschaftlichen Auswirkungen der KI-Technologie werden immer tiefgreifender und erfordern vertrauenswürdige Bewertungsmechanismen
  • Mängel im aktuellen Bewertungsökosystem verwischen wissenschaftliche Signale und untergraben das öffentliche Vertrauen
  • Analog zu Finanzmärkten, die vertrauenswürdige Regulierungsbehörden benötigen, benötigt der KI-Bereich vertrauenswürdige Bewertungsstandards

Einschränkungen bestehender Methoden

  1. Statische Benchmark-Tests: Wie MMLU, GSM8K usw. sättigen sich schnell und werden leicht memorisiert
  2. Dynamische Benchmark-Tests: Wie LiveBench, die zwar kontinuierlich aktualisiert werden, aber von einem einzelnen Team abhängen und begrenzte Skalierbarkeit haben
  3. Private Benchmark-Tests: Reduzieren Verschmutzung, aber mangelnde Transparenz und Verzerrungsrisiken
  4. Crowdsourced-Bewertung: Wie Chatbot Arena mangelt es an Identitätsverifizierung und ist anfällig für Manipulation

Kernbeiträge

  1. Systematische Kritik: Umfassende Analyse der strukturellen Mängel in aktuellen Benchmark-Tests, einschließlich Verschmutzung, Fragmentierung und Monopolisierungsproblemen
  2. Positionspapier: Vorschlag zur Neupositionierung der KI-Bewertung als sichere, standardisierte Prüfung sowie Designprinzipien zum Ausgleich von Offenheit und Strenge
  3. Prototyp-Architektur: Entwurf des PeerBench-Systems mit konkretem zehnstufigem Workflow, kryptographischen Signaturen, leichtgewichtigem Reputationsmechanismus und Score-Normalisierungsmethoden
  4. Praktische Implementierung: Bereitstellung einer Prototypimplementierung von PeerBench (https://peerbench.ai), die die Machbarkeit des Konzepts demonstriert

Methodische Details

Sieben Prinzipien des neuen Paradigmas

  1. Geheime Testsets: Bewertungselemente bleiben vor der Laufzeit unveröffentlicht
  2. Beaufsichtigte Ausführung: Modelle werden in einer einheitlichen versiegelten Sandbox bewertet, alle Ein- und Ausgaben werden aufgezeichnet und kryptographisch signiert
  3. Gemeinschaftliche Verwaltung: Netzwerk von Validatoren mit mehreren Interessengruppen setzt Regeln und Governance um
  4. Kontinuierliche Aktualisierung und Aktivität: Ein fester Prozentsatz der Fragen wird in jeder Runde ausgemustert und ersetzt
  5. Prüfbarkeit und Integrität: Validatoren reichen vor der Veröffentlichung vorab Hash-Werte von Tests und Antworten ein
  6. Fairer Zugang: Jedes echte Team kann Modelle einreichen, muss nur Rechenausgleichsgebühren zahlen
  7. Multi-Metrik-Berichterstattung: Bereitstellung von domänenspezifischen Unterpunktzahlen und Perzentil-Rankings

PeerBench-Architektur-Design

Teilnehmerrollen

  • Datenbeitraggende: Erstellen private Testsuiten und ausführbare Bewertungsfunktionen
  • Reviewer: Bewerten die Qualität eingereichte Tests und erzeugen ordinale Bewertungen
  • Modellentwickler: Stellen Inferenz-Endpunkte bereit und registrieren spezifische Streams
  • Koordinationsserver: Authentifiziert Uploads, verwaltet aktive Bibliotheken, plant Peer-Review
  • Endbenutzer: Forscher, Journalisten usw., die auf Echtzeit-Leaderboards zugreifen

Drei Leaderboard-Systeme

  1. Datenbeitraggende-Leaderboard:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. Reviewer-Leaderboard:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. Modell-Leaderboard:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

End-to-End-Workflow

Setup-Phase

  • Teilnehmer registrieren sich mit verifizierbaren Anmeldedaten
  • Generieren öffentliche Schlüsselsignaturschlüssel
  • Beitragende und Reviewer hinterlegen Sicherheitsleistungen

Kontinuierlicher Bewertungsprozess

T1. Test-Einreichung und Verpflichtung: Beitragende reichen Test T^(c) und Bewertungsfunktion F^(c) ein, System zeichnet Verpflichtungsbindung h = Com(T^(c), F^(c)) auf

T2. Modellbewertung: Server plant sofort Abfragen für alle aktuell registrierten Modelle

T3. Überprüfungsprozess: Zufällig Reviewern zugewiesen, erfordert mindestens drei gültige Bewertungen

T4. Gewichtsberechnung:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Bibliotheksverwaltung: Neue Tests treten der aktiven Bibliothek bei, Null-Gewicht-Tests werden vorrangig ausgemustert

T6. Reputationsaktualisierung: Reputationen aller relevanten Teilnehmer werden nach jeder Runde aktualisiert

Experimentelle Einrichtung

Zeitliche Fairness-Dilemma

Das Papier identifiziert zwei Designoptionen:

  • Option A: Sofortige Bewertung auf Anfrage: Modelle werden sofort bei Anfrage bewertet, maximale Reaktionsfähigkeit
  • Option B: Periodische synchronisierte Bewertung: Modelle registrieren sich für geplante Bewertungsfenster, garantiert stärkste Form der Fairness

PeerBench verfolgt einen Hybrid-Ansatz, der beide Paradigmen unterstützt und im Prototyp Flexibilität durch sofortige Bewertung priorisiert.

Sicherheits- und Audit-Mechanismen

  • Teilweise Offenlegung: Zeigt Reviewern einen kleinen zufälligen Teil des Tests in schreibgeschütztem, nicht kopierbarem Format
  • Vollständige Veröffentlichung: Veröffentlicht Tests, Protokolle und Modellreaktionen nach Ausmusterung
  • Kürzungsmechanismus: Teilnehmer mit Reputation unter Schwellenwert werden entfernt, böswilliges Verhalten führt zu Sicherheitsleistungskürzung

Experimentelle Ergebnisse

Prototyp-Implementierung

Das Papier bietet eine praktische Prototypimplementierung von PeerBench (https://peerbench.ai), die zeigt:

  • Vollständige Workflow-Implementierung
  • Funktionsmechanismus des Reputationssystems
  • Multi-Stream-Bewertungsunterstützung (Mathematik, Code-Generierung, Übersetzung usw.)

Validität von Designentscheidungen

Das Papier löst häufige Probleme durch Architektur-Design:

  • Datenverschmutzung und Cherry-Picking: Validatoren verpflichten sich vorab zu Testsets, halten sie privat bis zum Ende der Runde
  • Betrug mit privaten Daten: Öffentliche Zufallsquelle bestimmt offengelegte Abfragen, verhindert, dass Validatoren Audit-Elemente vorhersehen
  • Testqualität: Jeder Test erhält mehrere unabhängige Bewertungen, Datenqualität bestimmt sein Gewicht in der endgültigen Punktzahl
  • Zugänglichkeit: Registrierung für alle Rollen ist leicht, unterstützt breite Teilnahme

Verwandte Arbeiten

Statische Benchmark-Tests und Leaderboards

  • MMLU, GSM8K, SuperGLUE usw. bieten klare Fortschrittsmomentaufnahmen, sättigen sich aber schnell und lecken in Trainingskorpora
  • BIG-Bench erweitert die Aufgabenabdeckung, aber Aufgaben werden bei Veröffentlichung öffentlich
  • HELM fügt mehrere Metriken hinzu, bleibt aber zwischen Veröffentlichungsintervallen statisch

Dynamische oder verschmutzungsresistente Benchmark-Tests

  • LiveBench aktualisiert Aufgaben kontinuierlich, hängt aber von einem einzelnen zentralisierten Team ab
  • Dynabench erforscht adversarische Datenerfassung mit Menschen in der Schleife
  • Adversarische "Modell-Breaking"-Wettbewerbe enthüllen Schwachstellen, aber mangelnde systematische Score-Aggregation

Menschliche Präferenzen und offene Bewertungsplattformen

  • Chatbot Arenas Elo-Leiter und OpenAI Evals fördern Offenheit
  • HuggingFace Open LLM Leaderboard ermöglicht Benutzern, Test-Skripte hochzuladen
  • Aber diese Plattformen sind anfällig für Spam, Bot-Voting und nicht nachverfolgter Verschmutzung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Aktuelle KI-Benchmark-Systeme weisen systematische Mängel auf und erfordern einen Paradigmenwechsel
  2. Ein von menschlichen standardisierten Tests inspirierter beaufsichtigter Bewertungsansatz ist eine praktikable Lösung
  3. PeerBench demonstriert die Praktikabilität von gemeinschaftlicher Verwaltung und verschmutzungsresistenter Bewertung
  4. Es ist notwendig, ein Gleichgewicht zwischen Offenheit und Strenge zu finden

Einschränkungen

  1. Zeitliche Fairness: Grundlegende Spannung zwischen sofortiger und synchronisierter Bewertung
  2. Implementierungskosten: Erfordert kontinuierliche hochwertige Testerstellung und Infrastrukturwartung
  3. Teilnahmeanreize: Erfordert angemessene wirtschaftliche Anreize zur Aufrechterhaltung der Reviewer-Teilnahme
  4. Governance-Komplexität: Multi-Stakeholder-Governance kann Koordinierungsherausforderungen gegenüberstehen

Zukünftige Richtungen

  1. Mechanismusdesign: Weitere Forschung zu spieltheoretischer Sicherheitsanalyse zur Stärkung der wirtschaftlichen und adversarischen Robustheit des Frameworks
  2. Governance-Optimierung: Verbesserung von Multi-Institutional-Governance-Strukturen und Rotationsmitgliedschaftssystemen
  3. Kostenoptimierung: Erkundung von Methoden zur Senkung der Betriebskosten, wie containerisierte Inferenz-Einreichungen
  4. Standardisierung: Förderung der Zusammenarbeit mit bestehenden neutralen Organisationen wie NIST oder MLCommons

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Präzise Identifikation von Kernproblemen im aktuellen KI-Bewertungsökosystem
  2. Innovative Lösungen: Vorschlag eines Paradigmenwechsels von statischen Leaderboards zu beaufsichtigten Prüfungen
  3. Hohe Praktikabilität: Bereitstellung konkreter Implementierungsprototypen und detaillierter Workflows
  4. Solide theoretische Grundlagen: Orientierung an reifen Erfahrungen mit menschlichen standardisierten Tests
  5. Gemeinschaftsorientierung: Betonung von Gemeinschaftsverwaltung und Dezentralisierung zur Vermeidung von Single Points of Failure

Mängel

  1. Skalierungschallengen: Großflächige Implementierung könnte Herausforderungen bei Teilnehmerkoordination und Anreizen gegenüberstehen
  2. Cold-Start-Problem: Neues System benötigt ausreichende anfängliche Teilnehmer zur Glaubwürdigkeitsbildung
  3. Unvollständiges Wirtschaftsmodell: Obwohl Kürzungsmechanismen erwähnt werden, benötigen Details wirtschaftlicher Anreize weitere Verfeinerung
  4. Technische Implementierungskomplexität: Kryptographische Signaturen, Reputationssysteme und andere technische Komponenten haben hohe Implementierungskomplexität

Auswirkungen

  1. Akademischer Beitrag: Bietet neues theoretisches Framework und praktische Richtung für KI-Bewertungsfeld
  2. Industrielle Auswirkungen: Könnte KI-Industrie zur Etablierung gerechterer und vertrauenswürdigerer Bewertungsstandards antreiben
  3. Politische Bedeutung: Bietet technische Grundlagen für KI-Regulierung und Standardsetzung
  4. Langfristige Werte: Etabliert Blueprint für nachhaltiges KI-Bewertungsökosystem

Anwendungsszenarien

  1. Bewertung hochriskanter KI-Anwendungen: Besonders geeignet für KI-Systeme, die hohe Glaubwürdigkeit erfordern
  2. Akademische Forschung: Bietet gerechte Modellvergleichsplattform für Forschungsgemeinschaft
  3. Industriestandardsetzung: Kann als Grundlage für Industrie-Standard-Bewertungsframework dienen
  4. Regulatorische Compliance: Bietet technische Unterstützung für regulatorische KI-Systembewertung

Literaturverzeichnis

Das Papier zitiert 56 relevante Arbeiten, die mehrere Bereiche abdecken, einschließlich KI-Bewertung, Benchmark-Tests, Datenverschmutzung, Reputationssysteme und andere wichtige Arbeiten, die seine Position mit ausreichender theoretischer Unterstützung versehen.


Gesamtbewertung: Dies ist ein bedeutsames Positionspapier, das nicht nur die Probleme des aktuellen KI-Bewertungssystems tiefgreifend analysiert, sondern auch konkrete und praktikable Lösungen vorschlägt. Das Design von PeerBench spiegelt die tiefgreifenden Überlegungen der Autoren zur zukünftigen Entwicklung der KI-Bewertung wider, und die Prototypimplementierung demonstriert die Machbarkeit des Konzepts. Obwohl es bei großflächiger Implementierung noch Herausforderungen gibt, weist es eine klare Richtung für die Entwicklung des KI-Bewertungsfelds auf.