2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.

The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.

academic

Benchmarking ist fehlerhaft -- Lassen Sie nicht zu, dass KI ihr eigener Richter ist

Grundlegende Informationen

Paper-ID: 2510.07575
Titel: Benchmarking is Broken -- Don't Let AI be its Own Judge
Autoren: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
Klassifizierung: cs.AI cs.LG
Veröffentlichungszeitpunkt/Konferenz: 39. Konferenz über Neural Information Processing Systems (NeurIPS 2025)
Paper-Link: https://arxiv.org/abs/2510.07575

Zusammenfassung

Mit der rasanten Entwicklung der KI-Technologie und dem schnellen Wachstum ihres Marktwerts sieht sich die KI-Bewertung mit kritischen Herausforderungen konfrontiert. Aktuelle Benchmark-Tests weisen erhebliche Schwachstellen auf, einschließlich Datenverschmutzung und selektive Berichterstattung durch Modellentwickler, die Hype fördern, während unzureichende Datenkontrolle zu verzerrten Bewertungen führen kann. Angesichts der Vielzahl von Akteuren, die in den KI-Bereich strömen, macht dieser "Wilde-Westen"-Ansatz zur Bewertung es außerordentlich schwierig, echte Fortschritte von übertriebenen Behauptungen zu unterscheiden. Dieses Papier argumentiert, dass der aktuelle Laissez-faire-Ansatz nicht nachhaltig ist und echter KI-Fortschritt ein einheitliches, echtzeitfähiges, qualitätskontrolliertes Benchmark-Framework erfordert. Zu diesem Zweck analysiert das Papier systematische Mängel in der aktuellen KI-Bewertung, legt grundlegende Anforderungen für die Bewertung der nächsten Generation dar und stellt PeerBench vor – ein von der Gemeinschaft verwaltetes, beaufsichtigtes Bewertungskonzept.

Forschungshintergrund und Motivation

Kernprobleme

Diese Forschung befasst sich mit systematischen Problemen im Bereich der KI-Benchmark-Tests:

Datenverschmutzung: Öffentlich verfügbare Benchmark-Tests können in Trainingssätze gelangen, was zu Testset-Memorisierung und überhöhten Scores führt
Selektive Berichterstattung: Modellentwickler können möglicherweise nur Ergebnisse aus günstigen Aufgabenuntergruppen berichten
Fragmentierte Bewertung: Mangel an einheitlichen Bewertungsstandards und Schnittstellen
Fehlende Fairness-Garantien: Im Vergleich zu hochriskanten menschlichen Prüfungen fehlt der KI-Bewertung Aufsicht und Identitätsverifizierung

Bedeutung des Problems

Die gesellschaftlichen Auswirkungen der KI-Technologie werden immer tiefgreifender und erfordern vertrauenswürdige Bewertungsmechanismen
Mängel im aktuellen Bewertungsökosystem verwischen wissenschaftliche Signale und untergraben das öffentliche Vertrauen
Analog zu Finanzmärkten, die vertrauenswürdige Regulierungsbehörden benötigen, benötigt der KI-Bereich vertrauenswürdige Bewertungsstandards

Einschränkungen bestehender Methoden

Statische Benchmark-Tests: Wie MMLU, GSM8K usw. sättigen sich schnell und werden leicht memorisiert
Dynamische Benchmark-Tests: Wie LiveBench, die zwar kontinuierlich aktualisiert werden, aber von einem einzelnen Team abhängen und begrenzte Skalierbarkeit haben
Private Benchmark-Tests: Reduzieren Verschmutzung, aber mangelnde Transparenz und Verzerrungsrisiken
Crowdsourced-Bewertung: Wie Chatbot Arena mangelt es an Identitätsverifizierung und ist anfällig für Manipulation

Kernbeiträge

Systematische Kritik: Umfassende Analyse der strukturellen Mängel in aktuellen Benchmark-Tests, einschließlich Verschmutzung, Fragmentierung und Monopolisierungsproblemen
Positionspapier: Vorschlag zur Neupositionierung der KI-Bewertung als sichere, standardisierte Prüfung sowie Designprinzipien zum Ausgleich von Offenheit und Strenge
Prototyp-Architektur: Entwurf des PeerBench-Systems mit konkretem zehnstufigem Workflow, kryptographischen Signaturen, leichtgewichtigem Reputationsmechanismus und Score-Normalisierungsmethoden
Praktische Implementierung: Bereitstellung einer Prototypimplementierung von PeerBench (https://peerbench.ai), die die Machbarkeit des Konzepts demonstriert

Methodische Details

Sieben Prinzipien des neuen Paradigmas

Geheime Testsets: Bewertungselemente bleiben vor der Laufzeit unveröffentlicht
Beaufsichtigte Ausführung: Modelle werden in einer einheitlichen versiegelten Sandbox bewertet, alle Ein- und Ausgaben werden aufgezeichnet und kryptographisch signiert
Gemeinschaftliche Verwaltung: Netzwerk von Validatoren mit mehreren Interessengruppen setzt Regeln und Governance um
Kontinuierliche Aktualisierung und Aktivität: Ein fester Prozentsatz der Fragen wird in jeder Runde ausgemustert und ersetzt
Prüfbarkeit und Integrität: Validatoren reichen vor der Veröffentlichung vorab Hash-Werte von Tests und Antworten ein
Fairer Zugang: Jedes echte Team kann Modelle einreichen, muss nur Rechenausgleichsgebühren zahlen
Multi-Metrik-Berichterstattung: Bereitstellung von domänenspezifischen Unterpunktzahlen und Perzentil-Rankings

PeerBench-Architektur-Design

Teilnehmerrollen

Datenbeitraggende: Erstellen private Testsuiten und ausführbare Bewertungsfunktionen
Reviewer: Bewerten die Qualität eingereichte Tests und erzeugen ordinale Bewertungen
Modellentwickler: Stellen Inferenz-Endpunkte bereit und registrieren spezifische Streams
Koordinationsserver: Authentifiziert Uploads, verwaltet aktive Bibliotheken, plant Peer-Review
Endbenutzer: Forscher, Journalisten usw., die auf Echtzeit-Leaderboards zugreifen

Drei Leaderboard-Systeme

Datenbeitraggende-Leaderboard:

ContributorScore(c) = Σ quality(T_i^(c)) + bonuses

Reviewer-Leaderboard:

ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})

Modell-Leaderboard:

ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))

End-to-End-Workflow

Setup-Phase

Teilnehmer registrieren sich mit verifizierbaren Anmeldedaten
Generieren öffentliche Schlüsselsignaturschlüssel
Beitragende und Reviewer hinterlegen Sicherheitsleistungen

Kontinuierlicher Bewertungsprozess

T1. Test-Einreichung und Verpflichtung: Beitragende reichen Test T^(c) und Bewertungsfunktion F^(c) ein, System zeichnet Verpflichtungsbindung h = Com(T^(c), F^(c)) auf

T2. Modellbewertung: Server plant sofort Abfragen für alle aktuell registrierten Modelle

T3. Überprüfungsprozess: Zufällig Reviewern zugewiesen, erfordert mindestens drei gültige Bewertungen

T4. Gewichtsberechnung:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. Bibliotheksverwaltung: Neue Tests treten der aktiven Bibliothek bei, Null-Gewicht-Tests werden vorrangig ausgemustert

T6. Reputationsaktualisierung: Reputationen aller relevanten Teilnehmer werden nach jeder Runde aktualisiert

Experimentelle Einrichtung

Zeitliche Fairness-Dilemma

Das Papier identifiziert zwei Designoptionen:

Option A: Sofortige Bewertung auf Anfrage: Modelle werden sofort bei Anfrage bewertet, maximale Reaktionsfähigkeit
Option B: Periodische synchronisierte Bewertung: Modelle registrieren sich für geplante Bewertungsfenster, garantiert stärkste Form der Fairness

PeerBench verfolgt einen Hybrid-Ansatz, der beide Paradigmen unterstützt und im Prototyp Flexibilität durch sofortige Bewertung priorisiert.

Sicherheits- und Audit-Mechanismen

Teilweise Offenlegung: Zeigt Reviewern einen kleinen zufälligen Teil des Tests in schreibgeschütztem, nicht kopierbarem Format
Vollständige Veröffentlichung: Veröffentlicht Tests, Protokolle und Modellreaktionen nach Ausmusterung
Kürzungsmechanismus: Teilnehmer mit Reputation unter Schwellenwert werden entfernt, böswilliges Verhalten führt zu Sicherheitsleistungskürzung

Experimentelle Ergebnisse

Prototyp-Implementierung

Das Papier bietet eine praktische Prototypimplementierung von PeerBench (https://peerbench.ai), die zeigt:

Vollständige Workflow-Implementierung
Funktionsmechanismus des Reputationssystems
Multi-Stream-Bewertungsunterstützung (Mathematik, Code-Generierung, Übersetzung usw.)

Validität von Designentscheidungen

Das Papier löst häufige Probleme durch Architektur-Design:

Datenverschmutzung und Cherry-Picking: Validatoren verpflichten sich vorab zu Testsets, halten sie privat bis zum Ende der Runde
Betrug mit privaten Daten: Öffentliche Zufallsquelle bestimmt offengelegte Abfragen, verhindert, dass Validatoren Audit-Elemente vorhersehen
Testqualität: Jeder Test erhält mehrere unabhängige Bewertungen, Datenqualität bestimmt sein Gewicht in der endgültigen Punktzahl
Zugänglichkeit: Registrierung für alle Rollen ist leicht, unterstützt breite Teilnahme

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Aktuelle KI-Benchmark-Systeme weisen systematische Mängel auf und erfordern einen Paradigmenwechsel
Ein von menschlichen standardisierten Tests inspirierter beaufsichtigter Bewertungsansatz ist eine praktikable Lösung
PeerBench demonstriert die Praktikabilität von gemeinschaftlicher Verwaltung und verschmutzungsresistenter Bewertung
Es ist notwendig, ein Gleichgewicht zwischen Offenheit und Strenge zu finden

Einschränkungen

Zeitliche Fairness: Grundlegende Spannung zwischen sofortiger und synchronisierter Bewertung
Implementierungskosten: Erfordert kontinuierliche hochwertige Testerstellung und Infrastrukturwartung
Teilnahmeanreize: Erfordert angemessene wirtschaftliche Anreize zur Aufrechterhaltung der Reviewer-Teilnahme
Governance-Komplexität: Multi-Stakeholder-Governance kann Koordinierungsherausforderungen gegenüberstehen

Zukünftige Richtungen

Mechanismusdesign: Weitere Forschung zu spieltheoretischer Sicherheitsanalyse zur Stärkung der wirtschaftlichen und adversarischen Robustheit des Frameworks
Governance-Optimierung: Verbesserung von Multi-Institutional-Governance-Strukturen und Rotationsmitgliedschaftssystemen
Kostenoptimierung: Erkundung von Methoden zur Senkung der Betriebskosten, wie containerisierte Inferenz-Einreichungen
Standardisierung: Förderung der Zusammenarbeit mit bestehenden neutralen Organisationen wie NIST oder MLCommons

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Präzise Identifikation von Kernproblemen im aktuellen KI-Bewertungsökosystem
Innovative Lösungen: Vorschlag eines Paradigmenwechsels von statischen Leaderboards zu beaufsichtigten Prüfungen
Hohe Praktikabilität: Bereitstellung konkreter Implementierungsprototypen und detaillierter Workflows
Solide theoretische Grundlagen: Orientierung an reifen Erfahrungen mit menschlichen standardisierten Tests
Gemeinschaftsorientierung: Betonung von Gemeinschaftsverwaltung und Dezentralisierung zur Vermeidung von Single Points of Failure

Mängel

Skalierungschallengen: Großflächige Implementierung könnte Herausforderungen bei Teilnehmerkoordination und Anreizen gegenüberstehen
Cold-Start-Problem: Neues System benötigt ausreichende anfängliche Teilnehmer zur Glaubwürdigkeitsbildung
Unvollständiges Wirtschaftsmodell: Obwohl Kürzungsmechanismen erwähnt werden, benötigen Details wirtschaftlicher Anreize weitere Verfeinerung
Technische Implementierungskomplexität: Kryptographische Signaturen, Reputationssysteme und andere technische Komponenten haben hohe Implementierungskomplexität

Auswirkungen

Akademischer Beitrag: Bietet neues theoretisches Framework und praktische Richtung für KI-Bewertungsfeld
Industrielle Auswirkungen: Könnte KI-Industrie zur Etablierung gerechterer und vertrauenswürdigerer Bewertungsstandards antreiben
Politische Bedeutung: Bietet technische Grundlagen für KI-Regulierung und Standardsetzung
Langfristige Werte: Etabliert Blueprint für nachhaltiges KI-Bewertungsökosystem

Anwendungsszenarien

Bewertung hochriskanter KI-Anwendungen: Besonders geeignet für KI-Systeme, die hohe Glaubwürdigkeit erfordern
Akademische Forschung: Bietet gerechte Modellvergleichsplattform für Forschungsgemeinschaft
Industriestandardsetzung: Kann als Grundlage für Industrie-Standard-Bewertungsframework dienen
Regulatorische Compliance: Bietet technische Unterstützung für regulatorische KI-Systembewertung

Literaturverzeichnis

Das Papier zitiert 56 relevante Arbeiten, die mehrere Bereiche abdecken, einschließlich KI-Bewertung, Benchmark-Tests, Datenverschmutzung, Reputationssysteme und andere wichtige Arbeiten, die seine Position mit ausreichender theoretischer Unterstützung versehen.

Gesamtbewertung: Dies ist ein bedeutsames Positionspapier, das nicht nur die Probleme des aktuellen KI-Bewertungssystems tiefgreifend analysiert, sondern auch konkrete und praktikable Lösungen vorschlägt. Das Design von PeerBench spiegelt die tiefgreifenden Überlegungen der Autoren zur zukünftigen Entwicklung der KI-Bewertung wider, und die Prototypimplementierung demonstriert die Machbarkeit des Konzepts. Obwohl es bei großflächiger Implementierung noch Herausforderungen gibt, weist es eine klare Richtung für die Entwicklung des KI-Bewertungsfelds auf.