2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.

Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.

academic

Quantifizierung von Etikett-induzierten Verzerrungen in Selbst- und Kreuzbewertungen großer Sprachmodelle

Grundinformationen

Paper-ID: 2508.21164
Titel: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
Autoren: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
Klassifizierung: cs.CL, cs.AI
Veröffentlichungsdatum: 9. Oktober 2025 (arXiv v3)
Paper-Link: https://arxiv.org/abs/2508.21164v3

Zusammenfassung

Diese Studie untersucht systematische Verzerrungen bei drei führenden großen Sprachmodellen (ChatGPT, Gemini und Claude) in Selbst- und Kreuzbewertungen. Das Forschungsdesign umfasst ein kontrolliertes Experiment, in dem jedes Modell unter vier Etikettbedingungen (kein Etikett, echtes Etikett, zwei falsche Etikett-Szenarien) von den jeweiligen Modellen generierte Blogartikel bewertet. Die Bewertung erfolgt durch Gesamtpräferenzabstimmung und differenzierte Qualitätsbewertungen in drei Dimensionen (Kohärenz, Informativität, Prägnanz), wobei alle Werte zur direkten Vergleichbarkeit in Prozentsätze normalisiert werden. Die Studie zeigt erhebliche Asymmetrien in den Modellurteilen: Das Etikett „Claude" erhöht die Bewertungen unabhängig vom tatsächlichen Autor, während das Etikett „Gemini" die Bewertungen systematisch senkt. Falsche Etiketten kehren häufig die Präferenzreihenfolge um und erzeugen Schwankungen von bis zu 50 Prozentpunkten in Abstimmungsergebnissen und bis zu 12 Prozentpunkten in Qualitätsbewertungen.

Forschungshintergrund und Motivation

Kernfragen

Mit der zunehmenden Einsetzung großer Sprachmodelle als Textqualitätsbewertungswerkzeuge bleibt die Validität ihrer Urteile noch unzureichend erforscht. Diese Studie befasst sich hauptsächlich mit folgenden Fragen:

LLM-Bewertungsverzerrung: Können LLMs Ausgaben gerecht bewerten, oder werden sie durch die wahrgenommene Autorenschaft beeinflusst?
Etikett-induzierte Verzerrung: Beeinflussen Modellnamen die Bewertungsergebnisse unabhängig von der tatsächlichen Qualität?
Selbstpräferenz-Verzerrung: Neigen Modelle dazu, ihren eigenen Ausgaben höhere Bewertungen zu geben?

Bedeutung

Die Bedeutung dieser Frage zeigt sich in:

Der zunehmenden Verbreitung des LLM-as-Judge-Paradigmas in der automatisierten Textbewertung
Möglichen Verzerrungen bei Bewertungen, die zu verfälschten Benchmark-Ergebnissen führen können
Auswirkungen auf die Fairness von Modellvergleichen und -auswahl
Herausforderungen für die Zuverlässigkeit und Transparenz von KI-Systemen

Einschränkungen bestehender Forschung

Bestehende Forschungen konzentrieren sich hauptsächlich auf einzelne Verzerrungstypen oder begrenzte Modellanzahlen und weisen Lücken auf bei:

Kontrollierten Vergleichsanalysen mit mehreren Modellen und Bedingungen
Quantitativen Belegen für Unterschiede in Etikett-Effekten zwischen Präferenz- und Qualitätsdimensionen
Systematischen Empfehlungen zur Verzerrungsminderung

Kernbeiträge

Kontrollierte Mehrbedingungs-Analyse: Bereitstellung eines kontrollierten, mehrbedingungs-analytischen Rahmens für Selbst- und Kreuzmodell-Bewertungsverzerrungen
Quantitative Verzerrungsnachweise: Bereitstellung quantitativer Belege für Etikett-Effekte in Präferenz- und Qualitätsdimensionen
Empfehlungen zur Verzerrungsminderung: Bereitstellung von Empfehlungen zur Minderung von Verzerrungen durch Blindbewertung oder Mehrmodell-Bewertungsprotokolle
Duale Bewertungsmethode: Anwendung komplementärer Methoden mit prozentualen Präferenzbewertungen und punktegestützten Qualitätsbewertungen
Asymmetrische Etikett-Effekte: Feststellung, dass das Etikett „Claude" konsistent Bewertungen erhöht, während das Etikett „Gemini" systematisch Bewertungen senkt

Methodische Details

Experimentelles Design

Diese Studie verwendet ein dreistufiges, kontrolliertes Mehrmodell-, Mehrbedingungs-Design:

Phase 1: Blog-Generierung

Modelle: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
Aufgabe: Generierung von etwa 200-Wort-Blogartikeln unter Verwendung einer festen Prompt-Vorlage
Prompt-Vorlage: „You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
Daten: 10 verschiedene Thementitel, ein Blog pro Modell pro Titel, insgesamt 30 Blogs

Phase 2: Etikettbedingungs-Einstellung

Vier Etikettbedingungen:

Kein Etikett: Keine Autorenschaftszuweisung
Echtes Etikett: Korrekte Zuordnung
Falsches Etikett-Szenario 1: ChatGPT als Gemini gekennzeichnet, Gemini als Claude, Claude als ChatGPT
Falsches Etikett-Szenario 2: ChatGPT als Claude gekennzeichnet, Gemini als ChatGPT, Claude als Gemini

Phase 3: Duales Bewertungssystem

Prozentuale Präferenzbewertung: Messung der Häufigkeit, mit der jede Ausgabe als „beste" ausgewählt wird
Punktgestützte Qualitätsbewertung: 0-10-Punkt-Bewertung in drei Dimensionen (Kohärenz, Informativität, Prägnanz), umgewandelt in Prozentsätze

Analysestufen

Innerhalb-Bedingungen-Analyse: Vergleiche innerhalb von Bedingungen
Über-Bedingungen-Analyse: Verfolgung von Veränderungen über Bedingungen hinweg
Metrik-spezifische Analyse: Untersuchung der Auswirkungen von Verzerrungen auf verschiedene Kriterien

Experimentelle Einrichtung

Datensatz-Merkmale

Umfang: 30 Blogartikel (3 Modelle × 10 Titel)
Themen: Vielfältige Themen mit ähnlicher Komplexität
Länge: Etwa 200 Wörter, geeignet für Online-Publikum

Bewertungsmetriken

Gesamtpräferenzabstimmung: Prozentuale Häufigkeit der „beste Wahl"-Auswahl
Qualitätsdimensionsbewertungen:
- Kohärenz (Coherence): Logische Struktur und Flüssigkeit des Artikels
- Informativität (Informativeness): Informationswert und Tiefe des Inhalts
- Prägnanz (Conciseness): Effizienz und Prägnanz des Ausdrucks

Vergleichsbedingungen

Keine-Etikett-Bedingung als Baseline
Echte-Etikett-Bedingung
Zwei falsche Etikett-Szenarien

Experimentelle Ergebnisse

Hauptergebnisse

Keine-Etikett-Bedingung als Baseline

Alle drei Modelle zeigen leichte Selbstpräferenz
ChatGPT-Auswahl der eigenen Ausgabe: 50%
Gemini: 45,3%
Claude: 46,7%
Gemini wird in Kreuzmodell-Bewertungen konsistent unterschätzt (7%-12%)

Verzerrungsverstärkung unter echter Etikett-Bedingung

Claude-Selbstpräferenz verstärkt: Selbstbewertung steigt von 46,7% auf 60%
Gemini schwere Selbstabwertung:
- Bewertung von Claude: 0%
- Bewertung von ChatGPT: 1,34%
- Selbstbewertung: 11,32%
ChatGPT moderate Selbstpräferenz: 44,66%, aber schwere Bestrafung von Gemini

Starke Auswirkungen falscher Etiketten

Szenario-1-Ergebnisse:

Gemini-Präferenz für als Claude gekennzeichnete Inhalte steigt von 11,32% auf 51,35%
Claude-Präferenz für als ChatGPT gekennzeichnete Inhalte erreicht 54,15%
Informativitätsbewertungen unter falschem „Selbst"-Etikett um 8-10 Prozentpunkte erhöht

Szenario-2-Ergebnisse:

„Claude"-Etikett erzeugt höchste Einzelbewertung: Gemini bewertet ChatGPT-as-Claude mit 60,7%
„Gemini"-Etikett senkt Bewertungen erneut: Claude-as-Gemini fällt von 60% unter echtem Etikett auf 18,48%

Quantitative Verzerrungseffekte

Präferenzabstimmungs-Schwankungen: Bis zu 50 Prozentpunkte Bewegung
Qualitätsbewertungs-Schwankungen: Bis zu 12 Prozentpunkte Veränderung
Empfindlichste Dimension: Informativitätsbewertung am empfindlichsten gegenüber Etiketten
Stabilste Dimension: Prägnanzbeurteilung relativ stabil

Modellspezifische Verhaltensmuster

Claude: Stärkste Selbstpräferenz unter echtem Etikett (+13 Punkte), schwere Bestrafung bei falscher Gemini-Kennzeichnung (-28 Punkte)
Gemini: Strenge Selbstbewertung unter echtem Etikett, aber erhebliche Bonuspunkte für „Claude"-gekennzeichnete Inhalte (bis zu +21 Punkte)
ChatGPT: Konsistente Bestrafung von Gemini-gekennzeichneten Inhalten über alle Bedingungen hinweg

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Etikett-Identität überwiegt Inhaltsqualität: Die wahrgenommene Modellidentität kann Urteile erheblich verzerren, unabhängig von der tatsächlichen Inhaltsqualität
Asymmetrische Etikett-Effekte: Das Etikett „Claude" erhöht konsistent Bewertungen, das Etikett „Gemini" senkt sie systematisch
Unterschiede zwischen Bewertungsebenen: Hochrangige „beste Wahl"-Urteile sind anfälliger für Verzerrungen als detaillierte Qualitätsbewertungen
Unterschiedliche Dimensions-Empfindlichkeit: Informativität ist die am stärksten durch Etiketten beeinflusste Dimension, Prägnanz ist relativ stabil

Einschränkungen

Begrenzte Modellabdeckung: Nur drei Modelle untersucht, Verallgemeinerbarkeit zu überprüfen
Einzelne Aufgabendomain: Nur Blog-Schreib-Aufgaben verwendet
Begrenzte Bewertungsdimensionen: Nur drei Qualitätsdimensionen berücksichtigt
Verzerrungsquellen unklar: Keine tiefgreifende Erforschung der Trainingsdaten- oder Alignment-Programm-Ursprünge von Verzerrungen

Praktische Empfehlungen

Blindbewertungsprotokolle: Verbergen von Modellidentitäten zur Vermeidung von Ankerheuristiken basierend auf Modellnamen
Mehrmodell-Konsens: Verwendung von Mehrmodell- oder konsensusbased Bewertungssystemen
Trennung von Bewertungstypen: Trennung von Präferenzurteilen und detaillierten Qualitätsbewertungen
Verzerrungsbewusste Anpassungen: Entwicklung von verzerrungsbewussten Bewertungsanpassungsmechanismen

Tiefgreifende Bewertung

Stärken

Rigoroses Experimentdesign: Kontrolliertes Mehrbedingungs-, Mehrmodell-Design gewährleistet Zuverlässigkeit der Ergebnisse
Methodische Innovation: Duales Bewertungssystem (Präferenz + Qualität) bietet umfassende Perspektive
Bedeutsame Erkenntnisse: Enthüllung systematischer Verzerrungen in LLM-Bewertungen mit wichtigen Auswirkungen auf KI-Bewertungsforschung
Ausreichende quantitative Analyse: Detaillierte numerische Belege und statistische Analysen
Hoher praktischer Wert: Konkrete Empfehlungen zur Verbesserung von LLM-Bewertungen

Mängel

Begrenzte Stichprobengröße: Stichprobe von 30 Blogartikeln relativ klein
Aufgaben-Einseitigkeit: Beschränkt auf Blog-Schreiben, fehlende Aufgaben-Vielfalt-Validierung
Verzerrungsmechanismen unklar: Keine tiefgreifende Erforschung der Grundursachen asymmetrischer Verzerrungen
Langzeiteffekte unbekannt: Keine Berücksichtigung zeitlicher Veränderungen von Verzerrungsmustern

Bewertung der Auswirkungen

Akademischer Beitrag: Wichtige empirische Belege für LLM-Bewertungsverzerrungsforschung
Praktischer Wert: Direkte Auswirkungen auf LLM-Benchmark- und Bewertungsprotokolle
Politische Bedeutung: Wissenschaftliche Grundlagen für KI-Fairness- und Transparenzpolitik
Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

LLM-Benchmarking: Verbesserung der Fairness bestehender Bewertungsrahmen
Automatisierte Bewertungssysteme: Gestaltung unverzerrter Textqualitätsbewertungswerkzeuge
Modellvergleichsforschung: Gewährleistung der Objektivität von Modellleistungsvergleichen
KI-Ethik-Forschung: Methoden zur Verzerrungserkennung und -minderung in KI-Systemen

Zukünftige Forschungsrichtungen

Erweiterte Modellabdeckung: Einbeziehung weiterer LLMs für umfassendere Verzerrungsmuster-Studien
Mehraufgaben-Validierung: Validierung der Verallgemeinerbarkeit von Etikett-Effekten über verschiedene Aufgabentypen
Verzerrungsquellen-Erforschung: Tiefgreifende Untersuchung der Auswirkungen von Trainingsdaten und Alignment-Programmen auf Verzerrungsbildung
Verzerrungsminderungs-Strategien: Entwicklung und Prüfung effektiverer Verzerrungsminderungstechniken
Dynamische Verzerrungsforschung: Untersuchung von Verzerrungsmuster-Veränderungen über Zeit und Modell-Updates

Zusammenfassung: Diese Studie enthüllt durch rigoroses Experimentdesign schwerwiegende Etikett-induzierte Verzerrungen in LLM-Bewertungen und bietet wichtige wissenschaftliche Grundlagen zur Verbesserung der Fairness und Zuverlässigkeit von KI-Bewertungen. Die Forschungsergebnisse haben nicht nur bedeutenden akademischen Wert, sondern bieten auch direkte Orientierung für praktische KI-Systemimplementierung und -bewertung.