2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.
Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic

Quantifizierung von Etikett-induzierten Verzerrungen in Selbst- und Kreuzbewertungen großer Sprachmodelle

Grundinformationen

  • Paper-ID: 2508.21164
  • Titel: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
  • Autoren: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
  • Klassifizierung: cs.CL, cs.AI
  • Veröffentlichungsdatum: 9. Oktober 2025 (arXiv v3)
  • Paper-Link: https://arxiv.org/abs/2508.21164v3

Zusammenfassung

Diese Studie untersucht systematische Verzerrungen bei drei führenden großen Sprachmodellen (ChatGPT, Gemini und Claude) in Selbst- und Kreuzbewertungen. Das Forschungsdesign umfasst ein kontrolliertes Experiment, in dem jedes Modell unter vier Etikettbedingungen (kein Etikett, echtes Etikett, zwei falsche Etikett-Szenarien) von den jeweiligen Modellen generierte Blogartikel bewertet. Die Bewertung erfolgt durch Gesamtpräferenzabstimmung und differenzierte Qualitätsbewertungen in drei Dimensionen (Kohärenz, Informativität, Prägnanz), wobei alle Werte zur direkten Vergleichbarkeit in Prozentsätze normalisiert werden. Die Studie zeigt erhebliche Asymmetrien in den Modellurteilen: Das Etikett „Claude" erhöht die Bewertungen unabhängig vom tatsächlichen Autor, während das Etikett „Gemini" die Bewertungen systematisch senkt. Falsche Etiketten kehren häufig die Präferenzreihenfolge um und erzeugen Schwankungen von bis zu 50 Prozentpunkten in Abstimmungsergebnissen und bis zu 12 Prozentpunkten in Qualitätsbewertungen.

Forschungshintergrund und Motivation

Kernfragen

Mit der zunehmenden Einsetzung großer Sprachmodelle als Textqualitätsbewertungswerkzeuge bleibt die Validität ihrer Urteile noch unzureichend erforscht. Diese Studie befasst sich hauptsächlich mit folgenden Fragen:

  1. LLM-Bewertungsverzerrung: Können LLMs Ausgaben gerecht bewerten, oder werden sie durch die wahrgenommene Autorenschaft beeinflusst?
  2. Etikett-induzierte Verzerrung: Beeinflussen Modellnamen die Bewertungsergebnisse unabhängig von der tatsächlichen Qualität?
  3. Selbstpräferenz-Verzerrung: Neigen Modelle dazu, ihren eigenen Ausgaben höhere Bewertungen zu geben?

Bedeutung

Die Bedeutung dieser Frage zeigt sich in:

  • Der zunehmenden Verbreitung des LLM-as-Judge-Paradigmas in der automatisierten Textbewertung
  • Möglichen Verzerrungen bei Bewertungen, die zu verfälschten Benchmark-Ergebnissen führen können
  • Auswirkungen auf die Fairness von Modellvergleichen und -auswahl
  • Herausforderungen für die Zuverlässigkeit und Transparenz von KI-Systemen

Einschränkungen bestehender Forschung

Bestehende Forschungen konzentrieren sich hauptsächlich auf einzelne Verzerrungstypen oder begrenzte Modellanzahlen und weisen Lücken auf bei:

  1. Kontrollierten Vergleichsanalysen mit mehreren Modellen und Bedingungen
  2. Quantitativen Belegen für Unterschiede in Etikett-Effekten zwischen Präferenz- und Qualitätsdimensionen
  3. Systematischen Empfehlungen zur Verzerrungsminderung

Kernbeiträge

  1. Kontrollierte Mehrbedingungs-Analyse: Bereitstellung eines kontrollierten, mehrbedingungs-analytischen Rahmens für Selbst- und Kreuzmodell-Bewertungsverzerrungen
  2. Quantitative Verzerrungsnachweise: Bereitstellung quantitativer Belege für Etikett-Effekte in Präferenz- und Qualitätsdimensionen
  3. Empfehlungen zur Verzerrungsminderung: Bereitstellung von Empfehlungen zur Minderung von Verzerrungen durch Blindbewertung oder Mehrmodell-Bewertungsprotokolle
  4. Duale Bewertungsmethode: Anwendung komplementärer Methoden mit prozentualen Präferenzbewertungen und punktegestützten Qualitätsbewertungen
  5. Asymmetrische Etikett-Effekte: Feststellung, dass das Etikett „Claude" konsistent Bewertungen erhöht, während das Etikett „Gemini" systematisch Bewertungen senkt

Methodische Details

Experimentelles Design

Diese Studie verwendet ein dreistufiges, kontrolliertes Mehrmodell-, Mehrbedingungs-Design:

Phase 1: Blog-Generierung

  • Modelle: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
  • Aufgabe: Generierung von etwa 200-Wort-Blogartikeln unter Verwendung einer festen Prompt-Vorlage
  • Prompt-Vorlage: „You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
  • Daten: 10 verschiedene Thementitel, ein Blog pro Modell pro Titel, insgesamt 30 Blogs

Phase 2: Etikettbedingungs-Einstellung

Vier Etikettbedingungen:

  1. Kein Etikett: Keine Autorenschaftszuweisung
  2. Echtes Etikett: Korrekte Zuordnung
  3. Falsches Etikett-Szenario 1: ChatGPT als Gemini gekennzeichnet, Gemini als Claude, Claude als ChatGPT
  4. Falsches Etikett-Szenario 2: ChatGPT als Claude gekennzeichnet, Gemini als ChatGPT, Claude als Gemini

Phase 3: Duales Bewertungssystem

  1. Prozentuale Präferenzbewertung: Messung der Häufigkeit, mit der jede Ausgabe als „beste" ausgewählt wird
  2. Punktgestützte Qualitätsbewertung: 0-10-Punkt-Bewertung in drei Dimensionen (Kohärenz, Informativität, Prägnanz), umgewandelt in Prozentsätze

Analysestufen

  • Innerhalb-Bedingungen-Analyse: Vergleiche innerhalb von Bedingungen
  • Über-Bedingungen-Analyse: Verfolgung von Veränderungen über Bedingungen hinweg
  • Metrik-spezifische Analyse: Untersuchung der Auswirkungen von Verzerrungen auf verschiedene Kriterien

Experimentelle Einrichtung

Datensatz-Merkmale

  • Umfang: 30 Blogartikel (3 Modelle × 10 Titel)
  • Themen: Vielfältige Themen mit ähnlicher Komplexität
  • Länge: Etwa 200 Wörter, geeignet für Online-Publikum

Bewertungsmetriken

  1. Gesamtpräferenzabstimmung: Prozentuale Häufigkeit der „beste Wahl"-Auswahl
  2. Qualitätsdimensionsbewertungen:
    • Kohärenz (Coherence): Logische Struktur und Flüssigkeit des Artikels
    • Informativität (Informativeness): Informationswert und Tiefe des Inhalts
    • Prägnanz (Conciseness): Effizienz und Prägnanz des Ausdrucks

Vergleichsbedingungen

  • Keine-Etikett-Bedingung als Baseline
  • Echte-Etikett-Bedingung
  • Zwei falsche Etikett-Szenarien

Experimentelle Ergebnisse

Hauptergebnisse

Keine-Etikett-Bedingung als Baseline

  • Alle drei Modelle zeigen leichte Selbstpräferenz
  • ChatGPT-Auswahl der eigenen Ausgabe: 50%
  • Gemini: 45,3%
  • Claude: 46,7%
  • Gemini wird in Kreuzmodell-Bewertungen konsistent unterschätzt (7%-12%)

Verzerrungsverstärkung unter echter Etikett-Bedingung

  • Claude-Selbstpräferenz verstärkt: Selbstbewertung steigt von 46,7% auf 60%
  • Gemini schwere Selbstabwertung:
    • Bewertung von Claude: 0%
    • Bewertung von ChatGPT: 1,34%
    • Selbstbewertung: 11,32%
  • ChatGPT moderate Selbstpräferenz: 44,66%, aber schwere Bestrafung von Gemini

Starke Auswirkungen falscher Etiketten

Szenario-1-Ergebnisse:

  • Gemini-Präferenz für als Claude gekennzeichnete Inhalte steigt von 11,32% auf 51,35%
  • Claude-Präferenz für als ChatGPT gekennzeichnete Inhalte erreicht 54,15%
  • Informativitätsbewertungen unter falschem „Selbst"-Etikett um 8-10 Prozentpunkte erhöht

Szenario-2-Ergebnisse:

  • „Claude"-Etikett erzeugt höchste Einzelbewertung: Gemini bewertet ChatGPT-as-Claude mit 60,7%
  • „Gemini"-Etikett senkt Bewertungen erneut: Claude-as-Gemini fällt von 60% unter echtem Etikett auf 18,48%

Quantitative Verzerrungseffekte

  • Präferenzabstimmungs-Schwankungen: Bis zu 50 Prozentpunkte Bewegung
  • Qualitätsbewertungs-Schwankungen: Bis zu 12 Prozentpunkte Veränderung
  • Empfindlichste Dimension: Informativitätsbewertung am empfindlichsten gegenüber Etiketten
  • Stabilste Dimension: Prägnanzbeurteilung relativ stabil

Modellspezifische Verhaltensmuster

  1. Claude: Stärkste Selbstpräferenz unter echtem Etikett (+13 Punkte), schwere Bestrafung bei falscher Gemini-Kennzeichnung (-28 Punkte)
  2. Gemini: Strenge Selbstbewertung unter echtem Etikett, aber erhebliche Bonuspunkte für „Claude"-gekennzeichnete Inhalte (bis zu +21 Punkte)
  3. ChatGPT: Konsistente Bestrafung von Gemini-gekennzeichneten Inhalten über alle Bedingungen hinweg

Verwandte Arbeiten

Forschung zu Selbstpräferenz-Verzerrungen

  • Panickssery et al. zeigen, dass LLMs ihre eigenen Ausgaben bevorzugen und messbare Selbsterkennungsfähigkeiten besitzen
  • Wataoka et al. untersuchen Selbstpräferenz-Verzerrungen in LLM-as-Judge

Etikett-induzierte Bewertungsverzerrungen

  • Wang et al. zeigen, dass systematische Verzerrungen basierend auf Antwortposition Rangfolgen manipulieren können
  • Chen et al. untersuchen, ob Selbstpräferenz echte Überlegenheit oder Signalverzerrung widerspiegelt

Forschung zu Bewertungsdynamiken

  • Inkonsistenzen zwischen impliziten und expliziten Bewertungsdynamiken
  • Strukturelle Verzerrungsprobleme in Deep-Learning-Systemen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Etikett-Identität überwiegt Inhaltsqualität: Die wahrgenommene Modellidentität kann Urteile erheblich verzerren, unabhängig von der tatsächlichen Inhaltsqualität
  2. Asymmetrische Etikett-Effekte: Das Etikett „Claude" erhöht konsistent Bewertungen, das Etikett „Gemini" senkt sie systematisch
  3. Unterschiede zwischen Bewertungsebenen: Hochrangige „beste Wahl"-Urteile sind anfälliger für Verzerrungen als detaillierte Qualitätsbewertungen
  4. Unterschiedliche Dimensions-Empfindlichkeit: Informativität ist die am stärksten durch Etiketten beeinflusste Dimension, Prägnanz ist relativ stabil

Einschränkungen

  1. Begrenzte Modellabdeckung: Nur drei Modelle untersucht, Verallgemeinerbarkeit zu überprüfen
  2. Einzelne Aufgabendomain: Nur Blog-Schreib-Aufgaben verwendet
  3. Begrenzte Bewertungsdimensionen: Nur drei Qualitätsdimensionen berücksichtigt
  4. Verzerrungsquellen unklar: Keine tiefgreifende Erforschung der Trainingsdaten- oder Alignment-Programm-Ursprünge von Verzerrungen

Praktische Empfehlungen

  1. Blindbewertungsprotokolle: Verbergen von Modellidentitäten zur Vermeidung von Ankerheuristiken basierend auf Modellnamen
  2. Mehrmodell-Konsens: Verwendung von Mehrmodell- oder konsensusbased Bewertungssystemen
  3. Trennung von Bewertungstypen: Trennung von Präferenzurteilen und detaillierten Qualitätsbewertungen
  4. Verzerrungsbewusste Anpassungen: Entwicklung von verzerrungsbewussten Bewertungsanpassungsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Rigoroses Experimentdesign: Kontrolliertes Mehrbedingungs-, Mehrmodell-Design gewährleistet Zuverlässigkeit der Ergebnisse
  2. Methodische Innovation: Duales Bewertungssystem (Präferenz + Qualität) bietet umfassende Perspektive
  3. Bedeutsame Erkenntnisse: Enthüllung systematischer Verzerrungen in LLM-Bewertungen mit wichtigen Auswirkungen auf KI-Bewertungsforschung
  4. Ausreichende quantitative Analyse: Detaillierte numerische Belege und statistische Analysen
  5. Hoher praktischer Wert: Konkrete Empfehlungen zur Verbesserung von LLM-Bewertungen

Mängel

  1. Begrenzte Stichprobengröße: Stichprobe von 30 Blogartikeln relativ klein
  2. Aufgaben-Einseitigkeit: Beschränkt auf Blog-Schreiben, fehlende Aufgaben-Vielfalt-Validierung
  3. Verzerrungsmechanismen unklar: Keine tiefgreifende Erforschung der Grundursachen asymmetrischer Verzerrungen
  4. Langzeiteffekte unbekannt: Keine Berücksichtigung zeitlicher Veränderungen von Verzerrungsmustern

Bewertung der Auswirkungen

  1. Akademischer Beitrag: Wichtige empirische Belege für LLM-Bewertungsverzerrungsforschung
  2. Praktischer Wert: Direkte Auswirkungen auf LLM-Benchmark- und Bewertungsprotokolle
  3. Politische Bedeutung: Wissenschaftliche Grundlagen für KI-Fairness- und Transparenzpolitik
  4. Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

  1. LLM-Benchmarking: Verbesserung der Fairness bestehender Bewertungsrahmen
  2. Automatisierte Bewertungssysteme: Gestaltung unverzerrter Textqualitätsbewertungswerkzeuge
  3. Modellvergleichsforschung: Gewährleistung der Objektivität von Modellleistungsvergleichen
  4. KI-Ethik-Forschung: Methoden zur Verzerrungserkennung und -minderung in KI-Systemen

Zukünftige Forschungsrichtungen

  1. Erweiterte Modellabdeckung: Einbeziehung weiterer LLMs für umfassendere Verzerrungsmuster-Studien
  2. Mehraufgaben-Validierung: Validierung der Verallgemeinerbarkeit von Etikett-Effekten über verschiedene Aufgabentypen
  3. Verzerrungsquellen-Erforschung: Tiefgreifende Untersuchung der Auswirkungen von Trainingsdaten und Alignment-Programmen auf Verzerrungsbildung
  4. Verzerrungsminderungs-Strategien: Entwicklung und Prüfung effektiverer Verzerrungsminderungstechniken
  5. Dynamische Verzerrungsforschung: Untersuchung von Verzerrungsmuster-Veränderungen über Zeit und Modell-Updates

Zusammenfassung: Diese Studie enthüllt durch rigoroses Experimentdesign schwerwiegende Etikett-induzierte Verzerrungen in LLM-Bewertungen und bietet wichtige wissenschaftliche Grundlagen zur Verbesserung der Fairness und Zuverlässigkeit von KI-Bewertungen. Die Forschungsergebnisse haben nicht nur bedeutenden akademischen Wert, sondern bieten auch direkte Orientierung für praktische KI-Systemimplementierung und -bewertung.