Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic- Paper-ID: 2508.21164
- Titel: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
- Autoren: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
- Klassifizierung: cs.CL, cs.AI
- Veröffentlichungsdatum: 9. Oktober 2025 (arXiv v3)
- Paper-Link: https://arxiv.org/abs/2508.21164v3
Diese Studie untersucht systematische Verzerrungen bei drei führenden großen Sprachmodellen (ChatGPT, Gemini und Claude) in Selbst- und Kreuzbewertungen. Das Forschungsdesign umfasst ein kontrolliertes Experiment, in dem jedes Modell unter vier Etikettbedingungen (kein Etikett, echtes Etikett, zwei falsche Etikett-Szenarien) von den jeweiligen Modellen generierte Blogartikel bewertet. Die Bewertung erfolgt durch Gesamtpräferenzabstimmung und differenzierte Qualitätsbewertungen in drei Dimensionen (Kohärenz, Informativität, Prägnanz), wobei alle Werte zur direkten Vergleichbarkeit in Prozentsätze normalisiert werden. Die Studie zeigt erhebliche Asymmetrien in den Modellurteilen: Das Etikett „Claude" erhöht die Bewertungen unabhängig vom tatsächlichen Autor, während das Etikett „Gemini" die Bewertungen systematisch senkt. Falsche Etiketten kehren häufig die Präferenzreihenfolge um und erzeugen Schwankungen von bis zu 50 Prozentpunkten in Abstimmungsergebnissen und bis zu 12 Prozentpunkten in Qualitätsbewertungen.
Mit der zunehmenden Einsetzung großer Sprachmodelle als Textqualitätsbewertungswerkzeuge bleibt die Validität ihrer Urteile noch unzureichend erforscht. Diese Studie befasst sich hauptsächlich mit folgenden Fragen:
- LLM-Bewertungsverzerrung: Können LLMs Ausgaben gerecht bewerten, oder werden sie durch die wahrgenommene Autorenschaft beeinflusst?
- Etikett-induzierte Verzerrung: Beeinflussen Modellnamen die Bewertungsergebnisse unabhängig von der tatsächlichen Qualität?
- Selbstpräferenz-Verzerrung: Neigen Modelle dazu, ihren eigenen Ausgaben höhere Bewertungen zu geben?
Die Bedeutung dieser Frage zeigt sich in:
- Der zunehmenden Verbreitung des LLM-as-Judge-Paradigmas in der automatisierten Textbewertung
- Möglichen Verzerrungen bei Bewertungen, die zu verfälschten Benchmark-Ergebnissen führen können
- Auswirkungen auf die Fairness von Modellvergleichen und -auswahl
- Herausforderungen für die Zuverlässigkeit und Transparenz von KI-Systemen
Bestehende Forschungen konzentrieren sich hauptsächlich auf einzelne Verzerrungstypen oder begrenzte Modellanzahlen und weisen Lücken auf bei:
- Kontrollierten Vergleichsanalysen mit mehreren Modellen und Bedingungen
- Quantitativen Belegen für Unterschiede in Etikett-Effekten zwischen Präferenz- und Qualitätsdimensionen
- Systematischen Empfehlungen zur Verzerrungsminderung
- Kontrollierte Mehrbedingungs-Analyse: Bereitstellung eines kontrollierten, mehrbedingungs-analytischen Rahmens für Selbst- und Kreuzmodell-Bewertungsverzerrungen
- Quantitative Verzerrungsnachweise: Bereitstellung quantitativer Belege für Etikett-Effekte in Präferenz- und Qualitätsdimensionen
- Empfehlungen zur Verzerrungsminderung: Bereitstellung von Empfehlungen zur Minderung von Verzerrungen durch Blindbewertung oder Mehrmodell-Bewertungsprotokolle
- Duale Bewertungsmethode: Anwendung komplementärer Methoden mit prozentualen Präferenzbewertungen und punktegestützten Qualitätsbewertungen
- Asymmetrische Etikett-Effekte: Feststellung, dass das Etikett „Claude" konsistent Bewertungen erhöht, während das Etikett „Gemini" systematisch Bewertungen senkt
Diese Studie verwendet ein dreistufiges, kontrolliertes Mehrmodell-, Mehrbedingungs-Design:
- Modelle: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
- Aufgabe: Generierung von etwa 200-Wort-Blogartikeln unter Verwendung einer festen Prompt-Vorlage
- Prompt-Vorlage: „You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
- Daten: 10 verschiedene Thementitel, ein Blog pro Modell pro Titel, insgesamt 30 Blogs
Vier Etikettbedingungen:
- Kein Etikett: Keine Autorenschaftszuweisung
- Echtes Etikett: Korrekte Zuordnung
- Falsches Etikett-Szenario 1: ChatGPT als Gemini gekennzeichnet, Gemini als Claude, Claude als ChatGPT
- Falsches Etikett-Szenario 2: ChatGPT als Claude gekennzeichnet, Gemini als ChatGPT, Claude als Gemini
- Prozentuale Präferenzbewertung: Messung der Häufigkeit, mit der jede Ausgabe als „beste" ausgewählt wird
- Punktgestützte Qualitätsbewertung: 0-10-Punkt-Bewertung in drei Dimensionen (Kohärenz, Informativität, Prägnanz), umgewandelt in Prozentsätze
- Innerhalb-Bedingungen-Analyse: Vergleiche innerhalb von Bedingungen
- Über-Bedingungen-Analyse: Verfolgung von Veränderungen über Bedingungen hinweg
- Metrik-spezifische Analyse: Untersuchung der Auswirkungen von Verzerrungen auf verschiedene Kriterien
- Umfang: 30 Blogartikel (3 Modelle × 10 Titel)
- Themen: Vielfältige Themen mit ähnlicher Komplexität
- Länge: Etwa 200 Wörter, geeignet für Online-Publikum
- Gesamtpräferenzabstimmung: Prozentuale Häufigkeit der „beste Wahl"-Auswahl
- Qualitätsdimensionsbewertungen:
- Kohärenz (Coherence): Logische Struktur und Flüssigkeit des Artikels
- Informativität (Informativeness): Informationswert und Tiefe des Inhalts
- Prägnanz (Conciseness): Effizienz und Prägnanz des Ausdrucks
- Keine-Etikett-Bedingung als Baseline
- Echte-Etikett-Bedingung
- Zwei falsche Etikett-Szenarien
- Alle drei Modelle zeigen leichte Selbstpräferenz
- ChatGPT-Auswahl der eigenen Ausgabe: 50%
- Gemini: 45,3%
- Claude: 46,7%
- Gemini wird in Kreuzmodell-Bewertungen konsistent unterschätzt (7%-12%)
- Claude-Selbstpräferenz verstärkt: Selbstbewertung steigt von 46,7% auf 60%
- Gemini schwere Selbstabwertung:
- Bewertung von Claude: 0%
- Bewertung von ChatGPT: 1,34%
- Selbstbewertung: 11,32%
- ChatGPT moderate Selbstpräferenz: 44,66%, aber schwere Bestrafung von Gemini
Szenario-1-Ergebnisse:
- Gemini-Präferenz für als Claude gekennzeichnete Inhalte steigt von 11,32% auf 51,35%
- Claude-Präferenz für als ChatGPT gekennzeichnete Inhalte erreicht 54,15%
- Informativitätsbewertungen unter falschem „Selbst"-Etikett um 8-10 Prozentpunkte erhöht
Szenario-2-Ergebnisse:
- „Claude"-Etikett erzeugt höchste Einzelbewertung: Gemini bewertet ChatGPT-as-Claude mit 60,7%
- „Gemini"-Etikett senkt Bewertungen erneut: Claude-as-Gemini fällt von 60% unter echtem Etikett auf 18,48%
- Präferenzabstimmungs-Schwankungen: Bis zu 50 Prozentpunkte Bewegung
- Qualitätsbewertungs-Schwankungen: Bis zu 12 Prozentpunkte Veränderung
- Empfindlichste Dimension: Informativitätsbewertung am empfindlichsten gegenüber Etiketten
- Stabilste Dimension: Prägnanzbeurteilung relativ stabil
- Claude: Stärkste Selbstpräferenz unter echtem Etikett (+13 Punkte), schwere Bestrafung bei falscher Gemini-Kennzeichnung (-28 Punkte)
- Gemini: Strenge Selbstbewertung unter echtem Etikett, aber erhebliche Bonuspunkte für „Claude"-gekennzeichnete Inhalte (bis zu +21 Punkte)
- ChatGPT: Konsistente Bestrafung von Gemini-gekennzeichneten Inhalten über alle Bedingungen hinweg
- Panickssery et al. zeigen, dass LLMs ihre eigenen Ausgaben bevorzugen und messbare Selbsterkennungsfähigkeiten besitzen
- Wataoka et al. untersuchen Selbstpräferenz-Verzerrungen in LLM-as-Judge
- Wang et al. zeigen, dass systematische Verzerrungen basierend auf Antwortposition Rangfolgen manipulieren können
- Chen et al. untersuchen, ob Selbstpräferenz echte Überlegenheit oder Signalverzerrung widerspiegelt
- Inkonsistenzen zwischen impliziten und expliziten Bewertungsdynamiken
- Strukturelle Verzerrungsprobleme in Deep-Learning-Systemen
- Etikett-Identität überwiegt Inhaltsqualität: Die wahrgenommene Modellidentität kann Urteile erheblich verzerren, unabhängig von der tatsächlichen Inhaltsqualität
- Asymmetrische Etikett-Effekte: Das Etikett „Claude" erhöht konsistent Bewertungen, das Etikett „Gemini" senkt sie systematisch
- Unterschiede zwischen Bewertungsebenen: Hochrangige „beste Wahl"-Urteile sind anfälliger für Verzerrungen als detaillierte Qualitätsbewertungen
- Unterschiedliche Dimensions-Empfindlichkeit: Informativität ist die am stärksten durch Etiketten beeinflusste Dimension, Prägnanz ist relativ stabil
- Begrenzte Modellabdeckung: Nur drei Modelle untersucht, Verallgemeinerbarkeit zu überprüfen
- Einzelne Aufgabendomain: Nur Blog-Schreib-Aufgaben verwendet
- Begrenzte Bewertungsdimensionen: Nur drei Qualitätsdimensionen berücksichtigt
- Verzerrungsquellen unklar: Keine tiefgreifende Erforschung der Trainingsdaten- oder Alignment-Programm-Ursprünge von Verzerrungen
- Blindbewertungsprotokolle: Verbergen von Modellidentitäten zur Vermeidung von Ankerheuristiken basierend auf Modellnamen
- Mehrmodell-Konsens: Verwendung von Mehrmodell- oder konsensusbased Bewertungssystemen
- Trennung von Bewertungstypen: Trennung von Präferenzurteilen und detaillierten Qualitätsbewertungen
- Verzerrungsbewusste Anpassungen: Entwicklung von verzerrungsbewussten Bewertungsanpassungsmechanismen
- Rigoroses Experimentdesign: Kontrolliertes Mehrbedingungs-, Mehrmodell-Design gewährleistet Zuverlässigkeit der Ergebnisse
- Methodische Innovation: Duales Bewertungssystem (Präferenz + Qualität) bietet umfassende Perspektive
- Bedeutsame Erkenntnisse: Enthüllung systematischer Verzerrungen in LLM-Bewertungen mit wichtigen Auswirkungen auf KI-Bewertungsforschung
- Ausreichende quantitative Analyse: Detaillierte numerische Belege und statistische Analysen
- Hoher praktischer Wert: Konkrete Empfehlungen zur Verbesserung von LLM-Bewertungen
- Begrenzte Stichprobengröße: Stichprobe von 30 Blogartikeln relativ klein
- Aufgaben-Einseitigkeit: Beschränkt auf Blog-Schreiben, fehlende Aufgaben-Vielfalt-Validierung
- Verzerrungsmechanismen unklar: Keine tiefgreifende Erforschung der Grundursachen asymmetrischer Verzerrungen
- Langzeiteffekte unbekannt: Keine Berücksichtigung zeitlicher Veränderungen von Verzerrungsmustern
- Akademischer Beitrag: Wichtige empirische Belege für LLM-Bewertungsverzerrungsforschung
- Praktischer Wert: Direkte Auswirkungen auf LLM-Benchmark- und Bewertungsprotokolle
- Politische Bedeutung: Wissenschaftliche Grundlagen für KI-Fairness- und Transparenzpolitik
- Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht Reproduktion und Erweiterung
- LLM-Benchmarking: Verbesserung der Fairness bestehender Bewertungsrahmen
- Automatisierte Bewertungssysteme: Gestaltung unverzerrter Textqualitätsbewertungswerkzeuge
- Modellvergleichsforschung: Gewährleistung der Objektivität von Modellleistungsvergleichen
- KI-Ethik-Forschung: Methoden zur Verzerrungserkennung und -minderung in KI-Systemen
- Erweiterte Modellabdeckung: Einbeziehung weiterer LLMs für umfassendere Verzerrungsmuster-Studien
- Mehraufgaben-Validierung: Validierung der Verallgemeinerbarkeit von Etikett-Effekten über verschiedene Aufgabentypen
- Verzerrungsquellen-Erforschung: Tiefgreifende Untersuchung der Auswirkungen von Trainingsdaten und Alignment-Programmen auf Verzerrungsbildung
- Verzerrungsminderungs-Strategien: Entwicklung und Prüfung effektiverer Verzerrungsminderungstechniken
- Dynamische Verzerrungsforschung: Untersuchung von Verzerrungsmuster-Veränderungen über Zeit und Modell-Updates
Zusammenfassung: Diese Studie enthüllt durch rigoroses Experimentdesign schwerwiegende Etikett-induzierte Verzerrungen in LLM-Bewertungen und bietet wichtige wissenschaftliche Grundlagen zur Verbesserung der Fairness und Zuverlässigkeit von KI-Bewertungen. Die Forschungsergebnisse haben nicht nur bedeutenden akademischen Wert, sondern bieten auch direkte Orientierung für praktische KI-Systemimplementierung und -bewertung.