2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.
Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic

Quantificazione del Pregiudizio Indotto da Etichette nelle Autovalutazioni e Valutazioni Incrociate dei Modelli di Linguaggio di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2508.21164
  • Titolo: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
  • Autori: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
  • Classificazione: cs.CL, cs.AI
  • Data di Pubblicazione: 9 ottobre 2025 (arXiv v3)
  • Collegamento Articolo: https://arxiv.org/abs/2508.21164v3

Sintesi

Questo studio indaga i pregiudizi sistematici in tre modelli di linguaggio di grandi dimensioni mainstream (ChatGPT, Gemini e Claude) nelle autovalutazioni e valutazioni incrociate. Lo studio ha progettato un esperimento controllato in cui ogni modello valuta articoli di blog generati da vari modelli in quattro condizioni di etichettatura (senza etichetta, etichetta vera, due scenari di etichetta falsa). La valutazione utilizza il voto di preferenza globale e punteggi di qualità granulari su tre dimensioni (coerenza, informatività, concisione), con tutti i punteggi normalizzati in percentuale per il confronto diretto. Lo studio rivela asimmetrie significative nel giudizio dei modelli: l'etichetta "Claude" aumenta i punteggi indipendentemente dall'autore effettivo, mentre l'etichetta "Gemini" riduce sistematicamente i punteggi. Le etichette false spesso invertono l'ordine di preferenza, producendo variazioni fino a 50 punti percentuali nei risultati dei voti e fino a 12 punti percentuali nei punteggi di qualità.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Con il crescente impiego dei modelli di linguaggio di grandi dimensioni come strumenti di valutazione della qualità del testo, la validità dei loro giudizi rimane ancora insufficientemente esplorata. Questo studio affronta principalmente i seguenti problemi:

  1. Problema del Pregiudizio nella Valutazione LLM: Gli LLM possono valutare equamente gli output, oppure sono influenzati dall'identità percepita dell'autore?
  2. Pregiudizio Indotto da Etichette: I nomi dei modelli influenzano i risultati della valutazione, indipendentemente dalla qualità effettiva?
  3. Pregiudizio di Autoprefenza: I modelli tendono a dare punteggi più alti ai propri output?

Importanza

L'importanza di questo problema si manifesta in:

  • La crescente diffusione del paradigma LLM-as-judge nella valutazione automatizzata del testo
  • I pregiudizi di valutazione possono distorcere i risultati dei benchmark
  • Influenza l'equità del confronto e della selezione dei modelli
  • Pone sfide all'affidabilità e alla trasparenza dei sistemi di IA

Limitazioni della Ricerca Esistente

La ricerca esistente si concentra principalmente su singoli tipi di pregiudizio o su un numero limitato di modelli, mancando di:

  1. Analisi comparativa controllata multi-modello e multi-condizione
  2. Prove quantitative che confrontino gli effetti delle etichette su dimensioni di preferenza e qualità
  3. Raccomandazioni sistematiche per la mitigazione dei pregiudizi

Contributi Fondamentali

  1. Analisi Multi-Condizione Controllata: Fornisce un framework di analisi controllato e multi-condizione dei pregiudizi nelle autovalutazioni e valutazioni incrociate tra modelli
  2. Prove Quantitative di Pregiudizio: Fornisce prove quantitative che confrontano gli effetti delle etichette su dimensioni di preferenza e qualità
  3. Raccomandazioni per la Mitigazione dei Pregiudizi: Fornisce raccomandazioni per mitigare i pregiudizi attraverso valutazioni cieche o protocolli di valutazione multi-modello
  4. Metodo di Doppio Punteggio: Adotta due metodi complementari: punteggi di preferenza percentuali e punteggi di qualità basati su punti
  5. Scoperta dell'Asimmetria delle Etichette: Scopre che l'etichetta "Claude" aumenta coerentemente i punteggi, mentre l'etichetta "Gemini" riduce sistematicamente i punteggi

Spiegazione Dettagliata del Metodo

Progettazione Sperimentale

Questo studio adotta un design controllato multi-modello e multi-condizione in tre fasi:

Fase 1: Generazione di Blog

  • Modelli: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
  • Compito: Generare articoli di blog di circa 200 parole utilizzando un modello di prompt fisso
  • Modello di Prompt: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
  • Dati: 10 titoli di argomenti diversi, ogni modello genera un blog per ogni titolo, per un totale di 30 blog

Fase 2: Impostazione delle Condizioni di Etichettatura

Quattro condizioni di etichettatura:

  1. Senza Etichetta: Nessuna attribuzione di autore
  2. Etichetta Vera: Attribuzione corretta
  3. Scenario di Etichetta Falsa 1: ChatGPT etichettato come Gemini, Gemini etichettato come Claude, Claude etichettato come ChatGPT
  4. Scenario di Etichetta Falsa 2: ChatGPT etichettato come Claude, Gemini etichettato come ChatGPT, Claude etichettato come Gemini

Fase 3: Sistema di Doppio Punteggio

  1. Punteggio di Preferenza Percentuale: Misura la frequenza con cui ogni output viene selezionato come "migliore"
  2. Punteggio di Qualità Basato su Punti: Punteggio da 0-10 su tre dimensioni (coerenza, informatività, concisione), convertito in percentuale

Livelli di Analisi

  • Analisi Intra-Condizione: Confronto all'interno delle condizioni
  • Analisi Tra-Condizioni: Tracciamento dei cambiamenti tra condizioni
  • Analisi Specifica per Metrica: Esame dell'impatto del pregiudizio su vari criteri

Configurazione Sperimentale

Caratteristiche del Dataset

  • Scala: 30 articoli di blog (3 modelli × 10 titoli)
  • Argomenti: Copertura di argomenti diversificati con complessità simile
  • Lunghezza: Circa 200 parole, adatte per il pubblico online

Metriche di Valutazione

  1. Voto di Preferenza Globale: Frequenza di "scelta migliore" in forma percentuale
  2. Punteggi di Qualità per Dimensione:
    • Coerenza (Coherence): Struttura logica e fluidità dell'articolo
    • Informatività (Informativeness): Valore informativo e profondità del contenuto
    • Concisione (Conciseness): Efficienza e precisione dell'espressione

Condizioni di Confronto

  • Condizione senza etichetta come baseline
  • Condizione con etichetta vera
  • Due scenari di etichetta falsa

Risultati Sperimentali

Scoperte Principali

Baseline della Condizione Senza Etichetta

  • Tutti e tre i modelli mostrano una lieve autoprefenza
  • Frequenza di scelta del proprio output da ChatGPT: 50%
  • Gemini: 45,3%
  • Claude: 46,7%
  • Gemini è sottovalutato coerentemente nella valutazione tra modelli (7%-12%)

Amplificazione del Pregiudizio nella Condizione di Etichetta Vera

  • Autoprefenza Potenziata di Claude: Il punteggio di autovalutazione aumenta dal 46,7% al 60%
  • Grave Autosvalutazione di Gemini:
    • Punteggio dalla valutazione di Claude: 0%
    • Punteggio dalla valutazione di ChatGPT: 1,34%
    • Autovalutazione: 11,32%
  • Autoprefenza Moderata di ChatGPT: 44,66%, ma punisce severamente Gemini

Forte Impatto dell'Etichetta Falsa

Risultati dello Scenario 1:

  • La preferenza di Gemini per il contenuto etichettato come Claude aumenta dall'11,32% al 51,35%
  • La preferenza di Claude per il contenuto etichettato come ChatGPT raggiunge il 54,15%
  • Il punteggio di informatività aumenta di 8-10 punti percentuali sotto l'etichetta falsa "propria"

Risultati dello Scenario 2:

  • L'etichetta "Claude" produce il punteggio singolo più alto: Gemini assegna a ChatGPT-as-Claude il 60,7%
  • L'etichetta "Gemini" abbassa nuovamente i punteggi: Claude-as-Gemini scende dal 60% sotto etichetta vera al 18,48%

Effetti Quantitativi del Pregiudizio

  • Variazione del Voto di Preferenza: Oscillazioni fino a 50 punti percentuali
  • Variazione del Punteggio di Qualità: Variazioni fino a 12 punti percentuali
  • Dimensione Più Sensibile: Il punteggio di informatività è il più sensibile alle etichette
  • Dimensione Più Stabile: Il punteggio di concisione è relativamente stabile

Modelli di Comportamento Specifici del Modello

  1. Claude: Autoprefenza più forte sotto etichetta vera (+13 punti), punizione severa quando etichettato erroneamente come Gemini (-28 punti)
  2. Gemini: Autovalutazione severa sotto etichetta vera, ma assegna aumenti significativi al contenuto etichettato "Claude" (fino a +21 punti)
  3. ChatGPT: Punisce coerentemente il contenuto etichettato Gemini tra le condizioni

Lavori Correlati

Ricerca sul Pregiudizio di Autoprefenza

  • Panickssery et al. dimostrano che gli LLM preferiscono i propri output, con capacità di auto-riconoscimento misurabile
  • Wataoka et al. studiano il pregiudizio di autoprefenza in LLM-as-judge

Pregiudizio di Valutazione Indotto da Etichette

  • Wang et al. dimostrano che i pregiudizi sistematici basati sulla posizione della risposta possono manipolare il ranking
  • Chen et al. indagano se l'autoprefenza rifletta vera superiorità o pregiudizio di segnalazione

Ricerca sulla Dinamica di Valutazione

  • Incoerenza tra dinamiche di valutazione implicite ed esplicite
  • Problemi di pregiudizio strutturale nei sistemi di deep learning

Conclusioni e Discussione

Conclusioni Principali

  1. L'Identità dell'Etichetta Supera la Qualità del Contenuto: L'identità del modello percepita può distorcere significativamente il giudizio, indipendentemente dalla qualità effettiva del contenuto
  2. Effetti Asimmetrici dell'Etichetta: L'etichetta "Claude" aumenta coerentemente i punteggi, mentre l'etichetta "Gemini" riduce sistematicamente i punteggi
  3. Differenze nei Livelli di Valutazione: I giudizi di "scelta migliore" di alto livello sono più suscettibili ai pregiudizi rispetto alle valutazioni di qualità dettagliate
  4. Differenze nella Sensibilità delle Dimensioni: L'informatività è la dimensione più facilmente influenzata dalle etichette, mentre la concisione è relativamente stabile

Limitazioni

  1. Limitazione dell'Intervallo di Modelli: Studio di soli tre modelli, la generalizzabilità rimane da verificare
  2. Singolarità del Dominio del Compito: Utilizzo solo del compito di scrittura di blog
  3. Dimensioni di Valutazione Limitate: Considerazione di sole tre dimensioni di qualità
  4. Fonte del Pregiudizio Non Chiarita: Esplorazione insufficiente delle fonti dei dati di addestramento o dei programmi di allineamento che causano il pregiudizio

Raccomandazioni Pratiche

  1. Protocolli di Valutazione Cieca: Occultare l'identità del modello per prevenire l'ancoraggio basato sul nome del modello
  2. Consenso Multi-Modello: Utilizzo di sistemi di valutazione multi-modello o basati su consenso
  3. Separazione dei Tipi di Valutazione: Separazione dei giudizi di preferenza dai punteggi di qualità dettagliati
  4. Meccanismi di Regolazione Consapevoli del Pregiudizio: Sviluppo di meccanismi di regolazione dei punteggi consapevoli del pregiudizio

Valutazione Approfondita

Punti di Forza

  1. Progettazione Sperimentale Rigorosa: Il design controllato multi-condizione e multi-modello garantisce l'affidabilità dei risultati
  2. Innovazione Metodologica: Il sistema di doppio punteggio (preferenza + qualità) fornisce una prospettiva completa
  3. Significato delle Scoperte: Rivela pregiudizi sistematici nella valutazione LLM, con impatto significativo nel campo della valutazione dell'IA
  4. Analisi Quantitativa Sufficiente: Fornisce prove numeriche dettagliate e analisi statistiche
  5. Alto Valore Pratico: Fornisce raccomandazioni concrete per migliorare la valutazione LLM

Insufficienze

  1. Dimensione del Campione Limitata: La dimensione del campione di 30 articoli di blog è relativamente piccola
  2. Singolarità del Compito: Limitato alla scrittura di blog, manca la verifica della diversità dei compiti
  3. Meccanismo del Pregiudizio Non Chiarito: Esplorazione insufficiente delle cause fondamentali del pregiudizio asimmetrico
  4. Effetti a Lungo Termine Sconosciuti: Mancata considerazione dei modelli di pregiudizio che cambiano nel tempo

Valutazione dell'Impatto

  1. Contributo Accademico: Fornisce prove empiriche importanti per la ricerca sul pregiudizio nella valutazione LLM
  2. Valore Pratico: Influenza direttamente la progettazione dei benchmark LLM e dei protocolli di valutazione
  3. Significato Politico: Fornisce basi scientifiche per le politiche di equità e trasparenza dei sistemi di IA
  4. Riproducibilità: La descrizione del metodo è chiara, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Benchmark LLM: Miglioramento dell'equità dei framework di valutazione esistenti
  2. Sistemi di Valutazione Automatizzata: Progettazione di strumenti di valutazione della qualità del testo senza pregiudizi
  3. Ricerca di Confronto dei Modelli: Garantire l'obiettività del confronto delle prestazioni dei modelli
  4. Ricerca sull'Etica dell'IA: Fornire metodi per il rilevamento e la mitigazione dei pregiudizi nei sistemi di IA

Direzioni di Ricerca Futura

  1. Espansione dell'Intervallo di Modelli: Inclusione di più LLM per uno studio più ampio dei modelli di pregiudizio
  2. Verifica Multi-Compito: Verifica della generalizzabilità degli effetti delle etichette in diversi tipi di compiti
  3. Esplorazione delle Fonti del Pregiudizio: Ricerca approfondita sull'impatto dei dati di addestramento e dei programmi di allineamento sulla formazione del pregiudizio
  4. Sviluppo di Strategie di Mitigazione: Progettazione e test di tecniche di mitigazione del pregiudizio più efficaci
  5. Ricerca sul Pregiudizio Dinamico: Studio dei modelli di pregiudizio che cambiano nel tempo e con gli aggiornamenti dei modelli

Sintesi: Questo studio, attraverso una progettazione sperimentale rigorosa, rivela gravi pregiudizi indotti da etichette nella valutazione LLM, fornendo prove scientifiche importanti per migliorare l'equità e l'affidabilità della valutazione dell'IA. Le scoperte dello studio non solo hanno significativo valore accademico, ma forniscono anche orientamenti diretti per il deployment e la valutazione pratica dei sistemi di IA.