2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

I Modelli di Linguaggio di Grandi Dimensioni sono Eccessivamente Fiduciosi e Amplificano i Pregiudizi Umani

Informazioni Fondamentali

ID Articolo: 2505.02151
Titolo: Large Language Models are overconfident and amplify human bias
Autori: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
Classificazione: cs.SE (Ingegneria del Software), cs.CY (Informatica e Società)
Data di Pubblicazione: Maggio 2025 (Preprint arXiv)
Link Articolo: https://arxiv.org/abs/2505.02151v2

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) stanno trasformando radicalmente vari aspetti della società, venendo sempre più utilizzati per sostituire la valutazione umana e i compiti di risoluzione dei problemi che richiedono ragionamento. Poiché gli LLM sono addestrati su contenuti scritti da umani, sono esposti ai pregiudizi umani. Questo studio valuta se gli LLM hanno ereditato uno dei pregiudizi umani più comuni: l'eccessiva fiducia. I ricercatori hanno costruito algoritmicamente problemi di ragionamento con risposte corrette note, hanno richiesto agli LLM di rispondere a questi problemi e hanno valutato il livello di fiducia nelle loro risposte. Lo studio rivela che tutti e cinque gli LJM esaminati mostrano eccessiva fiducia: sovrastimano la probabilità di correttezza delle loro risposte dal 20% al 60%. Sebbene l'accuratezza umana sia simile a quella degli LLM più avanzati, il grado di eccessiva fiducia è significativamente inferiore. Quando gli LLM sono meno certi delle loro risposte, il loro pregiudizio aumenta drasticamente rispetto agli umani. Lo studio dimostra inoltre che gli input degli LLM hanno effetti complessi sulle decisioni umane: mentre migliorano l'accuratezza, aumentano l'eccessiva fiducia di più del doppio.

Contesto e Motivazione della Ricerca

Definizione del Problema

La questione centrale affrontata da questa ricerca è: i modelli di linguaggio di grandi dimensioni ereditano e amplificano il pregiudizio di eccessiva fiducia umana? Questa domanda è significativa per i seguenti motivi:

Scenari di Applicazione Diffusi: Gli LLM vengono sempre più utilizzati in compiti di risoluzione dei problemi che richiedono ragionamento attento e valutazione
Pregiudizi nei Dati di Addestramento: Gli LLM sono addestrati su contenuti scritti da umani, naturalmente esposti ai pregiudizi umani
Impatto sulle Decisioni: L'eccessiva fiducia è stata dimostrata influenzare le decisioni professionali e quotidiane in molteplici settori

Importanza della Ricerca

L'eccessiva fiducia è uno dei pregiudizi più comuni nel giudizio umano, con effetti negativi documentati in numerosi ambiti:

Settore Professionale: I dirigenti eccessivamente fiduciosi hanno maggiore probabilità di intraprendere fusioni e acquisizioni non redditizie
Comportamento Quotidiano: Influenza le abitudini di esercizio fisico, le scelte dietetiche e le decisioni di investimento finanziario
Capacità di Apprendimento: Può portare a pregiudizi persistenti piuttosto che all'apprendimento dal feedback

Limitazioni della Ricerca Esistente

La ricerca esistente sulla calibrazione degli LLM presenta i seguenti problemi principali:

Si basa principalmente su dataset standard di domande e risposte, che gli LLM hanno probabilmente incontrato durante l'addestramento
Manca ricerca sulla fiducia in problemi che richiedono capacità di ragionamento
Non ha sufficientemente esplorato l'impatto della fiducia degli LLM sulle decisioni umane

Contributi Fondamentali

Valutazione Sistematica Pionieristica: Valutazione completa del pregiudizio di eccessiva fiducia in cinque LLM mainstream
Design Sperimentale Innovativo: Costruzione di 10.000 problemi di ragionamento generati algoritmicamente, garantendo contaminazione minima dall'addestramento
Analisi Comparativa Uomo-Macchina: Fornisce confronto diretto tra LLM e umani nello stesso compito
Scoperta del Gradiente di Fiducia: Rivela l'"Effetto Dunning-Kruger" in cui il pregiudizio degli LLM aumenta drasticamente quando sono incerti
Ricerca sull'Impatto sulle Decisioni Umane: Quantifica l'effetto doppio degli input degli LLM su accuratezza e pregiudizio umani
Analisi dell'Effetto Benessere: Stabilisce un modello teorico per analizzare l'impatto del benessere dell'esposizione agli LLM

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Lo studio ha progettato tre esperimenti interconnessi:

Valutazione dell'Eccessiva Fiducia degli LLM: Misurazione dell'accuratezza e della fiducia degli LLM nei compiti di ragionamento
Benchmark Umano: Valutazione delle prestazioni umane nello stesso compito
Esperimento di Esposizione agli LLM: Test dell'impatto degli input degli LLM sulle decisioni umane

Metodo di Generazione dei Problemi

Estrazione di Triple

Estrazione di triple strutturate (soggetto, predicato, oggetto) da Wikidata, coprendo dieci categorie popolari.

Regole di Ragionamento Logico

Implementazione di cinque tipi di ragionamento:

Ragionamento per Negazione: Derivazione della validità della negazione da una conoscenza fattuale
Ragionamento per Simmetria: Scambio di soggetto e oggetto in relazioni simmetriche
Ragionamento Inverso: Collegamento di soggetto e oggetto attraverso relazioni inverse
Ragionamento Transitivo: Ragionamento a catena per generare nuove triple
Ragionamento Composito: Combinazione di molteplici regole di ragionamento di base

Verifica dei Problemi

Utilizzo del motore di ragionamento Prolog per il ragionamento automatico, verifica manuale dei componenti predicativi, mantenimento finale di 476 predicati e relative triple.

Misurazione della Fiducia

Utilizzo di prompt appositamente progettati per ottenere contemporaneamente:

Fiducia nella correttezza della risposta
Fiducia nella correttezza della conoscenza fattuale
Fiducia nella correttezza del processo di ragionamento

Valutazione della Similarità

Sviluppo di algoritmi per calcolare la similarità tra le risposte degli LLM e le risposte standard:

Similarità Fattuale: Basata sulla corrispondenza del soggetto e sulla similarità dell'oggetto
Similarità di Ragionamento: Valutazione del grado di corrispondenza del predicato e dell'oggetto

Configurazione Sperimentale

Dataset

Scala: 10.000 problemi di ragionamento bilanciati
Distribuzione: 5 tipi di ragionamento × 10 domini di conoscenza, 200 problemi per ogni combinazione
Benchmark Umano: Selezione di 2.000 problemi per esperimenti umani

Selezione dei Modelli

Test di cinque LLM rappresentativi:

Modelli Closed-Source: GPT-3.5, GPT-4o, GPT-o1
Modelli Open-Source: Llama 3.1 8B, Llama 3.2 3B

Metriche di Valutazione

Accuratezza: Proporzione di risposte corrette
Fiducia: Probabilità di correttezza auto-riportata dal modello
Pregiudizio: Differenza tra fiducia e accuratezza
Gradiente di Fiducia: Tasso di variazione dell'accuratezza rispetto alla fiducia

Design dell'Esperimento Umano

Piattaforma: Piattaforma di esperimenti online Prolific
Meccanismo di Incentivazione: Segue il meccanismo di incentivazione reale di Danz et al. (2022)
Campione: 588 partecipanti nell'esperimento di base, 1.161 nell'esperimento di esposizione

Risultati Sperimentali

Prestazioni di Eccessiva Fiducia degli LLM

Scoperte Principali

Tutti e cinque gli LLM mostrano eccessiva fiducia significativa:

GPT-3.5: Accuratezza 35%, Fiducia 94%, Pregiudizio 59%
GPT-4o: Accuratezza 63%, Fiducia 94%, Pregiudizio 30%
GPT-o1: Accuratezza 73%, Fiducia 95%, Pregiudizio 22%
Llama 3.1: Accuratezza 63%, Fiducia 86%, Pregiudizio 23%
Llama 3.2: Accuratezza 61%, Fiducia 94%, Pregiudizio 33%

Analisi del Gradiente di Fiducia

I modelli più avanzati mostrano gradienti di fiducia più forti:

GPT-4o e GPT-o1: Una diminuzione del 10% nella fiducia corrisponde a una diminuzione di circa il 25% nell'accuratezza
Llama 3.1: Una diminuzione del 10% nella fiducia corrisponde a una diminuzione di circa il 13% nell'accuratezza

Risultati del Confronto Uomo-Macchina

Confronto delle Prestazioni

Accuratezza Umana: 66% (comparabile a GPT-4o e Llama 3.1)
Fiducia Umana: 70% (solo il 4% di eccessiva fiducia)
Differenza Chiave: Gli umani mostrano pregiudizio ridotto quando incerti, gli LLM il contrario

Effetto Dunning-Kruger

Gli LLM mostrano un effetto Dunning-Kruger più forte rispetto agli umani:

Quando completamente sicuri, gli LLM hanno accuratezza del 79-85% (ancora con pregiudizio del 15-21%)
Gli umani quando incerti mostrano infine una leggera sottostima (accuratezza 54% vs attesa 50%)

Impatto dell'Esposizione agli LLM sugli Umani

Miglioramento dell'Accuratezza

Gruppo Risposte LLM: Miglioramento dell'accuratezza di 5,6 punti percentuali
Gruppo Risposte LLM + Fiducia: Miglioramento dell'accuratezza di 7,0 punti percentuali

Amplificazione del Pregiudizio

Gruppo Risposte LLM: Aumento del pregiudizio di 4,2 punti percentuali (raddoppiato)
Gruppo Risposte LLM + Fiducia: Aumento del pregiudizio di 7,6 punti percentuali (quasi triplicato)

Effetti di Eterogeneità

I partecipanti con bassa fiducia di base traggono i maggiori benefici:

Miglioramento dell'accuratezza di 8,6-11,9 punti percentuali
Ma il pregiudizio aumenta anche di 7,0-14,1 punti percentuali

Lavori Correlati

Ricerca sulla Calibrazione degli LLM

La ricerca esistente adotta principalmente tre approcci per misurare la fiducia degli LLM:

Stima Basata su Logit: Richiede accesso ai parametri interni del modello
Induzione Diretta della Fiducia: Interrogazione diretta tramite prompt
Approccio con Modello Ausiliario: Dall'integrazione di singoli modelli a fonti multiple

L'innovazione di questa ricerca risiede nell'utilizzo di problemi generati algoritmicamente per garantire contaminazione minima dall'addestramento.

Ricerca sull'Eccessiva Fiducia

L'impatto dell'eccessiva fiducia in molteplici settori:

Decisioni Aziendali: Influenza le scelte di finanziamento e le decisioni di fusione e acquisizione
Comportamento Personale: Influenza le scelte di salute e le decisioni di investimento
Processo di Apprendimento: Può portare a pregiudizi persistenti piuttosto che ad apprendimento adattivo

Interazione Uomo-Macchina

La ricerca emergente esplora come gli individui rispondono agli input dell'IA (potenzialmente distorti), e questo studio fornisce un contributo importante a questo campo.

Conclusioni e Discussione

Conclusioni Principali

Eccessiva Fiducia Universale: Tutti gli LLM testati mostrano eccessiva fiducia significativa, molto superiore a quella umana
Effetto Dunning-Kruger: Gli LLM mostrano un aumento drastico del pregiudizio quando incerti, mancando di consapevolezza dei limiti della conoscenza
Effetto Doppio: Mentre gli input degli LLM migliorano l'accuratezza umana, aumentano significativamente l'eccessiva fiducia
Complessità del Benessere: In ambienti che richiedono decisioni di investimento, l'aumento del pregiudizio può compensare i guadagni di accuratezza

Intuizioni Teoriche

Meccanismo dell'Effetto Dunning-Kruger

Gli LLM rimangono "intrappolati" nel loro modello predittivo:

Non riescono a percepire la conoscenza assente dai dati di addestramento
Formano stime di accuratezza basate sui dati di addestramento
Mancano dell'intuizione umana sui limiti della conoscenza

Modello Teorico del Benessere

Stabilimento di un modello di benessere che considera accuratezza e pregiudizio:

Quando gli investimenti hanno elasticità più alta rispetto alla probabilità di successo, l'impatto negativo dell'eccessiva fiducia è maggiore
Anche con aumento dell'accuratezza, l'esposizione agli LLM può ridurre il benessere complessivo

Limitazioni

Ambito del Compito: Limitato a problemi di ragionamento con scelta binaria
Versioni dei Modelli: I risultati possono variare con gli aggiornamenti dei modelli
Differenze Culturali: Gli esperimenti umani si basano principalmente su utenti di lingua inglese
Effetti Temporali: Non considera gli effetti di apprendimento e adattamento a lungo termine

Implicazioni Pratiche

Guida per gli Utenti

Fornisce nuovi benchmark per valutare le capacità di ragionamento degli LLM
Sottolinea la necessità di mantenere uno scetticismo appropriato nei confronti dei suggerimenti degli LLM

Raccomandazioni per gli Sviluppatori

Gli obiettivi di addestramento attuali danno priorità alla fluidità piuttosto che all'accuratezza
È necessario sviluppare meccanismi di correzione dell'incertezza integrati
Si consiglia l'integrazione di meccanismi di verifica per controllare il processo di ragionamento

Implicazioni per la Ricerca

Sottolinea l'importanza di valutare i pregiudizi comportamentali degli LLM
Fornisce un paradigma per la ricerca su altri pregiudizi cognitivi
Promuove la collaborazione interdisciplinare tra scienze comportamentali e informatica

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica:
- La generazione algoritmica di problemi minimizza la contaminazione dall'addestramento
- Misurazione multidimensionale della fiducia (risposta, fatto, ragionamento)
- Design rigoroso di esperimenti comparativi uomo-macchina
Completezza Sperimentale:
- Esperimenti su larga scala (10.000 problemi LLM, 5.000+ risposte umane)
- Verifiche di robustezza con modelli multipli e impostazioni di temperatura
- Esperimenti di ablazione dettagliati e verifica della riproducibilità
Contributi Teorici:
- Primo a rivelare l'effetto Dunning-Kruger negli LLM
- Stabilimento di un framework di analisi del benessere per l'esposizione agli LLM
- Fornimento di una nuova prospettiva sulla calibrazione della fiducia
Valore Pratico:
- Fornisce considerazioni di sicurezza importanti per l'applicazione degli LLM
- Offre una guida diretta per la progettazione di sistemi di IA
- Fornisce basi scientifiche per la formulazione di politiche normative

Insufficienze

Limitazioni del Compito:
- Considera solo problemi con scelta binaria, che potrebbero non rappresentare completamente gli scenari di applicazione reali
- I tipi di ragionamento sono relativamente semplici, mancano di ragionamenti multistep più complessi
Metodi di Misurazione:
- La misurazione della fiducia si basa sull'auto-relazione, potenzialmente soggetta a sensibilità ai prompt
- L'algoritmo di valutazione della similarità potrebbe introdurre soggettività
Rappresentatività del Campione:
- Gli esperimenti umani si basano principalmente su utenti di piattaforme online
- Manca diversità nei background culturali e nei settori professionali
Effetti a Lungo Termine:
- Non considera gli effetti di apprendimento dall'esposizione ripetuta
- Manca validità ecologica nella verifica in ambienti decisionali reali

Valutazione dell'Impatto

Impatto Accademico

Contributo Teorico: Apre una nuova direzione nella ricerca sui pregiudizi comportamentali degli LLM
Valore Metodologico: Fornisce un paradigma sperimentale replicabile
Significato Interdisciplinare: Connette IA, scienze cognitive ed economia comportamentale

Impatto Pratico

Applicazioni Industriali: Influenza la progettazione e la strategia di distribuzione dei prodotti LLM
Valore Educativo: Aumenta la consapevolezza pubblica sui limiti dei sistemi di IA
Formulazione di Politiche: Fornisce basi scientifiche per la governance dell'IA

Scenari Applicabili

Decisioni ad Alto Rischio: Diagnosi medica, investimenti finanziari e altri scenari che richiedono valutazione dell'accuratezza
Applicazioni Educative: Necessità di considerare l'impatto dell'eccessiva fiducia sull'efficacia dell'apprendimento
Collaborazione Uomo-Macchina: Progettazione di meccanismi migliori per la comunicazione della fiducia
Sicurezza dell'IA: Sviluppo di metodi più affidabili per la quantificazione dell'incertezza

Direzioni di Ricerca Futura

Estensione dei Tipi di Compito: Ricerca su compiti di ragionamento più complessi e problemi aperti
Validazione Transculturale: Verifica dell'universalità delle scoperte in diversi contesti culturali
Meccanismi di Intervento: Sviluppo di metodi di addestramento e prompt per ridurre l'eccessiva fiducia
Effetti a Lungo Termine: Ricerca sui processi di apprendimento e adattamento nelle interazioni ripetute
Altri Pregiudizi: Studio sistematico di altri pregiudizi cognitivi negli LLM

Bibliografia

L'articolo cita una ricca letteratura correlata, coprendo:

Ricerca sull'eccessiva fiducia in economia comportamentale (Kahneman, 2011; Moore and Healy, 2008)
Calibrazione degli LLM e quantificazione dell'incertezza (Tian et al., 2023; Wei et al., 2024)
Interazione uomo-macchina e pregiudizi dell'IA (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
Ricerca classica sull'effetto Dunning-Kruger (Kruger and Dunning, 1999)

Questa ricerca fornisce intuizioni importanti per comprendere e migliorare l'affidabilità dei modelli di linguaggio di grandi dimensioni, con implicazioni profonde per la sicurezza dell'IA e la collaborazione uomo-macchina. Rivelando il problema dell'eccessiva fiducia negli LLM, la ricerca indica la direzione per lo sviluppo di sistemi di IA più affidabili e degni di fiducia.