Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
I Modelli di Linguaggio di Grandi Dimensioni sono Eccessivamente Fiduciosi e Amplificano i Pregiudizi Umani
- ID Articolo: 2505.02151
- Titolo: Large Language Models are overconfident and amplify human bias
- Autori: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- Classificazione: cs.SE (Ingegneria del Software), cs.CY (Informatica e Società)
- Data di Pubblicazione: Maggio 2025 (Preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2505.02151v2
I modelli di linguaggio di grandi dimensioni (LLM) stanno trasformando radicalmente vari aspetti della società, venendo sempre più utilizzati per sostituire la valutazione umana e i compiti di risoluzione dei problemi che richiedono ragionamento. Poiché gli LLM sono addestrati su contenuti scritti da umani, sono esposti ai pregiudizi umani. Questo studio valuta se gli LLM hanno ereditato uno dei pregiudizi umani più comuni: l'eccessiva fiducia. I ricercatori hanno costruito algoritmicamente problemi di ragionamento con risposte corrette note, hanno richiesto agli LLM di rispondere a questi problemi e hanno valutato il livello di fiducia nelle loro risposte. Lo studio rivela che tutti e cinque gli LJM esaminati mostrano eccessiva fiducia: sovrastimano la probabilità di correttezza delle loro risposte dal 20% al 60%. Sebbene l'accuratezza umana sia simile a quella degli LLM più avanzati, il grado di eccessiva fiducia è significativamente inferiore. Quando gli LLM sono meno certi delle loro risposte, il loro pregiudizio aumenta drasticamente rispetto agli umani. Lo studio dimostra inoltre che gli input degli LLM hanno effetti complessi sulle decisioni umane: mentre migliorano l'accuratezza, aumentano l'eccessiva fiducia di più del doppio.
La questione centrale affrontata da questa ricerca è: i modelli di linguaggio di grandi dimensioni ereditano e amplificano il pregiudizio di eccessiva fiducia umana? Questa domanda è significativa per i seguenti motivi:
- Scenari di Applicazione Diffusi: Gli LLM vengono sempre più utilizzati in compiti di risoluzione dei problemi che richiedono ragionamento attento e valutazione
- Pregiudizi nei Dati di Addestramento: Gli LLM sono addestrati su contenuti scritti da umani, naturalmente esposti ai pregiudizi umani
- Impatto sulle Decisioni: L'eccessiva fiducia è stata dimostrata influenzare le decisioni professionali e quotidiane in molteplici settori
L'eccessiva fiducia è uno dei pregiudizi più comuni nel giudizio umano, con effetti negativi documentati in numerosi ambiti:
- Settore Professionale: I dirigenti eccessivamente fiduciosi hanno maggiore probabilità di intraprendere fusioni e acquisizioni non redditizie
- Comportamento Quotidiano: Influenza le abitudini di esercizio fisico, le scelte dietetiche e le decisioni di investimento finanziario
- Capacità di Apprendimento: Può portare a pregiudizi persistenti piuttosto che all'apprendimento dal feedback
La ricerca esistente sulla calibrazione degli LLM presenta i seguenti problemi principali:
- Si basa principalmente su dataset standard di domande e risposte, che gli LLM hanno probabilmente incontrato durante l'addestramento
- Manca ricerca sulla fiducia in problemi che richiedono capacità di ragionamento
- Non ha sufficientemente esplorato l'impatto della fiducia degli LLM sulle decisioni umane
- Valutazione Sistematica Pionieristica: Valutazione completa del pregiudizio di eccessiva fiducia in cinque LLM mainstream
- Design Sperimentale Innovativo: Costruzione di 10.000 problemi di ragionamento generati algoritmicamente, garantendo contaminazione minima dall'addestramento
- Analisi Comparativa Uomo-Macchina: Fornisce confronto diretto tra LLM e umani nello stesso compito
- Scoperta del Gradiente di Fiducia: Rivela l'"Effetto Dunning-Kruger" in cui il pregiudizio degli LLM aumenta drasticamente quando sono incerti
- Ricerca sull'Impatto sulle Decisioni Umane: Quantifica l'effetto doppio degli input degli LLM su accuratezza e pregiudizio umani
- Analisi dell'Effetto Benessere: Stabilisce un modello teorico per analizzare l'impatto del benessere dell'esposizione agli LLM
Lo studio ha progettato tre esperimenti interconnessi:
- Valutazione dell'Eccessiva Fiducia degli LLM: Misurazione dell'accuratezza e della fiducia degli LLM nei compiti di ragionamento
- Benchmark Umano: Valutazione delle prestazioni umane nello stesso compito
- Esperimento di Esposizione agli LLM: Test dell'impatto degli input degli LLM sulle decisioni umane
Estrazione di triple strutturate (soggetto, predicato, oggetto) da Wikidata, coprendo dieci categorie popolari.
Implementazione di cinque tipi di ragionamento:
- Ragionamento per Negazione: Derivazione della validità della negazione da una conoscenza fattuale
- Ragionamento per Simmetria: Scambio di soggetto e oggetto in relazioni simmetriche
- Ragionamento Inverso: Collegamento di soggetto e oggetto attraverso relazioni inverse
- Ragionamento Transitivo: Ragionamento a catena per generare nuove triple
- Ragionamento Composito: Combinazione di molteplici regole di ragionamento di base
Utilizzo del motore di ragionamento Prolog per il ragionamento automatico, verifica manuale dei componenti predicativi, mantenimento finale di 476 predicati e relative triple.
Utilizzo di prompt appositamente progettati per ottenere contemporaneamente:
- Fiducia nella correttezza della risposta
- Fiducia nella correttezza della conoscenza fattuale
- Fiducia nella correttezza del processo di ragionamento
Sviluppo di algoritmi per calcolare la similarità tra le risposte degli LLM e le risposte standard:
- Similarità Fattuale: Basata sulla corrispondenza del soggetto e sulla similarità dell'oggetto
- Similarità di Ragionamento: Valutazione del grado di corrispondenza del predicato e dell'oggetto
- Scala: 10.000 problemi di ragionamento bilanciati
- Distribuzione: 5 tipi di ragionamento × 10 domini di conoscenza, 200 problemi per ogni combinazione
- Benchmark Umano: Selezione di 2.000 problemi per esperimenti umani
Test di cinque LLM rappresentativi:
- Modelli Closed-Source: GPT-3.5, GPT-4o, GPT-o1
- Modelli Open-Source: Llama 3.1 8B, Llama 3.2 3B
- Accuratezza: Proporzione di risposte corrette
- Fiducia: Probabilità di correttezza auto-riportata dal modello
- Pregiudizio: Differenza tra fiducia e accuratezza
- Gradiente di Fiducia: Tasso di variazione dell'accuratezza rispetto alla fiducia
- Piattaforma: Piattaforma di esperimenti online Prolific
- Meccanismo di Incentivazione: Segue il meccanismo di incentivazione reale di Danz et al. (2022)
- Campione: 588 partecipanti nell'esperimento di base, 1.161 nell'esperimento di esposizione
Tutti e cinque gli LLM mostrano eccessiva fiducia significativa:
- GPT-3.5: Accuratezza 35%, Fiducia 94%, Pregiudizio 59%
- GPT-4o: Accuratezza 63%, Fiducia 94%, Pregiudizio 30%
- GPT-o1: Accuratezza 73%, Fiducia 95%, Pregiudizio 22%
- Llama 3.1: Accuratezza 63%, Fiducia 86%, Pregiudizio 23%
- Llama 3.2: Accuratezza 61%, Fiducia 94%, Pregiudizio 33%
I modelli più avanzati mostrano gradienti di fiducia più forti:
- GPT-4o e GPT-o1: Una diminuzione del 10% nella fiducia corrisponde a una diminuzione di circa il 25% nell'accuratezza
- Llama 3.1: Una diminuzione del 10% nella fiducia corrisponde a una diminuzione di circa il 13% nell'accuratezza
- Accuratezza Umana: 66% (comparabile a GPT-4o e Llama 3.1)
- Fiducia Umana: 70% (solo il 4% di eccessiva fiducia)
- Differenza Chiave: Gli umani mostrano pregiudizio ridotto quando incerti, gli LLM il contrario
Gli LLM mostrano un effetto Dunning-Kruger più forte rispetto agli umani:
- Quando completamente sicuri, gli LLM hanno accuratezza del 79-85% (ancora con pregiudizio del 15-21%)
- Gli umani quando incerti mostrano infine una leggera sottostima (accuratezza 54% vs attesa 50%)
- Gruppo Risposte LLM: Miglioramento dell'accuratezza di 5,6 punti percentuali
- Gruppo Risposte LLM + Fiducia: Miglioramento dell'accuratezza di 7,0 punti percentuali
- Gruppo Risposte LLM: Aumento del pregiudizio di 4,2 punti percentuali (raddoppiato)
- Gruppo Risposte LLM + Fiducia: Aumento del pregiudizio di 7,6 punti percentuali (quasi triplicato)
I partecipanti con bassa fiducia di base traggono i maggiori benefici:
- Miglioramento dell'accuratezza di 8,6-11,9 punti percentuali
- Ma il pregiudizio aumenta anche di 7,0-14,1 punti percentuali
La ricerca esistente adotta principalmente tre approcci per misurare la fiducia degli LLM:
- Stima Basata su Logit: Richiede accesso ai parametri interni del modello
- Induzione Diretta della Fiducia: Interrogazione diretta tramite prompt
- Approccio con Modello Ausiliario: Dall'integrazione di singoli modelli a fonti multiple
L'innovazione di questa ricerca risiede nell'utilizzo di problemi generati algoritmicamente per garantire contaminazione minima dall'addestramento.
L'impatto dell'eccessiva fiducia in molteplici settori:
- Decisioni Aziendali: Influenza le scelte di finanziamento e le decisioni di fusione e acquisizione
- Comportamento Personale: Influenza le scelte di salute e le decisioni di investimento
- Processo di Apprendimento: Può portare a pregiudizi persistenti piuttosto che ad apprendimento adattivo
La ricerca emergente esplora come gli individui rispondono agli input dell'IA (potenzialmente distorti), e questo studio fornisce un contributo importante a questo campo.
- Eccessiva Fiducia Universale: Tutti gli LLM testati mostrano eccessiva fiducia significativa, molto superiore a quella umana
- Effetto Dunning-Kruger: Gli LLM mostrano un aumento drastico del pregiudizio quando incerti, mancando di consapevolezza dei limiti della conoscenza
- Effetto Doppio: Mentre gli input degli LLM migliorano l'accuratezza umana, aumentano significativamente l'eccessiva fiducia
- Complessità del Benessere: In ambienti che richiedono decisioni di investimento, l'aumento del pregiudizio può compensare i guadagni di accuratezza
Gli LLM rimangono "intrappolati" nel loro modello predittivo:
- Non riescono a percepire la conoscenza assente dai dati di addestramento
- Formano stime di accuratezza basate sui dati di addestramento
- Mancano dell'intuizione umana sui limiti della conoscenza
Stabilimento di un modello di benessere che considera accuratezza e pregiudizio:
- Quando gli investimenti hanno elasticità più alta rispetto alla probabilità di successo, l'impatto negativo dell'eccessiva fiducia è maggiore
- Anche con aumento dell'accuratezza, l'esposizione agli LLM può ridurre il benessere complessivo
- Ambito del Compito: Limitato a problemi di ragionamento con scelta binaria
- Versioni dei Modelli: I risultati possono variare con gli aggiornamenti dei modelli
- Differenze Culturali: Gli esperimenti umani si basano principalmente su utenti di lingua inglese
- Effetti Temporali: Non considera gli effetti di apprendimento e adattamento a lungo termine
- Fornisce nuovi benchmark per valutare le capacità di ragionamento degli LLM
- Sottolinea la necessità di mantenere uno scetticismo appropriato nei confronti dei suggerimenti degli LLM
- Gli obiettivi di addestramento attuali danno priorità alla fluidità piuttosto che all'accuratezza
- È necessario sviluppare meccanismi di correzione dell'incertezza integrati
- Si consiglia l'integrazione di meccanismi di verifica per controllare il processo di ragionamento
- Sottolinea l'importanza di valutare i pregiudizi comportamentali degli LLM
- Fornisce un paradigma per la ricerca su altri pregiudizi cognitivi
- Promuove la collaborazione interdisciplinare tra scienze comportamentali e informatica
- Innovazione Metodologica:
- La generazione algoritmica di problemi minimizza la contaminazione dall'addestramento
- Misurazione multidimensionale della fiducia (risposta, fatto, ragionamento)
- Design rigoroso di esperimenti comparativi uomo-macchina
- Completezza Sperimentale:
- Esperimenti su larga scala (10.000 problemi LLM, 5.000+ risposte umane)
- Verifiche di robustezza con modelli multipli e impostazioni di temperatura
- Esperimenti di ablazione dettagliati e verifica della riproducibilità
- Contributi Teorici:
- Primo a rivelare l'effetto Dunning-Kruger negli LLM
- Stabilimento di un framework di analisi del benessere per l'esposizione agli LLM
- Fornimento di una nuova prospettiva sulla calibrazione della fiducia
- Valore Pratico:
- Fornisce considerazioni di sicurezza importanti per l'applicazione degli LLM
- Offre una guida diretta per la progettazione di sistemi di IA
- Fornisce basi scientifiche per la formulazione di politiche normative
- Limitazioni del Compito:
- Considera solo problemi con scelta binaria, che potrebbero non rappresentare completamente gli scenari di applicazione reali
- I tipi di ragionamento sono relativamente semplici, mancano di ragionamenti multistep più complessi
- Metodi di Misurazione:
- La misurazione della fiducia si basa sull'auto-relazione, potenzialmente soggetta a sensibilità ai prompt
- L'algoritmo di valutazione della similarità potrebbe introdurre soggettività
- Rappresentatività del Campione:
- Gli esperimenti umani si basano principalmente su utenti di piattaforme online
- Manca diversità nei background culturali e nei settori professionali
- Effetti a Lungo Termine:
- Non considera gli effetti di apprendimento dall'esposizione ripetuta
- Manca validità ecologica nella verifica in ambienti decisionali reali
- Contributo Teorico: Apre una nuova direzione nella ricerca sui pregiudizi comportamentali degli LLM
- Valore Metodologico: Fornisce un paradigma sperimentale replicabile
- Significato Interdisciplinare: Connette IA, scienze cognitive ed economia comportamentale
- Applicazioni Industriali: Influenza la progettazione e la strategia di distribuzione dei prodotti LLM
- Valore Educativo: Aumenta la consapevolezza pubblica sui limiti dei sistemi di IA
- Formulazione di Politiche: Fornisce basi scientifiche per la governance dell'IA
- Decisioni ad Alto Rischio: Diagnosi medica, investimenti finanziari e altri scenari che richiedono valutazione dell'accuratezza
- Applicazioni Educative: Necessità di considerare l'impatto dell'eccessiva fiducia sull'efficacia dell'apprendimento
- Collaborazione Uomo-Macchina: Progettazione di meccanismi migliori per la comunicazione della fiducia
- Sicurezza dell'IA: Sviluppo di metodi più affidabili per la quantificazione dell'incertezza
- Estensione dei Tipi di Compito: Ricerca su compiti di ragionamento più complessi e problemi aperti
- Validazione Transculturale: Verifica dell'universalità delle scoperte in diversi contesti culturali
- Meccanismi di Intervento: Sviluppo di metodi di addestramento e prompt per ridurre l'eccessiva fiducia
- Effetti a Lungo Termine: Ricerca sui processi di apprendimento e adattamento nelle interazioni ripetute
- Altri Pregiudizi: Studio sistematico di altri pregiudizi cognitivi negli LLM
L'articolo cita una ricca letteratura correlata, coprendo:
- Ricerca sull'eccessiva fiducia in economia comportamentale (Kahneman, 2011; Moore and Healy, 2008)
- Calibrazione degli LLM e quantificazione dell'incertezza (Tian et al., 2023; Wei et al., 2024)
- Interazione uomo-macchina e pregiudizi dell'IA (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- Ricerca classica sull'effetto Dunning-Kruger (Kruger and Dunning, 1999)
Questa ricerca fornisce intuizioni importanti per comprendere e migliorare l'affidabilità dei modelli di linguaggio di grandi dimensioni, con implicazioni profonde per la sicurezza dell'IA e la collaborazione uomo-macchina. Rivelando il problema dell'eccessiva fiducia negli LLM, la ricerca indica la direzione per lo sviluppo di sistemi di IA più affidabili e degni di fiducia.