2025-11-18T11:46:20.272494

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

Carro, Mester, Selasco et al.
Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
academic

I Grandi Modelli Linguistici Mostrano Pregiudizi nell'Apprendimento Causale? Intuizioni dal Giudizio di Contingenza

Informazioni Fondamentali

  • ID Articolo: 2510.13985
  • Titolo: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
  • Autori: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
  • Classificazione: cs.AI
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
  • Link Articolo: https://arxiv.org/abs/2510.13985

Riassunto

L'apprendimento causale è un processo cognitivo di ragionamento causale basato sulle informazioni disponibili, che generalmente segue principi normativi. Questo processo è soggetto a errori e pregiudizi, come le illusioni causali, in cui le persone percepiscono relazioni causali tra due variabili in assenza di prove a supporto. Questi pregiudizi cognitivi sono considerati la radice di molti problemi sociali, inclusi i pregiudizi sociali, la formazione di stereotipi, la disinformazione e il pensiero superstizioso. Questo studio esamina se i grandi modelli linguistici sono soggetti a illusioni causali attraverso un paradigma classico della scienza cognitiva: il compito di giudizio di contingenza. Lo studio costruisce un dataset di 1000 scenari a contingenza zero (dove le informazioni disponibili sono insufficienti per stabilire relazioni causali tra variabili), inducendo i modelli linguistici di grandi dimensioni a valutare l'efficacia di potenziali cause in contesti medici. Lo studio scopre che tutti i modelli valutati sistematicamente inferiscono relazioni causali improprie, mostrando una forte suscettibilità alle illusioni causali.

Contesto di Ricerca e Motivazione

Definizione del Problema

La questione centrale affrontata da questa ricerca è: i grandi modelli linguistici mostrano pregiudizi di illusione causale simili agli umani quando confrontati con paradigmi classici della scienza cognitiva?

Importanza

  1. Impatto Sociale: Le illusioni causali sono alla radice dei pregiudizi sociali, degli stereotipi, della diffusione della disinformazione e del pensiero superstizioso
  2. Applicazioni Pratiche: In settori critici come la medicina, il ragionamento causale accurato è essenziale per decisioni consapevoli
  3. Sicurezza dell'IA: Con l'ampia applicazione dei modelli linguistici nei sistemi decisionali, comprendere i loro pregiudizi cognitivi diventa estremamente importante

Limitazioni Esistenti

  1. Mancanza di valutazione sistematica delle prestazioni dei modelli linguistici nei compiti di giudizio di contingenza
  2. Controversia sul fatto che i modelli linguistici "comprendano" veramente le relazioni causali o semplicemente riproducano il linguaggio causale
  3. La ricerca esistente si concentra principalmente su inferenze errate dalla correlazione alla causalità, piuttosto che su illusioni causali in scenari a contingenza zero

Motivazione della Ricerca

Valutare le capacità di ragionamento causale dei modelli linguistici attraverso il classico compito di giudizio di contingenza, fornendo prove empiriche per comprendere i loro pregiudizi cognitivi.

Contributi Principali

  1. Primo Adattamento del Compito di Giudizio di Contingenza ai Modelli Linguistici: Questo è il primo studio ad applicare il classico compito di giudizio di contingenza della psicologia sperimentale ai grandi modelli linguistici
  2. Costruzione di un Dataset su Larga Scala di Scenari a Contingenza Zero: Creazione di 1000 scenari a contingenza zero in contesti medici, contenenti quattro tipi di variabili
  3. Scoperta di Illusioni Causali Universali nei Modelli Linguistici: Tutti i modelli valutati sistematicamente inferiscono relazioni causali in scenari a contingenza zero
  4. Rivelazione di Incoerenza negli Standard di Giudizio Causale tra Modelli: Diversi modelli adottano standard di ragionamento causale diversi, mancando di coerenza

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di giudizio di contingenza è un paradigma classico nella scienza cognitiva per valutare l'apprendimento causale:

  • Input: Una serie di prove, dove ogni prova contiene una potenziale causa (presente/assente) e un risultato (accaduto/non accaduto)
  • Output: Un punteggio dell'efficacia della potenziale causa (0-100, dove 0 indica inefficacia e 100 indica efficacia completa)
  • Condizione di Contingenza Zero: La probabilità che il risultato si verifichi è indipendente dalla presenza della causa

Progettazione Sperimentale

Costruzione del Dataset

  1. Tipi di Variabili (4 categorie, 100 coppie totali):
    • Nomi fittizi di malattie e trattamenti (ad esempio, "Glimber medicine" e "Drizzlemorn disorder")
    • Variabili incerte (ad esempio, "Disease X" e "Medicine Y")
    • Variabili di medicina alternativa e pseudomedicina (ad esempio, "Acupuncture Process")
    • Farmaci scientifici verificati (ad esempio, "Paracetamol")
  2. Generazione di Scenari:
    • 1000 scenari a contingenza zero
    • 20-100 prove per scenario
    • Distribuzione 80/20 per garantire contingenza zero

Condizioni Sperimentali

  1. Impostazioni di Temperatura:
    • Esperimento 1: temperatura=1, 10 ripetizioni per scenario
    • Esperimento 2: temperatura=0 (deterministico)
    • Esperimento 3: impostazioni di temperatura predefinite
  2. Modelli Valutati:
    • GPT-4o-Mini
    • Claude-3.5-Sonnet
    • Gemini-1.5-Pro

Punti di Innovazione Tecnica

  1. Adattamento del Compito: Adattamento della presentazione sequenziale degli esperimenti umani a formato di elenco in linguaggio naturale
  2. Definizione del Ruolo: Aumento dell'autenticità del compito attraverso interpretazione di ruoli (medico, ricercatore)
  3. Controllo delle Variabili: Controllo rigoroso delle condizioni di contingenza zero per garantire la validità interna dell'esperimento

Configurazione Sperimentale

Dettagli del Dataset

  • Scala: 1000 scenari a contingenza zero
  • Numero di Prove: 20-100 prove per scenario
  • Coppie di Variabili: 100 coppie di variabili mediche
  • Controllo della Distribuzione: Distribuzione 80/20 per garantire contingenza zero

Metriche di Valutazione

  • Metrica Principale: Punteggio di efficacia 0-100
  • Test Statistici:
    • Test Wilcoxon a un campione (verifica deviazione da 0)
    • Test di Friedman (confronto tra modelli)
    • Test Q di Cochran (confronto della probabilità di risposta zero)

Dettagli di Implementazione

  • Ingegneria dei Prompt: Progettazione dei prompt basata sulle migliori pratiche della psicologia sperimentale
  • Esperimenti Ripetuti: Molteplici impostazioni di temperatura per garantire robustezza dei risultati
  • Analisi Statistica: Utilizzo di test non parametrici per gestire dati non normalmente distribuiti

Risultati Sperimentali

Risultati Principali

Risultati Statistici nella Condizione Temperatura=1:

ModelloMediaMedianaDeviazione Standard
GPT-4o-Mini75.7475.711.41
Claude-3.5-Sonnet40.5450.019.67
Gemini-1.5-Pro33.0745.023.72

Scoperte Chiave:

  1. Illusioni Causali Universali: La mediana di tutti i modelli è significativamente superiore a 0 (p < 0.001)
  2. Proporzione Estremamente Bassa di Risposte Zero:
    • GPT-4o-Mini: 0%
    • Claude-3.5-Sonnet: 4.6%
    • Gemini-1.5-Pro: 20.5%
  3. Differenze Significative tra Modelli: Il test di Friedman mostra differenze significative tra i modelli (χ² = 1516.99, p < 0.001)

Analisi tra Tipi di Variabili

I risultati sperimentali mostrano che i modelli non mostrano differenze significative nei punteggi di causalità per diversi tipi di variabili (fittizie, incerte, medicina alternativa, medicina tradizionale), anzi tendono a dare punteggi più alti per variabili fittizie.

Confronto delle Impostazioni di Temperatura

Nelle condizioni di temperatura=0 e temperatura predefinita, i risultati sperimentali rimangono coerenti, indicando la robustezza delle scoperte.

Lavori Correlati

Valutazione del Ragionamento Causale

  • Gao et al. (2023): Valutazione delle capacità di ragionamento causale dei modelli linguistici
  • Liu et al. (2023): Ragionamento causale nel dominio del codice
  • Jin et al. (2024): Inferenza dalla correlazione alla causalità

Ricerca sui Pregiudizi Cognitivi

  • Keshmirian et al. (2024): Giudizi causali distorti nei modelli linguistici
  • Carro et al. (2024): Esagerazione della correlazione-causalità nei titoli di notizie
  • Jin et al. (2022): Rilevamento di errori logici

Unicità di Questo Studio

Questo studio è il primo ad applicare il compito di giudizio di contingenza ai modelli linguistici, colmando un importante divario tra la scienza cognitiva e la valutazione dell'IA.

Conclusioni e Discussione

Conclusioni Principali

  1. Illusioni Causali Universali nei Modelli Linguistici: Tutti i modelli valutati sistematicamente inferiscono relazioni causali in scenari a contingenza zero
  2. Mancanza di Standard Unificati di Giudizio Causale: Diversi modelli adottano standard di valutazione diversi
  3. Supporto dell'Ipotesi di "Riproduzione Linguistica": I risultati supportano l'ipotesi che i modelli linguistici semplicemente riproducono il linguaggio causale piuttosto che comprendere veramente le relazioni causali

Limitazioni

  1. Mancanza di Baseline Umano: Nessun esperimento umano corrispondente come benchmark di confronto
  2. Validità Esterna Limitata: Sebbene la progettazione sperimentale segua le migliori pratiche psicologiche, potrebbe non rappresentare completamente gli scenari di utilizzo reale
  3. Pregiudizio di Punteggio: I modelli linguistici potrebbero mostrare pregiudizi nella risposta a valori estremi
  4. Problemi di Validità Interna: La scala di valutazione 0-100 potrebbe non essere il formato più appropriato per la valutazione dell'IA

Direzioni Future

  1. Tecniche di Prompt: Esplorazione dell'efficacia di tecniche di prompt come il chain-of-thought
  2. Scenari Diversificati: Inclusione di scenari con contingenza positiva e negativa
  3. Effetti dell'Ordine delle Prove: Studio dell'influenza dell'ordine di presentazione delle prove sui risultati
  4. Formati di Compito Alternativi: Utilizzo di formati binari o multiclassificazione

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo studio ad applicare un paradigma classico della scienza cognitiva alla valutazione dei modelli linguistici
  2. Metodologia Rigorosa: La progettazione sperimentale segue le migliori pratiche psicologiche, con analisi statistica completa
  3. Coerenza dei Risultati: I risultati rimangono coerenti in diverse impostazioni di temperatura, aumentando la credibilità delle scoperte
  4. Significato Pratico: Ha importanti implicazioni di avvertimento per la sicurezza dell'IA e le applicazioni

Insufficienze

  1. Campione Limitato: Valutazione di soli tre modelli, estendibile a più modelli
  2. Limitazione del Dominio: Test solo nel dominio medico, la generalizzabilità ad altri domini è sconosciuta
  3. Analisi Meccanicistica Insufficiente: Mancanza di analisi dei meccanismi sottostanti che causano i pregiudizi
  4. Assenza di Soluzioni: Nessun metodo specifico fornito per mitigare le illusioni causali

Impatto

  1. Valore Accademico: Fornisce un nuovo framework di valutazione per la ricerca sui pregiudizi cognitivi dell'IA
  2. Valore Pratico: Avverte della necessità di cautela nell'utilizzo dei modelli linguistici in settori decisionali critici
  3. Riproducibilità: Fornisce codice e dati completi, facilitando la riproduzione e l'estensione

Scenari Applicabili

Questa ricerca è particolarmente applicabile a:

  1. Valutazione della Sicurezza dell'IA: Valutazione dei pregiudizi cognitivi dei sistemi di IA
  2. Applicazioni di IA Medica: Valutazione del rischio nei sistemi di supporto alle decisioni mediche
  3. Educazione e Formazione: Aumento della consapevolezza dei limiti dell'IA

Bibliografia

Questo studio cita importanti letteratura nei campi della scienza cognitiva, della psicologia sperimentale e della valutazione dell'IA, in particolare il lavoro fondamentale di Matute et al. (2015) sulle illusioni causali e la ricerca recente sulle capacità di ragionamento causale dei modelli linguistici.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità interdisciplinare che applica con successo un paradigma classico della scienza cognitiva alla valutazione dell'IA, rivelando importanti difetti nel ragionamento causale dei modelli linguistici. La metodologia è rigorosa, i risultati hanno significato teorico e pratico importante, fornendo preziose intuizioni per la ricerca futura sulla sicurezza dell'IA.