Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
- Paper-ID: 2510.13985
- Titel: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- Autoren: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- Klassifizierung: cs.AI
- Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
- Paper-Link: https://arxiv.org/abs/2510.13985
Kausales Lernen ist ein kognitiver Prozess der Kausalschlussfolgerung auf Grundlage verfügbarer Informationen, der normalerweise normativen Prinzipien folgt. Dieser Prozess ist anfällig für Fehler und Verzerrungen, wie beispielsweise kausale Illusionen, bei denen Menschen eine Kausalbeziehung zwischen zwei Variablen wahrnehmen, ohne dass unterstützende Evidenz vorhanden ist. Diese kognitiven Verzerrungen gelten als Wurzel vieler sozialer Probleme, einschließlich sozialer Vorurteile, Stereotypenbildung, Desinformation und abergläubisches Denken. Diese Studie untersucht mittels eines klassischen Paradigmas der kognitiven Wissenschaft – der Kontingenzbeurteilungsaufgabe – ob große Sprachmodelle anfällig für kausale Illusionen sind. Die Studie konstruiert einen Datensatz von 1000 Szenarien mit Null-Kontingenz (bei denen die verfügbaren Informationen nicht ausreichen, um eine Kausalbeziehung zwischen Variablen herzustellen) und veranlasst LLMs, die Gültigkeit potenzieller Ursachen in einem medizinischen Kontext zu bewerten. Die Studie zeigt, dass alle bewerteten Modelle systematisch unangemessene Kausalbeziehungen ableiten und eine starke Anfälligkeit für kausale Illusionen aufweisen.
Die Kernfrage dieser Studie lautet: Zeigen große Sprachmodelle bei klassischen Paradigmen der kognitiven Wissenschaft ähnliche kausale Illusionsverzerrungen wie Menschen?
- Gesellschaftliche Auswirkungen: Kausale Illusionen sind die Wurzel sozialer Vorurteile, Stereotypenbildung, Desinformationsverbreitung und abergläubischen Denkens
- Praktische Anwendungen: In kritischen Bereichen wie der Medizin ist eine genaue Kausalschlussfolgerung für fundierte Entscheidungen von entscheidender Bedeutung
- KI-Sicherheit: Mit der weit verbreiteten Anwendung von LLMs in Entscheidungssystemen wird das Verständnis ihrer kognitiven Verzerrungen äußerst wichtig
- Mangel an systematischer Bewertung der Leistung von LLMs bei Kontingenzbeurteilungsaufgaben
- Kontroverse darüber, ob LLMs Kausalbeziehungen wirklich "verstehen" oder nur kausale Sprache nachahmen
- Bestehende Forschung konzentriert sich hauptsächlich auf fehlerhafte Schlussfolgerungen von Korrelation zu Kausalität, nicht auf kausale Illusionen in Null-Kontingenz-Szenarien
Durch die Bewertung der Kausalschlussfolgerungsfähigkeit von LLMs mittels klassischer Kontingenzbeurteilungsaufgaben werden empirische Erkenntnisse zum Verständnis ihrer kognitiven Verzerrungen bereitgestellt.
- Erste Anpassung der Kontingenzbeurteilungsaufgabe an LLMs: Dies ist die erste Studie, die das klassische Kontingenzbeurteilungsparadigma aus der experimentellen Psychologie auf große Sprachmodelle anwendet
- Konstruktion eines großflächigen Null-Kontingenz-Szenario-Datensatzes: Erstellung von 1000 Szenarien mit Null-Kontingenz im medizinischen Kontext mit vier Variablentypen
- Entdeckung universeller kausaler Illusionen in LLMs: Alle bewerteten Modelle leiten systematisch Kausalbeziehungen in Null-Kontingenz-Szenarien ab
- Offenlegung inkonsistenter Kausalbeurteilungsstandards zwischen Modellen: Verschiedene Modelle verwenden unterschiedliche Standards für Kausalschlussfolgerung und zeigen mangelnde Konsistenz
Die Kontingenzbeurteilungsaufgabe ist ein klassisches Paradigma in der kognitiven Wissenschaft zur Bewertung des kausalen Lernens:
- Eingabe: Eine Reihe von Versuchen, wobei jeder Versuch eine potenzielle Ursache (vorhanden/abwesend) und ein Ergebnis (tritt auf/tritt nicht auf) enthält
- Ausgabe: Eine Bewertung der Gültigkeit der potenziellen Ursache (0-100 Punkte, wobei 0 bedeutet unwirksam und 100 bedeutet vollständig wirksam)
- Null-Kontingenz-Bedingung: Die Wahrscheinlichkeit des Ergebnisses ist unabhängig davon, ob die Ursache vorhanden ist
- Variablentypen (4 Kategorien, insgesamt 100 Variablenpaare):
- Fiktive Krankheits- und Behandlungsnamen (z.B. "Glimber-Medikament" und "Drizzlemorn-Störung")
- Unsichere Variablen (z.B. "Krankheit X" und "Medikament Y")
- Alternative Medizin- und Pseudomedizin-Variablen (z.B. "Akupunktur-Prozess")
- Validierte wissenschaftliche Medikamente (z.B. "Paracetamol")
- Szenariogenerierung:
- 1000 Null-Kontingenz-Szenarien
- 20-100 Versuche pro Szenario
- 80/20-Verteilung zur Gewährleistung der Null-Kontingenz
- Temperatureinstellungen:
- Experiment 1: Temperatur = 1, 10 Wiederholungen pro Szenario
- Experiment 2: Temperatur = 0 (deterministisch)
- Experiment 3: Standardtemperatureinstellung
- Bewertete Modelle:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- Aufgabenanpassung: Anpassung der sequenziellen Präsentationsmethode aus menschlichen kognitiven Experimenten an ein natürlichsprachiges Listenformat
- Rollengestaltung: Erhöhung der Aufgabenrealität durch Rollenspiel (Arzt, Forscher)
- Variablenkontrolle: Strikte Kontrolle der Null-Kontingenz-Bedingung zur Gewährleistung der internen Validität des Experiments
- Umfang: 1000 Null-Kontingenz-Szenarien
- Anzahl der Versuche: 20-100 Versuche pro Szenario
- Variablenpaare: 100 medizinisch relevante Variablenpaare
- Verteilungskontrolle: 80/20-Verteilung zur Gewährleistung der Null-Kontingenz
- Hauptmetrik: Gültigkeitsbewertung auf einer 0-100-Skala
- Statistische Tests:
- Wilcoxon-Einstichproben-Test (Test auf Abweichung von 0)
- Friedman-Test (Vergleich der Unterschiede zwischen Modellen)
- Cochran's Q-Test (Vergleich der Wahrscheinlichkeit von Null-Antworten)
- Prompt-Engineering: Auf Grundlage bewährter Praktiken der experimentellen Psychologie
- Wiederholte Experimente: Mehrere Temperatureinstellungen zur Gewährleistung der Robustheit der Ergebnisse
- Statistische Analyse: Verwendung nichtparametrischer Tests zur Behandlung nicht-normaler Verteilungen
| Modell | Mittelwert | Median | Standardabweichung |
|---|
| GPT-4o-Mini | 75,74 | 75,7 | 11,41 |
| Claude-3.5-Sonnet | 40,54 | 50,0 | 19,67 |
| Gemini-1.5-Pro | 33,07 | 45,0 | 23,72 |
- Universelle Existenz kausaler Illusionen: Die Mediane aller Modelle sind signifikant größer als 0 (p < 0,001)
- Äußerst niedriger Anteil von Null-Antworten:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4,6%
- Gemini-1.5-Pro: 20,5%
- Signifikante Unterschiede zwischen Modellen: Der Friedman-Test zeigt signifikante Unterschiede zwischen Modellen (χ² = 1516,99, p < 0,001)
Die experimentellen Ergebnisse zeigen, dass Modelle keine signifikanten Unterschiede in den Kausalbeurteilungen zwischen verschiedenen Variablentypen (fiktiv, unsicher, alternative Medizin, traditionelle Medizin) aufweisen und sogar dazu neigen, fiktiven Variablen höhere Bewertungen zu geben.
Bei Temperatur = 0 und Standardtemperatureinstellungen bleiben die experimentellen Ergebnisse konsistent, was die Robustheit der Ergebnisse unterstreicht.
- Gao et al. (2023): Bewertung der Kausalschlussfolgerungsfähigkeit von LLMs
- Liu et al. (2023): Kausalschlussfolgerung im Code-Bereich
- Jin et al. (2024): Schlussfolgerung von Korrelation zu Kausalität
- Keshmirian et al. (2024): Verzerrte Kausalbeurteilungen in LLMs
- Carro et al. (2024): Korrelations-Kausalitäts-Übertreibung in Nachrichtenschlagzeilen
- Jin et al. (2022): Erkennung logischer Fehlschlüsse
Diese Studie ist die erste, die die Kontingenzbeurteilungsaufgabe auf LLMs anwendet und füllt damit eine wichtige Lücke zwischen kognitiver Wissenschaft und KI-Bewertung.
- Universelle Existenz kausaler Illusionen in LLMs: Alle bewerteten Modelle leiten systematisch Kausalbeziehungen in Null-Kontingenz-Szenarien ab
- Mangel an einheitlichen Kausalbeurteilungsstandards: Verschiedene Modelle verwenden unterschiedliche Beurteilungsstandards
- Unterstützung der "Sprachnachahmungs"-Hypothese: Die Ergebnisse unterstützen die Hypothese, dass LLMs nur kausale Sprache nachahmen, anstatt Kausalbeziehungen wirklich zu verstehen
- Fehlende menschliche Baseline: Keine entsprechenden menschlichen Experimente als Vergleichsmaßstab
- Begrenzte externe Validität: Obwohl das experimentelle Design bewährten psychologischen Praktiken folgt, kann es möglicherweise nicht vollständig reale Nutzungsszenarien repräsentieren
- Bewertungsverzerrung: LLMs können eine Verzerrung bei der Reaktion auf Extremwerte aufweisen
- Probleme mit der internen Validität: Die 0-100-Bewertungsskala ist möglicherweise nicht das beste Format für die KI-Bewertung
- Prompt-Techniken: Erforschung der Wirksamkeit von Prompt-Techniken wie Chain-of-Thought
- Diversifizierte Szenarien: Einbeziehung von positiven und negativen Kontingenz-Szenarien
- Versuchsreihenfolge-Effekte: Untersuchung des Einflusses der Versuchspräsentationsreihenfolge auf die Ergebnisse
- Alternative Aufgabenformate: Verwendung binärer oder mehrklassiger Klassifizierungsformate
- Hohe Innovativität: Erste Anwendung eines klassischen kognitiven Wissenschaftsparadigmas auf die LLM-Bewertung
- Rigorose Methodik: Das experimentelle Design folgt bewährten psychologischen Praktiken mit umfassender statistischer Analyse
- Konsistente Ergebnisse: Die Ergebnisse bleiben über verschiedene Temperatureinstellungen hinweg konsistent und erhöhen die Glaubwürdigkeit der Ergebnisse
- Praktische Bedeutung: Wichtige Warnung für KI-Sicherheit und Anwendungen
- Begrenzte Stichprobe: Nur drei Modelle wurden bewertet, könnten auf mehr Modelle erweitert werden
- Domänenbeschränkung: Nur im medizinischen Bereich getestet, Generalisierbarkeit auf andere Bereiche unbekannt
- Unzureichende Mechanismusanalyse: Mangel an Analyse der tieferen Mechanismen, die zu Verzerrungen führen
- Fehlende Lösungen: Keine spezifischen Methoden zur Verringerung kausaler Illusionen bereitgestellt
- Akademischer Wert: Bietet einen neuen Bewertungsrahmen für die Forschung zu kognitiven Verzerrungen in der KI
- Praktischer Wert: Warnt vor Vorsicht bei der Verwendung von LLMs in kritischen Entscheidungsbereichen
- Reproduzierbarkeit: Vollständiger Code und Daten werden bereitgestellt, um Reproduktion und Erweiterung zu ermöglichen
Diese Forschung ist besonders geeignet für:
- KI-Sicherheitsbewertung: Bewertung kognitiver Verzerrungen von KI-Systemen
- Medizinische KI-Anwendungen: Risikobewertung in medizinischen Entscheidungssystemen
- Bildung und Schulung: Erhöhung des Bewusstseins für die Grenzen der KI
Diese Studie zitiert wichtige Literatur aus den Bereichen kognitiver Wissenschaft, experimenteller Psychologie und KI-Bewertung, insbesondere die grundlegende Arbeit von Matute et al. (2015) zu kausalen Illusionen sowie aktuelle Forschungen zur Kausalschlussfolgerungsfähigkeit von LLMs.
Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das erfolgreich ein klassisches Paradigma der kognitiven Wissenschaft auf die KI-Bewertung anwendet und wichtige Mängel in der Kausalschlussfolgerung von LLMs offenlegt. Die Forschungsmethodik ist rigoros, die Ergebnisse haben wichtige theoretische und praktische Bedeutung und bieten wertvolle Erkenntnisse für zukünftige KI-Sicherheitsforschung.