2025-11-13T14:19:10.992196

Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning

Yamin, Ghosal, Wilder
Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.
academic

Können LLMs Wissenskonflikte beim kontrafaktischen Schlussfolgern reconciliieren?

Grundinformationen

  • Paper-ID: 2506.15732
  • Titel: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
  • Autoren: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
  • Klassifizierung: cs.AI cs.LG
  • Veröffentlichungszeitpunkt/Konferenz: ICLR 2026
  • Paper-Link: https://arxiv.org/abs/2506.15732v2

Zusammenfassung

Große Sprachmodelle (LLMs) enthalten umfangreiches Weltwissen in ihren Parametern und zeigen hervorragende Leistungen bei vielen wissensintensiven Aufgaben. Bei der Bereitstellung in neuen Umgebungen stoßen LLMs jedoch häufig auf Situationen, in denen sie parametrisiertes Wissen mit neuen oder unbekannten Informationen kombinieren müssen. Diese Forschung untersucht aus der Perspektive des kontrafaktischen Schlussfolgerns, ob LLMs kontextabhängiges Wissen mit ihrem parametrisierten Wissen kombinieren können. Durch synthetische und reale Experimente bei mehrstufigen Inferenzproblemen zeigt die Forschung, dass LLMs allgemein Schwierigkeiten beim kontrafaktischen Schlussfolgern haben und sich häufig ausschließlich auf ihr parametrisiertes Wissen verlassen. Darüber hinaus ist einfaches Post-hoc-Fine-Tuning kaum in der Lage, kontrafaktische Schlussfolgerungsfähigkeiten zu vermitteln, und führt häufig zu Verschlechterung des gespeicherten parametrisierten Wissens. Letztendlich offenbart diese Arbeit wichtige Einschränkungen der Fähigkeit aktueller LLMs, parametrisiertes Wissen in neuen Einstellungen wiederzuverwenden.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist: Können moderne LLMs selektiv parametrisiertes Wissen mit kontrafaktischen Prämissen im Kontext kombinieren, um mehrstufige Fragen korrekt zu beantworten?

Bedeutung des Problems

  1. Praktische Anforderungen: Viele reale Szenarien erfordern, dass LLMs vortrainiertes Wissen mit neuartigen oder hypothetischen Informationen kombinieren, die zur Inferenzzeit bereitgestellt werden
  2. Herausforderung von Wissenskonflikten: Wenn externe Dokumente mit internem Wissen in Konflikt stehen, sieht sich die Retrieval-Augmented Generation mit Schwierigkeiten konfrontiert
  3. Sicherheitskritische Anwendungen: In interaktiven Systemen, Retrieval-Augmented Pipelines und sicherheitskritischen Anwendungen ist genaue bedingte Schlussfolgerung entscheidend

Einschränkungen bestehender Methoden

  • Bestehende mehrstufige QA-Benchmarks bewerten hauptsächlich die Fähigkeit des Modells, gespeicherte Fakten zu erinnern oder Ketten parametrisierter Kenntnisse zu kombinieren, testen aber nicht die duale Anforderung
  • Forschung zu Wissenskonflikten mangelt es an systematischer Erforschung des kontrafaktischen mehrstufigen Schlussfolgerns
  • Obwohl RAG-Methoden externe Informationen zusammenführen können, können sie die einzigartigen Herausforderungen des kontrafaktischen Schlussfolgerns nicht bewältigen

Forschungsmotivation

Durch die spezifische Aufgabe des kontrafaktischen Schlussfolgerns wird systematisch untersucht, wie LLMs bei Wissenskonflikten abschneiden, insbesondere die Fähigkeit, gleichzeitig kontextabhängige Übersteuerung (Contextual Override) und selektives Abrufen (Selective Retrieval) durchzuführen.

Kernbeiträge

  1. Kontrafaktisches QA-Benchmark: Einführung von aufgabenbasierten synthetischen Graphen und realen Szenarien kausaler Schlussfolgerung, die vier Kontexttypen relativ zur vortrainierten Wissensgraph isolieren: (i) Verstärkung, (ii) Hinzufügung, (iii) Widerspruch und (iv) irrelevanter Kontext
  2. Empirische Analyse: Durch Experimente mit GPT-4o und anderen State-of-the-Art-Modellen werden zwei Hauptfehlermuster identifiziert: (a) Kontextignoranz (Modell verwendet standardmäßig gespeicherte Fakten) und (b) Kontextüberanpassung (Modell folgt blind der Eingabeaufforderung)
  3. Analyse der Fine-Tuning-Fallstricke: Nachweis, dass einfaches Post-hoc-Fine-Tuning bei kontrafaktischen Beispielen typischerweise nur marginale Gewinne bringt und die Leistung bei Standard-Faktenbenchmarks durch Induktion unerwarteter Heuristiken verschlechtern kann
  4. Praktische Bedeutung: Diskussion der Auswirkungen der Forschungsergebnisse auf interaktive Systeme, Retrieval-Augmented Pipelines und sicherheitskritische Anwendungen

Methodische Details

Aufgabendefinition

Die Forschung definiert eine kontrafaktische mehrstufige Inferenzaufgabe, die vom Modell verlangt:

  1. Kontextabhängige Übersteuerung: Vorübergehend Standardfakten unterdrücken und hypothetische Prämissen akzeptieren
  2. Selektives Abrufen: Abrufen und Nutzen relevanter Assoziationen, die in Gewichten gespeichert sind, auch wenn einige Informationen geändert wurden

Beispiel: "Wenn Paris in Italien läge, in welchem Land würde sich der Eiffelturm befinden?"

  • Erfordert Übersteuerung des parametrisierten Wissens "Paris liegt in Frankreich"
  • Erfordert Beibehaltung der Assoziation "Eiffelturm befindet sich in Paris"

Experimentelles Design

Experimente mit realen LLMs

Kontextinformationen werden in 4 Szenarien unterteilt:

  1. Szenario 1 (Verstärkung von Vorwissen): Bereitstellung von Beziehungen, die bereits in der parametrisierten Wissensgraph existieren
  2. Szenario 2 (Hinzufügung neuer Informationen): Bereitstellung von Informationen, die zur Beantwortung der Abfrage erforderlich sind, aber in der parametrisierten Wissensgraph fehlen
  3. Szenario 3 (Widerspruch zu Vorwissen): Bereitstellung von Informationen, die stark mit bestehendem parametrisierten Wissen in Konflikt stehen
  4. Szenario 4 (Irrelevante Informationen): Bereitstellung von Informationen, die für die Abfrage irrelevant sind

Experimente in synthetischer Umgebung

In kontrollierten synthetischen Wissensgraph-Einstellungen:

  • Zufällig generierte gerichtete Graphen G, wobei Knoten Entitäten und Kanten Beziehungen darstellen
  • Unterscheidung zwischen atomaren Fakten (einzelne Kanten) und abgeleiteten Fakten (zweistufige Kombinationen)
  • Test von drei kontrafaktischen Typen:
    • Hop 1 relevant: Kontrafaktische Prämisse modifiziert den ersten Hop des abgeleiteten Fakts
    • Hop 2 relevant: Kontrafaktische Prämisse modifiziert die Verbindung zwischen Brückeneintität und endgültiger Antwort
    • Irrelevante Kontrafaktik: Kontrafaktische Prämisse ist völlig unabhängig von der mehrstufigen Abfrage

Eingabeaufforderungsstrategien

Vergleich von drei Strategien:

  1. Standard: Direkte kausale Abfrage
  2. CoT: Chain-of-Thought-Eingabeaufforderung
  3. FT: Fine-Tuning auf kontrafaktischen Beispielen mit CoT-Erklärungen

Experimentelle Einrichtung

Datensätze

  • Experimente mit realen Daten: Binäre Klassifizierungsaufgaben basierend auf Kausalbeziehungen mit 50% Zufallsbaseline
  • Synthetische Experimente: Zufällig generierte Wissensgraphen mit atomaren und abgeleiteten Fakten

Bewertungsmetriken

  • Genauigkeit (Accuracy)
  • Leistung bei 1-Hop- und 2-Hop-Inferenzaufgaben

Vergleichsmethoden

  • GPT-4o (Standard-, CoT-, Fine-Tuning-Versionen)
  • GPT-5 (Thinking)
  • Llama 3.1 8B

Implementierungsdetails

  • GPT Fine-Tuning: 38.754 Trainings-Token, 3 Epochen, Batch-Größe 1, Learning-Rate-Multiplikator 2
  • Llama Fine-Tuning: 5 Epochen, LoRA-Rang 8, Learning-Rate 0,0001
  • Synthetische Experimente: 4 NVIDIA A6000 GPUs, insgesamt 72 GPU-Stunden

Experimentelle Ergebnisse

Hauptergebnisse

Leistung realer LLMs

  1. Szenario 1 (Verstärkung von Vorwissen): Alle Modelle zeigen hervorragende Leistung mit Genauigkeit zwischen 90%-100%
  2. Szenario 2 (Hinzufügung von Informationen): Nicht fine-getunte Modelle erreichen 60-75% Genauigkeit, nach Fine-Tuning etwa 90%
  3. Szenario 3 (Widerspruch zu Vorwissen): Leistung bricht auf nahe der 50%-Baseline zusammen, Fine-Tuning bringt nur marginale Verbesserungen
  4. Szenario 4 (Irrelevante Informationen): Starke Leistung, GPT-5 erreicht nahezu perfekte Genauigkeit

Erkenntnisse aus synthetischer Umgebung

  • Fine-Tuning induziert Abkürzungen: Modelle lernen schnell, Entitäten aus kontrafaktischen Prämissen zu wiederholen, anstatt echte Schlussfolgerungen durchzuführen
  • Schwierigkeit bei selektiver Übersteuerung: Modelle können nicht lernen, zu unterscheiden, wann kontrafaktische Prämissen relevant sind
  • Kontrafaktische Daten während des Vortrainings: Kann die Leistung beim kontrafaktischen Schlussfolgern verbessern, kann aber die Leistung bei faktischen Aufgaben beeinträchtigen

Ablationsstudien

Kontrollexperimente beweisen, dass Leistungsverschlechterung nicht durch Formatänderungen verursacht wird:

  • Konstruktion von CoT-Aufgaben, die keine Kontextübersteuerung erfordern
  • Fine-Tuning passt sich schnell an solche Aufgaben an (100% Test-Genauigkeit)
  • Zeigt, dass das Versagen beim kontrafaktischen Schlussfolgern aus der Aufgabenschwierigkeit selbst und nicht aus allgemeinem katastrophalem Vergessen stammt

Wichtigste Erkenntnisse

  1. Zwei Hauptfehlermuster:
    • Kontextignoranz: Modell verwendet standardmäßig gespeicherte Fakten
    • Kontextüberanpassung: Modell folgt blind der Eingabeaufforderung, vergisst aber relevante Verbindungen
  2. Auswirkungen der Ausrichtung: Moderne produktive LLMs werden auf Faktizität und Sicherheit ausgerichtet trainiert und bevorzugen es, sich auf vortrainierte parametrisierte Kenntnisse zu verlassen
  3. Einschränkungen des Fine-Tuning: Einfaches Post-hoc-Fine-Tuning kann robuste kontrafaktische Schlussfolgerungsfähigkeiten kaum vermitteln

Verwandte Arbeiten

Mehrstufige Frage-Antwort

  • Benchmarks wie HotpotQA testen mehrstufige Schlussfolgerungsfähigkeiten
  • Bestehende Arbeiten konzentrieren sich hauptsächlich auf mehrstufige Schlussfolgerungen, die nur parametrisiertes Wissen betreffen
  • Diese Arbeit untersucht einzigartig Fälle, die parametrisiertes und kontextabhängiges Wissen kombinieren

Wissenskonflikte

  • RAG-Methoden versuchen, parametrisiertes Gedächtnis mit abgerufenen Informationen zusammenzuführen
  • Bestehende Methoden sind typischerweise nicht für die einzigartigen Herausforderungen des kontrafaktischen Schlussfolgerns geeignet
  • Erfordert selektive Beibehaltung und Integration parametrisierter Kenntnisse, nicht vollständige Ablehnung

Kausale Schlussfolgerung und Kontrafaktik

  • Die Fähigkeit von LLMs zur kausalen Schlussfolgerung ist ein aktives Forschungsgebiet
  • Bestehende Benchmarks (CLadder, CounterBench usw.) offenbaren Einschränkungen von LLMs bei formaler kontrafaktischer Schlussfolgerung
  • Diese Arbeit füllt die Lücke beim Verständnis, wie LLMs parametrisiertes Wissen und kontrafaktische Prämissen beim mehrstufigen Schlussfolgern integrieren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Grundlegende Einschränkungen: Aktuelle LLMs verfügen nicht über robuste Mechanismen, um interne Wissensgraphen als Reaktion auf widersprüchliche oder neue Informationen dynamisch zu modifizieren oder zu erweitern
  2. Weit verbreitete Fehlermuster: Kontextignoranz und Kontextüberanpassung treten bei verschiedenen Eingabeaufforderungsstrategien und Fine-Tuning-Methoden auf
  3. Begrenzte Fine-Tuning-Effektivität: Einfache Fine-Tuning-Methoden können das kontrafaktische Schlussfolgerungsproblem nicht effektiv lösen und können bestehendes Wissen beeinträchtigen

Einschränkungen

  1. Vereinfachte Einstellung: In der synthetischen Umgebung werden kontrafaktische Prämissen als statische Wissensgraph-Einzelkanten-Bearbeitungen ausgedrückt, Abfragen sind auf zweistufige Verbindungen beschränkt
  2. Unzureichende Komplexität: Reale Szenarien beinhalten Mehrprädikats-Interaktionen, vage oder probabilistische Beziehungen, mehrstufige verrauschte Evidenz
  3. Tiefenbeschränkung: Nicht auf tiefere und lautere mehrstufige Beziehungen erweitert

Zukünftige Richtungen

  1. Neue Modellierungsparadigmen: Entwicklung neuer Modellierungs- und Trainingsparadigmen, die gespeichertes und kontextabhängiges Wissen dynamisch integrieren können, ohne einen Aspekt zu beeinträchtigen
  2. Mechanismusforschung: Tiefere Untersuchung der Mechanismusimplementierung selektiver Wissenübersteuerung
  3. Erweiterte Komplexität: Erweiterung der Analyse auf tiefere, komplexere mehrstufige Beziehungen und reale Szenarien

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Identifiziert und untersucht systematisch kritische Einschränkungen von LLMs in Wissenkonflikt-Szenarien
  2. Strenge Experimentelles Design: Kombiniert reale und synthetische Umgebungen für umfassende Analyseperspektive
  3. Aufschlussreiche Erkenntnisse: Offenbart zwei deutliche Fehlermuster und bietet wichtige Einsichten zum Verständnis von LLM-Verhalten
  4. Methodologischer Beitrag: Schlägt effektiven Rahmen zur Bewertung kontrafaktischer Schlussfolgerungsfähigkeiten vor

Mängel

  1. Fehlende Lösungen: Identifiziert hauptsächlich Probleme, bietet aber keine effektiven Lösungen
  2. Begrenzte Modellabdeckung: Testet hauptsächlich wenige Modelle, mangelnde umfassendere Modellbewertung
  3. Aufgabenkomplexität: Aktuelle Aufgabeneinstellung ist relativ einfach mit Abstand zu realen Anwendungen
  4. Unzureichende theoretische Analyse: Mangel an tieferer theoretischer Erklärung von Fehlermechanismen

Auswirkungen

  1. Akademischer Wert: Bietet wichtige Grundlagen für LLM-Wissensintegrationforschung, kann zukünftige Forschungsrichtungen inspirieren
  2. Praktische Bedeutung: Bietet wichtige Orientierung für RAG-Systeme und Anwendungen, die dynamische Wissensintegration erfordern
  3. Warnfunktion: Erinnert Forscher und Praktiker an Einschränkungen von LLMs in Wissenkonflikt-Szenarien

Anwendungsszenarien

  1. Retrieval-Augmented Systeme: Leitet Design von RAG-Systemen bei der Verarbeitung widersprüchlicher Informationen
  2. Interaktive KI: Bietet Referenz für Dialogsysteme, die hypothetische Szenarien verarbeiten müssen
  3. Sicherheitskritische Anwendungen: Erfordert besondere Vorsicht bei Anwendung in Bereichen, die genaue bedingte Schlussfolgerung erfordern

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

  • Mehrstufige QA-Benchmarks (HotpotQA, NaturalQuestions)
  • Wissenkonflikt-Verarbeitungsmethoden (RAG, REALM, DPR)
  • Kausale Schlussfolgerungsbewertung (CLadder, CounterBench)
  • LLM-Mechanismusanalyse (Grokking transformers usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das systematisch wichtige Einschränkungen von LLMs beim kontrafaktischen Schlussfolgern identifiziert und analysiert. Obwohl es keine vollständigen Lösungen bietet, legt es wichtige Grundlagen für das Verständnis und die Verbesserung der Wissensintegrationsfähigkeiten von LLMs und trägt wesentlich zur Entwicklung dieses Forschungsbereichs bei.