2025-11-13T14:19:10.992196

Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning

Yamin, Ghosal, Wilder
Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.
academic

I modelli di linguaggio di grandi dimensioni possono riconciliare i conflitti di conoscenza nel ragionamento contraffattuale?

Informazioni di base

  • ID articolo: 2506.15732
  • Titolo: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
  • Autori: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
  • Classificazione: cs.AI cs.LG
  • Data di pubblicazione/Conferenza: ICLR 2026
  • Link articolo: https://arxiv.org/abs/2506.15732v2

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) contengono una ricca conoscenza del mondo nei loro parametri e mostrano prestazioni eccellenti in molti compiti ad alta intensità di conoscenza. Tuttavia, quando distribuiti in nuovi ambienti, gli LLM incontrano frequentemente situazioni in cui devono combinare la conoscenza parametrizzata con informazioni nuove o sconosciute. Questo studio esamina, dalla prospettiva del ragionamento contraffattuale, se gli LLM possono integrare la conoscenza contestuale con la loro conoscenza parametrizzata. Attraverso esperimenti sintetici e reali su problemi di ragionamento multi-salto, la ricerca dimostra che gli LLM incontrano difficoltà diffuse nel ragionamento contraffattuale, spesso affidandosi esclusivamente alla loro conoscenza parametrizzata. Inoltre, il semplice fine-tuning a posteriori difficilmente riesce a incorporare capacità di ragionamento contraffattuale, portando spesso al deterioramento della conoscenza parametrizzata memorizzata. Infine, questo lavoro rivela importanti limitazioni attuali degli LLM nel riutilizzare la conoscenza parametrizzata in nuovi contesti.

Contesto della ricerca e motivazione

Problema centrale

Il problema centrale che questo studio affronta è: i modelli di linguaggio moderni possono selettivamente combinare la conoscenza parametrizzata con premesse contraffattuali nel contesto per rispondere correttamente a domande multi-salto?

Importanza del problema

  1. Esigenze di applicazione pratica: Molti scenari del mondo reale richiedono agli LLM di combinare la conoscenza pre-addestrata con informazioni nuove o ipotetiche fornite al momento dell'inferenza
  2. Sfida dei conflitti di conoscenza: La generazione aumentata da recupero affronta difficoltà quando i documenti esterni entrano in conflitto con la conoscenza interna
  3. Applicazioni critiche per la sicurezza: Il ragionamento condizionale accurato è cruciale nei sistemi interattivi, nelle pipeline di generazione aumentata da recupero e nelle applicazioni critiche per la sicurezza

Limitazioni degli approcci esistenti

  • I benchmark attuali di QA multi-salto valutano principalmente la capacità del modello di richiamare fatti memorizzati o combinare catene di conoscenza parametrizzata, non testando il doppio requisito
  • La ricerca sui conflitti di conoscenza manca di un'esplorazione sistematica del ragionamento contraffattuale multi-salto
  • Sebbene i metodi RAG possano integrare informazioni esterne, non affrontano le sfide uniche del ragionamento contraffattuale

Motivazione della ricerca

Attraverso il compito specifico del ragionamento contraffattuale, studiare sistematicamente le prestazioni degli LLM di fronte ai conflitti di conoscenza, in particolare la capacità di eseguire simultaneamente override contestuale (Contextual Override) e recupero selettivo (Selective Retrieval).

Contributi principali

  1. Benchmark di QA contraffattuale: Introduce compiti basati su grafi sintetici e scenari di ragionamento causale nel mondo reale, isolando i casi di contesto (i) di rinforzo, (ii) di aggiunta, (iii) di contraddizione e (iv) irrilevante rispetto al grafo di conoscenza pre-addestrato
  2. Analisi empirica: Attraverso esperimenti con GPT-4o e altri modelli SOTA, identifica due principali modalità di fallimento: (a) ignoranza contestuale (il modello utilizza per impostazione predefinita fatti memorizzati) e (b) overfitting contestuale (il modello segue ciecamente il prompt)
  3. Analisi delle insidie del fine-tuning: Dimostra che il semplice fine-tuning a posteriori su esempi contraffattuali spesso produce solo guadagni marginali e può ridurre le prestazioni sui benchmark di fatti standard inducendo euristiche inaspettate
  4. Significato pratico: Discute le implicazioni dei risultati della ricerca per sistemi interattivi, pipeline di generazione aumentata da recupero e applicazioni critiche per la sicurezza

Spiegazione dettagliata del metodo

Definizione del compito

Lo studio definisce un compito di ragionamento contraffattuale multi-salto che richiede al modello di:

  1. Override contestuale: Sopprimere temporaneamente i fatti predefiniti e accettare premesse ipotetiche
  2. Recupero selettivo: Recuperare e utilizzare associazioni rilevanti memorizzate nei pesi, anche se alcune informazioni sono state modificate

Esempio: "Se Parigi si trovasse in Italia, in quale paese si troverebbe la Torre Eiffel?"

  • Richiede di ignorare la conoscenza parametrizzata "Parigi è in Francia"
  • Richiede di conservare l'associazione "La Torre Eiffel è a Parigi"

Progettazione sperimentale

Esperimenti con LLM nel mondo reale

Le informazioni contestuali sono divise in 4 scenari:

  1. Scenario 1 (Rinforzo della conoscenza precedente): Fornisce relazioni già esistenti nel grafo di conoscenza parametrizzato
  2. Scenario 2 (Aggiunta di nuove informazioni): Fornisce informazioni necessarie per rispondere alla query ma mancanti nel grafo di conoscenza parametrizzato
  3. Scenario 3 (Contraddizione della conoscenza precedente): Fornisce informazioni che entrano fortemente in conflitto con la conoscenza esistente
  4. Scenario 4 (Informazioni irrilevanti): Fornisce informazioni non correlate alla query

Esperimenti in ambiente sintetico

In un'impostazione controllata di grafo di conoscenza sintetico:

  • Genera casualmente grafi diretti G, con vertici che rappresentano entità e archi che rappresentano relazioni
  • Distingue tra fatti atomici (singolo arco) e fatti inferiti (combinazione di due salti)
  • Testa tre tipi di contraffattuali:
    • Contraffattuali rilevanti per il salto 1: la premessa contraffattuale modifica il primo salto del fatto inferito
    • Contraffattuali rilevanti per il salto 2: la premessa contraffattuale modifica il collegamento tra l'entità ponte e la risposta finale
    • Contraffattuali irrilevanti: la premessa contraffattuale è completamente non correlata alla query multi-salto

Strategie di prompt

Confronta tre strategie:

  1. Standard: Query causale diretta
  2. CoT: Prompt con catena di pensiero
  3. FT: Fine-tuning su esempi contraffattuali con spiegazioni CoT

Configurazione sperimentale

Dataset

  • Esperimenti nel mondo reale: Compiti di classificazione binaria basati su relazioni causali, baseline casuale del 50%
  • Esperimenti sintetici: Grafi di conoscenza generati casualmente, contenenti fatti atomici e fatti inferiti

Metriche di valutazione

  • Accuratezza (Accuracy)
  • Prestazioni su compiti di ragionamento a 1 salto e 2 salti

Metodi di confronto

  • GPT-4o (versioni standard, CoT, fine-tuned)
  • GPT-5 (Thinking)
  • Llama 3.1 8B

Dettagli di implementazione

  • Fine-tuning GPT: 38.754 token di addestramento, 3 epoch, dimensione batch 1, moltiplicatore di tasso di apprendimento 2
  • Fine-tuning Llama: 5 epoch, LoRA rank 8, tasso di apprendimento 0,0001
  • Esperimenti sintetici: Utilizzo di 4 GPU NVIDIA A6000, totale 72 ore GPU

Risultati sperimentali

Risultati principali

Prestazioni degli LLM nel mondo reale

  1. Scenario 1 (Rinforzo precedente): Tutti i modelli mostrano prestazioni eccellenti, con accuratezza tra il 90%-100%
  2. Scenario 2 (Aggiunta di informazioni): Accuratezza del 60-75% per modelli non fine-tuned, miglioramento a circa il 90% dopo fine-tuning
  3. Scenario 3 (Conflitto precedente): Crollo delle prestazioni a circa il 50% della baseline, con fine-tuning che produce solo miglioramenti marginali
  4. Scenario 4 (Informazioni irrilevanti): Prestazioni forti, GPT-5 raggiunge un'accuratezza quasi perfetta

Scoperte in ambiente sintetico

  • Fine-tuning induce scorciatoie: Il modello impara rapidamente a ripetere le entità mostrate nella premessa contraffattuale, piuttosto che eseguire vero ragionamento
  • Difficoltà di override selettivo: Il modello non riesce a imparare a distinguere quando la premessa contraffattuale è rilevante
  • Inclusione di dati contraffattuali durante il pre-addestramento: Può migliorare le prestazioni del ragionamento contraffattuale, ma potrebbe danneggiare le prestazioni dei compiti fattivi

Esperimenti di ablazione

Attraverso esperimenti controllati, si dimostra che il deterioramento delle prestazioni non è causato da cambiamenti di formato:

  • Costruisce compiti CoT che non richiedono override contestuale
  • Il fine-tuning si adatta rapidamente a questo tipo di compito (accuratezza di test del 100%)
  • Dimostra che il fallimento del ragionamento contraffattuale deriva dalla difficoltà del compito stesso, non dall'oblio catastrofico generale

Scoperte chiave

  1. Due principali modalità di fallimento:
    • Ignoranza contestuale: il modello utilizza per impostazione predefinita fatti memorizzati
    • Overfitting contestuale: il modello segue ciecamente il prompt ma dimentica i collegamenti rilevanti
  2. Impatto dell'allineamento: Gli LLM moderni di produzione sono addestrati con allineamento di fattualità e sicurezza, con una tendenza a fare affidamento sulla conoscenza parametrizzata pre-addestrata
  3. Limitazioni del fine-tuning: Il semplice fine-tuning a posteriori difficilmente riesce a incorporare capacità robuste di ragionamento contraffattuale

Lavori correlati

Domande e risposte multi-salto

  • Benchmark come HotpotQA testano le capacità di ragionamento multi-salto
  • Il lavoro esistente si concentra principalmente sul ragionamento multi-salto che coinvolge solo la conoscenza parametrizzata
  • Questo articolo studia in modo unico i casi che richiedono la combinazione di conoscenza parametrizzata e contestuale

Conflitti di conoscenza

  • I metodi RAG tentano di integrare la memoria parametrizzata con informazioni recuperate
  • Gli approcci esistenti di solito non sono adatti alle sfide uniche del ragionamento contraffattuale
  • Richiedono il mantenimento selettivo e l'integrazione della conoscenza parametrizzata, piuttosto che il suo completo abbandono

Ragionamento causale e contraffattuale

  • La capacità di ragionamento causale degli LLM è un'area di ricerca attiva
  • I benchmark esistenti (CLadder, CounterBench, ecc.) rivelano le limitazioni degli LLM nel ragionamento contraffattuale formale
  • Questo articolo colma il divario nella comprensione di come gli LLM integrino la conoscenza parametrizzata con premesse contraffattuali nel ragionamento multi-salto

Conclusioni e discussione

Conclusioni principali

  1. Limitazioni fondamentali: Gli LLM attuali mancano di meccanismi robusti per modificare o estendere dinamicamente i loro grafi di conoscenza interna in risposta a informazioni conflittuali o nuove
  2. Modalità di fallimento diffuse: I problemi di ignoranza contestuale e overfitting contestuale persistono in diverse strategie di prompt e metodi di fine-tuning
  3. Effetto limitato del fine-tuning: I semplici metodi di fine-tuning non riescono a risolvere efficacemente il problema del ragionamento contraffattuale e possono danneggiare la conoscenza originale

Limitazioni

  1. Impostazione semplificata: Nell'ambiente sintetico, le premesse contraffattuali sono espresse come modifiche di singoli archi di grafi di conoscenza statici, e le query sono limitate a catene di due salti
  2. Complessità insufficiente: Gli scenari del mondo reale coinvolgono interazioni multi-predicato, relazioni sfumate o probabilistiche, prove multi-fonte rumorose
  3. Limite di profondità: Non esteso a relazioni multi-salto più profonde e più rumorose

Direzioni future

  1. Nuovi paradigmi di modellazione: È necessario sviluppare nuovi paradigmi di modellazione e addestramento che possano integrare dinamicamente la conoscenza memorizzata e contestuale senza danneggiare nessuno dei due aspetti
  2. Ricerca sui meccanismi: Indagare più a fondo i meccanismi di implementazione dell'override selettivo della conoscenza
  3. Estensione della complessità: Estendere l'analisi a relazioni multi-salto più profonde e complesse e scenari reali

Valutazione approfondita

Punti di forza

  1. Importanza del problema: Identifica e studia sistematicamente le limitazioni critiche degli LLM negli scenari di conflitto di conoscenza
  2. Progettazione sperimentale rigorosa: Combina ambienti reali e sintetici, fornendo una prospettiva analitica completa
  3. Scoperte perspicaci: Rivela due modalità di fallimento distinte, fornendo intuizioni importanti per comprendere il comportamento degli LLM
  4. Contributo metodologico: Propone un framework efficace per valutare le capacità di ragionamento contraffattuale

Carenze

  1. Mancanza di soluzioni: Identifica principalmente i problemi ma non propone soluzioni efficaci
  2. Gamma di modelli limitata: Testa principalmente pochi modelli, mancando di una valutazione più ampia
  3. Complessità del compito: L'impostazione del compito attuale è relativamente semplice, con un divario rispetto alle applicazioni reali
  4. Analisi teorica insufficiente: Manca di spiegazioni teoriche profonde dei meccanismi di fallimento

Impatto

  1. Valore accademico: Fornisce una base importante per la ricerca sull'integrazione della conoscenza negli LLM, potenzialmente ispirando direzioni di ricerca successive
  2. Significato pratico: Ha importanti implicazioni di guida per i sistemi RAG e le applicazioni che richiedono integrazione dinamica della conoscenza
  3. Effetto di avvertimento: Avverte i ricercatori e i professionisti delle limitazioni degli LLM negli scenari di conflitto di conoscenza

Scenari applicabili

  1. Sistemi di recupero aumentato: Guida la progettazione dei sistemi RAG nel trattamento delle informazioni conflittuali
  2. IA interattiva: Fornisce riferimenti per sistemi di dialogo che devono gestire scenari ipotetici
  3. Applicazioni critiche per la sicurezza: Richiede particolare cautela quando applicato in domini che richiedono ragionamento condizionale accurato

Riferimenti bibliografici

L'articolo cita importanti lavori nei campi correlati, tra cui:

  • Benchmark di domande e risposte multi-salto (HotpotQA, NaturalQuestions)
  • Metodi di gestione dei conflitti di conoscenza (RAG, REALM, DPR)
  • Valutazione del ragionamento causale (CLadder, CounterBench)
  • Analisi dei meccanismi degli LLM (Grokking transformers, ecc.)

Valutazione complessiva: Questo è un articolo di ricerca di alta qualità che identifica e analizza sistematicamente importanti limitazioni degli LLM nel ragionamento contraffattuale. Sebbene non fornisca soluzioni complete, pone basi importanti per comprendere e migliorare le capacità di integrazione della conoscenza degli LLM, svolgendo un ruolo importante nel promuovere lo sviluppo di questo campo.