2025-11-13T14:19:10.992196

Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning

Yamin, Ghosal, Wilder

Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.

academic

LLM이 반사실적 추론에서 지식 충돌을 조화시킬 수 있는가?

기본 정보

논문 ID: 2506.15732
제목: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
저자: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
분류: cs.AI cs.LG
발표 시간/학회: ICLR 2026
논문 링크: https://arxiv.org/abs/2506.15732v2

초록

대규모 언어 모델(LLM)은 매개변수에 풍부한 세계 지식을 포함하고 있으며 많은 지식 집약적 작업에서 우수한 성능을 보입니다. 그러나 새로운 환경에 배포될 때 LLM은 매개변수화된 지식을 새로운 정보 또는 낯선 정보와 결합해야 하는 상황에 자주 직면합니다. 본 연구는 반사실적 추론의 관점에서 LLM이 문맥 지식을 매개변수화된 지식과 결합할 수 있는지 탐구합니다. 다중 홉 추론 문제에 대한 합성 및 실제 실험을 통해, 본 연구는 LLM이 반사실적 추론에서 광범위한 어려움을 겪고 있으며 종종 매개변수화된 지식에만 의존함을 보여줍니다. 더욱이, 단순한 사후 미세 조정은 반사실적 추론 능력을 주입하기 어렵고, 종종 저장된 매개변수화된 지식의 저하를 초래합니다. 궁극적으로 본 연구는 현재 LLM이 새로운 설정에서 매개변수화된 지식을 재활용하는 능력의 중요한 한계를 드러냅니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는: 현대 LLM이 매개변수화된 지식을 문맥 내 반사실적 전제와 선택적으로 결합하여 다중 홉 문제에 올바르게 답할 수 있는가?

문제의 중요성

실제 응용 요구사항: 현실의 많은 시나리오에서 LLM이 사전 학습된 지식을 추론 시점에 제공되는 새로운 또는 가정적 정보와 결합해야 함
지식 충돌 과제: 외부 문서가 내부 지식과 충돌할 때 검색 증강 생성이 어려움
안전 중요 응용: 상호작용 시스템, 검색 증강 파이프라인 및 안전 중요 응용에서 정확한 조건부 추론이 필수적

기존 방법의 한계

기존 다중 홉 QA 벤치마크는 주로 모델이 저장된 사실을 회상하거나 매개변수화된 지식 체인을 결합하는 능력을 평가하며, 이중 요구사항을 테스트하지 않음
지식 충돌 연구는 반사실적 다중 홉 추론에 대한 체계적 탐구 부족
RAG 방법은 외부 정보를 병합할 수 있지만 반사실적 추론의 고유한 과제를 처리할 수 없음

연구 동기

반사실적 추론이라는 구체적인 작업을 통해 LLM이 지식 충돌에 직면했을 때의 성능을 체계적으로 연구하며, 특히 **문맥 무시(Contextual Override)**와 선택적 검색(Selective Retrieval) 능력이 동시에 필요한 경우를 중점적으로 살펴봅니다.

핵심 기여

반사실적 QA 벤치마크: 합성 그래프 기반 작업과 현실 세계 인과 추론 시나리오를 도입하여 사전 학습된 지식 그래프에 대한 (i)강화, (ii)추가, (iii)모순 및 (iv)무관한 문맥 경우를 분리
실증 분석: GPT-4o 및 기타 최신 모델의 실험을 통해 두 가지 주요 실패 패턴 식별: (a)문맥 무시(모델이 저장된 사실을 기본적으로 사용) 및 (b)문맥 과적합(모델이 프롬프트를 맹목적으로 따름)
미세 조정 함정 분석: 단순한 사후 미세 조정이 반사실적 예제에서 일반적으로 미미한 이득만 가져오며, 예상치 못한 휴리스틱을 유도하여 표준 사실 벤치마크의 성능을 저하시킬 수 있음을 증명
실무적 의의: 연구 결과가 상호작용 시스템, 검색 증강 파이프라인 및 안전 중요 응용에 미치는 영향 논의

방법론 상세 설명

작업 정의

연구는 다음을 요구하는 반사실적 다중 홉 추론 작업을 정의합니다:

문맥 무시: 기본 사실을 일시적으로 억제하고 가정적 전제 수용
선택적 검색: 가중치에 저장된 관련 연관성을 검색하고 활용하되, 일부 정보가 변경되었더라도

예시: "파리가 이탈리아에 위치한다면, 에펠탑은 어느 국가에 있을까?"

"파리는 프랑스에 있다"는 매개변수화된 지식 무시 필요
"에펠탑은 파리에 있다"는 연관성 유지 필요

실험 설계

실제 LLM 실험

문맥 정보를 4가지 시나리오로 분류:

시나리오 1(사전 지식 강화): 매개변수화된 지식 그래프에 이미 존재하는 관계 제공
시나리오 2(새 정보 추가): 쿼리 답변에 필요하지만 매개변수화된 지식 그래프에 없는 정보 제공
시나리오 3(사전 지식 모순): 기존 매개변수화된 지식과 강하게 충돌하는 정보 제공
시나리오 4(무관한 정보): 쿼리와 무관한 정보 제공

합성 환경 실험

제어된 합성 지식 그래프 설정에서:

무작위로 방향 그래프 G 생성, 정점은 엔티티, 간선은 관계 표현
원자 사실(단일 간선)과 추론 사실(2홉 조합) 구분
세 가지 반사실적 유형 테스트:
- Hop 1 관련: 반사실적 전제가 추론 사실의 첫 번째 홉 수정
- Hop 2 관련: 반사실적 전제가 브릿지 엔티티와 최종 답변 간 링크 수정
- 무관한 반사실: 반사실적 전제가 다중 홉 쿼리와 완전히 무관

프롬프트 전략

세 가지 전략 비교:

표준: 직접 인과 쿼리
CoT: 사고의 연쇄 프롬프팅
FT: CoT 설명이 있는 반사실적 예제에 대한 미세 조정

실험 설정

데이터셋

실제 세계 실험: 인과 관계 기반 이진 분류 작업, 무작위 기준선 50%
합성 실험: 원자 사실과 추론 사실을 포함한 무작위 생성 지식 그래프

평가 지표

정확도(Accuracy)
1홉 및 2홉 추론 작업의 성능

비교 방법

GPT-4o(표준, CoT, 미세 조정 버전)
GPT-5 (Thinking)
Llama 3.1 8B

구현 세부사항

GPT 미세 조정: 학습 토큰 38,754, 3 에포크, 배치 크기 1, 학습률 배수 2
Llama 미세 조정: 5 에포크, LoRA rank 8, 학습률 0.0001
합성 실험: 4개 NVIDIA A6000 GPU 사용, 총 72 GPU 시간

실험 결과

주요 결과

실제 LLM 성능

시나리오 1(사전 지식 강화): 모든 모델이 우수한 성능, 정확도 90%-100% 범위
시나리오 2(정보 추가): 미세 조정 미적용 모델 정확도 60-75%, 미세 조정 후 약 90%로 상승
시나리오 3(사전 지식 모순): 성능이 50% 기준선 근처로 붕괴, 미세 조정은 미미한 개선만 제공
시나리오 4(무관한 정보): 강력한 성능, GPT-5는 거의 완벽한 정확도 달성

합성 환경 발견

미세 조정 유도 지름길: 모델이 진정한 추론을 수행하기보다는 반사실적 전제에 표시된 엔티티를 반복하는 법을 빠르게 학습
선택적 무시 어려움: 모델이 반사실적 전제가 언제 관련이 있는지 구분하는 법을 학습할 수 없음
사전 학습 중 반사실적 데이터 포함: 반사실적 추론 성능을 개선할 수 있지만 사실 작업 성능을 손상시킬 수 있음

소거 실험

제어 실험을 통해 성능 저하가 형식 변화로 인한 것이 아님을 증명:

문맥 무시가 필요 없는 CoT 작업 구성
미세 조정이 이러한 작업에 빠르게 적응(100% 테스트 정확도)
반사실적 추론 실패가 일반적 재앙적 망각이 아닌 작업 자체의 어려움에서 비롯됨을 시사

주요 발견

두 가지 주요 실패 패턴:
- 문맥 무시: 모델이 저장된 사실을 기본적으로 사용
- 문맥 과적합: 모델이 프롬프트를 맹목적으로 따르지만 관련 링크를 잊음
정렬의 영향: 현대 프로덕션 LLM은 사실성 및 안전 정렬 학습을 거쳐 사전 학습된 매개변수화된 지식에 의존하는 경향
미세 조정의 한계: 단순한 사후 미세 조정은 견고한 반사실적 추론 능력을 주입하기 어려움

결론 및 논의

주요 결론

근본적 한계: 현재 LLM은 충돌하거나 새로운 정보에 대응하여 내부 지식 그래프를 동적으로 수정 또는 확장하는 견고한 메커니즘 부족
실패 패턴의 보편성: 문맥 무시 및 문맥 과적합 문제는 다양한 프롬프트 전략 및 미세 조정 방법에서 지속적으로 나타남
미세 조정 효과 제한: 단순한 미세 조정 방법은 반사실적 추론 문제를 효과적으로 해결할 수 없으며, 기존 지식을 손상시킬 수 있음

한계

단순화된 설정: 합성 환경에서 반사실적 전제는 정적 지식 그래프의 단일 간선 편집으로 표현되며, 쿼리는 2홉 링크로 제한
복잡성 부족: 현실 세계 시나리오는 다중 술어 상호작용, 모호하거나 확률적 관계, 다중 소스 노이즈 증거 포함
깊이 제한: 더 깊고 더 복잡한 다중 홉 관계로 확장되지 않음

향후 방향

새로운 모델링 패러다임: 저장된 지식과 문맥 지식을 동적으로 통합하면서 어느 쪽도 손상시키지 않는 새로운 모델링 및 학습 패러다임 개발 필요
메커니즘 연구: 선택적 지식 무시의 메커니즘 구현에 대한 심층 연구
복잡성 확장: 분석을 더 깊고 복잡한 다중 홉 관계 및 현실 시나리오로 확장

심층 평가

장점

문제의 중요성: LLM이 지식 충돌 시나리오에서 직면한 핵심 한계를 식별하고 체계적으로 연구
엄격한 실험 설계: 실제 세계 및 합성 환경을 결합하여 포괄적인 분석 관점 제공
통찰력 있는 발견: 두 가지 명확한 실패 패턴을 드러내어 LLM 행동 이해에 중요한 통찰력 제공
방법론적 기여: 반사실적 추론 능력 평가를 위한 효과적인 프레임워크 제시

부족한 점

해결책 부재: 주로 문제를 식별하지만 효과적인 해결책 제시하지 않음
모델 범위 제한: 주로 소수 모델만 테스트하여 광범위한 모델 평가 부족
작업 복잡성: 현재 작업 설정이 상대적으로 단순하여 실제 응용과 격차 존재
이론적 분석 부족: 실패 메커니즘에 대한 심층 이론적 설명 부족

영향력

학술적 가치: LLM 지식 통합 연구에 중요한 기초 제공하여 후속 연구 방향 영감 가능
실무적 의의: RAG 시스템 및 동적 지식 통합이 필요한 응용에 중요한 지침 제공
경고 역할: 연구자 및 실무자에게 LLM이 지식 충돌 시나리오에서의 한계 주의 환기

적용 시나리오

검색 증강 시스템: 충돌하는 정보 처리 시 RAG 시스템 설계 지침
상호작용형 AI: 가정적 시나리오 처리가 필요한 대화 시스템에 참고 자료 제공
안전 중요 응용: 정확한 조건부 추론이 필요한 분야 적용 시 특별한 주의 필요

참고문헌

논문은 관련 분야의 중요한 연구를 인용하고 있습니다:

다중 홉 질의응답 벤치마크(HotpotQA, NaturalQuestions)
지식 충돌 처리 방법(RAG, REALM, DPR)
인과 추론 평가(CLadder, CounterBench)
LLM 메커니즘 분석(Grokking transformers 등)

종합 평가: 이는 LLM이 반사실적 추론에서 직면한 중요한 한계를 체계적으로 식별하고 분석하는 고품질 연구 논문입니다. 완전한 해결책을 제시하지는 않지만, LLM의 지식 통합 능력을 이해하고 개선하기 위한 중요한 기초를 마련하며, 해당 분야의 발전에 중요한 추진력을 제공합니다.