Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
- 논문 ID: 2510.13985
- 제목: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- 저자: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- 분류: cs.AI
- 발표 학술대회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
- 논문 링크: https://arxiv.org/abs/2510.13985
인과 학습은 이용 가능한 정보를 바탕으로 인과 추론을 수행하는 인지 과정으로, 일반적으로 규범적 원칙을 따릅니다. 이 과정은 인과 착각(causal illusion)과 같은 오류와 편향에 취약합니다. 인과 착각은 증거 부족에도 불구하고 두 변수 간의 인과 관계를 지각하는 현상입니다. 이러한 인지 편향은 사회적 편견, 고정관념 형성, 허위 정보 및 미신적 사고를 포함한 많은 사회 문제의 근원으로 간주됩니다. 본 연구는 고전적 인지과학 패러다임인 우발성 판단 과제를 통해 대규모 언어 모델(LLM)이 인과 착각에 취약한지 검증합니다. 본 연구는 1,000개의 영 우발성 시나리오 데이터셋을 구축했으며(변수 간 인과 관계를 수립하기에 충분한 정보가 없는 경우), 의료 배경 하에서 LLM들이 잠재적 원인의 타당성을 평가하도록 유도했습니다. 연구 결과 모든 평가 모델이 체계적으로 부적절한 인과 관계를 추론했으며, 인과 착각에 대한 강한 취약성을 보였습니다.
본 연구가 해결하고자 하는 핵심 문제는: 대규모 언어 모델이 고전적 인지과학 패러다임에 직면했을 때 인간과 유사한 인과 착각 편향을 나타내는가?
- 사회적 영향: 인과 착각은 사회적 편견, 고정관념, 허위 정보 전파 및 미신적 사고의 근원
- 실제 응용: 의료 등 중요한 분야에서 정확한 인과 추론은 현명한 의사결정에 필수적
- AI 안전성: LLM이 의사결정 시스템에 광범위하게 적용됨에 따라 그 인지 편향을 이해하는 것이 극히 중요
- LLM의 우발성 판단 과제 수행 능력에 대한 체계적 평가 부족
- LLM이 인과 관계를 진정으로 "이해"하는지 아니면 단순히 인과 언어를 모방하는지에 대한 논쟁
- 기존 연구는 주로 상관성에서 인과성으로의 오류 추론에 초점을 맞추었으며, 영 우발성 시나리오에서의 인과 착각은 다루지 않음
고전적 우발성 판단 과제를 통해 LLM의 인과 추론 능력을 평가하고, 그 인지 편향을 이해하기 위한 실증적 증거를 제공합니다.
- 우발성 판단 과제의 LLM 평가 적용 (최초): 실험 심리학의 고전적 우발성 판단 과제를 대규모 언어 모델에 적용한 첫 번째 연구
- 대규모 영 우발성 시나리오 데이터셋 구축: 의료 배경 하에서 1,000개의 영 우발성 시나리오를 구축하였으며, 4가지 변수 유형 포함
- LLM의 보편적 인과 착각 발견: 모든 평가 모델이 영 우발성 시나리오에서 체계적으로 인과 관계를 추론
- 모델 간 인과 판단 기준의 불일치 규명: 서로 다른 모델이 상이한 인과 추론 기준을 적용하며, 일관성 부족
우발성 판단 과제는 인과 학습을 평가하는 인지과학의 고전적 패러다임입니다:
- 입력: 일련의 시행(trial)으로, 각 시행은 잠재적 원인(존재/부재)과 결과(발생/미발생)를 포함
- 출력: 잠재적 원인의 타당성에 대한 평점(0-100점, 0은 무효, 100은 완전히 유효)
- 영 우발성 조건: 결과 발생 확률이 원인의 존재 여부와 무관
- 변수 유형(4가지, 총 100개 변수 쌍):
- 가상의 질병 및 치료 명칭(예: "Glimber medicine"과 "Drizzlemorn disorder")
- 불확실한 변수(예: "Disease X"와 "Medicine Y")
- 대체 의학 및 의사 의학 변수(예: "Acupuncture Process")
- 검증된 과학적 약물(예: "Paracetamol")
- 시나리오 생성:
- 1,000개의 영 우발성 시나리오
- 시나리오당 20-100개의 시행
- 80/20 분포를 사용하여 영 우발성 보장
- 온도 설정:
- 실험 1: 온도=1, 시나리오당 10회 반복
- 실험 2: 온도=0 (결정론적)
- 실험 3: 기본 온도 설정
- 평가 모델:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- 과제 적응: 인간 인지 실험의 순차 제시 방식을 자연어 목록 형식으로 적응
- 역할 설정: 역할 연기(의사, 연구원)를 통해 과제의 현실성 강화
- 변수 통제: 영 우발성 조건을 엄격히 통제하여 실험의 내적 타당성 보장
- 규모: 1,000개의 영 우발성 시나리오
- 시행 수: 시나리오당 20-100개의 시행
- 변수 쌍: 100개의 의료 관련 변수 쌍
- 분포 통제: 80/20 분포로 영 우발성 보장
- 주요 지표: 0-100점의 타당성 평점
- 통계 검증:
- Wilcoxon 단일 표본 검정(0에서의 편차 검정)
- Friedman 검정(모델 간 차이 비교)
- Cochran's Q 검정(영 응답 확률 비교)
- 프롬프트 엔지니어링: 실험 심리학 모범 사례를 기반으로 프롬프트 설계
- 반복 실험: 다양한 온도 설정으로 결과의 견고성 보장
- 통계 분석: 비모수 검정을 사용하여 비정규 분포 데이터 처리
| 모델 | 평균 | 중앙값 | 표준편차 |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- 보편적 인과 착각: 모든 모델의 중앙값이 0을 유의미하게 초과 (p < 0.001)
- 극히 낮은 영 응답 비율:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
- 모델 간 유의미한 차이: Friedman 검정에서 모델 간 유의미한 차이 확인 (χ² = 1516.99, p < 0.001)
실험 결과는 모델이 서로 다른 유형의 변수(가상, 불확실, 대체 의학, 전통 의학)에 대해 인과 평점에 유의미한 차이를 보이지 않으며, 심지어 가상 변수에 대해 더 높은 평점을 부여하는 경향을 보였습니다.
온도=0 및 기본 온도 조건에서 실험 결과는 일관성을 유지하여 발견의 견고성을 입증합니다.
- Gao et al. (2023): LLM의 인과 추론 능력 평가
- Liu et al. (2023): 코드 영역의 인과 추론
- Jin et al. (2024): 상관성에서 인과성으로의 추론
- Keshmirian et al. (2024): LLM의 편향된 인과 판단
- Carro et al. (2024): 뉴스 제목의 상관성-인과성 과장
- Jin et al. (2022): 논리적 오류 탐지
본 연구는 우발성 판단 과제를 LLM에 적용한 첫 번째 연구로, 인지과학과 AI 평가 간의 중요한 공백을 채웁니다.
- LLM의 보편적 인과 착각: 모든 평가 모델이 영 우발성 시나리오에서 체계적으로 인과 관계를 추론
- 통일된 인과 판단 기준 부재: 서로 다른 모델이 상이한 평가 기준을 적용
- "언어 모방" 가설 지지: 결과는 LLM이 인과 관계를 진정으로 이해하기보다는 인과 언어만 모방한다는 가설을 지지
- 인간 기준선 부재: 비교 기준으로서의 해당 인간 실험 미실시
- 외적 타당성 제한: 실험 설계는 심리학 모범 사례를 따르지만, 실제 사용 시나리오를 완전히 대표하지 못할 수 있음
- 평점 편향: LLM이 극단값 응답에 대해 편향을 가질 수 있음
- 내적 타당성 문제: 0-100 평점 척도가 AI 평가에 최적의 형식이 아닐 수 있음
- 프롬프트 기법: 사슬 추론(chain-of-thought) 등 프롬프트 기법의 효과 탐색
- 다양화된 시나리오: 양의 우발성과 음의 우발성 시나리오 포함
- 시행 순서 효과: 시행 제시 순서가 결과에 미치는 영향 연구
- 대체 과제 형식: 이진 또는 다중 분류 형식 사용
- 높은 혁신성: 고전적 인지과학 패러다임을 LLM 평가에 처음 적용
- 엄격한 방법론: 실험 설계가 심리학 모범 사례를 따르며, 통계 분석이 포괄적
- 일관된 결과: 다양한 온도 설정에서 결과가 일관성을 유지하여 발견의 신뢰성 증대
- 실제적 의의: AI 안전성 및 응용에 중요한 경고 제공
- 제한된 표본: 3개 모델만 평가하였으며, 더 많은 모델로 확장 가능
- 영역 제한: 의료 영역에서만 테스트되었으며, 다른 영역의 일반화 가능성 미지
- 메커니즘 분석 부족: 편향을 야기하는 심층 메커니즘에 대한 분석 부재
- 해결책 부재: 인과 착각을 완화하기 위한 구체적 방법 미제시
- 학술적 가치: AI 인지 편향 연구에 새로운 평가 프레임워크 제공
- 실용적 가치: 중요한 의사결정 영역에서 LLM 사용 시 주의 필요성 상기
- 재현성: 완전한 코드 및 데이터 제공으로 재현 및 확장 용이
본 연구는 특히 다음 분야에 적합합니다:
- AI 안전성 평가: AI 시스템의 인지 편향 평가
- 의료 AI 응용: 의료 의사결정 시스템의 위험 평가
- 교육 및 훈련: AI의 한계에 대한 인식 제고
본 연구는 인지과학, 실험 심리학 및 AI 평가 분야의 중요 문헌을 인용하였으며, 특히 인과 착각에 관한 Matute et al. (2015)의 기초 연구와 LLM의 인과 추론 능력에 관한 최근 연구를 참고했습니다.
종합 평가: 본 논문은 인지과학의 고전적 패러다임을 AI 평가에 성공적으로 적용한 고품질의 학제 간 연구입니다. LLM의 인과 추론에서의 중요한 결함을 규명했으며, 연구 방법론이 엄격하고 결과가 이론적·실제적으로 중요한 의의를 갖습니다. 향후 AI 안전 연구에 귀중한 통찰을 제공합니다.