2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Credal Transformer: 대규모 언어 모델의 환각 현상 정량화 및 완화를 위한 원칙적 접근법

기본 정보

  • 논문 ID: 2510.12137
  • 제목: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
  • 저자: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • 분류: cs.CL, cs.AI
  • 발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML from Unreliable Data
  • 논문 링크: https://arxiv.org/abs/2510.12137v1

초록

대규모 언어 모델(LLMs)은 사실상 오류이지만 높은 신뢰도를 가진 주장을 생성하는 환각 현상을 겪고 있습니다. 본 논문은 이 문제가 Transformer의 Softmax 함수에서 비롯된다고 주장합니다. Softmax는 모호한 주의력 점수를 단일 확률 분포로 축약하여 "인공적 확실성"을 만들고, 각 계층의 불확실성 정보를 버립니다. 이 문제를 해결하기 위해 본 논문은 Credal Transformer를 제안합니다. 이는 표준 주의력을 증거 이론 기반의 Credal 주의력 메커니즘(CAM)으로 대체합니다. CAM은 단일 주의력 벡터가 아닌 "credal 집합"(분포 집합)을 생성하며, 집합의 크기는 모델의 불확실성을 직접 측정합니다. 주의력 점수를 Dirichlet 분포의 증거 품질로 재개념화하여 구현됩니다: 충분한 증거는 표준 주의력을 복구하고, 불충분한 증거는 모호성을 나타내는 확산 분포를 생성합니다. 실험 결과 Credal Transformer는 분포 외 입력을 식별하고, 모호성을 정량화하며, 기권을 통해 답변할 수 없는 질문에 대한 신뢰 오류를 크게 감소시킬 수 있음을 보여줍니다.

연구 배경 및 동기

핵심 문제

본 연구는 대규모 언어 모델의 환각 현상 문제를 해결하는 것을 목표로 합니다. 즉, 모델이 사실상 오류이지만 높은 신뢰도를 표현하는 내용을 생성하는 현상입니다. 이 현상은 의료, 법률, 금융 등 고위험 분야에서 LLMs의 배포를 심각하게 제한합니다.

문제의 중요성

  1. 실용적 장애물: 환각 현상은 의료, 법률, 금융 등 고위험 분야에서 LLMs의 응용을 방해합니다
  2. 신뢰 위기: 사용자가 모델 출력의 신뢰성을 판단하기 어려워 AI 시스템의 신뢰도에 영향을 미칩니다
  3. 안전 위험: 오류이지만 높은 신뢰도의 출력은 심각한 의사결정 오류를 초래할 수 있습니다

기존 방법의 한계

전통적 해결책은 주로 다음을 포함합니다:

  • 외부 개입 방법: 검색 증강 생성(RAG), 외부 지식 기반 사실 확인, 디코딩 프로세스 수정
  • 한계점: LLM을 블랙박스로 취급하여 아키텍처 수준의 내재적 과신뢰 문제를 해결하지 못합니다

연구 동기

저자들은 근본적 가설을 제시합니다: 환각 현상은 단순한 데이터 문제가 아니라 Transformer 아키텍처 자체, 특히 주의력 메커니즘의 Softmax 함수가 만드는 "인공적 확실성"에서 비롯됩니다.

핵심 기여

  1. 이론적 통찰: Softmax 함수가 주의력 메커니즘에서 만드는 "인공적 확실성"이 환각의 아키텍처적 원인임을 식별
  2. 새로운 아키텍처: 불확실성 정량화를 모델의 내재적 구성요소로 통합하는 Credal Transformer 제안
  3. 기술 혁신: 증거 이론 기반의 Credal 주의력 메커니즘(CAM) 설계로 인식론적 불확실성을 표현하고 정량화
  4. 실증 검증: 분포 외 검출, 모호성 정량화, 질의응답 작업을 포함한 다양한 작업에서 방법의 효과성 검증
  5. 설계 패러다임: 불확실성 인식을 모델 설계의 첫 번째 원칙으로 제시

방법론 상세 설명

작업 정의

표준 Transformer의 결정론적 주의력 메커니즘을 불확실성을 표현하고 정량화할 수 있는 메커니즘으로 대체하여 모델이 다음을 수행하도록 합니다:

  • 입력의 모호성 식별
  • 자신의 인식론적 불확실성 정량화
  • 충분한 증거가 없을 때 기권 선택

모델 아키텍처

표준 주의력 메커니즘의 문제

표준 주의력 계산 공식:

ai = Softmax(si) where aij = exp(sij) / Σ(k=1 to L) exp(sik)

문제: Softmax는 점수가 모호할 때에도 모델이 결정론적 선택을 하도록 강제합니다.

Credal 주의력 메커니즘(CAM)

핵심 아이디어: 주의력 점수를 Dirichlet 분포를 매개변수화하기 위한 증거로 재개념화합니다.

구현 단계:

  1. 증거 변환:
    eij = exp(sij)  // 원본 점수를 음이 아닌 증거로 변환
    
  2. Dirichlet 매개변수화:
    αij = eij + 1  // 농도 매개변수
    
  3. 예상 주의력 가중치:
    âij = E[pij] = αij / αi0
    

    여기서 αi0 = Σ(k=1 to L) αik
  4. 불확실성 정량화:
    Ui = L / αi0  // 공허성(vacuity)이 인식론적 불확실성을 측정
    

기술 혁신점

  1. 증거 이론 통합: 증거 심층학습 원리를 주의력 메커니즘 핵심에 처음으로 적용
  2. 미분 가능한 불확실성: 직접적이고 미분 가능한 불확실성 측정 제공
  3. 적응형 동작:
    • 높은 증거 → 뾰족한 분포 → 표준 주의력 복구
    • 낮은 증거 → 확산 분포 → 모호성을 명시적으로 표현
  4. 엔드-투-엔드 훈련: 전체 아키텍처는 미분 가능하여 표준 최적화 기법으로 훈련 가능

실험 설정

데이터셋

합성 데이터셋(분포 외 검출용):

  • 분포 내(ID): 고정 노이즈 패턴으로 생성된 수열
  • 분포 외(OOD): 균등 무작위 분포로 생성된 수열
  • 무의미 데이터: 순수 노이즈 수열

평가 지표

  • 불확실성 점수: 모델 최종 계층에서 생성된 평균 불확실성
  • 계산 효율 지표: GFLOPs, 추론 시간, 훈련 시간

비교 방법

  • 표준 Transformer(Softmax 주의력 사용)

구현 세부사항

  • ID 데이터에서 Credal Transformer 분류기 훈련
  • 테스트 시 세 가지 유형의 데이터 입력, 불확실성 출력 측정

실험 결과

주요 결과

분포 외 검출 실험

데이터 유형평균 불확실성 점수
분포 내(ID)0.0415
분포 외(OOD)0.1378
무의미 데이터0.1953

핵심 발견: 모델은 다양한 유형의 입력을 명확히 구분할 수 있으며, 훈련 분포에서 벗어날수록 더 높은 불확실성을 생성합니다.

계산 효율 비교

지표표준 주의력Credal 주의력(CAM)
GFLOPs25.77 G25.77 G (+0%)
추론 시간 오버헤드기준+4.4%
훈련 시간 오버헤드기준+11.6%

중요 결론: CAM은 거의 계산 비용을 증가시키지 않으면서 불확실성 정량화 능력을 구현합니다.

기타 능력 검증

  1. 모호성 정량화: 내재적으로 모호한 입력에 대해 모델은 더 큰 credal 집합(높은 엔트로피)을 생성합니다
  2. 답변 불가능 질문 처리: 질의응답 벤치마크에서 내부 불확실성 측정을 통해 기권을 선택하여 신뢰 오류를 크게 감소시킵니다

실험 발견

  1. 아키텍처 수준 해결책의 효과성: 외부 개입과 비교하여 주의력 메커니즘을 직접 수정하는 것이 문제를 더 근본적으로 해결합니다
  2. 불확실성과 데이터 품질의 관련성: 모델 불확실성은 입력이 훈련 분포에서 벗어나는 정도와 높은 상관관계가 있습니다
  3. 수용 가능한 계산 효율: 최소한의 오버헤드로 인해 방법은 실용적 가치를 갖습니다

관련 연구

환각 완화 방법

  • 검색 증강 생성(RAG): Lewis et al. 2020
  • 외부 사실 확인: Schick et al. 2023
  • 디코딩 수정: Li et al. 2022

불확실성 정량화

  • 베이지안 신경망: Blundell et al. 2015 - 계산 비용이 높음
  • 증거 심층학습: Sensoy et al. 2018 - 본 논문의 이론적 기초

본 논문의 장점

Transformer 아키텍처의 핵심에 불확실성 정량화를 처음으로 통합하며, 외부 도구나 후처리 단계가 아닙니다.

결론 및 논의

주요 결론

  1. 근본 원인 식별: Softmax 함수의 "인공적 확실성"이 환각 문제의 아키텍처적 근원입니다
  2. 효과적 해결책: Credal Transformer는 credal 집합을 통해 불확실성을 효과적으로 표현하고 정량화합니다
  3. 실용성 검증: 방법은 다양한 작업에서 우수한 성능을 보이며 계산 오버헤드는 수용 가능합니다

한계점

  1. 생성 작업 검증 부족: 주로 판별 작업에서 검증되었으며, 개방형 생성 작업의 효과는 탐색 필요
  2. 불확실성 활용 제한: 현재 주로 출력층 결정 지표로 사용되며, 계층별 불확실성 정보를 충분히 활용하지 못함
  3. 대규모 확장성: 100B+ 매개변수 모델에서의 확장성은 추가 검증 필요

향후 방향

  1. 동적 디코딩 지도: CAM의 불확실성 신호를 활용하여 생성 프로세스를 동적으로 지도
  2. 계층별 정보 조절: 계층별 불확실성을 기반으로 네트워크 내 정보 흐름을 동적으로 조정
  3. 대규모 검증: 초대규모 모델 및 분산 훈련 설정에서의 검증

심층 평가

장점

  1. 깊이 있는 이론적 기여:
    • 환각 문제의 아키텍처적 근본 원인 이론 제시
    • 증거 이론을 주의력 메커니즘에 우아하게 통합
  2. 우아한 방법 설계:
    • 엔드-투-엔드 미분 가능성 유지
    • 표준 주의력으로의 자연스러운 퇴화(높은 증거 시)
    • 직접적인 불확실성 측정 제공
  3. 충분한 실험 검증:
    • 분포 외 검출, 모호성 정량화, 질의응답 작업 포함
    • 계산 효율 분석 상세
    • 통계적으로 설득력 있는 결과
  4. 높은 실용적 가치:
    • 최소한의 계산 오버헤드
    • 기존 Transformer 아키텍처에 직접 대체 가능
    • 신뢰할 수 있는 AI 구축을 위한 아키텍처 기초 제공

부족한 점

  1. 불충분한 이론 분석:
    • credal 집합 크기와 실제 불확실성 관계에 대한 이론 분석 부족
    • 수렴성 또는 안정성의 이론적 보장 미제공
  2. 제한된 실험 범위:
    • 주로 소규모, 합성 데이터에서 검증
    • 실제 대규모 LLM에서의 검증 부족
    • 생성 작업 검증 부족
  3. 불완전한 비교 실험:
    • 다른 불확실성 정량화 방법과의 비교 부족
    • 기존 환각 완화 방법과의 직접 비교 부족
  4. 불충분한 구현 세부사항:
    • 훈련 전략, 하이퍼파라미터 선택 등 세부사항 부족
    • 재현성이 영향을 받을 수 있음

영향력

  1. 학술적 영향:
    • 새로운 연구 패러다임 제공: 아키텍처 수준의 불확실성 정량화
    • 후속 관련 연구의 이론적 기초 마련
    • 주의력 메커니즘 개선 연구에 영감을 줄 수 있음
  2. 실용적 가치:
    • 신뢰할 수 있는 AI 시스템 구축을 위한 구체적 기술 경로 제공
    • 고위험 응용 시나리오에서 중요한 가치
    • 계산 효율로 인한 산업 응용 가능성
  3. 방법론적 기여:
    • 신뢰성을 모델 설계의 첫 번째 원칙으로 제시
    • 이론 주도의 아키텍처 설계 방법 시연

적용 시나리오

  1. 높은 신뢰성 요구 시나리오: 의료 진단, 법률 상담, 금융 분석 등
  2. 불확실성 정량화가 필요한 응용: 과학 연구, 의사결정 지원 시스템
  3. 분포 외 검출 필요: 안전 관련 시스템, 이상 탐지
  4. 대화형 AI 시스템: 모델이 "모른다"를 표현해야 하는 대화 시스템

참고문헌

논문의 주요 참고문헌:

  • Vaswani et al. 2017: Attention is All You Need (Transformer 원본 논문)
  • Sensoy et al. 2018: Evidential Deep Learning (증거 심층학습 이론 기초)
  • Brown et al. 2020: GPT-3 논문 (대규모 언어 모델 기초)
  • Lewis et al. 2020: RAG 검색 증강 생성
  • Huang et al. 2025: 환각 현상 종합 검토

종합 평가: 이는 이론적 통찰과 기술 혁신 측면에서 모두 우수한 논문입니다. 저자들은 LLM 환각 문제의 아키텍처적 근본 원인을 식별하고 우아한 해결책을 제시했습니다. 대규모 검증과 이론 분석 측면에서 개선의 여지가 있지만, 핵심 아이디어와 방법은 중요한 학술적 가치와 실용적 잠재력을 가지고 있으며, 더욱 신뢰할 수 있는 AI 시스템 구축을 위한 중요한 기술적 기초를 제공합니다.