2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

기본 정보

  • 논문 ID: 2510.10913
  • 제목: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • 저자: Ki Jung Seo, Sehun Lim, Taeuk Kim (한양대학교)
  • 분류: cs.CL (계산 언어학)
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10913

초록

대규모 언어 모델(LLMs)은 자연언어로 신뢰도를 표현하는 데 있어 상당한 진전을 이루었으며, 투명성과 신뢰성을 향상시켰습니다. 그러나 이들의 신뢰도는 종종 과도한 자신감 문제를 나타내며, 그 근본 원인은 아직 충분히 이해되지 않았습니다. 본 연구는 언어화된 신뢰도의 내재적 역학을 상세히 분석하여, "답변 무관성"이 핵심 요소임을 파악했습니다. 즉, 모델이 자신의 답변을 기반으로 신뢰도를 조절하지 못하는 것입니다. 이 문제를 해결하기 위해 저자들은 ADVICE(Answer-Dependent Verbalized Confidence Estimation)를 제안했으며, 이는 답변 기반 신뢰도 추정을 촉진하는 미세 조정 프레임워크입니다. 광범위한 실험을 통해 ADVICE는 작업 성능을 유지하면서 신뢰도 보정을 크게 개선함을 보여줍니다. 추가 분석은 ADVICE가 답변 의존성을 강화하여 더욱 균형잡히고 잘 보정된 신뢰도 분포를 생성함을 확인합니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 대규모 언어 모델이 언어화된 신뢰도를 생성할 때 심각한 과도한 자신감 문제가 존재하며, 답변의 정확성 여부와 관계없이 높은 신뢰도를 표현하는 경향이 있습니다.
  2. 중요성: 법률, 의료 등 고위험 분야에 LLMs를 배포할 때, 신뢰할 수 있는 신뢰도 추정은 모델의 내재적 불완전성을 관리하는 데 매우 중요합니다.
  3. 기존 방법의 한계:
    • 기존 연구는 과도한 자신감을 "어떻게" 완화할 것인가에 중점을 두고 있으며, "왜" 발생하는지에는 초점을 맞추지 않습니다.
    • 언어화된 신뢰도의 내재적 메커니즘에 대한 깊이 있는 이해가 부족합니다.
    • 프롬프팅 방법, 샘플링 방법, 미세 조정 방법은 개선을 가져왔지만 근본 원인은 명확하지 않습니다.

연구 동기

저자들은 신경과학의 신뢰도 추정 이론에서 영감을 얻어, 신뢰도 추정을 의사결정 후의 증거 축적 과정으로 프레임화했으며, LLMs가 신뢰도를 추정할 때 자신이 생성한 답변 정보를 종종 무시한다는 것을 발견했습니다. 이는 신뢰도의 정의와 모순됩니다.

핵심 기여

  1. 이론적 발견: 처음으로 체계적으로 "답변 무관성"을 LLMs의 과도한 자신감의 근본 원인으로 파악하고 분석했습니다.
  2. 분석 방법: 확률 분포 비교 및 귀인 분석을 기반으로 한 이중 검증 방법을 제안하여 답변 의존성을 정량화합니다.
  3. 해결책: 모델이 신뢰도를 보고할 때 생성된 답변에 명시적으로 주의를 기울이도록 장려하는 ADVICE 미세 조정 프레임워크를 설계했습니다.
  4. 실증적 검증: 여러 데이터셋과 모델에서 방법의 효과를 검증하여 신뢰도 추정에서 답변 정보의 중요성을 입증했습니다.
  5. 일반화 능력: 분포 외 작업에서의 강력한 일반화 능력과 균형잡힌 신뢰도 분포 특성을 시연했습니다.

방법 상세 설명

작업 정의

질문 q와 해당 답변 a가 주어졌을 때, 언어화된 신뢰도는 답변이 정확할 확률 P(correct|q,a)에 근사해야 합니다. 이상적인 신뢰도 추정은 다음을 만족해야 합니다:

  • 답변이 정확할 때 높은 신뢰도를 표현
  • 답변이 오류일 때 낮은 신뢰도를 표현
  • 답변 내용에 따라 신뢰도 수준을 조정

답변 무관성 분석

1. 확률 분포 비교 방법

다음 두 분포를 비교하여 답변 무관성을 검증합니다:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

여기서 우측은 전확률 공식으로 전개됩니다:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Jensen-Shannon 발산(JSD)을 사용하여 두 분포의 차이를 정량화하며, JSD 값이 0에 가까우면 모델이 답변 정보에 민감하지 않음을 나타냅니다.

2. 귀인 분석 방법

  • 주의력 전개(Attention Rollout): 신뢰도 생성이 답변 토큰에 대한 주의력 가중치 분석
  • 적분 기울기(Integrated Gradients): 답변 토큰이 신뢰도 예측에 미치는 기여도 계산

ADVICE 프레임워크 설계

훈련 데이터 구성

  1. TriviaQA에서 2000개 인스턴스 샘플링
  2. 각 질문 q에 대해 삼중쌍(q, a_correct, a_wrong) 구성
  3. 일반화 능력 향상을 위해 세 가지 언어화 형식 변형 구성

훈련 목표

세 가지 손실 함수 정의:

  1. 언어 모델링 손실:
L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

모델의 원래 QA 능력 유지

  1. 대조 분포 손실:
L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

모델이 정확한 답변과 오류 답변의 신뢰도 분포를 구분하도록 유도

  1. 여유 손실:
L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

정확한 답변이 더 높은 예상 신뢰도를 얻도록 보장

총 손실 함수:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

기술적 혁신점

  1. 근본 원인 분석: 처음으로 답변 의존성 관점에서 과도한 자신감 문제 분석
  2. 이중 검증: 확률 분석과 신경망 귀인 방법을 결합하여 가설 검증
  3. 대조 학습: 정확한/오류 답변 쌍을 활용한 대조 훈련
  4. 다중 목표 최적화: 작업 성능 유지와 신뢰도 보정 개선의 균형

실험 설정

데이터셋

  • 훈련: TriviaQA (2000개 인스턴스)
  • 평가: TriviaQA, MMLU, SciQ, LogiQA (도메인 간 일반화 테스트)

모델

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

신뢰도 표현 유형

  • ScoreText: {low, medium, high}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

평가 지표

  • ECE (Expected Calibration Error): 예측 신뢰도와 실제 정확도의 평균 절대 차이
  • NCE (Net Calibration Error): 부호가 있는 보정 오류로, 편향성을 반영
  • BS (Brier Score): 확률 예측의 평균 제곱 오류
  • AUROC: 신뢰도 순위 능력

비교 방법

  • Default: 기본 프롬프팅 방법
  • Self-Consistency: 샘플링 기반 방법
  • ConfTuner: 현재 최고 성능의 미세 조정 방법

실험 결과

주요 결과

TriviaQA에서의 성능 비교(GEMMA-2-9B-IT):

  • ECE: Default (21.9%) → ADVICE (6.5%)
  • NCE: Default (-21.8%) → ADVICE (1.6%)
  • AUROC: Default (52.7%) → ADVICE (78.5%)

도메인 간 일반화 결과는 ADVICE가 MMLU, SciQ, LogiQA에서 모두 상당한 개선을 달성했음을 보여주며, 방법의 견고성을 입증합니다.

소거 실험

각 손실 함수 기여도 분석:

  • L_JSD 단독 사용: ECE 19.7%에서 4.9%로 감소
  • L_Margin 단독 사용: ECE 19.7%에서 3.9%로 감소
  • 완전한 ADVICE: 최고의 데이터셋 간 일반화 능력

주요 발견

  1. 답변 무관성 검증: JSD 분포가 멱법칙 패턴을 나타내며, 대부분의 값이 0에 가까워 답변 무관성 가설을 확인합니다.
  2. 주의력 패턴: 신뢰도→답변의 주의력 가중치가 다른 방향보다 현저히 낮습니다.
  3. 보정 개선: 신뢰성 그래프는 ADVICE가 더 세분화되고 정확한 신뢰도 분포를 생성함을 보여줍니다.
  4. 답변 인식 강화: 마스킹 실험은 ADVICE가 답변 부재 시 적절히 불확실성을 표현함을 보여줍니다.

하이퍼파라미터 분석

δ_JSD의 증가는 ECE를 지속적으로 감소시키며, 대조 학습 목표의 효과를 검증합니다.

관련 연구

언어화된 신뢰도 연구

  • Lin 등(2022)이 처음 언어화된 신뢰도 추정을 도입
  • 후속 연구는 주로 프롬프팅 방법, 샘플링 방법, 미세 조정 방법 세 가지로 분류
  • 본 연구는 메커니즘 분석의 공백을 채웁니다.

LLM 탐사 방법

  • 주의력 메커니즘 분석: Attention Rollout, Attention Flow 등
  • 기울기 귀인 방법: Integrated Gradients 등
  • 본 연구는 이러한 방법을 신뢰도 분석에 혁신적으로 적용합니다.

결론 및 논의

주요 결론

  1. LLMs의 과도한 자신감은 주로 답변 무관성 문제에서 비롯됩니다.
  2. ADVICE는 답변 의존성을 강화하여 신뢰도 보정을 효과적으로 개선합니다.
  3. 이 방법은 우수한 일반화 능력과 실용적 가치를 가집니다.

제한사항

  1. 주로 짧은 텍스트 QA 작업에 초점을 맞추고 있으며, 긴 텍스트 이해 작업에의 적용 가능성은 아직 검증되지 않았습니다.
  2. 대조 답변 쌍을 생성하기 위해 추가 데이터 구성 비용이 필요합니다.
  3. 복잡한 추론 작업에서의 효과는 추가 탐색이 필요합니다.

향후 방향

  1. 긴 문맥 이해와 복잡한 추론이 필요한 작업으로 확장
  2. 더 효율적인 훈련 데이터 구성 방법 탐색
  3. 시각-언어 모델 등 다른 모달리티에서의 응용 연구

심층 평가

장점

  1. 이론적 기여 두드러짐: 처음으로 과도한 자신감의 근본 원인을 체계적으로 분석하여 중요한 이론적 통찰력을 제공합니다.
  2. 방법론 엄밀성: 다각적 검증(확률 분석 + 귀인 분석)을 채택하여 결론의 신뢰성이 높습니다.
  3. 실험 설계 완성도: 모델 간, 데이터셋 간 포괄적 평가와 충분한 소거 실험
  4. 실용적 가치 현저함: 작업 성능을 유지하면서 신뢰도 보정을 크게 개선합니다.
  5. 일반화 능력 강함: 분포 외 데이터에서 우수한 성능을 보여 방법의 견고성을 입증합니다.

부족한 점

  1. 작업 범위 제한: 주로 QA 작업에서 검증되었으며, 다른 NLP 작업에의 적용 가능성이 충분히 탐색되지 않았습니다.
  2. 계산 오버헤드: 추가 미세 조정 과정과 대조 데이터 구성이 필요합니다.
  3. 이론 분석 깊이: 답변 무관성 문제를 파악했지만, 그 발생의 심층적 원인 분석이 충분하지 않습니다.
  4. 장기 효과: 미세 조정 후 모델의 장기 사용 중 안정성이 평가되지 않았습니다.

영향력

  1. 학술적 가치: 신뢰도 추정 분야에 새로운 연구 관점과 분석 프레임워크를 제공합니다.
  2. 실용적 의의: 고위험 응용에서 LLMs의 신뢰성 향상에 중요한 가치를 가집니다.
  3. 재현성: 상세한 구현 세부사항과 오픈소스 코드를 제공하여 재현 및 확장을 용이하게 합니다.

적용 시나리오

  • 신뢰할 수 있는 신뢰도 추정이 필요한 질의응답 시스템
  • 고위험 의사결정 지원 시스템
  • 인간-기계 협력 시나리오에서의 불확실성 표현
  • 모델 보정 및 신뢰할 수 있는 AI 응용

참고문헌

논문은 68개의 관련 문헌을 인용하고 있으며, 언어화된 신뢰도, LLM 탐사 방법, 보정 이론 등 여러 분야의 중요한 연구를 포함하여 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 이론 분석과 실용적 방법 모두에서 중요한 기여를 하는 고품질 연구 논문입니다. 저자들은 LLMs의 과도한 자신감의 근본 원인을 파악했을 뿐만 아니라 효과적인 해결책을 제시했습니다. 방법은 간단하면서도 효과적이며, 실험 설계는 엄밀하고, 결과는 설득력 있습니다. 신뢰할 수 있는 AI 발전과 실제 응용에서 LLMs의 신뢰성 향상을 추진하는 데 중요한 의의를 가집니다.