Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
대규모 언어 모델(LLMs)은 자연언어로 신뢰도를 표현하는 데 있어 상당한 진전을 이루었으며, 투명성과 신뢰성을 향상시켰습니다. 그러나 이들의 신뢰도는 종종 과도한 자신감 문제를 나타내며, 그 근본 원인은 아직 충분히 이해되지 않았습니다. 본 연구는 언어화된 신뢰도의 내재적 역학을 상세히 분석하여, "답변 무관성"이 핵심 요소임을 파악했습니다. 즉, 모델이 자신의 답변을 기반으로 신뢰도를 조절하지 못하는 것입니다. 이 문제를 해결하기 위해 저자들은 ADVICE(Answer-Dependent Verbalized Confidence Estimation)를 제안했으며, 이는 답변 기반 신뢰도 추정을 촉진하는 미세 조정 프레임워크입니다. 광범위한 실험을 통해 ADVICE는 작업 성능을 유지하면서 신뢰도 보정을 크게 개선함을 보여줍니다. 추가 분석은 ADVICE가 답변 의존성을 강화하여 더욱 균형잡히고 잘 보정된 신뢰도 분포를 생성함을 확인합니다.
논문은 68개의 관련 문헌을 인용하고 있으며, 언어화된 신뢰도, LLM 탐사 방법, 보정 이론 등 여러 분야의 중요한 연구를 포함하여 견고한 이론적 기초를 제공합니다.
종합 평가: 이는 이론 분석과 실용적 방법 모두에서 중요한 기여를 하는 고품질 연구 논문입니다. 저자들은 LLMs의 과도한 자신감의 근본 원인을 파악했을 뿐만 아니라 효과적인 해결책을 제시했습니다. 방법은 간단하면서도 효과적이며, 실험 설계는 엄밀하고, 결과는 설득력 있습니다. 신뢰할 수 있는 AI 발전과 실제 응용에서 LLMs의 신뢰성 향상을 추진하는 데 중요한 의의를 가집니다.