Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
본 연구는 Shannon 엔트로피를 신뢰도 신호로 활용하여 대규모 언어 모델 추론 작업에서 조기 중단(early stopping)을 구현하는 엔트로피 기반의 새로운 프레임워크를 제안합니다. 작업 정확도를 유지하면서 25-50%의 계산 절감을 달성합니다. 핵심 발견은 엔트로피 기반 신뢰도 보정이 현대 추론 모델의 고급 사후 훈련 최적화의 창발적 속성이지만, 표준 지시 조정 및 사전 훈련 모델(예: Llama 3.3 70B)에서는 현저히 부족하다는 것입니다. 연구는 고급 추론 모델이 종종 초기에 올바른 답을 얻었다는 것을 알고 있으며, 이러한 창발적 신뢰도 인식을 활용하여 토큰을 절감하고 지연 시간을 줄일 수 있음을 보여줍니다.
대규모 언어 모델이 추론 벤치마크에서 성능이 포화되어 가는 반면, 추론 추론의 비용은 계속 증가하고 있으며, 단일 어려운 문제의 추론 비용은 수천 달러에 달할 수 있습니다. 이러한 높은 비용과 관련 지연 시간은 연구자들이 정확도에 영향을 주지 않으면서 토큰 사용을 줄이는 방법을 찾도록 촉발합니다.
본 논문은 Shannon 엔트로피 기반의 일반적 프레임워크를 도입하여 이 격차를 해결하고, LLM 수학 추론에서 신뢰도 추정을 위한 원칙적 알고리즘 개입을 제공합니다. 이 방법은 정보 이론과 통계 의사 결정 이론에 기반하여 이론적 엄밀성과 실제 적용 가능성을 제공합니다.
추론 문제 q, 모델 M 및 임계값 τ가 주어졌을 때, 시스템은 첫 번째 추론 단계 후 중단할지(신뢰도가 충분히 높을 때) 또는 추론을 계속 확장할지 결정해야 합니다. 입력은 추론 문제이고, 출력은 답변이며, 제약 조건은 정확도를 유지하면서 계산 비용을 최소화하는 것입니다.
논문은 조기 종료 방법(DeeBERT, CALM), 엔트로피 기반 중단 전략(HALT-CoT, AdaDec) 및 신뢰도 추정 관련 연구를 포함한 관련 분야의 중요 저작을 인용하여 본 연구에 견고한 이론적 기초 및 비교 기준을 제공합니다.
종합 평가: 이는 이론적 혁신, 실험 검증 및 실용적 가치 측면에서 모두 중요한 기여를 하는 고품질 연구 논문입니다. 특히 신뢰도 보정이 창발적 속성이라는 발견은 현대 LLM 능력 이해를 위한 새로운 과학적 통찰력을 제공합니다. 방법은 간단하고 효과적이며 광범위한 응용 전망을 가지고 있습니다.