2025-11-11T18:07:09.125558

Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning

Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic

सोचें बस पर्याप्त: अनुक्रम-स्तरीय एन्ट्रॉपी एलएलएम तर्क के लिए आत्मविश्वास संकेत के रूप में

बुनियादी जानकारी

  • पेपर आईडी: 2510.08146
  • शीर्षक: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
  • लेखक: Aman Sharma, Paras Chopra (Lossfunk)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन तिथि: 16 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2510.08146v2

सारांश

यह अनुसंधान एन्ट्रॉपी-आधारित एक नई रूपरेखा प्रस्तावित करता है, जो शैनन एन्ट्रॉपी को आत्मविश्वास संकेत के रूप में उपयोग करके बड़े भाषा मॉडल तर्क कार्यों में प्रारंभिक रोकथाम (early stopping) को सक्षम बनाता है, कार्य सटीकता को बनाए रखते हुए 25-50% की कम्प्यूटेशनल बचत प्राप्त करता है। मुख्य निष्कर्ष यह है कि एन्ट्रॉपी-आधारित आत्मविश्वास अंशांकन आधुनिक तर्क मॉडल में उच्च-स्तरीय पश्च-प्रशिक्षण अनुकूलन का एक उदीयमान गुण है, लेकिन मानक निर्देश-ट्यूनिंग और पूर्व-प्रशिक्षित मॉडल (जैसे Llama 3.3 70B) में महत्वपूर्ण रूप से अनुपस्थित है। अनुसंधान से पता चलता है कि उन्नत तर्क मॉडल अक्सर जल्दी ही जान जाते हैं कि उन्हें सही उत्तर मिल गया है, और यह उदीयमान आत्मविश्वास जागरूकता टोकन बचाने और विलंबता को कम करने के लिए उपयोग की जा सकती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

जैसे-जैसे बड़े भाषा मॉडल तर्क बेंचमार्क में प्रदर्शन संतृप्त होता जा रहा है, तर्क अनुमान की लागत लगातार बढ़ रही है, एकल कठिन समस्या की तर्क लागत हजारों डॉलर तक पहुंच सकती है। यह उच्च लागत और संबंधित विलंबता शोधकर्ताओं को सटीकता को प्रभावित किए बिना टोकन उपयोग को कम करने के तरीके खोजने के लिए प्रेरित करती है।

मौजूदा विधियों की सीमाएं

वर्तमान तर्क कार्यों में कम्प्यूटेशनल अनुकूलन विधियों में सैद्धांतिक आधार और मॉडल आर्किटेक्चर में सार्वभौमिक प्रयोज्यता की कमी है:

  1. मौजूदा आत्मविश्वास उपाय अस्थायी सीमा या सरल अनुमानों पर निर्भर करते हैं
  2. विभिन्न मॉडल आकार या तर्क डोमेन में सामान्यीकरण नहीं कर सकते
  3. सैद्धांतिक आधार और व्यावहारिक तैनाती आवश्यकताओं के बीच महत्वपूर्ण अंतर

अनुसंधान प्रेरणा

यह पेपर शैनन एन्ट्रॉपी-आधारित एक सार्वभौमिक रूपरेखा प्रस्तुत करके इस अंतर को संबोधित करता है, जो एलएलएम गणितीय तर्क में आत्मविश्वास अनुमान के लिए सिद्धांतबद्ध एल्गोरिथ्मिक हस्तक्षेप प्रदान करता है। यह विधि सूचना सिद्धांत और सांख्यिकीय निर्णय सिद्धांत पर आधारित है, जो सैद्धांतिक कठोरता और व्यावहारिक प्रयोज्यता प्रदान करती है।

मुख्य योगदान

  1. सटीकता संरक्षण: 25-50% कम्प्यूटेशनल बचत प्राप्त करते हुए कार्य सटीकता को बनाए रखना, कोई सांख्यिकीय महत्वपूर्ण गिरावट नहीं
  2. व्यावहारिक तैनाती: न्यूनतम नमूने (5-10) के साथ सीमा समतुल्यता प्राप्त करना, विविध तर्क बेंचमार्क में तेजी से तैनाती का समर्थन करना
  3. संवर्धित टोकन बजट रूपरेखा: एक कम्प्यूटेशनल आवंटन योजना जो सरल, कम अनिश्चितता समस्याओं से बचाई गई संसाधनों को कठिन, उच्च अनिश्चितता समस्याओं में स्थानांतरित करती है
  4. सैद्धांतिक आधार: सूचना सिद्धांत और बेयेसियन निर्णय सिद्धांत पर आधारित चार गणितीय सिद्धांतबद्ध सीमा विधियां

विधि विवरण

कार्य परिभाषा

दिए गए तर्क समस्या q, मॉडल M और सीमा τ को देखते हुए, सिस्टम को यह तय करना होगा कि पहले तर्क चरण के बाद रुकना है (जब आत्मविश्वास पर्याप्त रूप से अधिक हो) या तर्क को विस्तारित करना जारी रखना है। इनपुट तर्क समस्या है, आउटपुट उत्तर है, बाधा आत्मविश्वास को बनाए रखते हुए कम्प्यूटेशनल लागत को कम करना है।

मुख्य तकनीकी रूपरेखा

शैनन एन्ट्रॉपी आत्मविश्वास संकेत के रूप में

top-k टोकन logprobs के शैनन एन्ट्रॉपी का उपयोग आत्मविश्वास माप के रूप में (k=20):

  1. logprobs सामान्यीकरण: pi=eij=120ejp_i = \frac{e^{\ell_i}}{\sum_{j=1}^{20} e^{\ell_j}}
  2. शैनन एन्ट्रॉपी गणना: H=i=120pilog2piH = -\sum_{i=1}^{20} p_i \log_2 p_i
  3. अनुक्रम-स्तरीय आत्मविश्वास संकेत: Hmean=1Tt=1THtH_{mean} = \frac{1}{T} \sum_{t=1}^T H_t

चार सीमा विधियां

  1. एन्ट्रॉपी माध्य विधि (Entropy Mean): सही उत्तर एन्ट्रॉपी वितरण के माध्य का उपयोग सीमा के रूप में τmean=μc\tau_{mean} = \mu_c
  2. सूचना सिद्धांत इष्टतम विधि: लॉग स्केलिंग और प्रभाव आकार का उपयोग करके सूचना लाभ को अधिकतम करना τinfo=μc+σc×ln(1+d)\tau_{info} = \mu_c + \sigma_c \times \ln(1 + |d|)
  3. बेयेसियन इष्टतम विधि: गॉसियन धारणा के तहत वर्गीकरण त्रुटि को कम करने वाली गणितीय इष्टतम निर्णय सीमा τbayes=b±b24ac2a\tau_{bayes} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}
  4. स्केल-अपरिवर्तनीय सार्वभौमिक विधि: प्रभाव आकार सामान्यीकरण के माध्यम से विभिन्न मॉडल विशेषताओं के अनुकूल τuniversal=μc+d1+d×(μiμc)×max(0,1σcμc)\tau_{universal} = \mu_c + \frac{\sqrt{|d|}}{1+\sqrt{|d|}} \times (\mu_i - \mu_c) \times \max(0, 1-\frac{\sigma_c}{\mu_c})

टोकन बजट रूपरेखा

एन्ट्रॉपी-गेटेड बुद्धिमान टोकन आवंटन तंत्र का परिचय:

  • कुल बजट बाधा: Budget = α × β = constant
  • समस्या वर्गीकरण: उच्च आत्मविश्वास समस्याएं (H ≤ τ) और कम आत्मविश्वास समस्याएं (H > τ)
  • संसाधन आवंटन: उच्च आत्मविश्वास समस्याएं एकल API कॉल प्राप्त करती हैं, कम आत्मविश्वास समस्याएं संवर्धित आवंटन प्राप्त करती हैं

प्रयोगात्मक सेटअप

डेटासेट

  • AIME'24/25: प्रत्येक 30 गणितीय प्रतियोगिता समस्याएं
  • GPQA Diamond: 198 स्नातक-स्तरीय विज्ञान तर्क बेंचमार्क

मॉडल

  • GPT OSS 120B/20B: बड़े/मध्यम-आकार के transformer, "उच्च तर्क प्रयास" के साथ
  • Qwen3-30B-A3B-Instruct-2507: अलीबाबा का निर्देश-ट्यून किया गया वेरिएंट

प्रयोगात्मक कॉन्फ़िगरेशन

  • तापमान=0.7, 4-चरण अनुक्रमिक स्केलिंग प्रक्रिया
  • प्रति चरण अधिकतम 8,192 टोकन (कुल 32,768 टोकन अधिकतम मान)
  • एन्ट्रॉपी गणना के लिए top-20 logprobs निकालना

मूल्यांकन मेट्रिक्स

  • Step-1 Accuracy: केवल पहले तर्क चरण का उपयोग करके आधारभूत सटीकता
  • 4-Step Sequential Accuracy: 4-चरण अनुक्रमिक तर्क प्रक्रिया की अंतिम सटीकता
  • Thresh Acc.: एन्ट्रॉपी सीमा से नीचे समस्याओं की सटीकता
  • Token Savings: चयनात्मक प्रारंभिक रोकथाम के माध्यम से प्राप्त कम्प्यूटेशनल बचत

प्रयोगात्मक परिणाम

मुख्य परिणाम

9 मॉडल-डेटासेट संयोजनों में व्यापक प्रदर्शन:

  • सुसंगत कम्प्यूटेशनल बचत: सभी संयोजनों में 25-50% टोकन बचत प्राप्त
  • सटीकता संरक्षण: 4-चरण आधारभूत के सापेक्ष कोई सटीकता हानि नहीं (∆-Acc = 0%)
  • सीमा सटीकता: अधिकांश मॉडल 88-100% तक पहुंचते हैं, प्रभावी एन्ट्रॉपी-आधारित भेदभाव का संकेत

मुख्य निष्कर्ष

उदीयमान आत्मविश्वास अंशांकन विश्लेषण

तुलनात्मक प्रयोग दिखाते हैं कि मानक निर्देश-ट्यून किए गए मॉडल (Llama 3.3 70B) में एन्ट्रॉपी-आधारित आत्मविश्वास अंशांकन की कमी है:

  • सही उत्तर बनाम गलत उत्तर: Cohen's d = -0.191 (नगण्य प्रभाव)
  • सांख्यिकीय रूप से महत्वहीन: p = 0.230
  • प्रमाणित करता है कि एन्ट्रॉपी-आधारित आत्मविश्वास तंत्र उच्च-स्तरीय पश्च-प्रशिक्षण अनुकूलन का उदीयमान गुण है

सीमा विधि तुलना

  • स्केल-अपरिवर्तनीय सार्वभौमिक विधि: उच्चतम कम्प्यूटेशनल बचत (75.0% शिखर, 45.2% औसत)
  • सूचना सिद्धांत इष्टतम विधि: संतुलित प्रदर्शन (67.9% औसत बचत)
  • बेयेसियन इष्टतम विधि: गणितीय इष्टतम सीमा (65.3% औसत बचत)
  • एन्ट्रॉपी माध्य विधि: रूढ़िवादी आधारभूत, परिपूर्ण प्रारंभिक-रोकथाम सटीकता सुनिश्चित करता है (32.1% औसत)

विलोपन प्रयोग

Top-k Logprobs विश्लेषण

k=5,10,15,20 के लिए व्यवस्थित विलोपन अध्ययन:

  • टोकन बचत स्थिर रहती है (37.4-37.9%)
  • Cohen's d प्रभाव आकार एकदिष्ट रूप से बढ़ता है (0.574→0.600)
  • सभी k मानों में सांख्यिकीय महत्व (p<0.001)

अनुक्रम परिशोधन दृढ़ता

10-चरण आत्म-परिशोधन विश्लेषण दिखाता है:

  • सभी परिशोधन चरणों में दृढ़ निर्णय सीमा बनाए रखना
  • सही समस्याएं कम एन्ट्रॉपी (μ=0.799) बनाम गलत (μ=1.069) बनाए रखती हैं
  • एन्ट्रॉपी विस्तारित तर्क प्रक्रिया में विश्वसनीय आत्मविश्वास संकेत बनी रहती है

संबंधित कार्य

अनुकूली कम्प्यूटेशन और प्रारंभिक निकास

  • DeeBERT, CALM आदि विधियां परतों में गतिशील कम्प्यूटेशन समायोजन करती हैं
  • आर्किटेक्चर परिवर्तन या सहायक वर्गीकारक की आवश्यकता होती है
  • यह विधि प्रशिक्षण-मुक्त, मॉडल-अज्ञेयवादी है, तर्क चरण स्तर पर ट्रिगर होती है

एन्ट्रॉपी-आधारित रोकथाम

  • HALT-CoT उत्तर वितरण एन्ट्रॉपी का उपयोग करता है लेकिन प्रति-डेटासेट सीमा ट्यूनिंग की आवश्यकता होती है
  • AdaDec कोड जनन में टोकन-स्तरीय एन्ट्रॉपी लागू करता है
  • यह पेपर "पहले तर्क चरण के अनुक्रम-स्तरीय टोकन एन्ट्रॉपी" का उपयोग करता है, कम-नमूना अंशांकन का समर्थन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तर्क मॉडल में एन्ट्रॉपी-आधारित आत्मविश्वास तंत्र का पहला व्यापक अध्ययन
  2. गणितीय और विज्ञान तर्क बेंचमार्क में सार्वभौमिकता का सत्यापन
  3. आत्मविश्वास अंशांकन को उच्च-स्तरीय पश्च-प्रशिक्षण अनुकूलन के उदीयमान गुण के रूप में प्रकट करना
  4. सटीकता को बनाए रखते हुए 25-50% कम्प्यूटेशनल बचत प्राप्त करना

सीमाएं

  1. एन्ट्रॉपी सीमा को सही और गलत उत्तर वाले छोटे सबसेट पर अंशांकन की आवश्यकता होती है
  2. मॉडल और बेंचमार्क में सामान्यीकरण के लिए कोई सार्वभौमिक एन्ट्रॉपी सीमा नहीं
  3. वर्तमान एन्ट्रॉपी संकेत केवल रोकथाम समय निर्धारित करता है, यह नहीं पकड़ता कि अनिश्चित पहला चरण सही समाधान में परिशोधित हो सकता है

भविष्य की दिशाएं

  1. अधिक विविध बेंचमार्क तक विस्तार (प्रोग्रामिंग, खुली डोमेन QA, बहुभाषी तर्क)
  2. नए आत्मविश्वास संकेत (सिमेंटिक एन्ट्रॉपी, छिपी स्थिति विचरण)
  3. परिशोधन-जागरूक रणनीति डिजाइन करना
  4. एन्ट्रॉपी-आधारित बहु-एजेंट तर्क प्रणाली

गहन मूल्यांकन

शक्तियां

  1. मजबूत सैद्धांतिक आधार: सूचना सिद्धांत और सांख्यिकीय निर्णय सिद्धांत पर आधारित कठोर गणितीय रूपरेखा
  2. उच्च व्यावहारिक मूल्य: महत्वपूर्ण कम्प्यूटेशनल बचत (25-50%) और आसान तैनाती
  3. महत्वपूर्ण वैज्ञानिक खोज: आत्मविश्वास अंशांकन को आधुनिक तर्क मॉडल के उदीयमान गुण के रूप में प्रकट करना
  4. व्यापक प्रयोग: कई मॉडल, कई डेटासेट में व्यापक सत्यापन और विस्तृत विलोपन अध्ययन

कमियां

  1. सीमित सामान्यीकरण: मॉडल-डेटासेट विशिष्ट सीमा अंशांकन की आवश्यकता
  2. मॉडल निर्भरता: केवल उच्च-स्तरीय पश्च-प्रशिक्षण अनुकूलन वाले मॉडल में प्रभावी
  3. मूल्यांकन दायरा: मुख्य रूप से गणितीय और विज्ञान तर्क कार्यों तक सीमित
  4. सैद्धांतिक विश्लेषण गहराई: कुछ मॉडल में यह उदीयमान गुण क्यों है इसके तंत्र की व्याख्या अपर्याप्त

प्रभाव

  1. शैक्षणिक मूल्य: तर्क दक्षता अनुकूलन के लिए नया सैद्धांतिक दृष्टिकोण और व्यावहारिक विधि प्रदान करता है
  2. औद्योगिक अनुप्रयोग: उत्पादन वातावरण में सीधे लागू किया जा सकता है, तर्क लागत में महत्वपूर्ण कमी
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और गणितीय सूत्र प्रदान करता है, पुनरुत्पादन का समर्थन करता है
  4. प्रेरणा: आधुनिक एलएलएम की उदीयमान क्षमताओं को समझने के लिए नई अंतर्दृष्टि प्रदान करता है

लागू परिदृश्य

  1. उच्च-लागत तर्क कार्य: गणितीय प्रतियोगिता, विज्ञान समस्या समाधान
  2. संसाधन-सीमित वातावरण: सटीकता और कम्प्यूटेशनल लागत को संतुलित करने की आवश्यकता वाले अनुप्रयोग
  3. वास्तविक समय तर्क प्रणाली: विलंबता को कम करने की आवश्यकता वाली इंटरैक्टिव एआई सहायक
  4. अनुसंधान उपकरण: विभिन्न मॉडल की आत्मविश्वास अंशांकन क्षमता का विश्लेषण और तुलना करना

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें प्रारंभिक निकास विधियां (DeeBERT, CALM), एन्ट्रॉपी-आधारित रोकथाम रणनीतियां (HALT-CoT, AdaDec) और आत्मविश्वास अनुमान संबंधित अनुसंधान शामिल हैं, जो इस कार्य के लिए एक मजबूत सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो सैद्धांतिक नवाचार, प्रयोगात्मक सत्यापन और व्यावहारिक मूल्य के मामले में महत्वपूर्ण योगदान देता है। विशेष रूप से, आत्मविश्वास अंशांकन को उदीयमान गुण के रूप में खोज आधुनिक एलएलएम क्षमताओं को समझने के लिए नई वैज्ञानिक अंतर्दृष्टि प्रदान करती है। विधि सरल और प्रभावी है, जिसमें व्यापक अनुप्रयोग संभावनाएं हैं।