2025-11-11T18:07:09.125558

Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning

Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic

শুধুমাত্র যথেষ্ট চিন্তা করুন: LLM যুক্তির জন্য আত্মবিশ্বাস সংকেত হিসাবে ক্রম-স্তরের এন্ট্রপি

মৌলিক তথ্য

  • পেপার আইডি: 2510.08146
  • শিরোনাম: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
  • লেখক: Aman Sharma, Paras Chopra (Lossfunk)
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনার সময়: ২৫ অক্টোবর ২০২৫ (arXiv v2)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.08146v2

সারসংক্ষেপ

এই গবেষণা একটি এন্ট্রপি-ভিত্তিক নতুন কাঠামো প্রস্তাব করে যা Shannon এন্ট্রপিকে আত্মবিশ্বাস সংকেত হিসাবে ব্যবহার করে বৃহৎ ভাষা মডেল (LLM) যুক্তি কাজে প্রাথমিক থামানো সক্ষম করে, কাজের নির্ভুলতা বজায় রেখে ২৫-৫০% গণনামূলক সঞ্চয় অর্জন করে। মূল আবিষ্কার হল যে এন্ট্রপি-ভিত্তিক আত্মবিশ্বাস ক্যালিব্রেশন আধুনিক যুক্তি মডেলে উচ্চ-স্তরের পরবর্তী প্রশিক্ষণ অপ্টিমাইজেশনের একটি উদীয়মান বৈশিষ্ট্য, কিন্তু মান নির্দেশনা সুর এবং প্রাক-প্রশিক্ষিত মডেল (যেমন Llama 3.3 70B) এ উল্লেখযোগ্যভাবে অনুপস্থিত।

গবেষণার পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৃহৎ ভাষা মডেলগুলি যুক্তি বেঞ্চমার্কে ক্রমবর্ধমান সম্পৃক্ত হচ্ছে, যুক্তি অনুমানের খরচ ক্রমাগত বৃদ্ধি পাচ্ছে, একটি কঠিন সমস্যার জন্য যুক্তি খরচ হাজার ডলারে পৌঁছাতে পারে। এই উচ্চ খরচ এবং সম্পর্কিত বিলম্ব গবেষকদের নির্ভুলতা প্রভাবিত না করে টোকেন ব্যবহার হ্রাস করার পদ্ধতি খুঁজতে অনুপ্রাণিত করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

যুক্তি কাজে বর্তমান গণনামূলক অপ্টিমাইজেশন পদ্ধতিতে তাত্ত্বিক ভিত্তি এবং মডেল আর্কিটেকচার জুড়ে সার্বজনীন প্রযোজ্যতার অভাব রয়েছে:

  1. বিদ্যমান আত্মবিশ্বাস ব্যবস্থা অস্থায়ী থ্রেশহোল্ড বা সাধারণ হিউরিস্টিকের উপর নির্ভর করে
  2. বিভিন্ন মডেল আকার বা যুক্তি ডোমেন জুড়ে সাধারণীকরণ করতে পারে না
  3. তাত্ত্বিক ভিত্তি এবং ব্যবহারিক স্থাপনার প্রয়োজনীয়তার মধ্যে মূল ব্যবধান রয়েছে

গবেষণার প্রেরণা

এই পত্রটি Shannon এন্ট্রপি-ভিত্তিক একটি সার্বজনীন কাঠামো প্রবর্তন করে এই ব্যবধান সমাধান করে, LLM গণিত যুক্তিতে আত্মবিশ্বাস অনুমানের জন্য একটি নীতিগত অ্যালগরিদমিক হস্তক্ষেপ প্রদান করে। এই পদ্ধতি তথ্য তত্ত্ব এবং পরিসংখ্যানগত সিদ্ধান্ত তত্ত্বের উপর ভিত্তি করে, তাত্ত্বিক কঠোরতা এবং ব্যবহারিক প্রয়োগযোগ্যতা প্রদান করে।

মূল অবদান

  1. নির্ভুলতা সংরক্ষণ: ২৫-৫০% গণনামূলক সঞ্চয় অর্জন করার সময় কাজের নির্ভুলতা বজায় রাখে, কোনো পরিসংখ্যানগত উল্লেখযোগ্য হ্রাস নেই
  2. ব্যবহারিক স্থাপনা: ন্যূনতম নমুনা (৫-১০টি) দিয়ে থ্রেশহোল্ড সমতুল্যতা অর্জন করে, বৈচিত্র্যময় যুক্তি বেঞ্চমার্ক জুড়ে দ্রুত স্থাপনা সমর্থন করে
  3. উন্নত টোকেন বাজেট কাঠামো: একটি গণনামূলক বরাদ্দ স্কিম যা সহজ, কম অনিশ্চয়তা সমস্যা থেকে কঠিন, উচ্চ অনিশ্চয়তা সমস্যায় সংরক্ষিত সম্পদ স্থানান্তর করে
  4. তাত্ত্বিক ভিত্তি: তথ্য তত্ত্ব এবং বেয়েসিয়ান সিদ্ধান্ত তত্ত্বের উপর ভিত্তি করে চারটি গাণিতিক নীতিগত থ্রেশহোল্ড পদ্ধতি

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি যুক্তি সমস্যা q, মডেল M এবং থ্রেশহোল্ড τ দেওয়া, সিস্টেমকে প্রথম যুক্তি ধাপের পরে থামার সিদ্ধান্ত নিতে হবে (যখন আত্মবিশ্বাস যথেষ্ট বেশি থাকে) অথবা যুক্তি প্রসারিত করতে হবে। ইনপুট হল যুক্তি সমস্যা, আউটপুট হল উত্তর, সীমাবদ্ধতা হল নির্ভুলতা বজায় রেখে গণনামূলক খরচ কমানো।

মূল প্রযুক্তিগত কাঠামো

আত্মবিশ্বাস সংকেত হিসাবে Shannon এন্ট্রপি

শীর্ষ-k টোকেন লগপ্রবের Shannon এন্ট্রপি আত্মবিশ্বাস পরিমাপ হিসাবে ব্যবহার করুন (k=20):

  1. লগপ্রব স্বাভাবিকীকরণ: pi=eij=120ejp_i = \frac{e^{\ell_i}}{\sum_{j=1}^{20} e^{\ell_j}}
  2. Shannon এন্ট্রপি গণনা: H=i=120pilog2piH = -\sum_{i=1}^{20} p_i \log_2 p_i
  3. ক্রম-স্তরের আত্মবিশ্বাস সংকেত: Hmean=1Tt=1THtH_{mean} = \frac{1}{T} \sum_{t=1}^T H_t

চারটি থ্রেশহোল্ড পদ্ধতি

  1. এন্ট্রপি গড় পদ্ধতি (Entropy Mean): সঠিক উত্তর এন্ট্রপি বিতরণের গড় থ্রেশহোল্ড হিসাবে ব্যবহার করুন τmean=μc\tau_{mean} = \mu_c
  2. তথ্য তত্ত্ব সর্বোত্তম পদ্ধতি: লগ স্কেলিং এবং প্রভাব আকার ব্যবহার করে তথ্য লাভ সর্বাধিক করুন τinfo=μc+σc×ln(1+d)\tau_{info} = \mu_c + \sigma_c \times \ln(1 + |d|)
  3. বেয়েসিয়ান সর্বোত্তম পদ্ধতি: গাউসিয়ান অনুমানের অধীনে শ্রেণীবিভাগ ত্রুটি কমিয়ে আনার গাণিতিক সর্বোত্তম সিদ্ধান্ত সীমানা τbayes=b±b24ac2a\tau_{bayes} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}
  4. স্কেল-অপরিবর্তনীয় সর্বজনীন পদ্ধতি: প্রভাব আকার স্বাভাবিকীকরণের মাধ্যমে বিভিন্ন মডেল বৈশিষ্ট্যের সাথে খাপ খাইয়ে নিন τuniversal=μc+d1+d×(μiμc)×max(0,1σcμc)\tau_{universal} = \mu_c + \frac{\sqrt{|d|}}{1+\sqrt{|d|}} \times (\mu_i - \mu_c) \times \max(0, 1-\frac{\sigma_c}{\mu_c})

টোকেন বাজেট কাঠামো

এন্ট্রপি-গেটেড বুদ্ধিমান টোকেন বরাদ্দ প্রক্রিয়া প্রবর্তন করুন:

  • মোট বাজেট সীমাবদ্ধতা: Budget = α × β = constant
  • সমস্যা শ্রেণীবিভাগ: উচ্চ আত্মবিশ্বাস সমস্যা (H ≤ τ) এবং কম আত্মবিশ্বাস সমস্যা (H > τ)
  • সম্পদ বরাদ্দ: উচ্চ আত্মবিশ্বাস সমস্যা একক API কল পায়, কম আত্মবিশ্বাস সমস্যা উন্নত বরাদ্দ পায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • AIME'24/25: প্রতিটি ৩০টি গণিত প্রতিযোগিতা সমস্যা
  • GPQA Diamond: ১৯৮টি স্নাতক-স্তরের বিজ্ঞান যুক্তি বেঞ্চমার্ক

মডেল

  • GPT OSS 120B/20B: বড়/মাঝারি আকারের ট্রান্সফর্মার, "উচ্চ যুক্তি প্রচেষ্টা" সহ
  • Qwen3-30B-A3B-Instruct-2507: আলিবাবার নির্দেশনা-সুর সংস্করণ

পরীক্ষামূলক কনফিগারেশন

  • তাপমাত্রা=০.৭, ৪-ধাপ ক্রম স্কেলিং প্রক্রিয়া
  • প্রতি ধাপে সর্বাধিক ৮,১৯২ টোকেন (মোট ৩২,৭৬৮ টোকেন সর্বাধিক মূল্য)
  • এন্ট্রপি গণনার জন্য শীর্ষ-২০ লগপ্রব নিষ্কাশন

মূল্যায়ন মেট্রিক্স

  • ধাপ-১ নির্ভুলতা: শুধুমাত্র প্রথম যুক্তি ধাপ ব্যবহার করে বেসলাইন নির্ভুলতা
  • ৪-ধাপ ক্রমিক নির্ভুলতা: ৪-ধাপ ক্রম যুক্তি প্রক্রিয়ার চূড়ান্ত নির্ভুলতা
  • থ্রেশ নির্ভুলতা: এন্ট্রপি থ্রেশহোল্ডের নিচে সমস্যার নির্ভুলতা
  • টোকেন সঞ্চয়: নির্বাচনী প্রাথমিক থামানোর মাধ্যমে অর্জিত গণনামূলক সঞ্চয়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

৯টি মডেল-ডেটাসেট সমন্বয় জুড়ে ব্যাপক কর্মক্ষমতা নির্দেশ করে:

  • সামঞ্জস্যপূর্ণ গণনামূলক সঞ্চয়: সমস্ত সমন্বয় ২৫-৫০% টোকেন সঞ্চয় অর্জন করে
  • নির্ভুলতা সংরক্ষণ: ৪-ধাপ বেসলাইনের তুলনায় নির্ভুলতা হ্রাস নেই (∆-Acc = 0%)
  • থ্রেশহোল্ড নির্ভুলতা: বেশিরভাগ মডেল ৮৮-১০০% অর্জন করে, কার্যকর এন্ট্রপি-ভিত্তিক বৈষম্য নির্দেশ করে

মূল আবিষ্কার

উদীয়মান আত্মবিশ্বাস ক্যালিব্রেশন বিশ্লেষণ

তুলনামূলক পরীক্ষা দেখায় যে মান নির্দেশনা মডেল (Llama 3.3 70B) এন্ট্রপি-ভিত্তিক আত্মবিশ্বাস ক্যালিব্রেশনের অভাব রয়েছে:

  • সঠিক উত্তর বনাম ভুল উত্তর: Cohen's d = -০.১৯১ (উপেক্ষণীয় প্রভাব)
  • পরিসংখ্যানগতভাবে অ-উল্লেখযোগ্য: p = ০.২৩০
  • প্রমাণ করে যে এন্ট্রপি-ভিত্তিক আত্মবিশ্বাস প্রক্রিয়া উচ্চ-স্তরের পরবর্তী প্রশিক্ষণ অপ্টিমাইজেশনের একটি উদীয়মান বৈশিষ্ট্য

থ্রেশহোল্ড পদ্ধতি তুলনা

  • স্কেল-অপরিবর্তনীয় সর্বজনীন পদ্ধতি: সর্বোচ্চ গণনামূলক সঞ্চয় (৭৫.০% শিখর, ৪৫.২% গড়)
  • তথ্য তত্ত্ব সর্বোত্তম পদ্ধতি: ভারসাম্যপূর্ণ কর্মক্ষমতা (৬৭.৯% গড় সঞ্চয়)
  • বেয়েসিয়ান সর্বোত্তম পদ্ধতি: গাণিতিক সর্বোত্তম সীমানা (৬৫.৩% গড় সঞ্চয়)
  • এন্ট্রপি গড় পদ্ধতি: রক্ষণশীল বেসলাইন, নিখুঁত প্রাথমিক-থামানো নির্ভুলতা নিশ্চিত করে (৩২.১% গড়)

বিলোপন পরীক্ষা

শীর্ষ-k লগপ্রব বিশ্লেষণ

সিস্টেমিক বিলোপন অধ্যয়ন k=৫,১০,১৫,২০:

  • টোকেন সঞ্চয় স্থিতিশীল থাকে (৩৭.৪-৩৭.৯%)
  • Cohen's d প্রভাব আকার একঘেয়ে বৃদ্ধি (০.৫৭৪→০.৬০০)
  • সমস্ত k মান পরিসংখ্যানগত উল্লেখযোগ্যতা প্রদর্শন করে (p<০.০০১)

ক্রম পরিমার্জন স্থায়িত্ব

১০-ধাপ স্ব-পরিমার্জন বিশ্লেষণ দেখায়:

  • সমস্ত পরিমার্জন ধাপ জুড়ে স্থায়ী সিদ্ধান্ত সীমানা
  • সঠিক সমস্যা কম এন্ট্রপি বজায় রাখে (μ=০.৭৯৯) বনাম ভুল (μ=১.০৬৯)
  • এন্ট্রপি প্রসারিত যুক্তি প্রক্রিয়া জুড়ে একটি নির্ভরযোগ্য আত্মবিশ্বাস সংকেত থাকে

সম্পর্কিত কাজ

অভিযোজিত গণনা এবং প্রাথমিক প্রস্থান

  • DeeBERT, CALM এবং অন্যান্য পদ্ধতি স্তর জুড়ে গতিশীল গণনা সমন্বয় করে
  • স্থাপত্য পরিবর্তন বা সহায়ক শ্রেণীবিভাজক প্রয়োজন
  • এই পত্রের পদ্ধতি প্রশিক্ষণ-মুক্ত, মডেল-অজ্ঞেয়বাদী, যুক্তি ধাপ-স্তরে ট্রিগার করে

এন্ট্রপি-ভিত্তিক থামানো

  • HALT-CoT উত্তর বিতরণ এন্ট্রপি ব্যবহার করে কিন্তু প্রতি-ডেটাসেট থ্রেশহোল্ড সুর প্রয়োজন
  • AdaDec কোড প্রজন্মে টোকেন-স্তরের এন্ট্রপি প্রয়োগ করে
  • এই পত্র "প্রথম যুক্তি ধাপের ক্রম-স্তরের টোকেন এন্ট্রপি" ব্যবহার করে, কম-নমুনা ক্যালিব্রেশন সমর্থন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. যুক্তি মডেলে এন্ট্রপি-ভিত্তিক আত্মবিশ্বাস প্রক্রিয়ার প্রথম ব্যাপক অধ্যয়ন
  2. গণিত এবং বিজ্ঞান যুক্তি বেঞ্চমার্ক জুড়ে সার্বজনীনতা যাচাই করে
  3. আত্মবিশ্বাস ক্যালিব্রেশন উচ্চ-স্তরের পরবর্তী প্রশিক্ষণ অপ্টিমাইজেশনের একটি উদীয়মান বৈশিষ্ট্য প্রকাশ করে
  4. নির্ভুলতা বজায় রেখে ২৫-৫০% গণনামূলক সঞ্চয় অর্জন করে

সীমাবদ্ধতা

  1. এন্ট্রপি থ্রেশহোল্ড সঠিক এবং ভুল উত্তর সহ একটি ছোট উপসেটে ক্যালিব্রেশন প্রয়োজন
  2. মডেল এবং বেঞ্চমার্ক জুড়ে সর্বজনীন এন্ট্রপি থ্রেশহোল্ড নেই
  3. বর্তমান এন্ট্রপি সংকেত শুধুমাত্র থামানোর সময় নির্ধারণ করে, অনিশ্চিত প্রথম ধাপ সঠিক সমাধানে পরিমার্জিত হতে পারে কিনা তা ক্যাপচার করে না

ভবিষ্যত দিকনির্দেশনা

  1. আরও বৈচিত্র্যময় বেঞ্চমার্কে প্রসারিত করুন (প্রোগ্রামিং, খোলা ডোমেইন QA, বহুভাষিক যুক্তি)
  2. নতুন আত্মবিশ্বাস সংকেত (শব্দার্থিক এন্ট্রপি, লুকানো অবস্থা বৈচিত্র্য)
  3. পরিমার্জন-সচেতন কৌশল ডিজাইন করুন
  4. এন্ট্রপি-ভিত্তিক বহু-এজেন্ট যুক্তি সিস্টেম

গভীর মূল্যায়ন

শক্তি

  1. দৃঢ় তাত্ত্বিক ভিত্তি: তথ্য তত্ত্ব এবং পরিসংখ্যানগত সিদ্ধান্ত তত্ত্বের উপর ভিত্তি করে কঠোর গাণিতিক কাঠামো
  2. উচ্চ ব্যবহারিক মূল্য: উল্লেখযোগ্য গণনামূলক সঞ্চয় (২৫-৫০%) এবং সহজ স্থাপনা
  3. গুরুত্বপূর্ণ বৈজ্ঞানিক আবিষ্কার: আধুনিক যুক্তি মডেলের উদীয়মান বৈশিষ্ট্য হিসাবে আত্মবিশ্বাস ক্যালিব্রেশন প্রকাশ করে
  4. পর্যাপ্ত পরীক্ষা: একাধিক মডেল, একাধিক ডেটাসেট জুড়ে ব্যাপক যাচাইকরণ এবং বিস্তৃত বিলোপন অধ্যয়ন

অপূর্ণতা

  1. সাধারণীকরণ সীমাবদ্ধতা: মডেল-ডেটাসেট-নির্দিষ্ট থ্রেশহোল্ড ক্যালিব্রেশন প্রয়োজন
  2. মডেল নির্ভরতা: শুধুমাত্র উচ্চ-স্তরের পরবর্তী প্রশিক্ষণ অপ্টিমাইজেশন সহ মডেলে কার্যকর
  3. মূল্যায়ন পরিসীমা: প্রধানত গণিত এবং বিজ্ঞান যুক্তি কাজে সীমাবদ্ধ
  4. তাত্ত্বিক বিশ্লেষণ গভীরতা: কেন নির্দিষ্ট মডেলগুলির এই উদীয়মান বৈশিষ্ট্য রয়েছে তার প্রক্রিয়া ব্যাখ্যা অপর্যাপ্ত

প্রভাব

  1. একাডেমিক মূল্য: যুক্তি দক্ষতা অপ্টিমাইজেশনের জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি এবং ব্যবহারিক পদ্ধতি প্রদান করে
  2. শিল্প প্রয়োগ: উৎপাদন পরিবেশে সরাসরি প্রয়োগ করা যায়, যুক্তি খরচ উল্লেখযোগ্যভাবে হ্রাস করে
  3. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং গাণিতিক সূত্র প্রদান করে, পুনরুৎপাদন সমর্থন করে
  4. অনুপ্রেরণামূলক তাৎপর্য: আধুনিক LLM এর উদীয়মান ক্ষমতা বোঝার জন্য নতুন অন্তর্দৃষ্টি প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. উচ্চ-খরচ যুক্তি কাজ: গণিত প্রতিযোগিতা, বৈজ্ঞানিক সমস্যা সমাধান
  2. সম্পদ-সীমাবদ্ধ পরিবেশ: নির্ভুলতা এবং গণনামূলক খরচের ভারসাম্য প্রয়োজন এমন অ্যাপ্লিকেশন
  3. রিয়েল-টাইম যুক্তি সিস্টেম: বিলম্ব হ্রাস প্রয়োজন এমন ইন্টারেক্টিভ AI সহায়ক
  4. গবেষণা সরঞ্জাম: বিভিন্ন মডেলের আত্মবিশ্বাস ক্যালিব্রেশন ক্ষমতা বিশ্লেষণ এবং তুলনা করতে

সংদর্ভ

পত্রটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে প্রাথমিক প্রস্থান পদ্ধতি (DeeBERT, CALM), এন্ট্রপি-ভিত্তিক থামানো কৌশল (HALT-CoT, AdaDec) এবং আত্মবিশ্বাস অনুমান সম্পর্কিত গবেষণা রয়েছে, এই কাজের জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি এবং তুলনা বেঞ্চমার্ক প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা তাত্ত্বিক উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং ব্যবহারিক মূল্যে গুরুত্বপূর্ণ অবদান রাখে। বিশেষত আত্মবিশ্বাস ক্যালিব্রেশনের উদীয়মান বৈশিষ্ট্য সম্পর্কে আবিষ্কার আধুনিক LLM ক্ষমতা বোঝার জন্য নতুন বৈজ্ঞানিক অন্তর্দৃষ্টি প্রদান করে। পদ্ধতি সহজ এবং কার্যকর, ব্যাপক প্রয়োগের সম্ভাবনা রয়েছে।