2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic

ARS: कुशल बड़े तर्क भाषा मॉडल के लिए अनुकूली तर्क दमन

मूल जानकारी

  • पेपर ID: 2510.00071
  • शीर्षक: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
  • लेखक: Dongqi Zheng (स्वतंत्र शोधकर्ता)
  • वर्गीकरण: cs.AI cs.CL
  • प्रकाशन समय: 25 अक्टूबर, 2010 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.00071v2

सारांश

बड़े तर्क भाषा मॉडल (LRLMs) जटिल तर्क कार्यों में उत्कृष्ट क्षमता प्रदर्शित करते हैं, लेकिन "अत्यधिक विचार" घटना के कारण महत्वपूर्ण कम्प्यूटेशनल दक्षता समस्याओं का सामना करते हैं। मौजूदा कुशल तर्क विधियां तर्क गुणवत्ता और तर्क लागत में कमी के बीच संतुलन की चुनौती का सामना करती हैं। यह पेपर अनुकूली तर्क दमन (ARS) प्रस्तावित करता है, एक नई प्रशिक्षण-मुक्त विधि जो अनुकूली नियतात्मक निगरानी के माध्यम से गतिशील रूप से अनावश्यक तर्क चरणों को दबाती है, जबकि सटीकता बनाए रखती है। ARS बहु-चेकपॉइंट नियतात्मक अनुमान तंत्र और क्रमिक दमन थ्रेसहोल्ड प्रस्तुत करता है, जो स्थिर दमन विधियों की तुलना में बेहतर दक्षता प्राप्त करता है। विभिन्न मॉडल आर्किटेक्चर के गणितीय तर्क बेंचमार्क पर, ARS क्रमशः टोकन, विलंबता और ऊर्जा खपत में 53%, 46.1% और 57.9% तक की कमी प्राप्त करता है, जबकि सटीकता बनाए रखता या सुधारता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े तर्क मॉडल (LRMs) जैसे OpenAI के o1/o3 और DeepSeek-R1 जटिल श्रृंखला-विचार (CoT) तर्क तंत्र के माध्यम से गणित, प्रोग्रामिंग और वैज्ञानिक तर्क जैसे जटिल कार्यों में क्रांतिकारी प्रगति प्राप्त की है। हालांकि, इन मॉडलों में गंभीर "अत्यधिक विचार" घटना है, अर्थात् मॉडल सही मध्यवर्ती समाधान प्राप्त करने के बाद भी अनावश्यक तर्क चरण उत्पन्न करना जारी रखता है।

समस्या की महत्ता

अत्यधिक विचार घटना के परिणाम:

  1. अत्यधिक कम्प्यूटेशनल ओवरहेड: अनावश्यक लंबे तर्क समय
  2. संसाधन बर्बादी: बढ़ी हुई टोकन खपत और कम्प्यूटेशनल लागत
  3. अक्षमता: वास्तविक तैनाती और अनुप्रयोग को प्रभावित करता है

मौजूदा विधियों की सीमाएं

मौजूदा समाधान तीन श्रेणियों में विभाजित हैं:

  1. संकेत-निर्देशित विधियां: पूर्वनिर्धारित टोकन बजट के भीतर मॉडल तर्क को निर्देशित करना
  2. प्रशिक्षण-आधारित विधियां: संक्षिप्त तर्क प्राप्त करने के लिए मॉडल को सूक्ष्म-ट्यून करना
  3. डिकोडिंग संचालन विधियां: तर्क प्रक्रिया को गतिशील रूप से समायोजित करना

ये विधियां आमतौर पर स्थिर थ्रेसहोल्ड, अनुकूलन की कमी आदि समस्याओं से ग्रस्त हैं।

अनुसंधान प्रेरणा

यह पेपर एक प्रशिक्षण-अज्ञेयवादी अनुकूली विधि विकसित करने का लक्ष्य रखता है जो:

  • मॉडल नियतात्मकता को गतिशील रूप से निगरानी करे
  • दमन शक्ति को क्रमिक रूप से समायोजित करे
  • तर्क गुणवत्ता बनाए रखते हुए दक्षता में महत्वपूर्ण सुधार करे

मुख्य योगदान

  1. ARS ढांचा प्रस्तावित करना: अनुकूली नियतात्मकता-निर्देशित तर्क दमन की पहली विधि, क्रमिक थ्रेसहोल्ड समायोजन के माध्यम से गतिशील दमन प्राप्त करना
  2. बहु-चेकपॉइंट तंत्र: नियतात्मकता अनुमान के लिए कई चेकपॉइंट स्थापित करना, एकल-बिंदु मूल्यांकन की सीमाओं को दूर करना
  3. सैद्धांतिक गारंटी: ARS प्रदर्शन का सैद्धांतिक विश्लेषण और दक्षता गारंटी प्रदान करना
  4. व्यापक मूल्यांकन: कई मॉडल आर्किटेक्चर और गणितीय तर्क बेंचमार्क पर विधि की प्रभावशीलता को सत्यापित करना
  5. महत्वपूर्ण प्रदर्शन सुधार: सटीकता बनाए रखते हुए टोकन, विलंबता और ऊर्जा खपत में बड़ी कमी प्राप्त करना

विधि विवरण

कार्य परिभाषा

तर्क प्रश्न q और बड़े तर्क भाषा मॉडल π को देखते हुए, मानक जनन प्रक्रिया आउटपुट टोकन o = {o₁, o₂, ..., oₜ} उत्पन्न करती है, जहां oₜ ~ π(·|q, o<ₜ)। लक्ष्य तर्क सटीकता बनाए रखते हुए अपेक्षित आउटपुट लंबाई ET को कम करना है:

min E[T] subject to E[L(f(o), y)] ≤ ε

जहां f(o) आउटपुट o से अंतिम उत्तर निकालता है, y सही उत्तर है, L हानि फ़ंक्शन है, और ε स्वीकार्य सटीकता ह्रास थ्रेसहोल्ड है।

मॉडल आर्किटेक्चर

ARS ढांचे में तीन मुख्य घटक हैं:

1. बहु-चेकपॉइंट नियतात्मकता अनुमान

  • जनन प्रक्रिया में कई चेकपॉइंट {c₁, c₂, ..., cₖ} स्थापित करना
  • प्रत्येक चेकपॉइंट cᵢ पर परीक्षणात्मक उत्तर जांच के माध्यम से मॉडल नियतात्मकता का अनुमान लगाना
  • अनुमानी कठिनाई अनुमान फ़ंक्शन का उपयोग करना:
D(q) = 0.4 · min(1, |q|words/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |symbols(q)|/10)

2. क्रमिक थ्रेसहोल्ड अनुकूलन

  • तर्क प्रगति पैटर्न के आधार पर दमन थ्रेसहोल्ड को गतिशील रूप से समायोजित करना
  • नियतात्मकता प्रवृत्ति के आधार पर अनुकूली समायोजन
  • तीन मोड का समर्थन: FAST, MOD, DeepReflect

3. गतिशील दमन तंत्र

  • अनुकूली दमन शक्ति नियंत्रण
  • ट्रिगर शब्द सेट T = {"Wait", "But", "Alternatively", ...} के आधार पर
  • उच्च नियतात्मकता का पता चलने पर प्रतिबिंब व्यवहार को दबाना

तकनीकी नवाचार बिंदु

  1. अनुकूलन: स्थिर दमन विधियों के विपरीत, ARS प्रत्येक मॉडल के तर्क प्रक्षेपवक्र के आधार पर गतिशील रूप से अनुकूल होता है
  2. बहु-चेकपॉइंट डिजाइन: एकल-बिंदु मूल्यांकन की अस्थिरता को दूर करना
  3. क्रमिक समायोजन: नियतात्मकता प्रवृत्ति के आधार पर दमन रणनीति को गतिशील रूप से समायोजित करना
  4. प्रशिक्षण-मुक्त विशेषता: अतिरिक्त सूक्ष्म-ट्यूनिंग के बिना मौजूदा मॉडल में सीधे तैनाती योग्य

सैद्धांतिक विश्लेषण

प्रमेय 1 (दक्षता गारंटी): तर्क जटिलता R(q) ≤ Rmax वाले प्रश्नों के लिए, ARS द्वारा उत्पादित आउटपुट लंबाई TARS संतुष्ट करती है:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

कम से कम 1-δ की संभावना के साथ, जहां εR → 0 चेकपॉइंट संख्या बढ़ने के साथ।

प्रयोगात्मक सेटअप

डेटासेट

  • GSM8K: प्राथमिक गणित शब्द समस्या डेटासेट
  • MATH500: उच्च विद्यालय और विश्वविद्यालय स्तर की गणित प्रतियोगिता समस्याएं
  • प्रत्येक डेटासेट n=200 समस्याओं का मूल्यांकन करता है

मूल्यांकन मेट्रिक्स

  • Acc↑: सटीकता (जितना अधिक बेहतर)
  • Lat↓: विलंबता (सेकंड, जितना कम बेहतर)
  • TPC↓: प्रति सही उत्तर टोकन (जितना कम बेहतर)
  • JPC↓: प्रति सही उत्तर जूल (जितना कम बेहतर)

तुलनात्मक विधियां

  1. Vanilla: मानक जनन
  2. TALE: टोकन-जागरूक लंबाई बाधा तर्क
  3. CGRS: आत्मविश्वास-निर्देशित तर्क दमन

कार्यान्वयन विवरण

  • मॉडल: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
  • हार्डवेयर: V100-32GB GPU
  • अधिकतम टोकन सीमा: प्रति प्रतिक्रिया 1200 टोकन

प्रयोगात्मक परिणाम

मुख्य परिणाम

GSM8K डेटासेट प्रदर्शन:

  • Qwen-1.5B: 91.0% सटीकता, 27.3% विलंबता में कमी, 22.5% टोकन में कमी, 24.5% ऊर्जा खपत में कमी
  • Qwen-7B: 94.5% सटीकता (8% सुधार), 6.3% विलंबता में कमी, 16.7% टोकन में कमी, 14.3% ऊर्जा खपत में कमी
  • DeepSeek-7B: 93.0% सटीकता, 46.1% विलंबता में कमी, 43.5% टोकन में कमी, 46.6% ऊर्जा खपत में कमी

MATH500 डेटासेट प्रदर्शन:

  • अधिक चुनौतीपूर्ण MATH500 पर, ARS ने समान रूप से दक्षता में महत्वपूर्ण सुधार प्राप्त किया
  • DeepSeek-7B मॉडल पर टोकन में 53.0% तक की कमी

मुख्य निष्कर्ष

  1. परिवर्तनशील दक्षता लाभ: ARS संदर्भ-संबंधित प्रदर्शन सुधार प्रदर्शित करता है, अधिकतम टोकन में 53% की कमी
  2. सटीकता संरक्षण: दक्षता-केंद्रित होने के बावजूद, ARS सभी बेंचमार्क पर प्रतिस्पर्धी सटीकता बनाए रखता है
  3. आर्किटेक्चर-निर्भर प्रदर्शन: DeepSeek-7B सबसे सुसंगत सुधार दिखाता है, जबकि Qwen मॉडल अधिक परिवर्तनशील प्रदर्शन करते हैं
  4. बहु-मेट्रिक सुधार: टोकन के अलावा, 46.1% विलंबता में कमी और 57.9% ऊर्जा बचत भी प्राप्त करता है

केस विश्लेषण

पेपर MATH500 की एक ज्यामितीय अनुक्रम समस्या के माध्यम से ARS की प्रभावशीलता प्रदर्शित करता है:

  • कठिनाई-जागरूक मोड चयन उपयुक्त तर्क गहराई
  • क्रमिक नियतात्मकता निगरानी आत्मविश्वास स्थिरता का प्रारंभिक पता लगाना
  • अनुकूली दमन आत्मविश्वास के निर्माण के साथ अधिक आक्रामक हो जाता है
  • प्रवृत्ति-आधारित समायोजन अनावश्यक प्रतिबिंब चक्र को रोकता है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. संकेत इंजीनियरिंग विधियां: निर्देश के माध्यम से मॉडल को बजट के भीतर तर्क करने के लिए निर्देशित करना
  2. मॉडल प्रशिक्षण अनुकूलन: संक्षिप्त तर्क उत्पन्न करने के लिए मॉडल को प्रशिक्षित करना
  3. डिकोडिंग रणनीति: तर्क प्रक्रिया को गतिशील रूप से समायोजित करना

इस पेपर के लाभ

  • प्रशिक्षण-मुक्त डिजाइन तत्काल तैनाती सक्षम करता है
  • अनुकूली तंत्र गुणवत्ता-दक्षता संतुलन में अधिक सूक्ष्मता प्रदान करता है
  • बहु-चेकपॉइंट तंत्र स्थिरता में सुधार करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ARS अनुकूली नियतात्मकता निगरानी, क्रमिक थ्रेसहोल्ड समायोजन और गतिशील दमन शक्ति नियंत्रण को एकीकृत करके, मौजूदा विधियों की मुख्य सीमाओं को सफलतापूर्वक हल करता है। प्रयोग साबित करते हैं कि ARS सटीकता बनाए रखते या सुधारते हुए महत्वपूर्ण कम्प्यूटेशनल दक्षता सुधार प्राप्त करता है।

सीमाएं

  1. अधिकतम जनन लंबाई सीमा: 1200 टोकन की सीमा जटिल समस्याओं की सटीकता को प्रभावित कर सकती है
  2. आर्किटेक्चर निर्भरता: विभिन्न मॉडल आर्किटेक्चर पर प्रदर्शन में महत्वपूर्ण भिन्नता
  3. मूल्यांकन सीमा: मुख्य रूप से गणितीय तर्क कार्यों पर केंद्रित

भविष्य की दिशाएं

  1. गणितीय समस्या समाधान से परे व्यापक तर्क प्रतिमान तक विस्तार
  2. चेकपॉइंट-जागरूक शेड्यूलिंग रणनीति की खोज
  3. विशिष्ट मॉडल व्यवहार के लिए समृद्ध नियतात्मकता अनुमान तंत्र विकसित करना

गहन मूल्यांकन

लाभ

  1. विधि नवाचार: अनुकूली तर्क दमन की अवधारणा पहली बार प्रस्तावित, तकनीकी मार्ग नवीन
  2. सैद्धांतिक आधार: सैद्धांतिक विश्लेषण और प्रदर्शन गारंटी प्रदान करता है
  3. प्रयोग पूर्णता: कई मॉडल, कई डेटासेट का व्यापक मूल्यांकन
  4. व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता तैनाती को आसान बनाती है
  5. उल्लेखनीय प्रदर्शन: दक्षता मेट्रिक्स पर बड़ी सुधार

कमियां

  1. मूल्यांकन सीमा: मुख्य रूप से गणितीय तर्क कार्यों पर मूल्यांकन, सामान्यीकरण की पुष्टि की आवश्यकता
  2. बेसलाइन तुलना: तुलनात्मक विधियां अपेक्षाकृत सीमित, अधिक नई विधियों की कमी
  3. सैद्धांतिक विश्लेषण: सैद्धांतिक गारंटी का प्रमाण बहुत संक्षिप्त
  4. पैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर के संवेदनशीलता विश्लेषण की कमी
  5. कम्प्यूटेशनल ओवरहेड: बहु-चेकपॉइंट तंत्र की स्वयं की कम्प्यूटेशनल लागत का विश्लेषण अपर्याप्त

प्रभाव

  1. शैक्षणिक योगदान: तर्क दक्षता अनुकूलन के लिए नई अनुसंधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: बड़े मॉडल तैनाती के लिए महत्वपूर्ण
  3. पुनरुत्पादनीयता: एल्गोरिदम विवरण स्पष्ट, पुनरुत्पादन में आसान

लागू परिदृश्य

  1. संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग आदि परिदृश्य
  2. वास्तविक समय अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाले तर्क कार्य
  3. लागत-संवेदनशील अनुप्रयोग: कम्प्यूटेशनल लागत नियंत्रण की आवश्यकता वाले व्यावसायिक अनुप्रयोग
  4. गणितीय तर्क कार्य: वर्तमान में सत्यापित मुख्य अनुप्रयोग क्षेत्र

संदर्भ

पेपर 21 संबंधित संदर्भों का हवाला देता है, जो बड़े भाषा मॉडल तर्क, श्रृंखला-विचार, गणितीय समस्या समाधान आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।


समग्र मूल्यांकन: यह बड़े तर्क मॉडल दक्षता अनुकूलन में महत्वपूर्ण योगदान वाला एक पेपर है। ARS विधि डिजाइन सुंदर है, प्रयोगात्मक परिणाम आश्वस्त करने वाले हैं, और तर्क मॉडल की अत्यधिक विचार समस्या को हल करने के लिए एक प्रभावी समाधान प्रदान करता है। कुछ सीमाओं के बावजूद, इसकी नवाचारिता और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।