ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic
ARS: कुशल बड़े तर्क भाषा मॉडल के लिए अनुकूली तर्क दमन
बड़े तर्क भाषा मॉडल (LRLMs) जटिल तर्क कार्यों में उत्कृष्ट क्षमता प्रदर्शित करते हैं, लेकिन "अत्यधिक विचार" घटना के कारण महत्वपूर्ण कम्प्यूटेशनल दक्षता समस्याओं का सामना करते हैं। मौजूदा कुशल तर्क विधियां तर्क गुणवत्ता और तर्क लागत में कमी के बीच संतुलन की चुनौती का सामना करती हैं। यह पेपर अनुकूली तर्क दमन (ARS) प्रस्तावित करता है, एक नई प्रशिक्षण-मुक्त विधि जो अनुकूली नियतात्मक निगरानी के माध्यम से गतिशील रूप से अनावश्यक तर्क चरणों को दबाती है, जबकि सटीकता बनाए रखती है। ARS बहु-चेकपॉइंट नियतात्मक अनुमान तंत्र और क्रमिक दमन थ्रेसहोल्ड प्रस्तुत करता है, जो स्थिर दमन विधियों की तुलना में बेहतर दक्षता प्राप्त करता है। विभिन्न मॉडल आर्किटेक्चर के गणितीय तर्क बेंचमार्क पर, ARS क्रमशः टोकन, विलंबता और ऊर्जा खपत में 53%, 46.1% और 57.9% तक की कमी प्राप्त करता है, जबकि सटीकता बनाए रखता या सुधारता है।
बड़े तर्क मॉडल (LRMs) जैसे OpenAI के o1/o3 और DeepSeek-R1 जटिल श्रृंखला-विचार (CoT) तर्क तंत्र के माध्यम से गणित, प्रोग्रामिंग और वैज्ञानिक तर्क जैसे जटिल कार्यों में क्रांतिकारी प्रगति प्राप्त की है। हालांकि, इन मॉडलों में गंभीर "अत्यधिक विचार" घटना है, अर्थात् मॉडल सही मध्यवर्ती समाधान प्राप्त करने के बाद भी अनावश्यक तर्क चरण उत्पन्न करना जारी रखता है।
तर्क प्रश्न q और बड़े तर्क भाषा मॉडल π को देखते हुए, मानक जनन प्रक्रिया आउटपुट टोकन o = {o₁, o₂, ..., oₜ} उत्पन्न करती है, जहां oₜ ~ π(·|q, o<ₜ)। लक्ष्य तर्क सटीकता बनाए रखते हुए अपेक्षित आउटपुट लंबाई ET को कम करना है:
min E[T] subject to E[L(f(o), y)] ≤ ε
जहां f(o) आउटपुट o से अंतिम उत्तर निकालता है, y सही उत्तर है, L हानि फ़ंक्शन है, और ε स्वीकार्य सटीकता ह्रास थ्रेसहोल्ड है।
ARS अनुकूली नियतात्मकता निगरानी, क्रमिक थ्रेसहोल्ड समायोजन और गतिशील दमन शक्ति नियंत्रण को एकीकृत करके, मौजूदा विधियों की मुख्य सीमाओं को सफलतापूर्वक हल करता है। प्रयोग साबित करते हैं कि ARS सटीकता बनाए रखते या सुधारते हुए महत्वपूर्ण कम्प्यूटेशनल दक्षता सुधार प्राप्त करता है।
पेपर 21 संबंधित संदर्भों का हवाला देता है, जो बड़े भाषा मॉडल तर्क, श्रृंखला-विचार, गणितीय समस्या समाधान आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह बड़े तर्क मॉडल दक्षता अनुकूलन में महत्वपूर्ण योगदान वाला एक पेपर है। ARS विधि डिजाइन सुंदर है, प्रयोगात्मक परिणाम आश्वस्त करने वाले हैं, और तर्क मॉडल की अत्यधिक विचार समस्या को हल करने के लिए एक प्रभावी समाधान प्रदान करता है। कुछ सीमाओं के बावजूद, इसकी नवाचारिता और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।