LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Kang, Song, Kim
Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.
academic
LiteStage: बहु-चरणीय तर्क के लिए विलंबता-जागरूक परत छोड़ना
बहु-चरणीय तर्क जटिल समस्याओं को क्रमिक उप-चरणों में विभाजित करके छोटे भाषा मॉडल की तर्क क्षमता को बढ़ाने की एक प्रभावी रणनीति बन गई है। हालांकि, यह विलंबता में वृद्धि की कीमत पर आता है। लेखकों ने देखा है कि मौजूदा अनुकूली त्वरण तकनीकें (जैसे परत छोड़ना) इस सेटिंग में दक्षता और सटीकता को संतुलित करने में कठिनाई का सामना करती हैं, मुख्य रूप से दो महत्वपूर्ण चुनौतियों का सामना करती हैं: (1) चरणों के बीच छोड़ने की संवेदनशीलता में अंतर, (2) अनावश्यक आउटपुट टोकन की पीढ़ी। इन समस्याओं को हल करने के लिए, यह पेपर LiteStage प्रस्तावित करता है, जो बहु-चरणीय तर्क के लिए एक विलंबता-जागरूक परत छोड़ने की रूपरेखा है। LiteStage इष्टतम परत बजट आवंटित करने के लिए चरणबद्ध ऑफ़लाइन खोज और अनावश्यक डिकोडिंग को दबाने के लिए आत्मविश्वास-आधारित ऑनलाइन पीढ़ी प्रारंभिक निकास तंत्र को जोड़ता है। OBQA, CSQA और StrategyQA पर प्रयोग 1.70× तक का त्वरण प्राप्त करते हैं, 4.0% से कम सटीकता हानि के साथ, पिछली प्रशिक्षण-मुक्त परत छोड़ने की विधियों से बेहतर है।
बहु-चरणीय तर्क जटिल समस्याओं को कई क्रमिक उप-प्रश्नों में विभाजित करके छोटे भाषा मॉडल की तर्क क्षमता को बढ़ाता है। उदाहरण के लिए, TinyThinker तीन-चरणीय तर्क अपनाता है: स्मरण (Recall), विश्लेषण (Analysis) और सारांश (Summary)। हालांकि यह दृष्टिकोण तर्क की गुणवत्ता को प्रभावी ढंग से बढ़ाता है, यह अनिवार्य रूप से अनुमान विलंबता में वृद्धि करता है।
लेखकों ने गहन विश्लेषण के माध्यम से दो महत्वपूर्ण समस्याओं की खोज की है:
चरणों के बीच छोड़ने की संवेदनशीलता में अंतर: विभिन्न तर्क चरणों में परत छोड़ने के प्रति संवेदनशीलता की डिग्री में महत्वपूर्ण अंतर है। प्रयोग दर्शाते हैं कि Stage 3 (सारांश चरण) परत छोड़ने के प्रति सबसे संवेदनशील है, जबकि Stage 1 (स्मरण चरण) अपेक्षाकृत मजबूत है।
अनावश्यक टोकन पीढ़ी: परत छोड़ना प्रति-टोकन कम्प्यूटेशनल लागत को कम करता है, लेकिन अक्सर अधिक टोकन की पीढ़ी की ओर जाता है, जो वास्तव में अंत-से-अंत विलंबता को बढ़ाता है।
मौजूदा परत छोड़ने की विधियां (जैसे SkipDecode, UnifiedSkip, AdaSkip) आमतौर पर एक समान छोड़ने की रणनीति अपनाती हैं, जो बहु-चरणीय तर्क में विभिन्न चरणों की विशेषताओं के अनुकूल नहीं हो सकती हैं, जिससे:
संवेदनशील चरणों में अत्यधिक संपीड़न से सटीकता में तीव्र गिरावट
परत छोड़ने से उत्पन्न पीढ़ी की लंबाई में वृद्धि की अनदेखी
LiteStage रूपरेखा प्रस्तावित करना: बहु-चरणीय तर्क के लिए विशेष रूप से डिज़ाइन की गई पहली विलंबता-जागरूक परत छोड़ने की रूपरेखा, जो चरणों के बीच संवेदनशीलता अंतर और अनावश्यक टोकन पीढ़ी की समस्याओं को प्रभावी ढंग से हल करती है।
चरणबद्ध परत बजट आवंटन रणनीति: सबसे धीमे चरण से सबसे तेज़ चरण तक एक लालची खोज एल्गोरिदम डिज़ाइन किया गया है, जो प्रत्येक तर्क चरण के लिए इष्टतम परत छोड़ने का बजट आवंटित करता है।
आत्मविश्वास-संचालित पीढ़ी प्रारंभिक निकास तंत्र: ऑनलाइन आत्मविश्वास निगरानी का परिचय, कम आत्मविश्वास वाली अनावश्यक पीढ़ी को गतिशील रूप से समाप्त करना, अनुमान दक्षता को और बढ़ाना।
उल्लेखनीय प्रदर्शन सुधार: तीन बेंचमार्क डेटासेट पर 1.16-1.70× त्वरण प्राप्त करना, केवल 0.4-4.0% सटीकता हानि के साथ, मौजूदा प्रशिक्षण-मुक्त विधियों को बहुत अधिक पार करना।
जहां T और A क्रमशः अनुमान विलंबता और सटीकता का प्रतिनिधित्व करते हैं, M_L और M क्रमशः परत छोड़ने को लागू करने वाले मॉडल और पूर्ण परत मॉडल का प्रतिनिधित्व करते हैं।
गैर-समान परत बजट आवंटन: प्रत्येक चरण की संवेदनशीलता अंतर के अनुसार, विभिन्न परत छोड़ने के बजट को अनुकूल रूप से आवंटित करना, संवेदनशील चरणों में अत्यधिक संपीड़न से बचना।
विलंबता-जागरूक अनुकूलन: न केवल सटीकता पर विचार करना, बल्कि वास्तविक अनुमान विलंबता को भी ध्यान में रखना, उन कॉन्फ़िगरेशन को स्वचालित रूप से बाहर करना जो अधिक परतें छोड़ते हैं लेकिन विलंबता अधिक है।
गतिशील पीढ़ी नियंत्रण: आत्मविश्वास निगरानी के माध्यम से पीढ़ी की लंबाई को सक्रिय रूप से नियंत्रित करना, परत छोड़ने से उत्पन्न अनावश्यक टोकन समस्या को कम करना।
चरण संवेदनशीलता अंतर: एकल-चरण छोड़ने के प्रयोगों के माध्यम से पुष्टि, Stage 3 परत छोड़ने के प्रति सबसे संवेदनशील है, इसका सटीकता वक्र समग्र प्रदर्शन की ऊपरी सीमा को लगभग निर्धारित करता है।
विलंबता विरोधाभास: अधिक परत छोड़ना हमेशा तेज़ अनुमान नहीं लाता है, पीढ़ी की लंबाई में वृद्धि के कारण, कुछ कॉन्फ़िगरेशन वास्तव में विलंबता में वृद्धि का कारण बनते हैं।
आत्मविश्वास पैटर्न: परत छोड़ने वाले मॉडल का टोकन आत्मविश्वास एकदिष्ट रूप से घटता है, जबकि पूर्ण परत मॉडल बाद के चरणों में आत्मविश्वास को पुनः प्राप्त कर सकता है।
CSQA के एक विशिष्ट केस के माध्यम से प्रदर्शन, पीढ़ी प्रारंभिक निकास कम आत्मविश्वास वाले अनावश्यक पाठ को प्रभावी ढंग से काट सकता है, जबकि मुख्य तर्क तर्क को पूर्ण रखता है, अंतिम उत्तर सुसंगत रहता है।
बहु-चरणीय तर्क में गैर-समान संवेदनशीलता: विभिन्न तर्क चरणों में परत संपीड़न के प्रति संवेदनशीलता की डिग्री में महत्वपूर्ण अंतर है, जिसके लिए विभेदित अनुकूलन रणनीति की आवश्यकता है।
विलंबता-जागरूक अनुकूलन की आवश्यकता: केवल परत छोड़ना पीढ़ी की लंबाई में वृद्धि के कारण विलंबता को खराब कर सकता है, सटीकता और विलंबता दोनों पर विचार करने की आवश्यकता है।
पीढ़ी नियंत्रण की प्रभावशीलता: आत्मविश्वास-आधारित पीढ़ी प्रारंभिक निकास परत छोड़ने से उत्पन्न अनावश्यक पीढ़ी समस्या को प्रभावी ढंग से कम कर सकता है।
ऑफ़लाइन खोज ओवरहेड: अन्य प्रशिक्षण-मुक्त विधियों की तुलना में, LiteStage के ऑफ़लाइन कॉन्फ़िगरेशन को अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता है (लगभग 1-7.6 घंटे)।
मॉडल आर्किटेक्चर निर्भरता: मुख्य रूप से Llama श्रृंखला मॉडल पर सत्यापित, Qwen जैसी अन्य आर्किटेक्चर पर सीमित प्रभाव।
प्रयोज्यता सीमा: विशेष रूप से बहु-चरणीय तर्क परिदृश्य के लिए, एकल-चरणीय तर्क पर प्रयोज्यता पूरी तरह से सत्यापित नहीं है।
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
TinyThinker (Piao and Park, 2024): बहु-चरणीय तर्क का प्रतिनिधि कार्य
AdaSkip (He et al., 2025): उप-परत स्तर परत छोड़ने की नवीनतम विधि
Mixture-of-Depths (Raposo et al., 2024): गतिशील कम्प्यूटेशन आवंटन का अग्रणी कार्य
समग्र मूल्यांकन: यह पेपर बहु-चरणीय तर्क में परत छोड़ने के अनुकूलन समस्या के लिए एक नवाचारी समाधान प्रस्तावित करता है, सैद्धांतिक अंतर्दृष्टि और व्यावहारिक प्रभाव दोनों में महत्वपूर्ण योगदान है। हालांकि कुछ सीमाएं हैं, लेकिन छोटे भाषा मॉडल के कुशल अनुमान के लिए नई अनुसंधान दिशा खोलता है, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व है।