ReMamba: Equip Mamba with Effective Long-Sequence Modeling
Yuan, Liu, Li et al.
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
academic
ReMamba: Mamba को प्रभावी दीर्घ-अनुक्रम मॉडलिंग से सुसज्जित करना
यह पेपर Mamba आर्किटेक्चर की दीर्घ संदर्भ समझ कार्यों में कमजोर कार्यक्षमता की समस्या को संबोधित करते हुए ReMamba विधि प्रस्तावित करता है। हालांकि Mamba छोटे संदर्भ NLP कार्यों में उत्कृष्ट प्रदर्शन करता है और उच्च अनुमान दक्षता प्रदान करता है, लेकिन दीर्घ संदर्भ को संभालते समय इसकी कार्यक्षमता Transformer मॉडल से स्पष्ट रूप से कम है। ReMamba दो-चरणीय पुनः-फॉरवर्ड प्रक्रिया में चयनात्मक संपीड़न और अनुकूलन तकनीकों के माध्यम से Mamba की दीर्घ संदर्भ समझ क्षमता को बढ़ाता है, जिससे न्यूनतम अतिरिक्त अनुमान ओवरहेड होता है। LongBench और L-Eval बेंचमार्क में, ReMamba क्रमशः आधारभूत मॉडल से 3.2 और 1.6 अंक सुधार प्रदान करता है, जो समान आकार के Transformer मॉडल के करीब प्रदर्शन करता है।
मुख्य समस्या: Mamba मॉडल दीर्घ संदर्भ (2k टोकन से अधिक) को संभालते समय महत्वपूर्ण प्रदर्शन गिरावट का सामना करता है और दूरस्थ जानकारी को प्रभावी ढंग से बनाए नहीं रख सकता
महत्व: दीर्घ संदर्भ समझ बड़े भाषा मॉडल विकास की मुख्य क्षमता है, जो दस्तावेज़ समझ, संवाद प्रणाली आदि अनुप्रयोगों के लिए महत्वपूर्ण है
मौजूदा विधि सीमाएं:
Transformer द्विघात कम्प्यूटेशनल जटिलता और रैखिक मेमोरी खपत का सामना करता है
हाइब्रिड आर्किटेक्चर समस्या को कम करते हैं लेकिन कम्प्यूटेशनल दक्षता को कम करते हैं
मौजूदा Mamba सुधार विधियां (जैसे LongMamba, DeciMamba) सीमित प्रभाव प्रदान करती हैं
लेखकों ने प्रयोगों के माध्यम से पाया कि Mamba छोटे संदर्भ कार्यों पर समान आकार के Transformer को पार करता है, लेकिन दीर्घ संदर्भ कार्यों पर महत्वपूर्ण प्रदर्शन अंतर है। इस RNN-जैसी आर्किटेक्चर की निश्चित स्थिति स्पेस सीमा दूरस्थ जानकारी को संरक्षित करने की क्षमता को सीमित करती है, जिससे गंभीर जानकारी विस्मृति समस्या होती है।
समस्या मूल कारण की पहचान: प्रारंभिक अनुसंधान के माध्यम से Mamba की गंभीर जानकारी हानि समस्या की खोज, यहां तक कि यादृच्छिक संपीड़न भी समान प्रदर्शन प्राप्त कर सकता है
ReMamba विधि प्रस्ताव: दो-चरणीय चयनात्मक संपीड़न और अनुकूलन तंत्र डिजाइन किया, जो प्रभावी रूप से दीर्घ संदर्भ जानकारी हानि को कम करता है
महत्वपूर्ण प्रदर्शन सुधार: LongBench और L-Eval पर क्रमशः 3.2 और 1.6 अंक सुधार, Transformer प्रदर्शन के करीब
दक्षता लाभ बनाए रखना: केवल एक फॉरवर्ड प्रसार का ओवरहेड जोड़ता है, निरंतर मेमोरी खपत और उच्च अनुमान गति बनाए रखता है
विधि सार्वभौमिकता: Mamba2 आर्किटेक्चर तक सफलतापूर्वक विस्तारित, विधि की सामान्य प्रयोज्यता साबित करता है
इनपुट: दीर्घ संदर्भ अनुक्रम {ti}^L_, जहां L अनुक्रम लंबाई है
आउटपुट: दीर्घ संदर्भ के आधार पर प्राकृतिक भाषा जनरेशन परिणाम
लक्ष्य: Mamba अनुमान दक्षता बनाए रखते हुए इसकी दीर्घ संदर्भ समझ क्षमता में सुधार
Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो Mamba आर्किटेक्चर की दीर्घ संदर्भ समझ समस्या के लिए नवीन और प्रभावी समाधान प्रस्तावित करता है। विधि डिजाइन चतुर है, प्रयोग पर्याप्त हैं, और इसमें अच्छा सैद्धांतिक और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन यह संबंधित क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।