2025-11-15T12:52:11.146335

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Yuan, Liu, Li et al.
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
academic

ReMamba: Mamba को प्रभावी दीर्घ-अनुक्रम मॉडलिंग से सुसज्जित करना

मूल जानकारी

  • पेपर ID: 2408.15496
  • शीर्षक: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
  • लेखक: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: अगस्त 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2408.15496
  • कोड लिंक: https://github.com/lblankl/ReMamba

सारांश

यह पेपर Mamba आर्किटेक्चर की दीर्घ संदर्भ समझ कार्यों में कमजोर कार्यक्षमता की समस्या को संबोधित करते हुए ReMamba विधि प्रस्तावित करता है। हालांकि Mamba छोटे संदर्भ NLP कार्यों में उत्कृष्ट प्रदर्शन करता है और उच्च अनुमान दक्षता प्रदान करता है, लेकिन दीर्घ संदर्भ को संभालते समय इसकी कार्यक्षमता Transformer मॉडल से स्पष्ट रूप से कम है। ReMamba दो-चरणीय पुनः-फॉरवर्ड प्रक्रिया में चयनात्मक संपीड़न और अनुकूलन तकनीकों के माध्यम से Mamba की दीर्घ संदर्भ समझ क्षमता को बढ़ाता है, जिससे न्यूनतम अतिरिक्त अनुमान ओवरहेड होता है। LongBench और L-Eval बेंचमार्क में, ReMamba क्रमशः आधारभूत मॉडल से 3.2 और 1.6 अंक सुधार प्रदान करता है, जो समान आकार के Transformer मॉडल के करीब प्रदर्शन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: Mamba मॉडल दीर्घ संदर्भ (2k टोकन से अधिक) को संभालते समय महत्वपूर्ण प्रदर्शन गिरावट का सामना करता है और दूरस्थ जानकारी को प्रभावी ढंग से बनाए नहीं रख सकता
  2. महत्व: दीर्घ संदर्भ समझ बड़े भाषा मॉडल विकास की मुख्य क्षमता है, जो दस्तावेज़ समझ, संवाद प्रणाली आदि अनुप्रयोगों के लिए महत्वपूर्ण है
  3. मौजूदा विधि सीमाएं:
    • Transformer द्विघात कम्प्यूटेशनल जटिलता और रैखिक मेमोरी खपत का सामना करता है
    • हाइब्रिड आर्किटेक्चर समस्या को कम करते हैं लेकिन कम्प्यूटेशनल दक्षता को कम करते हैं
    • मौजूदा Mamba सुधार विधियां (जैसे LongMamba, DeciMamba) सीमित प्रभाव प्रदान करती हैं

अनुसंधान प्रेरणा

लेखकों ने प्रयोगों के माध्यम से पाया कि Mamba छोटे संदर्भ कार्यों पर समान आकार के Transformer को पार करता है, लेकिन दीर्घ संदर्भ कार्यों पर महत्वपूर्ण प्रदर्शन अंतर है। इस RNN-जैसी आर्किटेक्चर की निश्चित स्थिति स्पेस सीमा दूरस्थ जानकारी को संरक्षित करने की क्षमता को सीमित करती है, जिससे गंभीर जानकारी विस्मृति समस्या होती है।

मुख्य योगदान

  1. समस्या मूल कारण की पहचान: प्रारंभिक अनुसंधान के माध्यम से Mamba की गंभीर जानकारी हानि समस्या की खोज, यहां तक कि यादृच्छिक संपीड़न भी समान प्रदर्शन प्राप्त कर सकता है
  2. ReMamba विधि प्रस्ताव: दो-चरणीय चयनात्मक संपीड़न और अनुकूलन तंत्र डिजाइन किया, जो प्रभावी रूप से दीर्घ संदर्भ जानकारी हानि को कम करता है
  3. महत्वपूर्ण प्रदर्शन सुधार: LongBench और L-Eval पर क्रमशः 3.2 और 1.6 अंक सुधार, Transformer प्रदर्शन के करीब
  4. दक्षता लाभ बनाए रखना: केवल एक फॉरवर्ड प्रसार का ओवरहेड जोड़ता है, निरंतर मेमोरी खपत और उच्च अनुमान गति बनाए रखता है
  5. विधि सार्वभौमिकता: Mamba2 आर्किटेक्चर तक सफलतापूर्वक विस्तारित, विधि की सामान्य प्रयोज्यता साबित करता है

विधि विवरण

कार्य परिभाषा

इनपुट: दीर्घ संदर्भ अनुक्रम {ti}^L_, जहां L अनुक्रम लंबाई है आउटपुट: दीर्घ संदर्भ के आधार पर प्राकृतिक भाषा जनरेशन परिणाम लक्ष्य: Mamba अनुमान दक्षता बनाए रखते हुए इसकी दीर्घ संदर्भ समझ क्षमता में सुधार

मॉडल आर्किटेक्चर

ReMamba दो-चरणीय आर्किटेक्चर डिजाइन अपनाता है:

चरण 1: चयनात्मक संपीड़न (Selective Compression)

संपीड़न श्रेणी परिभाषा:

  • सापेक्ष संपीड़न श्रेणी: range := (s, e), जहां e = s + p
  • निरपेक्ष सूचकांक समुच्चय: R := S, E, जहां S = L·s+1, E = L·(s+p)
  • संपीड़न अनुपात: ρ, अंतिम संरक्षण K := |R|·ρ छिपे हुए प्रतिनिधित्व

महत्व स्कोरिंग तंत्र:

q = Query(hL)
{ki}^E_{i=S} = Key({hi}^E_{i=S})
cosi = (ki · q) / max(||ki||2 · ||q||2, ε)

शीर्ष-K चयन:

G = argmax_{A⊂{S,S+1,...,E},|A|=K} Σ_{i∈A} cosi

संपीड़न प्रतिनिधित्व जनरेशन:

{vi}^K_{i=1} = Value({hj}, j ∈ G)
Tnew = Cat({ti}^{S-1}_{i=1}, {vi}^K_{i=1}, {ti}^L_{i=E+1})

चरण 2: चयनात्मक अनुकूलन (Selective Adaptation)

चयनित छिपे हुए अवस्थाओं के लिए, Mamba की चयनात्मक तंत्र को संशोधित करें:

α = ReLU(cos'_{t-1})
Δ^l_{t-1}' = Proj1(h^{l-1}_{t-1})
δ = Δ^l_{t-1}' · α + Θ^l
Δ^l_{t-1} = Softplus(δ)

जहां Θ^l प्रशिक्षणीय परत-स्तरीय पूर्वाग्रह पैरामीटर है, जो महत्व स्कोर के अवस्था अपडेट पर प्रभाव की तीव्रता को नियंत्रित करता है।

तकनीकी नवाचार बिंदु

  1. दोहरी-चरणीय डिजाइन: पहला चरण जानकारी को संपीड़ित करता है, दूसरा चरण एकीकृत करता है, SSM स्कैन एल्गोरिदम को सीधे संशोधित करने की जटिलता से बचता है
  2. चयनात्मक तंत्र संलयन: मूल Mamba की चयनात्मक तंत्र को महत्व स्कोर एकीकृत करने के लिए चतुराई से उपयोग करता है
  3. विभेदनीय सन्निकटन: Δ मान को संशोधित करके सीधे गुणा करने के बजाय, प्रशिक्षण की विभेदनीयता सुनिश्चित करता है
  4. ग्रेडिएंट स्केलिंग रणनीति: महत्व स्कोर के अनुपात में ग्रेडिएंट को स्केल करता है, महत्वपूर्ण जानकारी सीखने पर जोर देता है

प्रायोगिक सेटअप

डेटासेट

  • प्रशिक्षण डेटा: LongOrca डेटासेट (लगभग 500,000 नमूने)
    • OpenOrca डेटासेट के दीर्घ निर्देश ट्यूनिंग उदाहरण
    • LongAlpaca-12k दीर्घ संदर्भ संरेखण डेटा
    • अधिकतम लंबाई 6000 टोकन तक काटी गई
  • मूल्यांकन डेटा:
    • LongBench-E (अंग्रेजी शाखा): 13 दीर्घ संदर्भ समझ कार्य
    • L-Eval: 6 बंद-रूप दीर्घ संदर्भ कार्य

मूल्यांकन मेट्रिक्स

  • LongBench: कार्य-विशिष्ट सटीकता (जैसे ROUGE, EM, F1 आदि)
  • L-Eval: बंद-रूप कार्य सटीकता
  • अनुमान गति: tokens/second
  • मेमोरी खपत: GPU मेमोरी उपयोग

तुलना विधियां

  • आधारभूत मॉडल: Mamba 2.8B (पूर्व-प्रशिक्षित और सूक्ष्म-ट्यून संस्करण)
  • तुलना विधियां:
    • DeciMamba 2.8B
    • Llama-3B (रैखिक स्थिति प्रक्षेप का उपयोग करके संदर्भ विस्तारित)
  • विलोपन प्रयोग: यादृच्छिक चयन, निश्चित चयन, गुणक चयन आदि वेरिएंट

कार्यान्वयन विवरण

  • हाइपरपैरामीटर: s=0, p=0.18, ρ=0.009 (LongBench इष्टतम कॉन्फ़िगरेशन)
  • प्रशिक्षण रणनीति: LoRA सूक्ष्म-ट्यूनिंग, rank=32
  • अनुकूलक: AdamW, सीखने की दर 2e-5
  • हार्डवेयर: 8×A100-80GB GPU, DeepSpeed Zero Stage 3

प्रायोगिक परिणाम

मुख्य परिणाम

LongBench प्रदर्शन तुलना:

मॉडलऔसत स्कोर
Mamba (SFT)24.63
ReMamba (SFT)27.86
Llama-3B (SFT)28.99

L-Eval प्रदर्शन तुलना:

मॉडलऔसत स्कोर
Mamba (SFT)22.19
ReMamba (SFT)23.83
Llama-3B (SFT)22.69

विलोपन प्रयोग

चयन रणनीति तुलना:

  • यादृच्छिक चयन: आधारभूत प्रदर्शन के करीब, जानकारी हानि परिकल्पना की पुष्टि करता है
  • निश्चित चयन: यादृच्छिक चयन से थोड़ा बेहतर
  • गुणक चयन: कुछ सुधार
  • ReMamba पूर्ण विधि: सभी वेरिएंट से महत्वपूर्ण रूप से बेहतर

लंबाई सामान्यीकरण प्रदर्शन:

  • ReMamba सभी 2k-9k लंबाई पर आधारभूत से बेहतर है
  • इष्टतम प्रदर्शन लंबाई 4k से 6k तक विस्तारित
  • प्रदर्शन अंतर संदर्भ लंबाई के साथ बढ़ता है

दक्षता विश्लेषण

मेमोरी खपत:

  • ReMamba Mamba की तुलना में केवल न्यूनतम निरंतर मेमोरी ओवरहेड जोड़ता है
  • Transformer की द्विघात वृद्धि मेमोरी आवश्यकता से बहुत कम

अनुमान गति:

  • मूल Mamba गति के समान
  • Transformer से महत्वपूर्ण रूप से तेज़ (लगभग 2-3 गुना)

Mamba2 विस्तार प्रयोग

Mamba2 पर ReMamba विधि लागू करते हुए, LongBench औसत स्कोर 1.6 अंक सुधार, विधि की सामान्यता साबित करता है।

संबंधित कार्य

दीर्घ संदर्भ मॉडलिंग

  1. Transformer विस्तार: स्थिति प्रक्षेप, RoPE आदि तकनीकें
  2. Mamba सुधार: LongMamba दीर्घ संदर्भ सूक्ष्म-ट्यूनिंग के माध्यम से, DeciMamba प्रशिक्षण-मुक्त विधि के माध्यम से
  3. हाइब्रिड आर्किटेक्चर: Jamba आदि attention और SSM को जोड़ने वाली विधियां

संदर्भ संपीड़न

  1. KV कैश संपीड़न: Transformer के लिए मेमोरी अनुकूलन
  2. संकेत संपीड़न: नरम संकेत और पुनः प्राप्ति संवर्धित जनरेशन विधियां
  3. चयनात्मक ध्यान: कम्प्यूटेशनल संसाधनों को गतिशील रूप से आवंटित करने की विधियां

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. समस्या निदान सटीक: Mamba दीर्घ संदर्भ प्रदर्शन कमजोरी के मूल कारण की सफलतापूर्वक पहचान
  2. विधि प्रभावशीलता: ReMamba दीर्घ संदर्भ प्रदर्शन में महत्वपूर्ण सुधार, Transformer स्तर के करीब
  3. दक्षता संरक्षण: प्रदर्शन सुधार करते समय Mamba की अनुमान दक्षता लाभ बनाए रखता है
  4. विधि सामान्यता: Mamba2 तक सफलतापूर्वक विस्तारित, अच्छी सार्वभौमिकता दिखाता है

सीमाएं

  1. सैद्धांतिक ऊपरी सीमा: निश्चित स्थिति स्पेस सीमा के कारण, Mamba अति-दीर्घ संदर्भ पर Transformer को पार करना कठिन है
  2. विधि सीमाएं: मुख्य रूप से संपीड़न के माध्यम से जानकारी हानि को कम करता है, अवस्था अपडेट तंत्र को मौलिक रूप से नहीं बदलता
  3. हाइपरपैरामीटर संवेदनशीलता: विभिन्न कार्यों के लिए संपीड़न पैरामीटर को समायोजित करने की आवश्यकता
  4. मूल्यांकन श्रेणी: मुख्य रूप से अंग्रेजी डेटासेट पर मूल्यांकन, बहुभाषी सामान्यीकरण सत्यापन की प्रतीक्षा में

भविष्य दिशाएं

  1. अवस्था तंत्र सुधार: अवस्था स्पेस अपडेट तंत्र को सीधे संशोधित करना
  2. स्व-अनुकूल संपीड़न: सामग्री के आधार पर संपीड़न रणनीति को गतिशील रूप से समायोजित करना
  3. बहु-मोडल विस्तार: विधि को दृश्य-भाषा कार्यों तक विस्तारित करना
  4. सैद्धांतिक विश्लेषण: विधि के सैद्धांतिक आधार और प्रदर्शन सीमाओं का गहन विश्लेषण

गहन मूल्यांकन

लाभ

  1. समस्या अंतर्दृष्टि गहरी: यादृच्छिक संपीड़न प्रयोग के माध्यम से Mamba की जानकारी हानि समस्या को चतुराई से साबित किया
  2. विधि डिजाइन चतुर: दो-चरणीय डिजाइन विभेदनीयता बनाए रखता है और मूल तंत्र का प्रभावी ढंग से उपयोग करता है
  3. प्रयोग व्यापक पर्याप्त: कई बेंचमार्क, विलोपन प्रयोग, दक्षता विश्लेषण आदि शामिल
  4. इंजीनियरिंग कार्यान्वयन उत्कृष्ट: खुला स्रोत कोड, पुनरुत्पादन और अनुप्रयोग में सुविधा
  5. लेखन स्पष्ट: तर्क स्पष्ट, तकनीकी विवरण सटीक वर्णन

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: विधि प्रभावी क्यों है इसके गहन सैद्धांतिक व्याख्या की कमी
  2. मूल्यांकन सीमाएं: मुख्य रूप से QA-प्रकार कार्यों पर मूल्यांकन, अन्य प्रकार के दीर्घ संदर्भ कार्य कवरेज अपर्याप्त
  3. हाइपरपैरामीटर जटिलता: कई हाइपरपैरामीटर समायोजन की आवश्यकता, व्यावहारिक अनुप्रयोग में व्यापक ट्यूनिंग की आवश्यकता हो सकती है
  4. आधारभूत तुलना: DeciMamba का कमजोर प्रदर्शन हाइपरपैरामीटर सेटिंग से संबंधित हो सकता है

प्रभाव

  1. शैक्षणिक मूल्य: Mamba दीर्घ संदर्भ मॉडलिंग के लिए नई सोच और प्रभावी समाधान प्रदान करता है
  2. व्यावहारिक मूल्य: विधि सरल प्रभावी, वास्तविक प्रणालियों में तैनाती में आसान
  3. पुनरुत्पादनीयता: पूर्ण कोड और विस्तृत प्रायोगिक सेटअप प्रदान करता है
  4. प्रेरणा महत्व: अन्य अनुक्रम मॉडलिंग आर्किटेक्चर सुधार के लिए संदर्भ प्रदान करता है

प्रयोज्य परिदृश्य

  1. दस्तावेज़ समझ: दीर्घ दस्तावेज़ प्रश्नोत्तर, सारांश जनरेशन आदि कार्य
  2. संवाद प्रणाली: दीर्घ संवाद इतिहास बनाए रखने की आवश्यकता वाले परिदृश्य
  3. कोड समझ: दीर्घ कोड फ़ाइल विश्लेषण और जनरेशन
  4. संसाधन-सीमित वातावरण: उच्च-दक्षता अनुमान की आवश्यकता वाले किनारे कम्प्यूटिंग परिदृश्य

संदर्भ

मुख्य संबंधित कार्य:

  1. Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
  2. Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
  3. Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
  4. Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो Mamba आर्किटेक्चर की दीर्घ संदर्भ समझ समस्या के लिए नवीन और प्रभावी समाधान प्रस्तावित करता है। विधि डिजाइन चतुर है, प्रयोग पर्याप्त हैं, और इसमें अच्छा सैद्धांतिक और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन यह संबंधित क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।