2025-11-15T12:52:11.146335

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Yuan, Liu, Li et al.

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

academic

ReMamba: Mamba কে কার্যকর দীর্ঘ-অনুক্রম মডেলিং দিয়ে সজ্জিত করা

মৌলিক তথ্য

পেপার আইডি: 2408.15496
শিরোনাম: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
লেখক: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
প্রকাশনার সময়: ২০২৪ সালের আগস্ট (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2408.15496
কোড লিঙ্ক: https://github.com/lblankl/ReMamba

সারসংক্ষেপ

এই পেপারটি দীর্ঘ প্রসঙ্গ বোঝার কাজে Mamba স্থাপত্যের কর্মক্ষমতা অপ্রতুলতার সমস্যার সমাধানের জন্য ReMamba পদ্ধতি প্রস্তাব করে। যদিও Mamba স্বল্প প্রসঙ্গ NLP কাজে চমৎকার পারফরম্যান্স এবং উচ্চ অনুমান দক্ষতা প্রদর্শন করে, তবে দীর্ঘ প্রসঙ্গ প্রক্রিয়াকরণে এর কর্মক্ষমতা Transformer মডেলের চেয়ে উল্লেখযোগ্যভাবে কম। ReMamba দুই-পর্যায়ের পুনরায় ফরওয়ার্ড প্রক্রিয়ায় নির্বাচনী সংকোচন এবং অভিযোজন কৌশলের মাধ্যমে Mamba এর দীর্ঘ প্রসঙ্গ বোঝার ক্ষমতা বৃদ্ধি করে, যা ন্যূনতম অতিরিক্ত অনুমান ওভারহেড প্রবর্তন করে। LongBench এবং L-Eval বেঞ্চমার্ক পরীক্ষায়, ReMamba যথাক্রমে ভিত্তিরেখা মডেলের তুলনায় ৩.২ এবং ১.৬ পয়েন্ট উন্নতি করে, যা সমান আকারের Transformer মডেলের কর্মক্ষমতার কাছাকাছি।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: Mamba মডেল দীর্ঘ প্রসঙ্গ (২k টোকেনের বেশি) প্রক্রিয়াকরণে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে এবং দূরবর্তী তথ্য কার্যকরভাবে বজায় রাখতে পারে না ২. গুরুত্ব: দীর্ঘ প্রসঙ্গ বোঝা বড় ভাষা মডেলের উন্নয়নের একটি মূল ক্ষমতা, যা নথি বোঝা, সংলাপ ব্যবস্থা ইত্যাদি প্রয়োগের জন্য অপরিহার্য ३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

Transformer দ্বিঘাত গণনা জটিলতা এবং রৈখিক মেমরি খরচের সম্মুখীন হয়
হাইব্রিড স্থাপত্য সমস্যা হ্রাস করলেও গণনা দক্ষতা হ্রাস করে
বিদ্যমান Mamba উন্নতি পদ্ধতি (যেমন LongMamba, DeciMamba) সীমিত প্রভাব ফেলে

গবেষণা প্রেরণা

লেখকরা পরীক্ষার মাধ্যমে আবিষ্কার করেছেন যে Mamba স্বল্প প্রসঙ্গ কাজে সমান আকারের Transformer কে অতিক্রম করে, কিন্তু দীর্ঘ প্রসঙ্গ কাজে উল্লেখযোগ্য কর্মক্ষমতা ব্যবধান রয়েছে। এই RNN-সদৃশ স্থাপত্যের স্থির অবস্থা স্থান দূরবর্তী তথ্য সংরক্ষণের ক্ষমতা সীমাবদ্ধ করে, যা গুরুতর তথ্য বিস্মৃতি সমস্যার দিকে পরিচালিত করে।

মূল অবদান

१. সমস্যার মূল কারণ চিহ্নিত করা: প্রাথমিক গবেষণার মাধ্যমে Mamba এর তথ্য হারানোর সমস্যা গুরুতর আবিষ্কার করা হয়েছে, এমনকি এলোমেলো সংকোচনও একই কর্মক্ষমতা অর্জন করতে পারে २. ReMamba পদ্ধতি প্রস্তাব: দুই-পর্যায়ের নির্বাচনী সংকোচন এবং অভিযোজন প্রক্রিয়া ডিজাইন করা হয়েছে, যা দীর্ঘ প্রসঙ্গ তথ্য হারানো কার্যকরভাবে হ্রাস করে ३. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: LongBench এবং L-Eval এ যথাক্রমে ३.२ এবং १.६ পয়েন্ট উন্নতি, Transformer কর্মক্ষমতার কাছাকাছি ४. দক্ষতা সুবিধা বজায় রাখা: শুধুমাত্র একটি ফরওয়ার্ড প্রচারের ওভারহেড যোগ করা হয়, ধ্রুবক মেমরি খরচ এবং উচ্চ অনুমান গতি বজায় রাখা হয় ५. পদ্ধতির সার্বজনীনতা: Mamba2 স্থাপত্যে সফলভাবে প্রসারিত, পদ্ধতির সর্বজনীন প্রযোজ্যতা প্রমাণ করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: দীর্ঘ প্রসঙ্গ অনুক্রম {ti}^L_, যেখানে L অনুক্রম দৈর্ঘ্য আউটপুট: দীর্ঘ প্রসঙ্গের উপর ভিত্তি করে প্রাকৃতিক ভাষা উৎপাদন ফলাফল লক্ষ্য: Mamba অনুমান দক্ষতা বজায় রেখে এর দীর্ঘ প্রসঙ্গ বোঝার ক্ষমতা উন্নত করা

মডেল স্থাপত্য

ReMamba দুই-পর্যায়ের স্থাপত্য ডিজাইন গ্রহণ করে:

পর্যায় ১: নির্বাচনী সংকোচন (Selective Compression)

সংকোচন পরিসীমা সংজ্ঞা:

আপেক্ষিক সংকোচন পরিসীমা: range := (s, e), যেখানে e = s + p
পরম সূচক সেট: R := S, E, যেখানে S = L·s+1, E = L·(s+p)
সংকোচন অনুপাত: ρ, চূড়ান্ত সংরক্ষণ K := |R|·ρ লুকানো প্রতিনিধিত্ব

গুরুত্ব স্কোরিং প্রক্রিয়া:

q = Query(hL)
{ki}^E_{i=S} = Key({hi}^E_{i=S})
cosi = (ki · q) / max(||ki||2 · ||q||2, ε)

শীর্ষ-K নির্বাচন:

G = argmax_{A⊂{S,S+1,...,E},|A|=K} Σ_{i∈A} cosi

সংকোচিত প্রতিনিধিত্ব উৎপাদন:

{vi}^K_{i=1} = Value({hj}, j ∈ G)
Tnew = Cat({ti}^{S-1}_{i=1}, {vi}^K_{i=1}, {ti}^L_{i=E+1})

পর্যায় २: নির্বাচনী অভিযোজন (Selective Adaptation)

নির্বাচিত লুকানো অবস্থার জন্য, Mamba এর নির্বাচনী প্রক্রিয়া সংশোধন করা হয়:

α = ReLU(cos'_{t-1})
Δ^l_{t-1}' = Proj1(h^{l-1}_{t-1})
δ = Δ^l_{t-1}' · α + Θ^l
Δ^l_{t-1} = Softplus(δ)

যেখানে Θ^l প্রশিক্ষণযোগ্য স্তর-স্তরের পক্ষপাত পরামিতি, যা গুরুত্ব স্কোরের অবস্থা আপডেটে প্রভাব শক্তি নিয়ন্ত্রণ করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. দ্বি-পর্যায় ডিজাইন: প্রথম পর্যায় তথ্য সংকোচন করে, দ্বিতীয় পর্যায় একীভূত করে, SSM স্ক্যান অ্যালগরিদম সরাসরি সংশোধনের জটিলতা এড়ায় २. নির্বাচনী প্রক্রিয়া একীকরণ: Mamba এর মূল নির্বাচনী প্রক্রিয়া গুরুত্ব স্কোর একীভূত করতে চতুরভাবে ব্যবহার করা হয় ३. পার্থক্যযোগ্য অনুমান: Δ মান সংশোধন করে সরাসরি গুণন না করে, প্রশিক্ষণের পার্থক্যযোগ্যতা নিশ্চিত করা হয় ४. গ্রেডিয়েন্ট স্কেলিং কৌশল: গুরুত্ব স্কোর অনুযায়ী গ্রেডিয়েন্ট স্কেল করা হয়, মূল তথ্য শেখার উপর জোর দেওয়া হয়

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: LongOrca ডেটাসেট (প্রায় ५০ লক্ষ নমুনা)
- OpenOrca ডেটাসেটের দীর্ঘ নির্দেশনা সূক্ষ্ম-সুর উদাহরণ
- LongAlpaca-12k দীর্ঘ প্রসঙ্গ সারিবদ্ধকরণ ডেটা
- সর্বোচ্চ দৈর্ঘ্য ६০০० টোকেনে কাটা
মূল্যায়ন ডেটা:
- LongBench-E (ইংরেজি শাখা): १३টি দীর্ঘ প্রসঙ্গ বোঝার কাজ
- L-Eval: ६টি বন্ধ-ফর্ম দীর্ঘ প্রসঙ্গ কাজ

মূল্যায়ন মেট্রিক্স

LongBench: কাজ-নির্দিষ্ট নির্ভুলতা (যেমন ROUGE, EM, F1 ইত্যাদি)
L-Eval: বন্ধ-ফর্ম কাজ নির্ভুলতা
অনুমান গতি: টোকেন/সেকেন্ড
মেমরি খরচ: GPU মেমরি ব্যবহার

তুলনামূলক পদ্ধতি

ভিত্তিরেখা মডেল: Mamba 2.8B (প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর সংস্করণ)
তুলনামূলক পদ্ধতি:
- DeciMamba 2.8B
- Llama-3B (রৈখিক অবস্থান অন্তর্বেশ ব্যবহার করে প্রসঙ্গ প্রসারিত)
অপসারণ পরীক্ষা: এলোমেলো নির্বাচন, স্থির নির্বাচন, গুণক নির্বাচন ইত্যাদি ভেরিয়েন্ট

বাস্তবায়ন বিবরণ

হাইপারপ্যারামিটার: s=0, p=0.18, ρ=0.009 (LongBench সর্বোত্তম কনফিগারেশন)
প্রশিক্ষণ কৌশল: LoRA সূক্ষ্ম-সুর, rank=32
অপ্টিমাইজার: AdamW, শেখার হার 2e-5
হার্ডওয়্যার: 8×A100-80GB GPU, DeepSpeed Zero Stage 3

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

LongBench কর্মক্ষমতা তুলনা:

মডেল	গড় স্কোর
Mamba (SFT)	24.63
ReMamba (SFT)	27.86
Llama-3B (SFT)	28.99

L-Eval কর্মক্ষমতা তুলনা:

মডেল	গড় স্কোর
Mamba (SFT)	22.19
ReMamba (SFT)	23.83
Llama-3B (SFT)	22.69

অপসারণ পরীক্ষা

নির্বাচন কৌশল তুলনা:

এলোমেলো নির্বাচন: ভিত্তিরেখার সাথে একই কর্মক্ষমতা, তথ্য হারানোর অনুমান নিশ্চিত করে
স্থির নির্বাচন: এলোমেলো নির্বাচনের চেয়ে সামান্য ভাল
গুণক নির্বাচন: কিছু উন্নতি
ReMamba সম্পূর্ণ পদ্ধতি: সমস্ত ভেরিয়েন্টের চেয়ে উল্লেখযোগ্যভাবে ভাল

দৈর্ঘ্য সাধারণীকরণ কর্মক্ষমতা:

ReMamba २k-९k সমস্ত দৈর্ঘ্যে ভিত্তিরেখার চেয়ে ভাল
সর্বোত্তম কর্মক্ষমতা দৈর্ঘ্য ४k থেকে ६k এ প্রসারিত
প্রসঙ্গ দৈর্ঘ্য বৃদ্ধির সাথে কর্মক্ষমতা ব্যবধান বৃদ্ধি পায়

দক্ষতা বিশ্লেষণ

মেমরি খরচ:

ReMamba Mamba এর তুলনায় শুধুমাত্র সামান্য ধ্রুবক মেমরি ওভারহেড যোগ করে
Transformer এর দ্বিঘাত বৃদ্ধির মেমরি চাহিদার চেয়ে অনেক কম

অনুমান গতি:

মূল Mamba গতির সাথে তুলনীয়
Transformer এর চেয়ে উল্লেখযোগ্যভাবে দ্রুত (প্রায় २-३ গুণ)

Mamba2 সম্প্রসারণ পরীক্ষা

Mamba2 এ ReMamba পদ্ধতি প্রয়োগ করলে, LongBench গড় স্কোর १.६ পয়েন্ট উন্নত হয়, যা পদ্ধতির সার্বজনীনতা প্রমাণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. সমস্যা নির্ণয় নির্ভুল: Mamba দীর্ঘ প্রসঙ্গ কর্মক্ষমতা অপ্রতুলতার মূল কারণ সফলভাবে চিহ্নিত করা হয়েছে २. পদ্ধতির কার্যকারিতা: ReMamba দীর্ঘ প্রসঙ্গ কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, Transformer স্তরের কাছাকাছি ३. দক্ষতা বজায় রাখা: কর্মক্ষমতা উন্নত করার সাথে সাথে Mamba এর অনুমান দক্ষতা সুবিধা বজায় রাখা হয়েছে ४. পদ্ধতির সার্বজনীনতা: Mamba2 এ সফলভাবে প্রসারিত, ভাল সার্বজনীন প্রযোজ্যতা প্রদর্শন করে

সীমাবদ্ধতা

१. তাত্ত্বিক সীমা: স্থির অবস্থা স্থানের সীমাবদ্ধতার কারণে, Mamba অতি-দীর্ঘ প্রসঙ্গে Transformer কে অতিক্রম করা কঠিন २. পদ্ধতির সীমাবদ্ধতা: প্রধানত সংকোচনের মাধ্যমে তথ্য হারানো হ্রাস করে, অবস্থা আপডেট প্রক্রিয়া মৌলিকভাবে পরিবর্তন করে না ३. হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন কাজের জন্য সংকোচন পরামিতি সামঞ্জস্য করা প্রয়োজন ४. মূল্যায়ন পরিসীমা: প্রধানত ইংরেজি ডেটাসেটে মূল্যায়ন করা হয়, বহুভাষিক সাধারণীকরণ যাচাইকরণ অপেক্ষা করছে

ভবিষ্যত দিকনির্দেশনা

१. অবস্থা প্রক্রিয়া উন্নতি: অবস্থা স্থান আপডেট প্রক্রিয়া সরাসরি সংশোধন করা २. স্ব-অভিযোজনশীল সংকোচন: বিষয়বস্তু অনুযায়ী সংকোচন কৌশল গতিশীলভাবে সামঞ্জস্য করা ३. বহুমাধ্যম সম্প্রসারণ: দৃষ্টি-ভাষা কাজে পদ্ধতি প্রসারিত করা ४. তাত্ত্বিক বিশ্লেষণ: পদ্ধতির তাত্ত্বিক ভিত্তি এবং কর্মক্ষমতা সীমানা গভীরভাবে বিশ্লেষণ করা

গভীর মূল্যায়ন

শক্তি

१. সমস্যা অন্তর্দৃষ্টি গভীর: এলোমেলো সংকোচন পরীক্ষার মাধ্যমে Mamba এর তথ্য হারানোর সমস্যা চতুরভাবে প্রমাণ করা হয়েছে २. পদ্ধতি ডিজাইন চতুর: দুই-পর্যায় ডিজাইন পার্থক্যযোগ্যতা বজায় রেখে মূল প্রক্রিয়া কার্যকরভাবে ব্যবহার করে ३. পরীক্ষা সম্পূর্ণ পর্যাপ্ত: একাধিক বেঞ্চমার্ক, অপসারণ পরীক্ষা, দক্ষতা বিশ্লেষণ ইত্যাদি অন্তর্ভুক্ত ४. প্রকৌশল বাস্তবায়ন উৎকৃষ্ট: খোলা কোড, সহজ পুনরুৎপাদন এবং প্রয়োগ ५. লেখা স্পষ্ট: যুক্তি স্পষ্ট, প্রযুক্তিগত বিবরণ নির্ভুলভাবে বর্ণিত

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পদ্ধতি কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যা অনুপস্থিত २. মূল্যায়ন সীমাবদ্ধতা: প্রধানত QA ধরনের কাজে মূল্যায়ন করা হয়, অন্যান্য ধরনের দীর্ঘ প্রসঙ্গ কাজ কভারেজ অপর্যাপ্ত ३. হাইপারপ্যারামিটার জটিল: একাধিক হাইপারপ্যারামিটার সামঞ্জস্য করা প্রয়োজন, বাস্তব প্রয়োগে ব্যাপক সুর প্রয়োজন হতে পারে ४. ভিত্তিরেখা তুলনা: DeciMamba এর দুর্বল কর্মক্ষমতা হাইপারপ্যারামিটার সেটিংসের সাথে সম্পর্কিত হতে পারে

প্রভাব

१. একাডেমিক মূল্য: Mamba দীর্ঘ প্রসঙ্গ মডেলিংয়ের জন্য নতুন চিন্তাভাবনা এবং কার্যকর সমাধান প্রদান করে २. ব্যবহারিক মূল্য: পদ্ধতি সহজ কার্যকর, বাস্তব সিস্টেমে স্থাপন করা সহজ ३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং বিস্তারিত পরীক্ষা সেটআপ প্রদান করা হয়েছে ४. অনুপ্রেরণামূলক অর্থ: অন্যান্য অনুক্রম মডেলিং স্থাপত্যের উন্নতির জন্য রেফারেন্স প্রদান করে

প্রযোজ্য পরিস্থিতি

१. নথি বোঝা: দীর্ঘ নথি প্রশ্নোত্তর, সারসংক্ষেপ উৎপাদন ইত্যাদি কাজ २. সংলাপ ব্যবস্থা: দীর্ঘ সংলাপ ইতিহাস বজায় রাখার প্রয়োজনীয় পরিস্থিতি ३. কোড বোঝা: দীর্ঘ কোড ফাইল বিশ্লেষণ এবং উৎপাদন ४. সম্পদ সীমিত পরিবেশ: উচ্চ দক্ষ অনুমানের প্রয়োজনীয় এজ কম্পিউটিং পরিস্থিতি

সংদর্ভ

মূল সম্পর্কিত কাজ: १. Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces. २. Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality. ३. Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding. ४. Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পত্র, যা Mamba স্থাপত্যের দীর্ঘ প্রসঙ্গ বোঝার সমস্যার জন্য উদ্ভাবনী এবং কার্যকর সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন চতুর, পরীক্ষা পর্যাপ্ত, ভাল তাত্ত্বিক এবং ব্যবহারিক মূল্য রয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি সম্পর্কিত ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রেখেছে।