2025-11-15T12:52:11.146335

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Yuan, Liu, Li et al.

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

academic

ReMamba: تجهيز Mamba بنمذجة فعالة للتسلسلات الطويلة

المعلومات الأساسية

معرّف الورقة: 2408.15496
العنوان: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
المؤلفون: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
التصنيف: cs.CL (الحوسبة واللغة)
تاريخ النشر: أغسطس 2024 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2408.15496
رابط الكود: https://github.com/lblankl/ReMamba

الملخص

تقترح هذه الورقة طريقة ReMamba لمعالجة مشكلة الأداء الضعيف لمعمارية Mamba في مهام فهم السياق الطويل. على الرغم من أن Mamba تتفوق في مهام معالجة اللغة الطبيعية ذات السياق القصير وتتمتع بكفاءة استدلال عالية، إلا أن أدائها ينخفض بشكل ملحوظ عند التعامل مع السياقات الطويلة مقارنة بنماذج Transformer. يعزز ReMamba قدرة Mamba على فهم السياق الطويل من خلال تقنيات الضغط الانتقائي والتكيف في عملية إعادة التمرير ثنائية المراحل، مع إدخال الحد الأدنى من تكاليف الاستدلال الإضافية. في معايير LongBench و L-Eval، حقق ReMamba تحسنًا بمقدار 3.2 و 1.6 نقطة على التوالي مقارنة بنماذج الأساس، مع أداء قريبة من نماذج Transformer بنفس الحجم.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: ينخفض أداء نموذج Mamba بشكل كبير عند التعامل مع السياقات الطويلة (أكثر من 2000 رمز)، وغير قادر على الحفاظ الفعال على المعلومات البعيدة المدى
الأهمية: يعتبر فهم السياق الطويل قدرة حاسمة في تطور نماذج اللغة الكبيرة، وضروري للتطبيقات مثل فهم المستندات وأنظمة الحوار
قيود الطرق الموجودة:
- تواجه Transformer مشاكل التعقيد الحسابي التربيعي واستهلاك الذاكرة الخطي
- تخفف المعماريات الهجينة من المشاكل لكنها تقلل من كفاءة الحساب
- طرق تحسين Mamba الموجودة (مثل LongMamba و DeciMamba) ذات فعالية محدودة

دافع البحث

اكتشف المؤلفون من خلال التجارب أن Mamba تتفوق على نماذج Transformer بنفس الحجم في مهام السياق القصير، لكنها تعاني من فجوة أداء كبيرة في مهام السياق الطويل. يحد الفضاء الحالة الثابت لهذه المعمارية الشبيهة بـ RNN من قدرتها على حفظ المعلومات البعيدة المدى، مما يؤدي إلى مشكلة نسيان المعلومات الشديدة.

المساهمات الأساسية

تحديد جذور المشكلة: من خلال الدراسة الأولية، اكتشفنا مشكلة فقدان المعلومات الشديدة في Mamba، حيث أن الضغط العشوائي حتى يحقق أداء مماثلة
اقتراح طريقة ReMamba: تصميم آلية الضغط الانتقائي والتكيف ثنائية المراحل، مما يخفف بشكل فعال من فقدان المعلومات في السياق الطويل
تحقيق تحسن أداء كبير: تحسن بمقدار 3.2 و 1.6 نقطة على LongBench و L-Eval على التوالي، مع أداء قريبة من Transformer
الحفاظ على مزايا الكفاءة: إضافة تكلفة تمرير أمامي واحد فقط، مع الحفاظ على استهلاك ذاكرة ثابت وسرعة استدلال عالية
عمومية الطريقة: تم تطبيق الطريقة بنجاح على معمارية Mamba2، مما يثبت قابليتها للتعميم

شرح الطريقة

تعريف المهمة

الإدخال: تسلسل السياق الطويل {ti}^L_، حيث L هو طول التسلسل الإخراج: نتائج توليد اللغة الطبيعية بناءً على السياق الطويل الهدف: تحسين قدرة Mamba على فهم السياق الطويل مع الحفاظ على كفاءة الاستدلال

معمارية النموذج

تعتمد ReMamba على تصميم معمارية ثنائية المراحل:

المرحلة 1: الضغط الانتقائي (Selective Compression)

تعريف نطاق الضغط:

النطاق النسبي: range := (s, e)، حيث e = s + p
مجموعة الفهارس المطلقة: R := S, E، حيث S = L·s+1, E = L·(s+p)
نسبة الضغط: ρ، مع الاحتفاظ بـ K := |R|·ρ من التمثيلات المخفية

آلية تسجيل الأهمية:

q = Query(hL)
{ki}^E_{i=S} = Key({hi}^E_{i=S})
cosi = (ki · q) / max(||ki||2 · ||q||2, ε)

اختيار Top-K:

G = argmax_{A⊂{S,S+1,...,E},|A|=K} Σ_{i∈A} cosi

توليد التمثيل المضغوط:

{vi}^K_{i=1} = Value({hj}, j ∈ G)
Tnew = Cat({ti}^{S-1}_{i=1}, {vi}^K_{i=1}, {ti}^L_{i=E+1})

المرحلة 2: التكيف الانتقائي (Selective Adaptation)

لحالات التمثيل المختارة، تعديل آلية الاختيار في Mamba:

α = ReLU(cos'_{t-1})
Δ^l_{t-1}' = Proj1(h^{l-1}_{t-1})
δ = Δ^l_{t-1}' · α + Θ^l
Δ^l_{t-1} = Softplus(δ)

حيث Θ^l هو معامل انحياز قابل للتدريب على مستوى الطبقة، يتحكم في قوة تأثير درجات الأهمية على تحديث الحالة.

نقاط الابتكار التقني

التصميم ثنائي المراحل: تضغط المرحلة الأولى المعلومات، والمرحلة الثانية تدمجها، مما يتجنب تعقيد تعديل خوارزمية مسح SSM مباشرة
دمج الآلية الانتقائية: استخدام ذكي لآلية Mamba الانتقائية الأصلية لدمج درجات الأهمية
التقريب القابل للتفاضل: من خلال تعديل قيمة Δ بدلاً من الضرب المباشر، يضمن قابلية التفاضل للتدريب
استراتيجية تحجيم التدرج: تحجيم التدرجات بما يتناسب مع درجات الأهمية، مع التركيز على تعلم المعلومات الحاسمة

إعداد التجارب

مجموعات البيانات

بيانات التدريب: مجموعة بيانات LongOrca (حوالي 500,000 عينة)
- حالات تعليمات طويلة من مجموعة بيانات OpenOrca
- بيانات محاذاة السياق الطويل LongAlpaca-12k
- الحد الأقصى للطول مقطوع إلى 6000 رمز
بيانات التقييم:
- LongBench-E (الفرع الإنجليزي): 13 مهمة فهم السياق الطويل
- L-Eval: 6 مهام السياق الطويل المغلقة

مقاييس التقييم

LongBench: دقة خاصة بالمهمة (مثل ROUGE و EM و F1 وغيرها)
L-Eval: دقة المهام المغلقة
سرعة الاستدلال: الرموز/الثانية
استهلاك الذاكرة: استخدام ذاكرة GPU

طرق المقارنة

نماذج الأساس: Mamba 2.8B (إصدارات مدربة مسبقًا وضبط دقيق)
طرق المقارنة:
- DeciMamba 2.8B
- Llama-3B (باستخدام الاستيفاء الخطي للموضع لتوسيع السياق)
تجارب الاستبعاد: متغيرات الاختيار العشوائي والاختيار الثابت والاختيار الضربي وغيرها

تفاصيل التنفيذ

المعاملات الفائقة: s=0, p=0.18, ρ=0.009 (التكوين الأمثل لـ LongBench)
استراتيجية التدريب: ضبط دقيق LoRA، rank=32
المحسّن: AdamW، معدل التعلم 2e-5
الأجهزة: 8×A100-80GB GPU، DeepSpeed Zero Stage 3

نتائج التجارب

النتائج الرئيسية

مقارنة الأداء على LongBench:

النموذج	متوسط الدرجة
Mamba (SFT)	24.63
ReMamba (SFT)	27.86
Llama-3B (SFT)	28.99

مقارنة الأداء على L-Eval:

النموذج	متوسط الدرجة
Mamba (SFT)	22.19
ReMamba (SFT)	23.83
Llama-3B (SFT)	22.69

تجارب الاستبعاد

مقارنة استراتيجيات الاختيار:

الاختيار العشوائي: أداء مماثلة للأساس، مما يؤكد فرضية فقدان المعلومات
الاختيار الثابت: أفضل قليلاً من الاختيار العشوائي
الاختيار الضربي: تحسن معين
طريقة ReMamba الكاملة: تفوق كبير على جميع المتغيرات

أداء تعميم الطول:

ReMamba أفضل من الأساس على جميع الأطوال من 2k إلى 9k
توسع طول الأداء الأمثل من 4k إلى 6k
تتسع فجوة الأداء مع زيادة طول السياق

تحليل الكفاءة

استهلاك الذاكرة:

ReMamba يضيف فقط تكلفة ذاكرة ثابتة قليلة مقارنة بـ Mamba
أقل بكثير من متطلبات الذاكرة التربيعية لـ Transformer

سرعة الاستدلال:

مماثلة لسرعة Mamba الأصلية
أسرع بشكل ملحوظ من Transformer (حوالي 2-3 مرات)

تجارب توسيع Mamba2

تطبيق طريقة ReMamba على Mamba2، مع تحسن متوسط درجة LongBench بمقدار 1.6 نقطة، مما يثبت عمومية الطريقة.

الأعمال ذات الصلة

نمذجة السياق الطويل

توسيع Transformer: تقنيات الاستيفاء الموضعي و RoPE وغيرها
تحسينات Mamba: تحسين LongMamba من خلال ضبط دقيق للسياق الطويل، DeciMamba من خلال طرق بدون تدريب
المعماريات الهجينة: طرق مثل Jamba التي تجمع بين الانتباه و SSM

ضغط السياق

ضغط ذاكرة التخزين المؤقت KV: تحسينات الذاكرة الموجهة نحو Transformer
ضغط الموجهات: طرق الموجهات الناعمة وتوليد معزز بالاسترجاع
الانتباه الانتقائي: طرق تخصيص الموارد الحسابية الديناميكية

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

تشخيص دقيق للمشكلة: تم تحديد جذر المشكلة بنجاح في ضعف أداء Mamba في السياق الطويل
فعالية الطريقة: يحسن ReMamba بشكل كبير أداء السياق الطويل، مع الاقتراب من مستوى Transformer
الحفاظ على الكفاءة: يحافظ على مزايا كفاءة الاستدلال في Mamba مع تحسين الأداء
عمومية الطريقة: تم توسيع الطريقة بنجاح إلى Mamba2، مما يظهر قابلية تعميم جيدة

القيود

الحد النظري: نظرًا لقيود الفضاء الحالة الثابت، يصعب على Mamba تجاوز Transformer في السياقات الطويلة جدًا
قيود الطريقة: تخفف الطريقة بشكل أساسي من فقدان المعلومات من خلال الضغط، دون تغيير آلية تحديث الحالة بشكل أساسي
حساسية المعاملات الفائقة: تتطلب تعديل معاملات ضغط متعددة لمهام مختلفة
نطاق التقييم: يتم التقييم بشكل أساسي على مجموعات بيانات إنجليزية، مع عدم التحقق من قابلية التعميم متعددة اللغات

الاتجاهات المستقبلية

تحسين آلية الحالة: تعديل مباشر لآلية تحديث الفضاء الحالة
الضغط التكيفي: تعديل استراتيجية الضغط ديناميكيًا بناءً على المحتوى
التوسيع متعدد الأنماط: توسيع الطريقة إلى مهام الرؤية واللغة
التحليل النظري: تحليل عميق للأساس النظري والحدود الأداء للطريقة

التقييم المتعمق

المزايا

رؤية عميقة للمشكلة: تم تحديد مشكلة فقدان المعلومات في Mamba بذكاء من خلال تجارب الضغط العشوائي
تصميم طريقة ذكي: يجمع التصميم ثنائي المراحل بين القابلية للتفاضل والاستفادة الفعالة من الآليات الموجودة
تجارب شاملة وكافية: تشمل معايير متعددة وتجارب استبعاد وتحليل كفاءة وغيرها
تنفيذ هندسي ممتاز: توفير كود مفتوح المصدر وإعدادات تجريبية مفصلة
كتابة واضحة: منطق واضح ووصف دقيق للتفاصيل التقنية

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب فعالية الطريقة
قيود التقييم: التقييم بشكل أساسي على مهام الأسئلة والأجوبة، مع تغطية غير كافية لأنواع مهام السياق الطويل الأخرى
تعقيد المعاملات الفائقة: تتطلب تعديل معاملات متعددة، قد تحتاج إلى ضبط دقيق كبير في التطبيقات العملية
مقارنة الأساس: قد يكون الأداء الضعيفة لـ DeciMamba مرتبطة بإعدادات المعاملات الفائقة

التأثير

القيمة الأكاديمية: توفير أفكار جديدة وحل فعال لنمذجة السياق الطويل في Mamba
القيمة العملية: طريقة بسيطة وفعالة، سهلة النشر في الأنظمة العملية
قابلية الاستنساخ: توفير كود كامل وإعدادات تجريبية مفصلة
القيمة الإرشادية: توفير مرجع لتحسين معماريات نمذجة التسلسل الأخرى

السيناريوهات المناسبة

فهم المستندات: مهام الأسئلة والأجوبة على المستندات الطويلة وتوليد الملخصات وغيرها
أنظمة الحوار: السيناريوهات التي تتطلب الحفاظ على سجل حوار طويل
فهم الأكواد: تحليل وتوليد ملفات الأكواد الطويلة
بيئات الموارد المحدودة: سيناريوهات تتطلب استدلال فعال في حوسبة الحافة

المراجع

الأعمال الأساسية ذات الصلة:

Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكرًا وفعالاً لمشكلة فهم السياق الطويل في معمارية Mamba. يتميز التصميم بالذكاء والتجارب بالشمول، مع قيمة نظرية وعملية جيدة. على الرغم من وجود بعض القيود، فإنها تقدم مساهمة مهمة لتطور المجال ذي الصلة.