2025-11-15T12:52:11.146335

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Yuan, Liu, Li et al.

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

academic

ReMamba: Оснащение Mamba эффективным моделированием длинных последовательностей

Основная информация

ID статьи: 2408.15496
Название: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
Авторы: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: Август 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2408.15496
Ссылка на код: https://github.com/lblankl/ReMamba

Аннотация

В данной работе предлагается метод ReMamba для решения проблемы недостаточной производительности архитектуры Mamba при обработке длинных контекстов. Хотя Mamba демонстрирует отличные результаты на задачах НЛП с коротким контекстом и обеспечивает высокую эффективность вывода, её производительность значительно уступает моделям Transformer при работе с длинными контекстами. ReMamba повышает способность Mamba к пониманию длинного контекста благодаря двухэтапному процессу селективного сжатия и адаптации при прямом проходе, вводя минимальные дополнительные затраты на вывод. На эталонных наборах LongBench и L-Eval ReMamba превосходит базовую модель на 3,2 и 1,6 пункта соответственно, достигая производительности, близкой к моделям Transformer сопоставимого размера.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Модель Mamba демонстрирует значительное снижение производительности при обработке длинных контекстов (более 2k токенов), неспособна эффективно сохранять информацию на дальних расстояниях
Важность: Понимание длинного контекста является ключевой способностью развития больших языковых моделей, критически важной для приложений, таких как понимание документов и системы диалога
Ограничения существующих методов:
- Transformer сталкивается с проблемой квадратичной вычислительной сложности и линейного потребления памяти
- Гибридные архитектуры, хотя и смягчают проблему, снижают вычислительную эффективность
- Существующие методы улучшения Mamba (такие как LongMamba, DeciMamba) показывают ограниченные результаты

Исследовательская мотивация

Авторы обнаружили экспериментально, что Mamba превосходит Transformer сопоставимого размера на задачах с коротким контекстом, но демонстрирует значительный разрыв в производительности на задачах с длинным контекстом. Фиксированное пространство состояний этой RNN-подобной архитектуры ограничивает её способность сохранять информацию на дальних расстояниях, что приводит к серьёзной проблеме забывания информации.

Основные вклады

Выявление корня проблемы: Предварительное исследование показало серьёзную проблему потери информации в Mamba, даже случайное сжатие даёт сопоставимую производительность
Предложение метода ReMamba: Разработан двухэтапный механизм селективного сжатия и адаптации, эффективно смягчающий потерю информации в длинном контексте
Достижение значительного улучшения производительности: Улучшение на 3,2 и 1,6 пункта на LongBench и L-Eval соответственно, приближение к производительности Transformer
Сохранение преимуществ эффективности: Добавление затрат только одного прямого прохода, сохранение постоянного потребления памяти и высокой скорости вывода
Универсальность метода: Успешное расширение на архитектуру Mamba2, доказывающее универсальность метода

Подробное описание метода

Определение задачи

Входные данные: Последовательность длинного контекста {ti}^L_, где L — длина последовательности Выходные данные: Результаты генерации естественного языка на основе длинного контекста Цель: Повышение способности Mamba к пониманию длинного контекста при сохранении её эффективности вывода

Архитектура модели

ReMamba использует двухэтапную архитектуру:

Этап 1: Селективное сжатие (Selective Compression)

Определение диапазона сжатия:

Относительный диапазон сжатия: range := (s, e), где e = s + p
Набор абсолютных индексов: R := S, E, где S = L·s+1, E = L·(s+p)
Коэффициент сжатия: ρ, окончательно сохраняется K := |R|·ρ скрытых представлений

Механизм оценки важности:

q = Query(hL)
{ki}^E_{i=S} = Key({hi}^E_{i=S})
cosi = (ki · q) / max(||ki||2 · ||q||2, ε)

Выбор Top-K:

G = argmax_{A⊂{S,S+1,...,E},|A|=K} Σ_{i∈A} cosi

Генерация сжатого представления:

{vi}^K_{i=1} = Value({hj}, j ∈ G)
Tnew = Cat({ti}^{S-1}_{i=1}, {vi}^K_{i=1}, {ti}^L_{i=E+1})

Этап 2: Селективная адаптация (Selective Adaptation)

Для выбранных скрытых состояний модифицируется селективный механизм Mamba:

α = ReLU(cos'_{t-1})
Δ^l_{t-1}' = Proj1(h^{l-1}_{t-1})
δ = Δ^l_{t-1}' · α + Θ^l
Δ^l_{t-1} = Softplus(δ)

где Θ^l — обучаемый параметр смещения уровня, контролирующий интенсивность влияния оценки важности на обновление состояния.

Технические инновации

Двухэтапная конструкция: Первый этап сжимает информацию, второй интегрирует её, избегая сложности прямого изменения алгоритма сканирования SSM
Интеграция селективного механизма: Умелое использование существующего селективного механизма Mamba для интеграции оценок важности
Дифференцируемое приближение: Модификация значения Δ вместо прямого умножения обеспечивает дифференцируемость при обучении
Стратегия масштабирования градиентов: Масштабирование градиентов пропорционально оценкам важности, подчёркивая обучение критически важной информации

Экспериментальная установка

Наборы данных

Данные обучения: Набор данных LongOrca (примерно 500 тыс. образцов)
- Экземпляры долгих инструкций из набора OpenOrca
- Данные выравнивания длинного контекста LongAlpaca-12k
- Максимальная длина обрезана до 6000 токенов
Данные оценки:
- LongBench-E (английская ветвь): 13 задач понимания длинного контекста
- L-Eval: 6 закрытых задач длинного контекста

Метрики оценки

LongBench: Точность, специфичная для задачи (ROUGE, EM, F1 и т.д.)
L-Eval: Точность закрытых задач
Скорость вывода: токены/секунда
Потребление памяти: использование памяти GPU

Методы сравнения

Базовая модель: Mamba 2.8B (предварительно обученная и дообученная версии)
Методы сравнения:
- DeciMamba 2.8B
- Llama-3B (с использованием линейной интерполяции позиций для расширения контекста)
Абляционные исследования: Варианты со случайным выбором, фиксированным выбором, мультипликативным выбором и т.д.

Детали реализации

Гиперпараметры: s=0, p=0.18, ρ=0.009 (оптимальная конфигурация для LongBench)
Стратегия обучения: Дообучение LoRA, rank=32
Оптимизатор: AdamW, скорость обучения 2e-5
Оборудование: 8×A100-80GB GPU, DeepSpeed Zero Stage 3

Результаты экспериментов

Основные результаты

Сравнение производительности на LongBench:

Модель	Средний балл
Mamba (SFT)	24.63
ReMamba (SFT)	27.86
Llama-3B (SFT)	28.99

Сравнение производительности на L-Eval:

Модель	Средний балл
Mamba (SFT)	22.19
ReMamba (SFT)	23.83
Llama-3B (SFT)	22.69

Абляционные исследования

Сравнение стратегий выбора:

Случайный выбор: производительность близка к базовой, подтверждает гипотезу потери информации
Фиксированный выбор: немного лучше случайного выбора
Мультипликативный выбор: некоторое улучшение
Полный метод ReMamba: значительно превосходит все варианты

Производительность обобщения по длине:

ReMamba превосходит базовую модель на всех длинах 2k-9k
Оптимальная длина производительности расширяется с 4k до 6k
Разрыв производительности увеличивается с увеличением длины контекста

Анализ эффективности

Потребление памяти:

ReMamba добавляет только небольшие постоянные затраты памяти по сравнению с Mamba
Значительно ниже квадратичного роста памяти Transformer

Скорость вывода:

Сопоставима со скоростью исходной Mamba
Значительно быстрее Transformer (примерно в 2-3 раза)

Экспериментальное расширение на Mamba2

Применение метода ReMamba к Mamba2 показало улучшение среднего балла LongBench на 1,6 пункта, доказывая универсальность метода.

Связанные работы

Моделирование длинного контекста

Расширения Transformer: Интерполяция позиций, RoPE и другие методы
Улучшения Mamba: LongMamba через дообучение на длинном контексте, DeciMamba через методы без обучения
Гибридные архитектуры: Jamba и другие, объединяющие внимание и SSM

Сжатие контекста

Сжатие KV-кэша: Оптимизация памяти для Transformer
Сжатие подсказок: Методы мягких подсказок и генерация с дополнением информацией
Селективное внимание: Методы динамического распределения вычислительных ресурсов

Заключение и обсуждение

Основные выводы

Точная диагностика проблемы: Успешное выявление коренной причины недостаточной производительности Mamba на длинном контексте
Эффективность метода: ReMamba значительно повышает производительность на длинном контексте, приближаясь к уровню Transformer
Сохранение эффективности: Повышение производительности при сохранении преимуществ Mamba в эффективности вывода
Универсальность метода: Успешное расширение на Mamba2, демонстрирующее хорошую универсальность

Ограничения

Теоретический предел: Из-за ограничений фиксированного пространства состояний Mamba трудно превзойти Transformer на сверхдлинных контекстах
Ограничения метода: Основной подход заключается в смягчении потери информации через сжатие, не изменяя фундаментально механизм обновления состояния
Чувствительность гиперпараметров: Требуется настройка параметров сжатия для различных задач
Диапазон оценки: Оценка проводилась в основном на английских наборах данных, универсальность на многоязычных данных требует проверки

Будущие направления

Улучшение механизма состояния: Прямое изменение механизма обновления пространства состояний
Адаптивное сжатие: Динамическая настройка стратегии сжатия в зависимости от содержания
Расширение на мультимодальность: Применение метода к задачам зрительно-языкового взаимодействия
Теоретический анализ: Углубленный анализ теоретических основ и границ производительности метода

Глубокая оценка

Преимущества

Глубокое понимание проблемы: Умелое доказательство проблемы потери информации в Mamba через эксперименты со случайным сжатием
Умная конструкция метода: Двухэтапная конструкция сохраняет дифференцируемость и эффективно использует существующие механизмы
Полные и достаточные эксперименты: Включают несколько эталонов, абляционные исследования, анализ эффективности и т.д.
Отличная инженерная реализация: Открытый исходный код, удобство воспроизведения и применения
Ясное изложение: Логичная структура, точное описание технических деталей

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение причин эффективности метода
Ограничения оценки: Оценка в основном на задачах QA, недостаточное покрытие других типов задач длинного контекста
Сложность гиперпараметров: Требуется настройка нескольких гиперпараметров, что может потребовать значительной настройки при практическом применении
Сравнение базовых моделей: Слабая производительность DeciMamba может быть связана с настройками гиперпараметров

Влияние

Академическая ценность: Предоставляет новые идеи и эффективные решения для моделирования длинного контекста в Mamba
Практическая ценность: Метод простой и эффективный, легко развёртывается в практических системах
Воспроизводимость: Предоставлены полный исходный код и подробные параметры экспериментов
Вдохновляющее значение: Служит справочником для улучшения других архитектур последовательностного моделирования

Применимые сценарии

Понимание документов: Вопросно-ответные системы на длинных документах, генерация резюме и т.д.
Системы диалога: Сценарии, требующие сохранения длинной истории диалога
Понимание кода: Анализ и генерация длинных файлов кода
Среды с ограниченными ресурсами: Сценарии, требующие эффективного вывода в граничных вычислениях

Библиография

Основные связанные работы:

Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.

Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное и эффективное решение проблемы понимания длинного контекста в архитектуре Mamba. Метод отличается умной конструкцией, полными экспериментами и обладает хорошей теоретической и практической ценностью. Несмотря на некоторые ограничения, работа вносит значительный вклад в развитие соответствующей области.