2025-11-15T12:52:11.146335

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Yuan, Liu, Li et al.
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
academic

ReMamba: Оснащение Mamba эффективным моделированием длинных последовательностей

Основная информация

  • ID статьи: 2408.15496
  • Название: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
  • Авторы: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
  • Категория: cs.CL (Вычислительная лингвистика)
  • Дата публикации: Август 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2408.15496
  • Ссылка на код: https://github.com/lblankl/ReMamba

Аннотация

В данной работе предлагается метод ReMamba для решения проблемы недостаточной производительности архитектуры Mamba при обработке длинных контекстов. Хотя Mamba демонстрирует отличные результаты на задачах НЛП с коротким контекстом и обеспечивает высокую эффективность вывода, её производительность значительно уступает моделям Transformer при работе с длинными контекстами. ReMamba повышает способность Mamba к пониманию длинного контекста благодаря двухэтапному процессу селективного сжатия и адаптации при прямом проходе, вводя минимальные дополнительные затраты на вывод. На эталонных наборах LongBench и L-Eval ReMamba превосходит базовую модель на 3,2 и 1,6 пункта соответственно, достигая производительности, близкой к моделям Transformer сопоставимого размера.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Модель Mamba демонстрирует значительное снижение производительности при обработке длинных контекстов (более 2k токенов), неспособна эффективно сохранять информацию на дальних расстояниях
  2. Важность: Понимание длинного контекста является ключевой способностью развития больших языковых моделей, критически важной для приложений, таких как понимание документов и системы диалога
  3. Ограничения существующих методов:
    • Transformer сталкивается с проблемой квадратичной вычислительной сложности и линейного потребления памяти
    • Гибридные архитектуры, хотя и смягчают проблему, снижают вычислительную эффективность
    • Существующие методы улучшения Mamba (такие как LongMamba, DeciMamba) показывают ограниченные результаты

Исследовательская мотивация

Авторы обнаружили экспериментально, что Mamba превосходит Transformer сопоставимого размера на задачах с коротким контекстом, но демонстрирует значительный разрыв в производительности на задачах с длинным контекстом. Фиксированное пространство состояний этой RNN-подобной архитектуры ограничивает её способность сохранять информацию на дальних расстояниях, что приводит к серьёзной проблеме забывания информации.

Основные вклады

  1. Выявление корня проблемы: Предварительное исследование показало серьёзную проблему потери информации в Mamba, даже случайное сжатие даёт сопоставимую производительность
  2. Предложение метода ReMamba: Разработан двухэтапный механизм селективного сжатия и адаптации, эффективно смягчающий потерю информации в длинном контексте
  3. Достижение значительного улучшения производительности: Улучшение на 3,2 и 1,6 пункта на LongBench и L-Eval соответственно, приближение к производительности Transformer
  4. Сохранение преимуществ эффективности: Добавление затрат только одного прямого прохода, сохранение постоянного потребления памяти и высокой скорости вывода
  5. Универсальность метода: Успешное расширение на архитектуру Mamba2, доказывающее универсальность метода

Подробное описание метода

Определение задачи

Входные данные: Последовательность длинного контекста {ti}^L_, где L — длина последовательности Выходные данные: Результаты генерации естественного языка на основе длинного контекста Цель: Повышение способности Mamba к пониманию длинного контекста при сохранении её эффективности вывода

Архитектура модели

ReMamba использует двухэтапную архитектуру:

Этап 1: Селективное сжатие (Selective Compression)

Определение диапазона сжатия:

  • Относительный диапазон сжатия: range := (s, e), где e = s + p
  • Набор абсолютных индексов: R := S, E, где S = L·s+1, E = L·(s+p)
  • Коэффициент сжатия: ρ, окончательно сохраняется K := |R|·ρ скрытых представлений

Механизм оценки важности:

q = Query(hL)
{ki}^E_{i=S} = Key({hi}^E_{i=S})
cosi = (ki · q) / max(||ki||2 · ||q||2, ε)

Выбор Top-K:

G = argmax_{A⊂{S,S+1,...,E},|A|=K} Σ_{i∈A} cosi

Генерация сжатого представления:

{vi}^K_{i=1} = Value({hj}, j ∈ G)
Tnew = Cat({ti}^{S-1}_{i=1}, {vi}^K_{i=1}, {ti}^L_{i=E+1})

Этап 2: Селективная адаптация (Selective Adaptation)

Для выбранных скрытых состояний модифицируется селективный механизм Mamba:

α = ReLU(cos'_{t-1})
Δ^l_{t-1}' = Proj1(h^{l-1}_{t-1})
δ = Δ^l_{t-1}' · α + Θ^l
Δ^l_{t-1} = Softplus(δ)

где Θ^l — обучаемый параметр смещения уровня, контролирующий интенсивность влияния оценки важности на обновление состояния.

Технические инновации

  1. Двухэтапная конструкция: Первый этап сжимает информацию, второй интегрирует её, избегая сложности прямого изменения алгоритма сканирования SSM
  2. Интеграция селективного механизма: Умелое использование существующего селективного механизма Mamba для интеграции оценок важности
  3. Дифференцируемое приближение: Модификация значения Δ вместо прямого умножения обеспечивает дифференцируемость при обучении
  4. Стратегия масштабирования градиентов: Масштабирование градиентов пропорционально оценкам важности, подчёркивая обучение критически важной информации

Экспериментальная установка

Наборы данных

  • Данные обучения: Набор данных LongOrca (примерно 500 тыс. образцов)
    • Экземпляры долгих инструкций из набора OpenOrca
    • Данные выравнивания длинного контекста LongAlpaca-12k
    • Максимальная длина обрезана до 6000 токенов
  • Данные оценки:
    • LongBench-E (английская ветвь): 13 задач понимания длинного контекста
    • L-Eval: 6 закрытых задач длинного контекста

Метрики оценки

  • LongBench: Точность, специфичная для задачи (ROUGE, EM, F1 и т.д.)
  • L-Eval: Точность закрытых задач
  • Скорость вывода: токены/секунда
  • Потребление памяти: использование памяти GPU

Методы сравнения

  • Базовая модель: Mamba 2.8B (предварительно обученная и дообученная версии)
  • Методы сравнения:
    • DeciMamba 2.8B
    • Llama-3B (с использованием линейной интерполяции позиций для расширения контекста)
  • Абляционные исследования: Варианты со случайным выбором, фиксированным выбором, мультипликативным выбором и т.д.

Детали реализации

  • Гиперпараметры: s=0, p=0.18, ρ=0.009 (оптимальная конфигурация для LongBench)
  • Стратегия обучения: Дообучение LoRA, rank=32
  • Оптимизатор: AdamW, скорость обучения 2e-5
  • Оборудование: 8×A100-80GB GPU, DeepSpeed Zero Stage 3

Результаты экспериментов

Основные результаты

Сравнение производительности на LongBench:

МодельСредний балл
Mamba (SFT)24.63
ReMamba (SFT)27.86
Llama-3B (SFT)28.99

Сравнение производительности на L-Eval:

МодельСредний балл
Mamba (SFT)22.19
ReMamba (SFT)23.83
Llama-3B (SFT)22.69

Абляционные исследования

Сравнение стратегий выбора:

  • Случайный выбор: производительность близка к базовой, подтверждает гипотезу потери информации
  • Фиксированный выбор: немного лучше случайного выбора
  • Мультипликативный выбор: некоторое улучшение
  • Полный метод ReMamba: значительно превосходит все варианты

Производительность обобщения по длине:

  • ReMamba превосходит базовую модель на всех длинах 2k-9k
  • Оптимальная длина производительности расширяется с 4k до 6k
  • Разрыв производительности увеличивается с увеличением длины контекста

Анализ эффективности

Потребление памяти:

  • ReMamba добавляет только небольшие постоянные затраты памяти по сравнению с Mamba
  • Значительно ниже квадратичного роста памяти Transformer

Скорость вывода:

  • Сопоставима со скоростью исходной Mamba
  • Значительно быстрее Transformer (примерно в 2-3 раза)

Экспериментальное расширение на Mamba2

Применение метода ReMamba к Mamba2 показало улучшение среднего балла LongBench на 1,6 пункта, доказывая универсальность метода.

Связанные работы

Моделирование длинного контекста

  1. Расширения Transformer: Интерполяция позиций, RoPE и другие методы
  2. Улучшения Mamba: LongMamba через дообучение на длинном контексте, DeciMamba через методы без обучения
  3. Гибридные архитектуры: Jamba и другие, объединяющие внимание и SSM

Сжатие контекста

  1. Сжатие KV-кэша: Оптимизация памяти для Transformer
  2. Сжатие подсказок: Методы мягких подсказок и генерация с дополнением информацией
  3. Селективное внимание: Методы динамического распределения вычислительных ресурсов

Заключение и обсуждение

Основные выводы

  1. Точная диагностика проблемы: Успешное выявление коренной причины недостаточной производительности Mamba на длинном контексте
  2. Эффективность метода: ReMamba значительно повышает производительность на длинном контексте, приближаясь к уровню Transformer
  3. Сохранение эффективности: Повышение производительности при сохранении преимуществ Mamba в эффективности вывода
  4. Универсальность метода: Успешное расширение на Mamba2, демонстрирующее хорошую универсальность

Ограничения

  1. Теоретический предел: Из-за ограничений фиксированного пространства состояний Mamba трудно превзойти Transformer на сверхдлинных контекстах
  2. Ограничения метода: Основной подход заключается в смягчении потери информации через сжатие, не изменяя фундаментально механизм обновления состояния
  3. Чувствительность гиперпараметров: Требуется настройка параметров сжатия для различных задач
  4. Диапазон оценки: Оценка проводилась в основном на английских наборах данных, универсальность на многоязычных данных требует проверки

Будущие направления

  1. Улучшение механизма состояния: Прямое изменение механизма обновления пространства состояний
  2. Адаптивное сжатие: Динамическая настройка стратегии сжатия в зависимости от содержания
  3. Расширение на мультимодальность: Применение метода к задачам зрительно-языкового взаимодействия
  4. Теоретический анализ: Углубленный анализ теоретических основ и границ производительности метода

Глубокая оценка

Преимущества

  1. Глубокое понимание проблемы: Умелое доказательство проблемы потери информации в Mamba через эксперименты со случайным сжатием
  2. Умная конструкция метода: Двухэтапная конструкция сохраняет дифференцируемость и эффективно использует существующие механизмы
  3. Полные и достаточные эксперименты: Включают несколько эталонов, абляционные исследования, анализ эффективности и т.д.
  4. Отличная инженерная реализация: Открытый исходный код, удобство воспроизведения и применения
  5. Ясное изложение: Логичная структура, точное описание технических деталей

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение причин эффективности метода
  2. Ограничения оценки: Оценка в основном на задачах QA, недостаточное покрытие других типов задач длинного контекста
  3. Сложность гиперпараметров: Требуется настройка нескольких гиперпараметров, что может потребовать значительной настройки при практическом применении
  4. Сравнение базовых моделей: Слабая производительность DeciMamba может быть связана с настройками гиперпараметров

Влияние

  1. Академическая ценность: Предоставляет новые идеи и эффективные решения для моделирования длинного контекста в Mamba
  2. Практическая ценность: Метод простой и эффективный, легко развёртывается в практических системах
  3. Воспроизводимость: Предоставлены полный исходный код и подробные параметры экспериментов
  4. Вдохновляющее значение: Служит справочником для улучшения других архитектур последовательностного моделирования

Применимые сценарии

  1. Понимание документов: Вопросно-ответные системы на длинных документах, генерация резюме и т.д.
  2. Системы диалога: Сценарии, требующие сохранения длинной истории диалога
  3. Понимание кода: Анализ и генерация длинных файлов кода
  4. Среды с ограниченными ресурсами: Сценарии, требующие эффективного вывода в граничных вычислениях

Библиография

Основные связанные работы:

  1. Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
  2. Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
  3. Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
  4. Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.

Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное и эффективное решение проблемы понимания длинного контекста в архитектуре Mamba. Метод отличается умной конструкцией, полными экспериментами и обладает хорошей теоретической и практической ценностью. Несмотря на некоторые ограничения, работа вносит значительный вклад в развитие соответствующей области.