ReMamba: Equip Mamba with Effective Long-Sequence Modeling
Yuan, Liu, Li et al.
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
В данной работе предлагается метод ReMamba для решения проблемы недостаточной производительности архитектуры Mamba при обработке длинных контекстов. Хотя Mamba демонстрирует отличные результаты на задачах НЛП с коротким контекстом и обеспечивает высокую эффективность вывода, её производительность значительно уступает моделям Transformer при работе с длинными контекстами. ReMamba повышает способность Mamba к пониманию длинного контекста благодаря двухэтапному процессу селективного сжатия и адаптации при прямом проходе, вводя минимальные дополнительные затраты на вывод. На эталонных наборах LongBench и L-Eval ReMamba превосходит базовую модель на 3,2 и 1,6 пункта соответственно, достигая производительности, близкой к моделям Transformer сопоставимого размера.
Основная проблема: Модель Mamba демонстрирует значительное снижение производительности при обработке длинных контекстов (более 2k токенов), неспособна эффективно сохранять информацию на дальних расстояниях
Важность: Понимание длинного контекста является ключевой способностью развития больших языковых моделей, критически важной для приложений, таких как понимание документов и системы диалога
Ограничения существующих методов:
Transformer сталкивается с проблемой квадратичной вычислительной сложности и линейного потребления памяти
Гибридные архитектуры, хотя и смягчают проблему, снижают вычислительную эффективность
Существующие методы улучшения Mamba (такие как LongMamba, DeciMamba) показывают ограниченные результаты
Авторы обнаружили экспериментально, что Mamba превосходит Transformer сопоставимого размера на задачах с коротким контекстом, но демонстрирует значительный разрыв в производительности на задачах с длинным контекстом. Фиксированное пространство состояний этой RNN-подобной архитектуры ограничивает её способность сохранять информацию на дальних расстояниях, что приводит к серьёзной проблеме забывания информации.
Выявление корня проблемы: Предварительное исследование показало серьёзную проблему потери информации в Mamba, даже случайное сжатие даёт сопоставимую производительность
Предложение метода ReMamba: Разработан двухэтапный механизм селективного сжатия и адаптации, эффективно смягчающий потерю информации в длинном контексте
Достижение значительного улучшения производительности: Улучшение на 3,2 и 1,6 пункта на LongBench и L-Eval соответственно, приближение к производительности Transformer
Сохранение преимуществ эффективности: Добавление затрат только одного прямого прохода, сохранение постоянного потребления памяти и высокой скорости вывода
Универсальность метода: Успешное расширение на архитектуру Mamba2, доказывающее универсальность метода
Входные данные: Последовательность длинного контекста {ti}^L_, где L — длина последовательности
Выходные данные: Результаты генерации естественного языка на основе длинного контекста
Цель: Повышение способности Mamba к пониманию длинного контекста при сохранении её эффективности вывода
Gu, A. and Dao, T. (2024). Mamba: Linear-time sequence modeling with selective state spaces.
Dao, T. and Gu, A. (2024). Transformers are ssms: Generalized models and efficient algorithms through structured state space duality.
Bai, Y. et al. (2024). Longbench: A bilingual, multitask benchmark for long context understanding.
Chen, Y. et al. (2024). Longlora: Efficient fine-tuning of long-context large language models.
Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное и эффективное решение проблемы понимания длинного контекста в архитектуре Mamba. Метод отличается умной конструкцией, полными экспериментами и обладает хорошей теоретической и практической ценностью. Несмотря на некоторые ограничения, работа вносит значительный вклад в развитие соответствующей области.