Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
academic
Titans: Обучение запоминанию во время тестирования
В данной работе предлагается новый модуль нейронной долгосрочной памяти, способный обучаться запоминанию исторического контекста и помогающий механизму внимания сосредоточиться на текущем контексте при одновременном использовании долгосрочной информации. Авторы утверждают с позиции памяти, что механизм внимания функционирует как кратковременная память благодаря ограниченному контексту, но точному моделированию зависимостей, тогда как нейронная память действует как долгосрочная, более устойчивая память благодаря своей способности сохранять данные. На основе этих двух модулей авторы представляют новое семейство архитектур Titans и предлагают три варианта для эффективной интеграции памяти в архитектуру. Экспериментальные результаты показывают, что Titans превосходит Transformers и современные линейные рекуррентные модели в задачах языкового моделирования, логического вывода на основе здравого смысла, геномики и анализа временных рядов, эффективно масштабируясь до размеров контекстного окна свыше 2M токенов.
Существующие архитектуры последовательного моделирования сталкиваются с компромиссом между эффективностью и производительностью:
Transformers: хотя и способны точно моделировать зависимости, имеют вычислительную сложность O(n²), что ограничивает длину контекста
Линейные Transformers/RNNs: хотя и эффективны, сжимают информацию в состояние фиксированного размера, что приводит к снижению производительности на длинных последовательностях
Отсутствие системы памяти: существующие архитектуры не обладают многоуровневой системой памяти, подобной человеческому мозгу (кратковременная память, долгосрочная память, метапамять и т.д.)
Модуль нейронной долгосрочной памяти: предлагается глубокая нейронная сеть в качестве метамодели, которая обучается во время тестирования запоминанию/сохранению данных в своих параметрах
Механизм управления памятью: разработан механизм обновления памяти на основе "удивления" и адаптивный механизм забывания
Семейство архитектур Titans: предложены три способа интеграции памяти в архитектуры глубокого обучения: Memory as Context (MAC), Memory as Gate (MAG), Memory as Layer (MAL)
Параллельный алгоритм обучения: предоставлен быстрый параллелизуемый алгоритм обучения, обеспечивающий эффективное обучение модулей глубокой памяти
Обширная экспериментальная верификация: верификация эффективности Titans на множестве задач, включая языковое моделирование, логический вывод на основе здравого смысла, геномику и прогнозирование временных рядов
В данной работе исследуется задача последовательного моделирования, где входные данные представляют собой последовательность x∈RN×din, а цель состоит в обучении модели, способной эффективно обрабатывать длинные последовательности, которая должна:
Непрерывно обучаться и запоминать во время тестирования
Сбалансировать использование кратковременной и долгосрочной памяти
Обладать линейной сложностью при сохранении высокой выразительной способности
Вдохновляясь долгосрочной памятью человека, события, нарушающие ожидания (удивительные события), запоминаются легче. Авторы используют градиент нейронной сети относительно входных данных для измерения "удивления".
Высокоэффективное параллельное обучение достигается путем переформулирования процесса обучения с использованием операций матричного умножения и суммирования:
Последовательность разбивается на блоки размером b
Для вычисления членов момента используется параллельное ассоциативное сканирование
Быстрое обучение реализуется путем тензоризации стохастического градиентного спуска в малых партиях
Важность системы памяти: многоуровневая система памяти (кратковременная + долгосрочная + постоянная память) критична для последовательного моделирования
Эффективность обучения во время тестирования: непрерывное обучение и запоминание во время тестирования могут значительно улучшить способность обработки длинных последовательностей
Влияние проектирования архитектуры: архитектуры MAC и MAG превосходят традиционный иерархический дизайн MAL
Верификация масштабируемости: Titans эффективно масштабируется до контекстного окна 2M+ токенов
Сильная концептуальная новизна: переосмысление последовательного моделирования с позиции системы человеческой памяти, предложение новой многоуровневой архитектуры памяти
Всесторонний технический вклад: не только предложение модуля нейронной памяти, но и разработка трех способов интеграции в архитектуру и эффективного параллельного алгоритма
Достаточная экспериментальная верификация: комплексные эксперименты в нескольких областях (NLP, временные ряды, геномика) с убедительными результатами
Прочная теоретическая база: связь обновления памяти с градиентным спуском, моментом и затуханием весов, предоставление теоретического объяснения
Недостаточный анализ вычислительной сложности: хотя утверждается линейная сложность, анализ фактических вычислительных затрат модулей глубокой памяти недостаточно подробен
Чувствительность гиперпараметров: установка нескольких зависящих от данных параметров (α_t, θ_t, η_t) может быть относительно сложной
Ограниченная аналогия с человеческой памятью: хотя вдохновлено человеческой памятью, определение "удивления" относительно простое
Недостаточная верификация на больших моделях: наибольшая модель содержит только 760M параметров, отсутствует верификация на моделях с миллиардами параметров
Академическая ценность: предоставление новой перспективы памяти для последовательного моделирования, потенциально вдохновляющее дальнейшие исследования
Практическая ценность: превосходная производительность на задачах обработки длинных последовательностей с потенциалом практического применения
Воспроизводимость: авторы обещают открыть исходный код, способствуя распространению и верификации метода
Обработка длинных документов: применимо к задачам NLP, требующим обработки длинных документов
Анализ временных рядов: особенно подходит для задач прогнозирования, требующих долгосрочной исторической информации
Сценарии онлайн-обучения: применимо к приложениям, требующим непрерывной адаптации во время тестирования
Задачи, требующие интенсивного использования памяти: такие как системы вопросов и ответов, диалоговые системы и другие приложения, требующие запоминания большого объема информации
Статья цитирует 138 связанных работ, охватывающих множество областей, включая Transformer, рекуррентные нейронные сети, механизмы внимания, сети памяти, обучение во время тестирования и другие важные работы в смежных областях, обеспечивая прочную теоретическую базу для данного исследования.