Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
academic
Titans: Aprendiendo a Memorizar en Tiempo de Prueba
Este artículo propone un nuevo módulo de memoria neuronal a largo plazo que puede aprender a memorizar contextos históricos y ayudar al mecanismo de atención a enfocarse en el contexto actual mientras aprovecha la información del pasado lejano. Los autores argumentan desde una perspectiva de memoria que los mecanismos de atención actúan como memoria a corto plazo debido a su contexto limitado pero modelado preciso de dependencias, mientras que la memoria neuronal actúa como memoria a largo plazo más persistente debido a su capacidad de almacenar datos. Basándose en estos dos módulos, los autores introducen una nueva familia de arquitecturas llamada Titans y proponen tres variantes para integrar eficientemente la memoria en la arquitectura. Los resultados experimentales muestran que Titans es más efectivo que Transformers y modelos recurrentes lineales modernos en modelado de lenguaje, razonamiento de sentido común, genómica y tareas de series temporales, pudiendo escalar efectivamente a ventanas de contexto superiores a 2M.
Las arquitecturas de modelado de secuencias existentes enfrentan un dilema entre eficiencia y rendimiento:
Transformers: Aunque pueden modelar dependencias con precisión, tienen complejidad computacional O(n²), lo que limita la longitud del contexto
Transformers Lineales/RNNs: Aunque son eficientes, comprimen la información en un estado de tamaño fijo, lo que reduce el rendimiento en secuencias largas
Ausencia de Sistemas de Memoria: Las arquitecturas existentes carecen de sistemas de memoria multinivel similares al cerebro humano (memoria a corto plazo, memoria a largo plazo, metamemoria, etc.)
Módulo de Memoria Neuronal a Largo Plazo: Propone una red neuronal profunda como metamodelo que aprende cómo memorizar/almacenar datos en sus parámetros en tiempo de prueba
Mecanismo de Gestión de Memoria: Diseña un mecanismo de actualización de memoria basado en "sorpresa" y un mecanismo de olvido adaptativo
Familia de Arquitecturas Titans: Propone tres formas de integrar memoria en arquitecturas de aprendizaje profundo: Memory as Context (MAC), Memory as Gate (MAG), Memory as Layer (MAL)
Algoritmo de Entrenamiento Paralelizado: Proporciona un algoritmo de entrenamiento paralelizado rápido que hace eficiente el entrenamiento de módulos de memoria profunda
Validación Experimental Amplia: Verifica la efectividad de Titans en múltiples tareas, incluyendo modelado de lenguaje, razonamiento de sentido común, genómica y predicción de series temporales
Este artículo estudia tareas de modelado de secuencias donde la entrada es una secuencia x∈RN×din, y el objetivo es aprender un modelo que pueda procesar eficientemente secuencias largas, que debe:
Ser capaz de aprendizaje continuo y memorización en tiempo de prueba
Equilibrar el uso de memoria a corto y largo plazo
Tener complejidad lineal manteniendo alta capacidad expresiva
Inspirado en la memoria a largo plazo humana, los eventos que violan expectativas (sorprendentes) se recuerdan más fácilmente. Los autores utilizan el gradiente de la red neuronal con respecto a la entrada para medir la "sorpresa".
El módulo de memoria neuronal supera los métodos base en todos los conjuntos de datos, incluyendo métodos basados en Mamba, Transformer y modelos lineales.
Importancia de Sistemas de Memoria: Los sistemas de memoria multinivel (corto plazo + largo plazo + memoria persistente) son cruciales para el modelado de secuencias
Efectividad del Aprendizaje en Tiempo de Prueba: El aprendizaje continuo y memorización en tiempo de prueba puede mejorar significativamente la capacidad de procesamiento de secuencias largas
Impacto del Diseño de Arquitectura: Las arquitecturas MAC y MAG superan el diseño jerárquico MAL tradicional
Validación de Escalabilidad: Titans puede escalar efectivamente a ventanas de contexto de 2M+
Innovación Conceptual Fuerte: Repiensa el modelado de secuencias desde la perspectiva del sistema de memoria humana, proponiendo una arquitectura de memoria multinivel novedosa
Contribuciones Técnicas Completas: No solo propone el módulo de memoria neuronal, sino que también diseña tres formas de integración en arquitecturas y un algoritmo de paralelización eficiente
Validación Experimental Suficiente: Realiza experimentos completos en múltiples dominios (PNL, series temporales, genómica) con resultados convincentes
Fundamento Teórico Sólido: Conecta la actualización de memoria con descenso de gradiente, momento y decaimiento de peso, proporcionando explicación teórica
Análisis de Complejidad Computacional Incompleto: Aunque afirma complejidad lineal, el análisis del costo computacional real del módulo de memoria profunda carece de detalle
Sensibilidad de Hiperparámetros: Múltiples parámetros dependientes de datos (α_t, θ_t, η_t) pueden ser complejos de configurar
Analogía Limitada con Memoria Humana: Aunque inspirado en memoria humana, la definición de "sorpresa" es relativamente simple
Validación Insuficiente en Modelos Grandes: El modelo más grande tiene solo 760M parámetros, carece de validación en modelos de escala de miles de millones
Procesamiento de Documentos Largos: Aplicable a tareas de PNL que requieren procesar documentos largos
Análisis de Series Temporales: Particularmente adecuado para tareas de predicción que requieren información histórica a largo plazo
Escenarios de Aprendizaje en Línea: Aplicable a aplicaciones que requieren adaptación continua en tiempo de prueba
Tareas Intensivas en Memoria: Como sistemas de preguntas y respuestas, sistemas de diálogo y otras tareas que requieren memorizar gran cantidad de información
El artículo cita 138 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo Transformer, redes neuronales recurrentes, mecanismos de atención, redes de memoria y entrenamiento en tiempo de prueba, proporcionando una base teórica sólida para esta investigación.