2025-11-20T08:25:14.880374

Titans: Learning to Memorize at Test Time

Behrouz, Zhong, Mirrokni

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

academic

Titans: Aprendiendo a Memorizar en Tiempo de Prueba

Información Básica

ID del Artículo: 2501.00663
Título: Titans: Learning to Memorize at Test Time
Autores: Ali Behrouz, Peilin Zhong, Vahab Mirrokni (Google Research)
Clasificación: cs.LG cs.AI cs.CL
Fecha de Publicación: 31 de diciembre de 2024
Enlace del Artículo: https://arxiv.org/abs/2501.00663

Resumen

Este artículo propone un nuevo módulo de memoria neuronal a largo plazo que puede aprender a memorizar contextos históricos y ayudar al mecanismo de atención a enfocarse en el contexto actual mientras aprovecha la información del pasado lejano. Los autores argumentan desde una perspectiva de memoria que los mecanismos de atención actúan como memoria a corto plazo debido a su contexto limitado pero modelado preciso de dependencias, mientras que la memoria neuronal actúa como memoria a largo plazo más persistente debido a su capacidad de almacenar datos. Basándose en estos dos módulos, los autores introducen una nueva familia de arquitecturas llamada Titans y proponen tres variantes para integrar eficientemente la memoria en la arquitectura. Los resultados experimentales muestran que Titans es más efectivo que Transformers y modelos recurrentes lineales modernos en modelado de lenguaje, razonamiento de sentido común, genómica y tareas de series temporales, pudiendo escalar efectivamente a ventanas de contexto superiores a 2M.

Antecedentes de Investigación y Motivación

Problemas Fundamentales

Las arquitecturas de modelado de secuencias existentes enfrentan un dilema entre eficiencia y rendimiento:

Transformers: Aunque pueden modelar dependencias con precisión, tienen complejidad computacional O(n²), lo que limita la longitud del contexto
Transformers Lineales/RNNs: Aunque son eficientes, comprimen la información en un estado de tamaño fijo, lo que reduce el rendimiento en secuencias largas
Ausencia de Sistemas de Memoria: Las arquitecturas existentes carecen de sistemas de memoria multinivel similares al cerebro humano (memoria a corto plazo, memoria a largo plazo, metamemoria, etc.)

Motivación de la Investigación

Inspirados por el sistema de memoria humana, los autores argumentan que un paradigma de aprendizaje efectivo requiere:

Módulos diferentes pero interconectados, cada uno responsable de componentes clave en el proceso de aprendizaje
La capacidad de aprender activamente de los datos y memorizar abstracciones del historial pasado
Mecanismos que permitan aprendizaje continuo y adaptación incluso en tiempo de prueba

Contribuciones Principales

Módulo de Memoria Neuronal a Largo Plazo: Propone una red neuronal profunda como metamodelo que aprende cómo memorizar/almacenar datos en sus parámetros en tiempo de prueba
Mecanismo de Gestión de Memoria: Diseña un mecanismo de actualización de memoria basado en "sorpresa" y un mecanismo de olvido adaptativo
Familia de Arquitecturas Titans: Propone tres formas de integrar memoria en arquitecturas de aprendizaje profundo: Memory as Context (MAC), Memory as Gate (MAG), Memory as Layer (MAL)
Algoritmo de Entrenamiento Paralelizado: Proporciona un algoritmo de entrenamiento paralelizado rápido que hace eficiente el entrenamiento de módulos de memoria profunda
Validación Experimental Amplia: Verifica la efectividad de Titans en múltiples tareas, incluyendo modelado de lenguaje, razonamiento de sentido común, genómica y predicción de series temporales

Explicación Detallada del Método

Definición de la Tarea

Este artículo estudia tareas de modelado de secuencias donde la entrada es una secuencia $x \in \mathbb{R}^{N \times d_{in}}$ , y el objetivo es aprender un modelo que pueda procesar eficientemente secuencias largas, que debe:

Ser capaz de aprendizaje continuo y memorización en tiempo de prueba
Equilibrar el uso de memoria a corto y largo plazo
Tener complejidad lineal manteniendo alta capacidad expresiva

Módulo de Memoria Neuronal a Largo Plazo

Idea de Diseño Central

Inspirado en la memoria a largo plazo humana, los eventos que violan expectativas (sorprendentes) se recuerdan más fácilmente. Los autores utilizan el gradiente de la red neuronal con respecto a la entrada para medir la "sorpresa".

Mecanismo de Actualización de Memoria

Regla de actualización básica:

M_t = M_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

Regla de actualización mejorada (introduciendo momento):

M_t = M_{t-1} + S_t
S_t = η_t S_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

Donde:

S_t: Momento de sorpresa, que contiene sorpresa pasada e instantánea
η_t: Parámetro de decaimiento de sorpresa dependiente de datos
θ_t: Parámetro que controla el grado de integración de sorpresa instantánea

Mecanismo de Olvido

Para manejar secuencias largas, se introduce un mecanismo de olvido adaptativo:

M_t = (1 - α_t)M_{t-1} + S_t

Donde α_t ∈ [0,1] es un mecanismo de compuerta que controla el grado de olvido.

Función Objetivo

Se utiliza una función de pérdida de memoria asociativa:

ℓ(M_{t-1}; x_t) = ||M_{t-1}(k_t) - v_t||²₂

Donde k_t = x_t W_K, v_t = x_t W_V

Variantes de Arquitectura Titans

1. Memory as Context (MAC)

Utiliza la memoria como contexto para la información actual
Procesa la secuencia en fragmentos, cada fragmento consulta la memoria a largo plazo para obtener información histórica relevante
El mecanismo de atención decide si se necesita información de memoria a largo plazo

2. Memory as Gate (MAG)

Una rama utiliza atención de ventana deslizante como memoria a corto plazo
Otra rama utiliza el módulo de memoria neuronal como memoria a largo plazo
Combina las salidas de ambas ramas mediante un mecanismo de compuerta

3. Memory as Layer (MAL)

Utiliza la memoria neuronal como una capa en la red profunda
Procesamiento secuencial: primero a través de la capa de memoria, luego a través de la capa de atención
Diseño jerárquico similar a modelos híbridos existentes

Entrenamiento Paralelizado

Implementa entrenamiento paralelizado eficiente reformulando el proceso de entrenamiento para usar operaciones de multiplicación de matrices y suma:

Divide la secuencia en fragmentos de tamaño b
Utiliza escaneo asociativo paralelo para calcular términos de momento
Implementa descenso de gradiente en minilotes tensorizado para entrenamiento rápido

Configuración Experimental

Conjuntos de Datos

Modelado de Lenguaje: Conjunto de datos FineWeb-Edu, 15B/30B tokens
Razonamiento de Sentido Común: PIQA, HellaSwag, WinoGrande, ARC-easy/challenge, SIQA, BoolQ
Tareas de Contexto Largo: Benchmark RULER (S-NIAH), Benchmark BABILong
Series Temporales: ETT, ECL, Traffic, Weather
Genómica: Conjunto de datos GenomicsBenchmarks

Escala de Modelos

Modelos con 170M, 340M, 400M, 760M parámetros
Longitud de entrenamiento: 4K tokens
Ventana de contexto: Escalable hasta 2M+ tokens

Métodos de Comparación

Transformers: Transformer++
Modelos Recurrentes Lineales: RetNet, GLA, Mamba, Mamba2, DeltaNet, TTT, Gated DeltaNet
Modelos Híbridos: Samba, Gated DeltaNet-H2
Modelos Grandes: GPT-4, Llama3, RecurrentGemma, Mistral

Resultados Experimentales

Rendimiento en Modelado de Lenguaje

En modelos con 340M parámetros:

Titans (LMM): Perplejidad 26.18 (Wiki), 29.97 (LMB)
Mejor línea base TTT: Perplejidad 27.44 (Wiki), 34.19 (LMB)
Titans (MAG) en modelos híbridos: Mejor rendimiento con perplejidad 25.07 (Wiki), 28.72 (LMB)

Tareas de Contexto Largo

En tareas S-NIAH (longitud de secuencia 16K):

Titans (MAC): S-NIAH-PK 98.4%, S-NIAH-N 97.4%, S-NIAH-W 95.2%
Mamba2: S-NIAH-PK 5.4%, S-NIAH-N 0.0%, S-NIAH-W 0.0%
TTT: S-NIAH-PK 88.4%, S-NIAH-N 4.4%, S-NIAH-W 0.0%

Benchmark BABILong

Titans supera todas las líneas base en configuración few-shot, incluyendo GPT-4
En configuración fine-tuning, Titans pequeño supera GPT-4 que es 70 veces más grande en parámetros

Predicción de Series Temporales

El módulo de memoria neuronal supera los métodos base en todos los conjuntos de datos, incluyendo métodos basados en Mamba, Transformer y modelos lineales.

Estudios de Ablación

Contribución de componentes (ordenados por importancia):

Decaimiento de peso (mecanismo de olvido)
Mecanismo de momento
Capa convolucional
Memoria persistente
Memoria profunda vs memoria lineal

Trabajo Relacionado

Modelos Recurrentes Lineales

Primera Generación: RetNet, LRU, RWKV, S4/S5 - Utilizan matrices de transición independientes de datos
Segunda Generación: Griffin, Serie Mamba - Introducen mecanismos de compuerta
Tercera Generación: DeltaNet, TTT, Longhorn - Basados en reglas de actualización de aprendizaje meta/aprendizaje en línea

Variantes de Transformer

Optimización de Eficiencia: Atención dispersa, atención lineal, implementaciones conscientes de E/S
Transformers Segmentados: RMT y otros utilizan memoria vectorial simple para transmitir información entre bloques

Entrenamiento en Tiempo de Prueba

Inspirado en algoritmos de aprendizaje local temprano
Más relacionado con MNM y TTT-layer, pero Titans incluye mecanismo de olvido y actualización de momento

Conclusiones y Discusión

Conclusiones Principales

Importancia de Sistemas de Memoria: Los sistemas de memoria multinivel (corto plazo + largo plazo + memoria persistente) son cruciales para el modelado de secuencias
Efectividad del Aprendizaje en Tiempo de Prueba: El aprendizaje continuo y memorización en tiempo de prueba puede mejorar significativamente la capacidad de procesamiento de secuencias largas
Impacto del Diseño de Arquitectura: Las arquitecturas MAC y MAG superan el diseño jerárquico MAL tradicional
Validación de Escalabilidad: Titans puede escalar efectivamente a ventanas de contexto de 2M+

Limitaciones

Costo Computacional: El módulo de memoria profunda requiere más recursos computacionales que estados de matriz simple
Equilibrio de Profundidad de Memoria: Módulos de memoria más profundos funcionan mejor pero entrenan más lentamente
Sensibilidad de Parámetros: Requiere ajuste cuidadoso de parámetros relacionados con sorpresa
Análisis Teórico Insuficiente: Carece de garantías teóricas sobre capacidad de memoria y estrategias de olvido

Direcciones Futuras

Optimización de Arquitectura de Memoria: Explorar diseños de arquitectura de memoria neuronal más eficientes
Análisis Teórico: Proporcionar análisis teórico de capacidad de memoria y estrategias de olvido
Validación a Gran Escala: Verificar la efectividad del método en modelos de mayor escala
Extensión de Aplicaciones: Explorar potencial de aplicación en más dominios

Evaluación Profunda

Fortalezas

Innovación Conceptual Fuerte: Repiensa el modelado de secuencias desde la perspectiva del sistema de memoria humana, proponiendo una arquitectura de memoria multinivel novedosa
Contribuciones Técnicas Completas: No solo propone el módulo de memoria neuronal, sino que también diseña tres formas de integración en arquitecturas y un algoritmo de paralelización eficiente
Validación Experimental Suficiente: Realiza experimentos completos en múltiples dominios (PNL, series temporales, genómica) con resultados convincentes
Fundamento Teórico Sólido: Conecta la actualización de memoria con descenso de gradiente, momento y decaimiento de peso, proporcionando explicación teórica

Insuficiencias

Análisis de Complejidad Computacional Incompleto: Aunque afirma complejidad lineal, el análisis del costo computacional real del módulo de memoria profunda carece de detalle
Sensibilidad de Hiperparámetros: Múltiples parámetros dependientes de datos (α_t, θ_t, η_t) pueden ser complejos de configurar
Analogía Limitada con Memoria Humana: Aunque inspirado en memoria humana, la definición de "sorpresa" es relativamente simple
Validación Insuficiente en Modelos Grandes: El modelo más grande tiene solo 760M parámetros, carece de validación en modelos de escala de miles de millones

Valor de Impacto

Valor Académico: Proporciona una nueva perspectiva de memoria para el modelado de secuencias, que puede inspirar investigación relacionada
Valor Práctico: Muestra excelente rendimiento en tareas de procesamiento de secuencias largas con potencial de aplicación práctica
Reproducibilidad: Los autores se comprometen a liberar el código, facilitando la promoción y validación del método

Escenarios Aplicables

Procesamiento de Documentos Largos: Aplicable a tareas de PNL que requieren procesar documentos largos
Análisis de Series Temporales: Particularmente adecuado para tareas de predicción que requieren información histórica a largo plazo
Escenarios de Aprendizaje en Línea: Aplicable a aplicaciones que requieren adaptación continua en tiempo de prueba
Tareas Intensivas en Memoria: Como sistemas de preguntas y respuestas, sistemas de diálogo y otras tareas que requieren memorizar gran cantidad de información

Referencias

El artículo cita 138 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo Transformer, redes neuronales recurrentes, mecanismos de atención, redes de memoria y entrenamiento en tiempo de prueba, proporcionando una base teórica sólida para esta investigación.