Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
Questo articolo propone un nuovo modulo di memoria neurale a lungo termine in grado di imparare a memorizzare il contesto storico e aiutare il meccanismo di attenzione a concentrarsi sul contesto attuale mentre sfrutta le informazioni del passato remoto. Gli autori sostengono dal punto di vista della memoria che il meccanismo di attenzione, a causa del contesto limitato ma della modellazione accurata delle dipendenze, funziona come memoria a breve termine, mentre la memoria neurale, grazie alla sua capacità di memorizzare dati, agisce come memoria a lungo termine più persistente. Sulla base di questi due moduli, gli autori introducono una nuova famiglia di architetture denominata Titans e propongono tre varianti per integrare efficacemente la memoria nell'architettura. I risultati sperimentali dimostrano che Titans è più efficace dei Transformer e dei moderni modelli ricorrenti lineari nella modellazione del linguaggio, nel ragionamento di senso comune, nella genomica e nei compiti di serie temporali, con la capacità di scalare efficacemente a finestre di contesto superiori a 2M.
Le architetture di modellazione sequenziale esistenti affrontano un compromesso tra efficienza e prestazioni:
Transformer: Sebbene in grado di modellare accuratamente le dipendenze, hanno una complessità computazionale O(n²), che limita la lunghezza del contesto
Transformer Lineari/RNN: Sebbene efficienti, comprimono le informazioni in uno stato di dimensione fissa, causando un calo di prestazioni su sequenze lunghe
Assenza di Sistemi di Memoria: Le architetture esistenti mancano di un sistema di memoria multilivello simile al cervello umano (memoria a breve termine, memoria a lungo termine, metamemoria, ecc.)
Modulo di Memoria Neurale a Lungo Termine: Propone una rete neurale profonda come metamodello che apprende come memorizzare/archiviare dati nei suoi parametri al momento del test
Meccanismo di Gestione della Memoria: Progetta un meccanismo di aggiornamento della memoria basato sulla "sorpresa" e un meccanismo di dimenticanza adattivo
Famiglia di Architetture Titans: Propone tre modi per integrare la memoria nelle architetture di apprendimento profondo: Memory as Context (MAC), Memory as Gate (MAG), Memory as Layer (MAL)
Algoritmo di Addestramento Parallelizzato: Fornisce un algoritmo di addestramento parallelizzato veloce che rende efficiente l'addestramento dei moduli di memoria profonda
Verifica Sperimentale Estesa: Verifica l'efficacia di Titans su più compiti, inclusa la modellazione del linguaggio, il ragionamento di senso comune, la genomica e la previsione di serie temporali
Questo articolo studia compiti di modellazione sequenziale, dove l'input è una sequenza x∈RN×din, e l'obiettivo è imparare un modello in grado di elaborare efficacemente sequenze lunghe, che deve:
Continuare ad imparare e memorizzare al momento del test
Bilanciare l'uso della memoria a breve e lungo termine
Avere complessità lineare mantenendo elevata capacità espressiva
Ispirato dalla memoria a lungo termine umana, gli eventi che violano le aspettative (sorprendenti) sono più facili da ricordare. Gli autori utilizzano il gradiente della rete neurale rispetto all'input per misurare il livello di "sorpresa".
Implementa un addestramento parallelizzato efficiente riformulando il processo di addestramento per utilizzare operazioni di moltiplicazione matriciale e somma:
Divide la sequenza in blocchi di dimensione b
Utilizza scansione associativa parallela per calcolare i termini di momento
Implementa discesa del gradiente in mini-batch tensorizzata per addestramento veloce
Importanza dei Sistemi di Memoria: Un sistema di memoria multilivello (memoria a breve termine + memoria a lungo termine + memoria persistente) è cruciale per la modellazione sequenziale
Efficacia dell'Apprendimento al Momento del Test: L'apprendimento e la memorizzazione continui al momento del test possono migliorare significativamente la capacità di elaborare sequenze lunghe
Impatto della Progettazione dell'Architettura: Le architetture MAC e MAG superano il tradizionale design a strati MAL
Verifica della Scalabilità: Titans scala efficacemente a finestre di contesto di 2M+
Forte Innovazione Concettuale: Ripensa la modellazione sequenziale dal punto di vista dei sistemi di memoria umana, proponendo un'architettura di memoria multilivello innovativa
Contributi Tecnici Completi: Non solo propone il modulo di memoria neurale, ma progetta anche tre modi per integrarlo nell'architettura e un algoritmo di addestramento parallelizzato efficiente
Verifica Sperimentale Completa: Conduce esperimenti completi su più domini (PNL, serie temporali, genomica) con risultati convincenti
Fondamento Teorico Solido: Collega l'aggiornamento della memoria alla discesa del gradiente, al momento e al decadimento dei pesi, fornendo spiegazioni teoriche
Analisi della Complessità Computazionale Non Sufficientemente Approfondita: Sebbene affermi complessità lineare, l'analisi dei costi computazionali effettivi del modulo di memoria profonda manca di dettagli
Sensibilità agli Iperparametri: Più parametri dipendenti dai dati (α_t, θ_t, η_t) potrebbero richiedere un'impostazione complessa
Analogia Limitata con la Memoria Umana: Sebbene ispirato dalla memoria umana, la definizione di "sorpresa" è relativamente semplice
Verifica Insufficiente su Modelli di Grandi Dimensioni: Il modello più grande ha solo 760M parametri, mancando di verifica su modelli con miliardi di parametri
Elaborazione di Documenti Lunghi: Applicabile a compiti PNL che richiedono l'elaborazione di documenti lunghi
Analisi di Serie Temporali: Particolarmente adatto a compiti di previsione che richiedono informazioni storiche a lungo termine
Scenari di Apprendimento Online: Applicabile ad applicazioni che richiedono adattamento continuo al momento del test
Compiti Intensivi di Memoria: Come sistemi di domande e risposte, sistemi di dialogo e altri compiti che richiedono la memorizzazione di grandi quantità di informazioni
L'articolo cita 138 articoli correlati, coprendo aree rilevanti come Transformer, reti neurali ricorrenti, meccanismi di attenzione, reti di memoria e addestramento al momento del test, fornendo una base teorica solida per questa ricerca.