Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
In diesem Artikel wird ein neues neuronales Langzeitgedächtnismodul vorgestellt, das lernen kann, historische Kontexte zu speichern und dem Aufmerksamkeitsmechanismus hilft, sich auf den aktuellen Kontext zu konzentrieren, während gleichzeitig Informationen aus der fernen Vergangenheit genutzt werden. Die Autoren argumentieren aus gedächtnistheoretischer Perspektive, dass Aufmerksamkeitsmechanismen aufgrund ihres begrenzten Kontexts, aber präzisen Abhängigkeitsmodellierung als Kurzzeitgedächtnis fungieren, während neuronale Gedächtnisse aufgrund ihrer Fähigkeit, Daten zu speichern, als langfristiges und dauerhafteres Gedächtnis fungieren. Basierend auf diesen beiden Modulen führen die Autoren eine neue Architekturfamilie namens Titans ein und präsentieren drei Varianten zur effizienten Integration des Gedächtnisses in die Architektur. Die experimentellen Ergebnisse zeigen, dass Titans bei Sprachmodellierung, Commonsense-Reasoning, Genomik und Zeitreihenaufgaben effektiver ist als Transformers und moderne lineare rekurrente Modelle und effektiv auf Kontextfenstergröße von über 2M skaliert werden kann.
Bestehende Sequenzmodellierungsarchitekturen sehen sich mit einem Kompromiss zwischen Effizienz und Leistung konfrontiert:
Transformers: Obwohl sie Abhängigkeiten präzise modellieren können, beträgt die Rechenkomplexität O(n²), was die Kontextlänge begrenzt
Lineare Transformer/RNNs: Obwohl effizient, komprimieren sie Informationen in einen festen Zustand, was zu schlechterer Leistung bei langen Sequenzen führt
Fehlende Gedächtnissysteme: Bestehende Architekturen ermangeln eines mehrstufigen Gedächtnissystems ähnlich dem menschlichen Gehirn (Kurzzeitgedächtnis, Langzeitgedächtnis, Metagedächtnis usw.)
Neuronales Langzeitgedächtnismodul: Vorschlag eines tiefen neuronalen Netzes als Metamodell, das zur Testzeit lernt, wie man Daten in seinen Parametern speichert/speichert
Gedächtnismanagemechanismus: Entwurf eines auf "Überraschung" basierenden Gedächtnisaktualisierungsmechanismus und eines adaptiven Vergessungsmechanismus
Titans-Architekturfamilie: Präsentation von drei Methoden zur Integration von Gedächtnis in Deep-Learning-Architekturen: Memory as Context (MAC), Memory as Gate (MAG), Memory as Layer (MAL)
Parallelisierter Trainingsalgorithmus: Bereitstellung eines schnellen parallelisierten Trainingsalgorithmus, der effizientes Training tieferer Gedächtnismodule ermöglicht
Umfassende experimentelle Validierung: Validierung der Effektivität von Titans auf mehreren Aufgaben, einschließlich Sprachmodellierung, Commonsense-Reasoning, Genomik und Zeitreihenvorhersage
Dieser Artikel untersucht Sequenzmodellierungsaufgaben, bei denen die Eingabe eine Sequenz x∈RN×din ist und das Ziel darin besteht, ein Modell zu lernen, das lange Sequenzen effektiv verarbeiten kann. Das Modell muss:
Zur Testzeit kontinuierlich lernen und speichern können
Die Nutzung von Kurz- und Langzeitgedächtnis ausbalancieren
Lineare Komplexität aufweisen, aber hohe Ausdruckskraft bewahren
Inspiriert durch menschliches Langzeitgedächtnis werden Ereignisse, die Erwartungen verletzen (überraschend sind), leichter erinnert. Die Autoren verwenden den Gradienten des neuronalen Netzes relativ zur Eingabe, um "Überraschung" zu messen.
Durch Umformulierung des Trainingsprozesses zur Verwendung von Matrixmultiplikation und Summationsoperationen wurde effizientes parallelisiertes Training erreicht:
Sequenzaufteilung in Blöcke der Größe b
Verwendung paralleler assoziativer Scans zur Berechnung von Momentum-Termen
Implementierung schnellen Trainings durch Tensorisierung von Mini-Batch-Gradientenabstieg
Bedeutung von Gedächtnissystemen: Mehrstufige Gedächtnissysteme (Kurz- + Langzeit- + persistentes Gedächtnis) sind für die Sequenzmodellierung entscheidend
Effektivität des Trainings zur Testzeit: Kontinuierliches Lernen und Speichern zur Testzeit kann die Fähigkeit zur Verarbeitung langer Sequenzen erheblich verbessern
Auswirkungen des Architekturdesigns: MAC- und MAG-Architekturen übertreffen traditionelles MAL-Schicht-Design
Skalierungsvalidierung: Titans kann effektiv auf Kontextfenster von 2M+ skaliert werden
Starke konzeptionelle Innovation: Neubewertung der Sequenzmodellierung aus der Perspektive des menschlichen Gedächtnissystems mit neuartiger mehrstufiger Gedächtnisarchitektur
Umfassende technische Beiträge: Nicht nur Vorschlag des neuronalen Gedächtnismoduls, sondern auch Design von drei Integrationsmethoden und effizientem Parallelisierungsalgorithmus
Umfassende experimentelle Validierung: Umfassende Experimente in mehreren Bereichen (NLP, Zeitreihen, Genomik) mit überzeugenden Ergebnissen
Solide theoretische Grundlagen: Verbindung von Gedächtnisaktualisierungen mit Gradientenabstieg, Momentum und Gewichtszerfall mit theoretischen Erklärungen
Unzureichende Analyse der Rechenkomplexität: Obwohl lineare Komplexität behauptet wird, ist die Analyse der tatsächlichen Rechenkosten tieferer Gedächtnismodule nicht ausreichend detailliert
Hyperparameter-Sensitivität: Mehrere datenabhängige Parameter (α_t, θ_t, η_t) könnten komplex einzustellen sein
Begrenzte Analogie zum menschlichen Gedächtnis: Obwohl von menschlichem Gedächtnis inspiriert, ist die Definition von "Überraschung" relativ einfach
Unzureichende Validierung bei großen Modellen: Größtes Modell nur 760M Parameter, fehlende Validierung bei Milliarden-Parameter-Modellen
Das Papier zitiert 138 verwandte Arbeiten, die Transformer, rekurrente neuronale Netze, Aufmerksamkeitsmechanismen, Gedächtnisnetze, Training zur Testzeit und andere relevante Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.