Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
論文ID : 2501.00663タイトル : Titans: Learning to Memorize at Test Time著者 : Ali Behrouz, Peilin Zhong, Vahab Mirrokni (Google Research)分類 : cs.LG cs.AI cs.CL発表日 : 2024年12月31日論文リンク : https://arxiv.org/abs/2501.00663 本論文は、履歴コンテキストを記憶することを学習し、注意機構が長期の過去情報を活用しながら現在のコンテキストに焦点を当てるのを支援する新しいニューラル長期記憶モジュールを提案している。著者は記憶の観点から、注意機構は限定されたコンテキストながら正確な依存関係モデリングにより短期記憶として機能し、ニューラル記憶はデータ記憶能力により長期でより永続的な記憶として機能すると主張している。これら2つのモジュールに基づき、著者は新しいアーキテクチャファミリーTitansを導入し、記憶を効率的にアーキテクチャに統合する3つの変種を提案している。実験結果は、Titansが言語モデリング、常識推論、ゲノミクス、時系列タスクにおいてTransformersおよび現代的な線形循環モデルより有効であり、2M以上のコンテキストウィンドウサイズまで効率的にスケーリング可能であることを示している。
既存のシーケンスモデリングアーキテクチャは効率性と性能のトレードオフに直面している:
Transformers : 依存関係の正確なモデリングが可能だが、計算複雑度がO(n²)であり、コンテキスト長を制限している線形Transformers/RNN : 効率的だが、情報を固定サイズの状態に圧縮するため、長シーケンスの性能が低下する記憶システムの欠如 : 既存アーキテクチャは人間の脳のような多層的記憶システム(短期記憶、長期記憶、メタ記憶など)を欠いている著者は人間の記憶システムに着想を得て、効果的な学習パラダイムには以下が必要であると考えている:
学習プロセスの重要な構成要素を各々が担当する異なるが相互に接続されたモジュール データから能動的に学習し、過去の履歴の抽象化を記憶する能力 テスト時にも継続的に学習と適応が可能なメカニズム ニューラル長期記憶モジュール : テスト時にデータをパラメータに記憶/保存する方法を学習するメタモデルとしての深いニューラルネットワークを提案記憶管理メカニズム : 「驚き度」に基づく記憶更新メカニズムと適応的忘却メカニズムを設計Titansアーキテクチャファミリー : 記憶を深層学習アーキテクチャに統合する3つの方法を提案:Memory as Context (MAC)、Memory as Gate (MAG)、Memory as Layer (MAL)並列化訓練アルゴリズム : 深い記憶モジュールの効率的な訓練を可能にする高速並列化訓練アルゴリズムを提供広範な実験検証 : 言語モデリング、常識推論、ゲノミクス、時系列予測を含む複数のタスクでTitansの有効性を検証本論文はシーケンスモデリングタスクを研究し、入力はシーケンス x ∈ R N × d i n x \in \mathbb{R}^{N \times d_{in}} x ∈ R N × d in であり、目標は長いシーケンスを効果的に処理できるモデルを学習することである。このモデルは以下を必要とする:
テスト時に継続的に学習と記憶が可能 短期記憶と長期記憶の使用のバランスを取る 線形複雑度を持ちながら高い表現力を維持する 人間の長期記憶に着想を得て、予期に反する(驚くべき)イベントはより記憶されやすい。著者は入力に対するニューラルネットワークの勾配を使用して「驚き度」を測定する。
基本的な更新規則:
M_t = M_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)
改善された更新規則(モーメンタムの導入):
M_t = M_{t-1} + S_t
S_t = η_t S_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)
ここで:
S_t: 驚き度モーメンタム、過去の驚き度と瞬間的驚き度を含むη_t: データ依存の驚き度減衰パラメータθ_t: 瞬間的驚き度の統合程度を制御するパラメータ長いシーケンスを処理するため、適応的忘却メカニズムを導入:
M_t = (1 - α_t)M_{t-1} + S_t
ここで α_t ∈ [0,1] はゲート機構であり、忘却の程度を制御する。
連想記憶損失関数を使用:
ℓ(M_{t-1}; x_t) = ||M_{t-1}(k_t) - v_t||²₂
ここで k_t = x_t W_K, v_t = x_t W_V
記憶を現在の情報のコンテキストとして機能させる シーケンスをチャンク単位で処理し、各チャンクが長期記憶をクエリして関連する履歴情報を取得 注意機構が長期記憶情報の必要性を判定 一つのブランチはスライディングウィンドウ注意を短期記憶として使用 もう一つのブランチはニューラル記憶モジュールを長期記憶として使用 ゲート機構を通じて2つのブランチの出力を統合 ニューラル記憶を深いネットワークの一層として機能させる 順序処理:まず記憶層を通過し、その後注意層を通過 既存のハイブリッドモデルの層級設計に類似 訓練プロセスを行列乗算と合計操作を使用して再定式化することにより、効率的な並列化訓練を実現:
シーケンスをサイズbのチャンクに分割 並列連想スキャンを使用してモーメンタム項を計算 テンソル化ミニバッチ勾配降下法により高速訓練を実現 言語モデリング : FineWeb-Eduデータセット、15B/30B トークン常識推論 : PIQA, HellaSwag, WinoGrande, ARC-easy/challenge, SIQA, BoolQ長コンテキストタスク : RULER benchmark (S-NIAH), BABILong benchmark時系列 : ETT, ECL, Traffic, Weather データセットゲノミクス : GenomicsBenchmarks データセット170M、340M、400M、760Mパラメータのモデル 訓練長:4K トークン コンテキストウィンドウ:2M+ トークンまでスケーリング可能 Transformers : Transformer++線形循環モデル : RetNet, GLA, Mamba, Mamba2, DeltaNet, TTT, Gated DeltaNetハイブリッドモデル : Samba, Gated DeltaNet-H2大規模モデル : GPT-4, Llama3, RecurrentGemma, Mistral340Mパラメータモデルにおいて:
Titans (LMM) : パープレキシティ26.18 (Wiki), 29.97 (LMB)最良ベースラインTTT : パープレキシティ27.44 (Wiki), 34.19 (LMB)ハイブリッドモデル中のTitans (MAG) が最良:パープレキシティ25.07 (Wiki), 28.72 (LMB)S-NIAHタスク(16Kシーケンス長)において:
Titans (MAC) : S-NIAH-PK 98.4%, S-NIAH-N 97.4%, S-NIAH-W 95.2%Mamba2 : S-NIAH-PK 5.4%, S-NIAH-N 0.0%, S-NIAH-W 0.0%TTT : S-NIAH-PK 88.4%, S-NIAH-N 4.4%, S-NIAH-W 0.0%Titansはfew-shot設定下でGPT-4を含むすべてのベースラインを上回る fine-tuning設定下では、小規模Titansはパラメータ数が70倍大きいGPT-4を上回る ニューラル記憶モジュールはすべてのデータセットにおいてベースライン手法を上回り、Mamba、Transformer、線形モデルベースの手法を含む。
各構成要素の貢献度(重要度順):
重み減衰(忘却メカニズム) モーメンタムメカニズム 畳み込み層 永続記憶 深い記憶 vs 線形記憶 第1世代 : RetNet, LRU, RWKV, S4/S5 - データ非依存の遷移行列を使用第2世代 : Griffin, Mamba系列 - ゲート機構を導入第3世代 : DeltaNet, TTT, Longhorn - メタ学習/オンライン学習に基づく更新規則効率最適化 : スパース注意、線形注意、I/O認識実装セグメント化Transformer : RMTなどがチャンク間で情報を伝達するシンプルなベクトル記憶を使用初期の局所学習アルゴリズムに着想を得ている MNMおよびTTT-layerと最も関連があるが、Titansは忘却メカニズムとモーメンタム更新を備えている 記憶システムの重要性 : 多層的記憶システム(短期+長期+永続記憶)はシーケンスモデリングに不可欠であるテスト時学習の有効性 : テスト時の継続的学習と記憶は長シーケンス処理能力を大幅に向上させることができるアーキテクチャ設計の影響 : MACおよびMAGアーキテクチャは従来のMAL層級設計より優れているスケーラビリティの検証 : Titansは2M+ コンテキストウィンドウまで効率的にスケーリング可能である計算オーバーヘッド : 深い記憶モジュールはシンプルな行列状態より多くの計算リソースを必要とする記憶深度のトレードオフ : より深い記憶モジュールはより良い効果をもたらすが、訓練がより遅いパラメータ感度 : 驚き度関連パラメータの慎重な調整が必要である理論分析の不足 : 記憶容量と忘却戦略に関する理論的保証が不足している記憶アーキテクチャの最適化 : より効率的なニューラル記憶アーキテクチャ設計の探索理論分析 : 記憶容量、忘却戦略の理論分析の提供大規模検証 : より大規模なモデルでの方法の有効性の検証応用拡張 : より多くの領域での応用可能性の探索概念の革新性が強い : 人間の記憶システムの観点からシーケンスモデリングを再考し、新しい多層的記憶アーキテクチャを提案している技術貢献が包括的 : ニューラル記憶モジュールの提案だけでなく、3つのアーキテクチャ統合方法と効率的な並列化アルゴリズムも設計している実験検証が充分 : 複数の領域(NLP、時系列、ゲノミクス)で包括的な実験を実施し、説得力のある結果を得ている理論基礎が堅実 : 記憶更新を勾配降下法、モーメンタム、重み減衰と関連付け、理論的説明を提供している計算複雑度分析が不十分 : 線形複雑度を主張しているが、深い記憶モジュールの実際の計算オーバーヘッド分析が詳細でない超パラメータ感度 : 複数のデータ依存パラメータ(α_t, θ_t, η_t)の設定が複雑である可能性がある人間の記憶との類比が限定的 : 人間の記憶に着想を得ているが、「驚き度」の定義は相対的にシンプルである大規模モデル検証の不足 : 最大モデルは760Mパラメータのみであり、十億規模パラメータモデルの検証が不足している学術的価値 : シーケンスモデリングに新しい記憶の観点を提供し、関連研究を刺激する可能性がある実用的価値 : 長シーケンス処理タスクで優れた性能を示し、実用的応用の可能性がある再現性 : 著者がコードのオープンソース化を約束しており、方法の普及と検証を支援する長文書処理 : 長文書を処理する必要があるNLPタスクに適用可能時系列分析 : 長期の履歴情報が必要な予測タスクに特に適しているオンライン学習シーン : テスト時に継続的に適応する必要があるアプリケーションに適用可能記憶集約的タスク : 質問応答システム、対話システムなど大量の情報を記憶する必要があるタスク論文は138篇の関連文献を引用しており、Transformer、循環ニューラルネットワーク、注意機構、記憶ネットワーク、テスト時訓練など複数の関連領域の重要な研究をカバーしており、本研究に堅実な理論基礎を提供している。