2025-11-20T08:25:14.880374

Titans: Learning to Memorize at Test Time

Behrouz, Zhong, Mirrokni

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

academic

Titans: 테스트 시간에 기억하는 법 배우기

기본 정보

논문 ID: 2501.00663
제목: Titans: Learning to Memorize at Test Time
저자: Ali Behrouz, Peilin Zhong, Vahab Mirrokni (Google Research)
분류: cs.LG cs.AI cs.CL
발표 시간: 2024년 12월 31일
논문 링크: https://arxiv.org/abs/2501.00663

초록

본 논문은 과거 맥락을 기억하는 법을 배우고 주의 메커니즘이 장기 과거 정보를 활용하면서 동시에 현재 맥락에 집중하도록 돕는 새로운 신경 장기 기억 모듈을 제안한다. 저자들은 기억 관점에서 주의 메커니즘이 제한된 맥락이지만 정확한 의존성 모델링으로 인해 단기 기억으로 작동하며, 신경 기억이 데이터 기억 능력으로 인해 장기적이고 더 지속적인 기억으로 작동한다고 주장한다. 이 두 모듈을 기반으로 저자들은 새로운 아키텍처 계열인 Titans을 도입하고 기억을 아키텍처에 효율적으로 통합하기 위한 세 가지 변형을 제안한다. 실험 결과는 Titans이 언어 모델링, 상식 추론, 유전체학 및 시계열 작업에서 Transformers 및 현대 선형 순환 모델보다 더 효과적이며, 2M을 초과하는 맥락 윈도우 크기로 효과적으로 확장할 수 있음을 보여준다.

연구 배경 및 동기

핵심 문제

기존 시퀀스 모델링 아키텍처는 효율성과 성능 간의 트레이드오프에 직면해 있다:

Transformers: 의존성 관계를 정확하게 모델링할 수 있지만 계산 복잡도가 O(n²)로 맥락 길이를 제한한다
선형 Transformers/RNNs: 효율성은 높지만 정보를 고정 크기 상태로 압축하여 장기 시퀀스 성능이 저하된다
기억 시스템 부재: 기존 아키텍처는 인간 뇌와 같은 다층 기억 시스템(단기 기억, 장기 기억, 메타 기억 등)이 부족하다

연구 동기

저자들은 인간 기억 시스템에서 영감을 받아 효과적인 학습 패러다임이 다음을 필요로 한다고 생각한다:

각각 학습 과정의 핵심 구성 요소를 담당하는 서로 다르지만 상호 연결된 모듈
데이터에서 능동적으로 학습하고 과거 이력의 추상화를 기억할 수 있는 능력
테스트 시에도 계속 학습하고 적응할 수 있는 메커니즘

핵심 기여

신경 장기 기억 모듈: 테스트 시간에 데이터를 매개변수에 기억/저장하는 방법을 배우는 심층 신경망을 메타 모델로 제안
기억 관리 메커니즘: "놀라움도"에 기반한 기억 업데이트 메커니즘과 적응형 망각 메커니즘 설계
Titans 아키텍처 계열: 기억을 심층 학습 아키텍처에 통합하는 세 가지 방식 제안: 기억을 맥락으로 (MAC), 기억을 게이트로 (MAG), 기억을 레이어로 (MAL)
병렬화 훈련 알고리즘: 심층 기억 모듈 훈련을 효율적으로 하는 빠른 병렬화 훈련 알고리즘 제공
광범위한 실험 검증: 언어 모델링, 상식 추론, 유전체학 및 시계열 예측을 포함한 여러 작업에서 Titans의 효과성 검증

방법 상세 설명

작업 정의

본 논문은 시퀀스 모델링 작업을 연구하며, 입력은 시퀀스 $x \in \mathbb{R}^{N \times d_{in}}$ 이고, 목표는 장기 시퀀스를 효과적으로 처리할 수 있는 모델을 학습하는 것이다. 이 모델은 다음을 필요로 한다:

테스트 시간에 계속 학습하고 기억할 수 있음
단기 및 장기 기억 사용의 균형 유지
선형 복잡도이지만 높은 표현력 유지

신경 장기 기억 모듈

핵심 설계 개념

인간 장기 기억에서 영감을 받아, 예상을 위반하는(놀라운) 사건이 더 잘 기억된다. 저자들은 입력에 대한 신경망의 기울기를 사용하여 "놀라움도"를 측정한다.

기억 업데이트 메커니즘

기본 업데이트 규칙:

M_t = M_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

개선된 업데이트 규칙(모멘텀 도입):

M_t = M_{t-1} + S_t
S_t = η_t S_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

여기서:

S_t: 놀라움도 모멘텀, 과거 놀라움도와 순간 놀라움도 포함
η_t: 데이터 의존적 놀라움도 감쇠 매개변수
θ_t: 순간 놀라움도 융합 정도를 제어하는 매개변수

망각 메커니즘

장기 시퀀스 처리를 위해 적응형 망각 메커니즘 도입:

M_t = (1 - α_t)M_{t-1} + S_t

여기서 α_t ∈ [0,1]은 망각 정도를 제어하는 게이트 메커니즘이다.

목적 함수

연관 기억 손실 함수 사용:

ℓ(M_{t-1}; x_t) = ||M_{t-1}(k_t) - v_t||²₂

여기서 k_t = x_t W_K, v_t = x_t W_V

Titans 아키텍처 변형

1. 기억을 맥락으로 (MAC)

기억을 현재 정보의 맥락으로 사용
시퀀스를 청크로 분할 처리, 각 청크는 장기 기억을 쿼리하여 관련 이력 정보 획득
주의 메커니즘이 장기 기억 정보 필요 여부 결정

2. 기억을 게이트로 (MAG)

한 분기는 슬라이딩 윈도우 주의를 단기 기억으로 사용
다른 분기는 신경 기억 모듈을 장기 기억으로 사용
게이트 메커니즘을 통해 두 분기의 출력 결합

3. 기억을 레이어로 (MAL)

신경 기억을 심층 네트워크의 한 레이어로 사용
순차 처리: 먼저 기억 레이어를 거친 후 주의 레이어를 거침
기존 하이브리드 모델의 계층 설계와 유사

병렬화 훈련

훈련 과정을 행렬 곱셈 및 합산 연산을 사용하여 재구성함으로써 효율적인 병렬화 훈련 구현:

시퀀스를 크기 b의 청크로 분할
병렬 연관 스캔을 사용하여 모멘텀 항 계산
텐서화된 소배치 경사 하강법을 통해 빠른 훈련 구현

실험 설정

데이터셋

언어 모델링: FineWeb-Edu 데이터셋, 15B/30B 토큰
상식 추론: PIQA, HellaSwag, WinoGrande, ARC-easy/challenge, SIQA, BoolQ
장기 맥락 작업: RULER 벤치마크 (S-NIAH), BABILong 벤치마크
시계열: ETT, ECL, Traffic, Weather 데이터셋
유전체학: GenomicsBenchmarks 데이터셋

모델 규모

170M, 340M, 400M, 760M 매개변수 모델
훈련 길이: 4K 토큰
맥락 윈도우: 2M+ 토큰으로 확장 가능

비교 방법

Transformers: Transformer++
선형 순환 모델: RetNet, GLA, Mamba, Mamba2, DeltaNet, TTT, Gated DeltaNet
하이브리드 모델: Samba, Gated DeltaNet-H2
대규모 모델: GPT-4, Llama3, RecurrentGemma, Mistral

실험 결과

언어 모델링 성능

340M 매개변수 모델에서:

Titans (LMM): 혼동도 26.18 (Wiki), 29.97 (LMB)
최고 기준선 TTT: 혼동도 27.44 (Wiki), 34.19 (LMB)
하이브리드 모델 중 Titans (MAG) 최고 성능: 혼동도 25.07 (Wiki), 28.72 (LMB)

장기 맥락 작업

S-NIAH 작업에서 (16K 시퀀스 길이):

Titans (MAC): S-NIAH-PK 98.4%, S-NIAH-N 97.4%, S-NIAH-W 95.2%
Mamba2: S-NIAH-PK 5.4%, S-NIAH-N 0.0%, S-NIAH-W 0.0%
TTT: S-NIAH-PK 88.4%, S-NIAH-N 4.4%, S-NIAH-W 0.0%

BABILong 벤치마크 테스트

Titans은 소수 샷 설정에서 GPT-4를 포함한 모든 기준선을 초과
미세 조정 설정에서 소규모 Titans은 매개변수가 70배 많은 GPT-4를 초과

시계열 예측

신경 기억 모듈은 모든 데이터셋에서 Mamba, Transformer 및 선형 모델 기반 방법을 포함한 기준선을 능가한다.

절제 실험

각 구성 요소의 기여도 (중요도 순):

가중치 감쇠 (망각 메커니즘)
모멘텀 메커니즘
합성곱 레이어
지속적 기억
심층 기억 vs 선형 기억

결론 및 논의

주요 결론

기억 시스템의 중요성: 다층 기억 시스템(단기 + 장기 + 지속적 기억)이 시퀀스 모델링에 중요
테스트 시간 학습의 효과성: 테스트 시간에 계속 학습하고 기억하면 장기 시퀀스 처리 능력이 크게 향상
아키텍처 설계의 영향: MAC 및 MAG 아키텍처가 기존 MAL 계층 설계보다 우수
확장성 검증: Titans은 2M+ 맥락 윈도우로 효과적으로 확장 가능

제한 사항

계산 오버헤드: 심층 기억 모듈은 간단한 행렬 상태보다 더 많은 계산 자원 필요
기억 깊이 트레이드오프: 더 깊은 기억 모듈이 더 나은 결과를 제공하지만 훈련이 더 느림
매개변수 민감도: 놀라움도 관련 매개변수의 신중한 조정 필요
이론 분석 부족: 기억 용량 및 망각 전략에 대한 이론적 보장 부족

향후 방향

기억 아키텍처 최적화: 더 효율적인 신경 기억 아키텍처 설계 탐색
이론 분석: 기억 용량, 망각 전략의 이론 분석 제공
대규모 검증: 더 큰 규모 모델에서 방법의 효과성 검증
응용 확대: 더 많은 영역에서의 응용 가능성 탐색

심층 평가

장점

개념 혁신성 강함: 인간 기억 시스템 관점에서 시퀀스 모델링을 재고찰하여 새로운 다층 기억 아키텍처 제안
기술 기여 포괄적: 신경 기억 모듈뿐만 아니라 아키텍처에 통합하는 세 가지 방식과 효율적인 병렬화 알고리즘 설계
실험 검증 충분: 여러 영역(NLP, 시계열, 유전체학)에서 포괄적 실험 수행, 결과 설득력 있음
이론 기초 견고: 기억 업데이트를 경사 하강법, 모멘텀, 가중치 감쇠와 연결하여 이론적 설명 제공

부족한 점

계산 복잡도 분석 미흡: 선형 복잡도를 주장하지만 심층 기억 모듈의 실제 계산 오버헤드 분석 부족
초매개변수 민감도: 여러 데이터 의존 매개변수(α_t, θ_t, η_t)의 설정이 복잡할 수 있음
인간 기억과의 유추 제한: 인간 기억에서 영감을 받았지만 "놀라움도"의 정의가 상대적으로 단순
대규모 모델 검증 부족: 최대 모델이 760M 매개변수에 불과하여 십억 규모 매개변수 모델 검증 부족

영향력

학술적 가치: 시퀀스 모델링에 새로운 기억 관점 제공, 관련 연구 영감 가능
실용적 가치: 장기 시퀀스 처리 작업에서 우수한 성능, 실제 응용 잠재력 보유
재현성: 저자들이 코드 공개 약속, 방법 보급 및 검증 용이

적용 시나리오

장문서 처리: 장문서 처리가 필요한 NLP 작업에 적합
시계열 분석: 장기 이력 정보가 필요한 예측 작업에 특히 적합
온라인 학습 시나리오: 테스트 시간에 계속 적응이 필요한 응용에 적합
기억 집약적 작업: 질의응답 시스템, 대화 시스템 등 많은 정보 기억이 필요한 작업

참고 문헌

논문은 138개의 관련 문헌을 인용하며, Transformer, 순환 신경망, 주의 메커니즘, 기억 네트워크, 테스트 시간 훈련 등 여러 관련 영역의 중요 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공한다.