2025-11-20T08:25:14.880374

Titans: Learning to Memorize at Test Time

Behrouz, Zhong, Mirrokni
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
academic

تايتانز: تعلم الحفظ في وقت الاختبار

المعلومات الأساسية

  • معرف الورقة: 2501.00663
  • العنوان: Titans: Learning to Memorize at Test Time
  • المؤلفون: علي بهروز، بيلين تشونج، فهاد ميروخني (Google Research)
  • التصنيف: cs.LG cs.AI cs.CL
  • تاريخ النشر: 31 ديسمبر 2024
  • رابط الورقة: https://arxiv.org/abs/2501.00663

الملخص

تقترح هذه الورقة وحدة ذاكرة عصبية طويلة الأجل جديدة، قادرة على تعلم حفظ السياق التاريخي ومساعدة آلية الانتباه على الاستفادة من المعلومات الماضية الطويلة الأجل مع التركيز على السياق الحالي. يجادل المؤلفون من منظور الذاكرة بأن آليات الانتباه تعمل كذاكرة قصيرة الأجل بسبب السياق المحدود لكن نمذجة التبعيات الدقيقة، بينما تعمل الذاكرة العصبية كذاكرة طويلة الأجل أكثر استمراراً بسبب قدرتها على حفظ البيانات. بناءً على هاتين الوحدتين، يقدم المؤلفون عائلة معمارية جديدة تسمى Titans، ويقترحون ثلاث متغيرات لدمج الذاكرة في المعمارية بكفاءة. تظهر النتائج التجريبية أن Titans أكثر فعالية من Transformers والنماذج الخطية الحديثة للتكرار في نمذجة اللغة والاستدلال المنطقي الشامل والجينوميات والمهام الزمنية، مع القدرة على التوسع بفعالية إلى نوافذ سياق تتجاوز 2 مليون.

الخلفية البحثية والدافع

المشكلة الأساسية

تواجه معماريات نمذجة التسلسل الحالية مقايضة بين الكفاءة والأداء:

  1. Transformers: بينما تتمكن من نمذجة التبعيات بدقة، فإن التعقيد الحسابي هو O(n²)، مما يحد من طول السياق
  2. Transformers الخطية/RNNs: بينما تتمتع بكفاءة عالية، فإنها تضغط المعلومات في حالة بحجم ثابت، مما يؤدي إلى انخفاض الأداء على التسلسلات الطويلة
  3. نقص أنظمة الذاكرة: تفتقر المعماريات الحالية إلى أنظمة ذاكرة متعددة المستويات مشابهة للدماغ البشري (ذاكرة قصيرة الأجل، ذاكرة طويلة الأجل، ذاكرة ما وراء المعرفة، إلخ)

الدافع البحثي

يعتقد المؤلفون، بالاستلهام من نظام الذاكرة البشرية، أن نموذج التعلم الفعال يتطلب:

  • وحدات مختلفة لكن مترابطة، كل منها مسؤولة عن مكون رئيسي في عملية التعلم
  • القدرة على التعلم النشط من البيانات وحفظ التجريدات التاريخية الماضية
  • آلية للاستمرار في التعلم والتكيف في وقت الاختبار

المساهمات الأساسية

  1. وحدة الذاكرة العصبية طويلة الأجل: اقتراح شبكة عصبية عميقة كنموذج فوقي، تتعلم كيفية حفظ/تخزين البيانات في معاملاتها في وقت الاختبار
  2. آلية إدارة الذاكرة: تصميم آلية تحديث الذاكرة القائمة على "المفاجأة" وآلية النسيان التكيفية
  3. عائلة معمارية Titans: اقتراح ثلاث طرق لدمج الذاكرة في معماريات التعلم العميق: الذاكرة كسياق (MAC)، الذاكرة كبوابة (MAG)، الذاكرة كطبقة (MAL)
  4. خوارزمية تدريب متوازية: توفير خوارزمية تدريب متوازية سريعة تجعل تدريب وحدات الذاكرة العميقة فعالاً
  5. التحقق التجريبي الواسع: التحقق من فعالية Titans على مهام متعددة، بما في ذلك نمذجة اللغة والاستدلال المنطقي الشامل والجينوميات والتنبؤ بالسلاسل الزمنية

شرح الطريقة

تعريف المهمة

تدرس هذه الورقة مهام نمذجة التسلسل، حيث يكون الإدخال تسلسلاً xRN×dinx \in \mathbb{R}^{N \times d_{in}}، والهدف هو تعلم نموذج قادر على معالجة التسلسلات الطويلة بفعالية، يجب أن يحقق النموذج:

  • القدرة على التعلم والحفظ المستمر في وقت الاختبار
  • الموازنة بين استخدام الذاكرة قصيرة الأجل وطويلة الأجل
  • التعقيد الخطي مع الحفاظ على القدرة التعبيرية العالية

وحدة الذاكرة العصبية طويلة الأجل

فكرة التصميم الأساسية

بالاستلهام من الذاكرة طويلة الأجل البشرية، الأحداث التي تنتهك التوقعات (المفاجئة) يسهل تذكرها. يستخدم المؤلفون تدرج الشبكة العصبية بالنسبة للإدخال لقياس "المفاجأة".

آلية تحديث الذاكرة

قاعدة التحديث الأساسية:

M_t = M_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

قاعدة التحديث المحسّنة (مع إدخال الزخم):

M_t = M_{t-1} + S_t
S_t = η_t S_{t-1} - θ_t ∇ℓ(M_{t-1}; x_t)

حيث:

  • S_t: زخم المفاجأة، يحتوي على المفاجآت الماضية والفورية
  • η_t: معامل تحلل المفاجأة المعتمد على البيانات
  • θ_t: معامل يتحكم في درجة دمج المفاجأة الفورية

آلية النسيان

لمعالجة التسلسلات الطويلة، يتم إدخال آلية نسيان تكيفية:

M_t = (1 - α_t)M_{t-1} + S_t

حيث α_t ∈ [0,1] هي آلية بوابة تتحكم في درجة النسيان.

دالة الهدف

استخدام دالة خسارة الذاكرة الترابطية:

ℓ(M_{t-1}; x_t) = ||M_{t-1}(k_t) - v_t||²₂

حيث k_t = x_t W_K, v_t = x_t W_V

متغيرات معمارية Titans

1. الذاكرة كسياق (MAC)

  • استخدام الذاكرة كسياق للمعلومات الحالية
  • معالجة التسلسل على دفعات، حيث تستعلم كل دفعة الذاكرة طويلة الأجل للحصول على المعلومات التاريخية ذات الصلة
  • تقرر آلية الانتباه ما إذا كانت هناك حاجة لمعلومات الذاكرة طويلة الأجل

2. الذاكرة كبوابة (MAG)

  • فرع واحد يستخدم انتباه النافذة المنزلقة كذاكرة قصيرة الأجل
  • فرع آخر يستخدم وحدة الذاكرة العصبية كذاكرة طويلة الأجل
  • دمج مخرجات الفرعين من خلال آلية بوابة

3. الذاكرة كطبقة (MAL)

  • استخدام الذاكرة العصبية كطبقة في الشبكة العميقة
  • المعالجة المتسلسلة: أولاً من خلال طبقة الذاكرة، ثم من خلال طبقة الانتباه
  • تصميم هرمي مشابه للنماذج الهجينة الموجودة

التدريب المتوازي

من خلال إعادة صياغة عملية التدريب لاستخدام عمليات الضرب المصفوفي والجمع، تم تحقيق تدريب متوازي فعال:

  • تقسيم التسلسل إلى كتل بحجم b
  • استخدام المسح الترابطي المتوازي لحساب حدود الزخم
  • تحقيق التدريب السريع من خلال نزول التدرج العشوائي الصغير الموتر

إعداد التجارب

مجموعات البيانات

  • نمذجة اللغة: مجموعة بيانات FineWeb-Edu، 15B/30B رموز
  • الاستدلال المنطقي الشامل: PIQA, HellaSwag, WinoGrande, ARC-easy/challenge, SIQA, BoolQ
  • مهام السياق الطويل: معيار RULER (S-NIAH)، معيار BABILong
  • السلاسل الزمنية: ETT, ECL, Traffic, Weather
  • الجينوميات: مجموعة بيانات GenomicsBenchmarks

حجم النموذج

  • نماذج بـ 170M, 340M, 400M, 760M معامل
  • طول التدريب: 4K رموز
  • نافذة السياق: قابلة للتوسع إلى 2M+ رموز

طرق المقارنة

  • Transformers: Transformer++
  • النماذج الخطية المتكررة: RetNet, GLA, Mamba, Mamba2, DeltaNet, TTT, Gated DeltaNet
  • النماذج الهجينة: Samba, Gated DeltaNet-H2
  • النماذج الكبيرة: GPT-4, Llama3, RecurrentGemma, Mistral

نتائج التجارب

أداء نمذجة اللغة

على نموذج بـ 340M معامل:

  • Titans (LMM): الارتباك 26.18 (Wiki), 29.97 (LMB)
  • أفضل خط أساس TTT: الارتباك 27.44 (Wiki), 34.19 (LMB)
  • أفضل أداء في النماذج الهجينة Titans (MAG): الارتباك 25.07 (Wiki), 28.72 (LMB)

مهام السياق الطويل

على مهمة S-NIAH (طول التسلسل 16K):

  • Titans (MAC): S-NIAH-PK 98.4%, S-NIAH-N 97.4%, S-NIAH-W 95.2%
  • Mamba2: S-NIAH-PK 5.4%, S-NIAH-N 0.0%, S-NIAH-W 0.0%
  • TTT: S-NIAH-PK 88.4%, S-NIAH-N 4.4%, S-NIAH-W 0.0%

معيار BABILong

  • يتفوق Titans على جميع خطوط الأساس في إعداد التعلم القليل، بما في ذلك GPT-4
  • في إعداد الضبط الدقيق، يتفوق Titans الصغير على GPT-4 الذي يحتوي على معاملات أكبر 70 مرة

التنبؤ بالسلاسل الزمنية

تتفوق وحدة الذاكرة العصبية على جميع خطوط الأساس على جميع مجموعات البيانات، بما في ذلك الطرق القائمة على Mamba و Transformer والنماذج الخطية.

تجارب الاستئصال

مساهمة المكونات (مرتبة حسب الأهمية):

  1. تحلل الأوزان (آلية النسيان)
  2. آلية الزخم
  3. الطبقة الالتفافية
  4. الذاكرة الدائمة
  5. الذاكرة العميقة مقابل الذاكرة الخطية

الأعمال ذات الصلة

النماذج الخطية المتكررة

  • الجيل الأول: RetNet, LRU, RWKV, S4/S5 - استخدام مصفوفات انتقال مستقلة عن البيانات
  • الجيل الثاني: Griffin, سلسلة Mamba - إدخال آليات البوابة
  • الجيل الثالث: DeltaNet, TTT, Longhorn - قائمة على قواعد التحديث المستندة إلى التعلم الفوقي/التعلم عبر الإنترنت

متغيرات Transformer

  • تحسينات الكفاءة: الانتباه المتناثر، الانتباه الخطي، تنفيذ الوعي بـ I/O
  • Transformers المقسمة: RMT وغيرها تستخدم ذاكرة متجهة بسيطة لنقل المعلومات بين الكتل

التدريب في وقت الاختبار

  • مستوحاة من خوارزميات التعلم المحلي المبكرة
  • الأكثر ارتباطاً بـ MNM و TTT-layer، لكن Titans يتمتع بآلية نسيان وتحديثات زخم

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

  1. أهمية أنظمة الذاكرة: أنظمة الذاكرة متعددة المستويات (قصيرة الأجل + طويلة الأجل + ذاكرة دائمة) ضرورية لنمذجة التسلسل
  2. فعالية التعلم في وقت الاختبار: التعلم والحفظ المستمر في وقت الاختبار يمكن أن يحسن بشكل كبير من قدرة معالجة التسلسلات الطويلة
  3. تأثير تصميم المعمارية: معماريات MAC و MAG متفوقة على تصميم طبقة MAL التقليدي
  4. التحقق من قابلية التوسع: يمكن لـ Titans التوسع بفعالية إلى نوافذ سياق تتجاوز 2M+

القيود

  1. التكاليف الحسابية: وحدات الذاكرة العميقة تتطلب موارد حسابية أكثر من حالات المصفوفة البسيطة
  2. مقايضة عمق الذاكرة: وحدات الذاكرة الأعمق تحقق نتائج أفضل لكن التدريب أبطأ
  3. حساسية المعاملات: تتطلب ضبطاً دقيقاً للمعاملات المتعلقة بالمفاجأة
  4. نقص التحليل النظري: يفتقر إلى الضمانات النظرية لسعة الذاكرة واستراتيجيات النسيان

الاتجاهات المستقبلية

  1. تحسين معمارية الذاكرة: استكشاف تصاميم معمارية ذاكرة عصبية أكثر كفاءة
  2. التحليل النظري: توفير تحليل نظري لسعة الذاكرة واستراتيجيات النسيان
  3. التحقق على نطاق واسع: التحقق من فعالية الطريقة على نماذج أكبر حجماً
  4. توسيع التطبيقات: استكشاف إمكانيات التطبيق في مجالات أكثر

التقييم المتعمق

المزايا

  1. قوة الابتكار المفاهيمي: إعادة التفكير في نمذجة التسلسل من منظور نظام الذاكرة البشرية، واقتراح معمارية ذاكرة متعددة المستويات جديدة
  2. شمول المساهمات التقنية: لا يقتصر على اقتراح وحدة الذاكرة العصبية، بل يتضمن تصميم ثلاث طرق لدمج الذاكرة في المعمارية وخوارزمية تدريب متوازية فعالة
  3. التحقق التجريبي الشامل: إجراء تجارب شاملة في مجالات متعددة (معالجة اللغة الطبيعية، السلاسل الزمنية، الجينوميات)، مع نتائج مقنعة
  4. الأساس النظري الراسخ: ربط تحديثات الذاكرة بنزول التدرج والزخم وتحلل الأوزان، مما يوفر تفسيراً نظرياً

أوجه القصور

  1. تحليل التعقيد الحسابي غير كافٍ: بينما يدعي التعقيد الخطي، فإن تحليل التكاليف الحسابية الفعلية لوحدات الذاكرة العميقة غير مفصل بما يكفي
  2. حساسية المعاملات الفائقة: قد يكون تعيين معاملات متعددة معتمدة على البيانات (α_t, θ_t, η_t) معقداً نسبياً
  3. التشابه مع الذاكرة البشرية محدود: بينما يستلهم من الذاكرة البشرية، فإن تعريف "المفاجأة" بسيط نسبياً
  4. التحقق من النماذج الكبيرة غير كافٍ: أكبر نموذج يحتوي على 760M معامل فقط، مع نقص التحقق من نماذج بمليارات المعاملات

القيمة التأثيرية

  1. القيمة الأكاديمية: توفير منظور ذاكرة جديد لنمذجة التسلسل، قد يلهم المزيد من الأبحاث ذات الصلة
  2. القيمة العملية: أداء ممتازة في مهام معالجة التسلسلات الطويلة، مع إمكانيات تطبيق عملية
  3. قابلية إعادة الإنتاج: التزام المؤلفين بفتح الكود المصدري، مما يساعد على نشر وتحقق الطريقة

السيناريوهات المناسبة

  1. معالجة المستندات الطويلة: مناسبة لمهام معالجة اللغة الطبيعية التي تتطلب معالجة مستندات طويلة
  2. تحليل السلاسل الزمنية: مناسبة بشكل خاص للمهام التنبؤية التي تتطلب معلومات تاريخية طويلة الأجل
  3. سيناريوهات التعلم عبر الإنترنت: مناسبة للتطبيقات التي تتطلب التكيف المستمر في وقت الاختبار
  4. المهام الكثيفة بالذاكرة: مثل أنظمة الأسئلة والأجوبة وأنظمة الحوار التي تتطلب حفظ كميات كبيرة من المعلومات

المراجع

تستشهد الورقة بـ 138 مرجعاً ذا صلة، تغطي Transformers والشبكات العصبية المتكررة وآليات الانتباه وشبكات الذاكرة والتدريب في وقت الاختبار وغيرها من المجالات ذات الصلة المهمة، مما يوفر أساساً نظرياً راسخاً لهذا البحث.