Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
تقترح هذه الورقة وحدة ذاكرة عصبية طويلة الأجل جديدة، قادرة على تعلم حفظ السياق التاريخي ومساعدة آلية الانتباه على الاستفادة من المعلومات الماضية الطويلة الأجل مع التركيز على السياق الحالي. يجادل المؤلفون من منظور الذاكرة بأن آليات الانتباه تعمل كذاكرة قصيرة الأجل بسبب السياق المحدود لكن نمذجة التبعيات الدقيقة، بينما تعمل الذاكرة العصبية كذاكرة طويلة الأجل أكثر استمراراً بسبب قدرتها على حفظ البيانات. بناءً على هاتين الوحدتين، يقدم المؤلفون عائلة معمارية جديدة تسمى Titans، ويقترحون ثلاث متغيرات لدمج الذاكرة في المعمارية بكفاءة. تظهر النتائج التجريبية أن Titans أكثر فعالية من Transformers والنماذج الخطية الحديثة للتكرار في نمذجة اللغة والاستدلال المنطقي الشامل والجينوميات والمهام الزمنية، مع القدرة على التوسع بفعالية إلى نوافذ سياق تتجاوز 2 مليون.
تواجه معماريات نمذجة التسلسل الحالية مقايضة بين الكفاءة والأداء:
Transformers: بينما تتمكن من نمذجة التبعيات بدقة، فإن التعقيد الحسابي هو O(n²)، مما يحد من طول السياق
Transformers الخطية/RNNs: بينما تتمتع بكفاءة عالية، فإنها تضغط المعلومات في حالة بحجم ثابت، مما يؤدي إلى انخفاض الأداء على التسلسلات الطويلة
نقص أنظمة الذاكرة: تفتقر المعماريات الحالية إلى أنظمة ذاكرة متعددة المستويات مشابهة للدماغ البشري (ذاكرة قصيرة الأجل، ذاكرة طويلة الأجل، ذاكرة ما وراء المعرفة، إلخ)
تدرس هذه الورقة مهام نمذجة التسلسل، حيث يكون الإدخال تسلسلاً x∈RN×din، والهدف هو تعلم نموذج قادر على معالجة التسلسلات الطويلة بفعالية، يجب أن يحقق النموذج:
القدرة على التعلم والحفظ المستمر في وقت الاختبار
الموازنة بين استخدام الذاكرة قصيرة الأجل وطويلة الأجل
التعقيد الخطي مع الحفاظ على القدرة التعبيرية العالية
بالاستلهام من الذاكرة طويلة الأجل البشرية، الأحداث التي تنتهك التوقعات (المفاجئة) يسهل تذكرها. يستخدم المؤلفون تدرج الشبكة العصبية بالنسبة للإدخال لقياس "المفاجأة".
تستشهد الورقة بـ 138 مرجعاً ذا صلة، تغطي Transformers والشبكات العصبية المتكررة وآليات الانتباه وشبكات الذاكرة والتدريب في وقت الاختبار وغيرها من المجالات ذات الصلة المهمة، مما يوفر أساساً نظرياً راسخاً لهذا البحث.