State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
- पेपर ID: 2510.14826
- शीर्षक: अनंत तक और उससे आगे: उपकरण-उपयोग राज्य अंतरिक्ष मॉडल में लंबाई सामान्यीकरण को अनलॉक करता है
- लेखक: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
- संस्था: Apple
- वर्गीकरण: cs.LG
- प्रकाशन तिथि: 17 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.14826
राज्य अंतरिक्ष मॉडल (SSMs) अनुक्रम मॉडलिंग में Transformer के प्रमुख विकल्प बन गए हैं, जिनका मुख्य लाभ निश्चित आकार की मेमोरी और रैखिक कम्प्यूटेशनल जटिलता के माध्यम से लंबे संदर्भ और लंबे अनुक्रम जनरेशन की दक्षता है। यह पेपर पहले एक सरल सैद्धांतिक परिणाम प्रस्तुत करता है जो साबित करता है कि SSMs किसी भी "वास्तविक लंबे अनुक्रम" जनरेशन समस्या को सटीक रूप से हल नहीं कर सकते (औपचारिक रूप से परिभाषित अर्थ में), जो इसके मुख्य प्रतिस्पर्धी लाभ को कमजोर करता है। हालांकि, अनुसंधान से पता चलता है कि यह सीमा SSMs को इंटरैक्टिव बाहरी उपकरण पहुंच प्रदान करके कम की जा सकती है। वास्तव में, उपकरण पहुंच और समस्या-संबंधित प्रशिक्षण डेटा के सही चयन की स्थिति में, SSMs किसी भी ट्रैक्टेबल समस्या को हल करना सीख सकते हैं और मनमानी समस्या लंबाई/जटिलता के लिए सामान्यीकरण कर सकते हैं। सैद्धांतिक निष्कर्षों के आधार पर, लेखकों ने साबित किया कि उपकरण-संवर्धित SSMs विभिन्न अंकगणितीय, तर्क और प्रोग्रामिंग कार्यों पर उल्लेखनीय लंबाई सामान्यीकरण क्षमता प्राप्त करते हैं।
- Transformer की कम्प्यूटेशनल बाधा: Transformer ध्यान तंत्र के कारण, कम्प्यूटेशनल जटिलता अनुक्रम लंबाई के साथ द्विघात रूप से बढ़ती है, मेमोरी लंबाई के साथ रैखिक रूप से बढ़ती है, जो लंबे संदर्भ और लंबे अनुक्रम जनरेशन कार्यों में मुख्य सीमा बन जाती है।
- SSMs का उदय: इस समस्या को हल करने के लिए, शोधकर्ताओं ने विभिन्न वैकल्पिक आर्किटेक्चर प्रस्तावित किए हैं, जैसे रैखिक Transformer और राज्य अंतरिक्ष मॉडल (SSMs), जिनमें Mamba, DeltaNet आदि शामिल हैं, ये आर्किटेक्चर निश्चित मेमोरी और रैखिक कम्प्यूटेशनल जटिलता प्राप्त करते हैं।
- SSMs की सीमाएं: हालांकि SSMs दक्षता में लाभ रखते हैं, कुछ अनुसंधान इंगित करते हैं कि वे लंबे अनुक्रम स्मृति और संदर्भ सीखने की आवश्यकता वाले कार्यों में महत्वपूर्ण सीमाएं हैं।
लेखकों का उद्देश्य लंबे अनुक्रम जनरेशन कार्यों में SSMs की क्षमता और सीमाओं को समझना है, विशेष रूप से वे जहां आउटपुट लंबाई समस्या जटिलता के साथ बढ़ती है। ये वास्तव में वे कार्य प्रकार हैं जहां SSMs Transformer की तुलना में स्पष्ट तर्क दक्षता लाभ दिखाते हैं।
- सैद्धांतिक नकारात्मक परिणाम: साबित किया कि SSMs "वास्तविक लंबे अनुक्रम जनरेशन समस्याओं" को हल नहीं कर सकते, यहां तक कि मनमानी लंबाई की विचार श्रृंखला (CoT) जनरेशन की अनुमति देने पर भी।
- उपकरण उपयोग का सैद्धांतिक ढांचा: ReAct एजेंटों के अनुसंधान के लिए एक नया सैद्धांतिक ढांचा पेश किया, साबित किया कि इंटरैक्टिव उपकरण उपयोग SSMs की क्षमता को काफी बढ़ा सकता है।
- लंबाई सामान्यीकरण की पर्याप्तता प्रमेय: साबित किया कि उपयुक्त उपकरण पहुंच और विशिष्ट प्रशिक्षण डेटा से सुसज्जित SSMs किसी भी ट्रैक्टेबल लंबे अनुक्रम जनरेशन कार्य पर लंबाई सामान्यीकरण प्राप्त कर सकते हैं।
- प्रायोगिक सत्यापन: अंकगणितीय, तार्किक तर्क और प्रोग्रामिंग कार्यों पर उपकरण-संवर्धित SSMs की उत्कृष्ट लंबाई सामान्यीकरण क्षमता प्रदर्शित की।
लंबे अनुक्रम जनरेशन कार्य की औपचारिक परिभाषा:
- Σ को शब्दावली मानें, X₁,X₂,... और Y₁,Y₂,... क्रमशः इनपुट और आउटपुट स्पेस अनुक्रम हैं
- D₁,D₂,... वितरण अनुक्रम हैं, जहां Dₙ Xₙ पर वितरण है
- f: Σ* → Σ* वास्तविक फ़ंक्शन है, जो f(Xₙ) ⊆ Yₙ को संतुष्ट करता है
परिभाषा 2.2: (f, {Dₙ}) को कवरेज α के साथ लंबे अनुक्रम जनरेशन कार्य कहा जाता है, यदि और केवल यदि suppₐ(f(Dₙ)) n के साथ एकरस रूप से बढ़ता है और limₙ→∞ suppₐ(f(Dₙ)) = ∞।
परिभाषा: GSSM निम्नलिखित घटकों द्वारा परिभाषित किया गया है:
- राज्य अंतरिक्ष S (परिमित समुच्चय)
- प्रारंभिक अवस्था s₀ ∈ S
- अपडेट नियम u: S × Σ → S
- आउटपुट नियम r: S → Δ(Σ)
उपकरण उपयोग सेटिंग:
- केवल CoT: केवल विचार और आउटपुट टोकन की अनुमति
- एकल-दौर उपकरण उपयोग: एकल उपकरण कॉल की अनुमति
- इंटरैक्टिव उपकरण उपयोग: मनमानी संख्या में उपकरण कॉल और मुक्त इंटरलीविंग की अनुमति
प्रमेय 2.1 (नकारात्मक परिणाम): कवरेज α के किसी भी लंबे अनुक्रम जनरेशन कार्य f के लिए, समस्या जटिलता n₀ मौजूद है, जैसे कि सभी n ≥ n₀ के लिए, किसी भी केवल-CoT या एकल-दौर उपकरण उपयोग GSSM h की त्रुटि दर है:
errₙ(h) ≥ 1-α।
प्रमेय 2.2 (सकारात्मक परिणाम): मेमोरी उपकरण oracle O और सरल GSSM सीखने वाला एल्गोरिथ्म A मौजूद है, जैसे कि किसी भी कम्प्यूटेबल लंबे अनुक्रम जनरेशन कार्य f के लिए, प्रशिक्षण वितरण अनुक्रम {Pₙ} मौजूद है, जैसे कि A इंटरैक्टिव सेटिंग में लंबाई सामान्यीकरण प्राप्त करता है।
- मेमोरी उपकरण डिजाइन: बाहरी मेमोरी पहुंच को पढ़ने/लिखने के लिए पॉइंटर-शैली उपकरण प्रदान करता है, ट्यूरिंग मशीन संचालन की नकल कर सकता है।
- इंटरैक्टिव प्रशिक्षण प्रतिमान: उपकरण उपयोग ट्रैजेक्टरी युक्त प्रशिक्षण डेटा का निर्माण करके, SSMs को बाहरी मेमोरी का लाभ उठाकर आंतरिक मेमोरी सीमा को तोड़ना सीखाता है।
- एल्गोरिथ्म ट्रैजेक्टरी जनरेशन: विभिन्न कार्यों (जोड़, गुणा, तार्किक तर्क आदि) के लिए सिंथेटिक उपकरण उपयोग ट्रैजेक्टरी डिजाइन करता है, आवश्यक एल्गोरिथ्म को सटीक रूप से अनुकरण करता है।
- अंकगणितीय कार्य: बहु-अंकीय जोड़ और गुणा, प्रशिक्षण लंबाई अधिकतम 5-10 अंक, परीक्षण अधिकतम 1000 अंक
- हनोई का टॉवर: प्रशिक्षण अधिकतम 8 डिस्क, परीक्षण अधिकतम 12 डिस्क
- तार्किक ग्राफ तर्क: प्रशिक्षण अधिकतम 10 नोड्स, परीक्षण अधिकतम 1000 नोड्स
- कोड मरम्मत: प्रशिक्षण अधिकतम 16 फ़ंक्शन के कोड रिपोजिटरी, परीक्षण बड़े पैमाने पर
- SSMs: Mamba-130M/1.4B, LSTM, GRU
- Transformers: Pythia-160M/1.4B, Mistral (स्लाइडिंग विंडो ध्यान)
- सभी मॉडल तुलनीय आकार (~130M पैरामीटर)
- पॉइंटर-शैली मेमोरी: आरंभीकरण, आंदोलन, पढ़ने के संचालन का समर्थन करता है
- खोज उपकरण: संदर्भ में पैटर्न खोजने का समर्थन करता है
- Bash कमांड: कोड मरम्मत कार्यों के लिए फ़ाइल संचालन का उपयोग
अंकगणितीय कार्य प्रदर्शन:
- Mamba 5-अंकीय प्रशिक्षण के बाद 1000-अंकीय जोड़ को पूरी तरह से निष्पादित कर सकता है (100% सटीकता)
- गुणा कार्य: 10-अंक × 1-अंक प्रशिक्षण → 1000-अंक × 1-अंक परीक्षण (100% सटीकता)
- Transformer मॉडल प्रशिक्षण लंबाई से परे सामान्यीकरण में लगभग विफल
तर्क कार्य प्रदर्शन:
- तार्किक ग्राफ तर्क: 10-नोड प्रशिक्षण → 1000-नोड परीक्षण (98% सटीकता)
- हनोई का टॉवर: 8-डिस्क प्रशिक्षण → 12-डिस्क परीक्षण (49% सटीकता, घातीय आउटपुट लंबाई वृद्धि)
कोड मरम्मत कार्य:
- इंटरैक्टिव एजेंट प्रशिक्षण के तहत, Mamba बड़े कोड रिपोजिटरी पर बेहतर प्रदर्शन बनाए रखता है
- Transformer छोटे कोड रिपोजिटरी पर बेहतर प्रदर्शन करता है, लेकिन बड़े पैमाने पर सामान्यीकरण नहीं कर सकता
मुख्य निष्कर्ष:
- CoT या उपकरण उपयोग को हटाने से लंबाई सामान्यीकरण क्षमता लगभग पूरी तरह से खो जाती है
- एकल-दौर उपकरण उपयोग प्रभाव सीमित है, इंटरैक्टिव उपयोग महत्वपूर्ण है
- कार्य मिश्रण प्रशिक्षण सीमित बजट के तहत सामान्यीकरण में सुधार कर सकता है
- आर्किटेक्चर लाभ: SSMs/RNNs उपकरण-संवर्धित सेटिंग में Transformer से काफी बेहतर हैं
- इंटरैक्टिविटी का महत्व: इंटरैक्टिव उपकरण उपयोग लंबाई सामान्यीकरण प्राप्त करने की कुंजी है
- प्रशिक्षण डेटा गुणवत्ता: सावधानीपूर्वक निर्मित एल्गोरिथ्म ट्रैजेक्टरी सफलता के लिए महत्वपूर्ण है
- स्केलेबिलिटी: विधि विभिन्न एल्गोरिथ्मिक कार्यों तक स्केलेबल है
- विचार श्रृंखला और ड्राफ्ट: CoT LLMs की तर्क क्षमता को काफी बढ़ाता है, सैद्धांतिक रूप से अभिव्यक्ति क्षमता और सीखने की क्षमता में सुधार करता है
- तंत्रिका ट्यूरिंग मशीनें: तंत्रिका नेटवर्क के साथ ट्यूरिंग मशीन की नकल करने के प्रारंभिक प्रयास, लेकिन व्यापक रूप से अपनाया नहीं गया
- लंबाई सामान्यीकरण: Transformer की लंबाई सामान्यीकरण का अध्ययन करने वाले बहुत सारे कार्य, विभिन्न सुधार तकनीकें प्रस्तावित करते हैं
- SSMs की लंबाई सामान्यीकरण सैद्धांतिक सीमाओं का पहला व्यवस्थित अध्ययन
- उपकरण उपयोग को सीमाओं को तोड़ने के लिए एक प्रभावी समाधान के रूप में प्रस्तावित करता है
- स्वतंत्र मॉडल के बजाय एजेंट सिस्टम के संदर्भ में आर्किटेक्चर प्रदर्शन का विश्लेषण करता है
- स्वतंत्र उपयोग में SSMs में मौलिक लंबाई सामान्यीकरण सीमाएं हैं
- इंटरैक्टिव उपकरण उपयोग इन सीमाओं को पूरी तरह से दूर कर सकता है
- एजेंट सेटिंग में, SSMs Transformer से बेहतर हो सकते हैं
- सैद्धांतिक विश्लेषण का सीखने वाला एल्गोरिथ्म अपेक्षाकृत सरल है (स्ट्रिंग मिलान)
- हनोई का टॉवर जैसे घातीय आउटपुट लंबाई कार्यों की सामान्यीकरण सीमित है
- सावधानीपूर्वक डिजाइन किए गए प्रशिक्षण ट्रैजेक्टरी की आवश्यकता है
- कोड मरम्मत कार्य की सामान्यीकरण सीमित है
- अधिक SSM-आधारित उपकरण उपयोग एजेंट विकसित करें
- अधिक प्राकृतिक सीखने वाले एल्गोरिथ्म (जैसे ग्रेडिएंट डिसेंट) के सैद्धांतिक गारंटी का अनुसंधान करें
- अधिक जटिल तर्क और एजेंट कार्यों तक विस्तार करें
- हाइब्रिड आर्किटेक्चर की संभावना का अन्वेषण करें
- सैद्धांतिक कठोरता: SSMs की सीमाओं के कठोर गणितीय प्रमाण प्रदान करता है
- व्यावहारिक मूल्य: उपकरण उपयोग की व्यावहारिक प्रभावशीलता प्रदर्शित करता है
- प्रायोगिक व्यापकता: कई कार्य प्रकार और मॉडल आर्किटेक्चर को कवर करता है
- गहन अंतर्दृष्टि: प्रकट करता है कि आर्किटेक्चर सिस्टम में प्रदर्शन स्वतंत्र उपयोग से भिन्न हो सकता है
- सैद्धांतिक और व्यावहारिक अंतराल: सैद्धांतिक विश्लेषण के सरल सीखने वाले एल्गोरिथ्म और वास्तविक तंत्रिका नेटवर्क प्रशिक्षण के बीच अंतर
- कार्य सीमाएं: मुख्य रूप से एल्गोरिथ्मिक कार्यों पर ध्यान केंद्रित, खुली-अंत जनरेशन कार्यों के लिए प्रयोज्यता अस्पष्ट है
- इंजीनियरिंग जटिलता: प्रत्येक कार्य के लिए विशिष्ट उपकरण और प्रशिक्षण ट्रैजेक्टरी डिजाइन की आवश्यकता है
- स्केलेबिलिटी समस्याएं: अधिक जटिल वास्तविक-दुनिया कार्यों में प्रदर्शन अभी तक सत्यापित होना बाकी है
- सैद्धांतिक योगदान: विभिन्न आर्किटेक्चर की मौलिक क्षमता अंतर को समझने के लिए नया दृष्टिकोण प्रदान करता है
- व्यावहारिक मार्गदर्शन: एजेंट सिस्टम में SSM अनुप्रयोग के लिए सैद्धांतिक समर्थन प्रदान करता है
- अनुसंधान दिशा: उपकरण-संवर्धित भाषा मॉडल पर अधिक अनुसंधान को प्रेरित कर सकता है
- एल्गोरिथ्मिक निष्पादन: ज्ञात एल्गोरिथ्म के सटीक निष्पादन की आवश्यकता वाले कार्य
- लंबे अनुक्रम प्रसंस्करण: सीमित कम्प्यूटेशनल संसाधन लेकिन लंबे अनुक्रम प्रसंस्करण की आवश्यकता वाले परिदृश्य
- एजेंट सिस्टम: बाहरी उपकरणों के साथ इंटरैक्ट करने की आवश्यकता वाले स्मार्ट एजेंट अनुप्रयोग
- शैक्षिक अनुप्रयोग: एल्गोरिथ्म निष्पादन प्रक्रिया प्रदर्शित करने वाली शिक्षण प्रणाली
यह पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Transformer मूल पेपर (Vaswani et al., 2017)
- Mamba जैसे SSM आर्किटेक्चर (Gu & Dao, 2023)
- विचार श्रृंखला संबंधित अनुसंधान (Wei et al., 2022)
- ReAct ढांचा (Yao et al., 2023)
- लंबाई सामान्यीकरण संबंधित कार्य (Zhou et al., 2024 आदि)
सारांश: यह एक उच्च-गुणवत्ता वाला पेपर है जो सिद्धांत और प्रयोग दोनों को संतुलित करता है, SSMs की क्षमता सीमाओं और उपकरण उपयोग के मूल्य को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है। हालांकि वास्तविक अनुप्रयोग की स्केलेबिलिटी के संदर्भ में अभी भी सत्यापन की आवश्यकता है, लेकिन इसके सैद्धांतिक योगदान और प्रायोगिक निष्कर्ष इस क्षेत्र के विकास को आगे बढ़ाने में महत्वपूर्ण हैं।