2025-11-16T06:22:12.451775

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

Malach, Saremi, Williamson et al.
State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
academic

অসীমতা এবং তার বাইরে: টুল-ব্যবহার স্টেট স্পেস মডেলে দৈর্ঘ্য সাধারণীকরণ আনলক করে

মৌলিক তথ্য

  • পেপার আইডি: 2510.14826
  • শিরোনাম: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
  • লেখক: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin
  • প্রতিষ্ঠান: Apple
  • শ্রেণীবিভাগ: cs.LG
  • প্রকাশনার সময়: ২০২৫ সালের ১৭ অক্টোবর
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.14826

সারসংক্ষেপ

স্টেট স্পেস মডেল (SSM) গুলি ক্রম মডেলিংয়ে ট্রান্সফরমারের প্রধান বিকল্প হয়ে উঠেছে, যার প্রধান সুবিধা হল স্থির আকারের মেমোরি এবং রৈখিক গণনামূলক জটিলতার মাধ্যমে দীর্ঘ প্রসঙ্গ এবং দীর্ঘ ক্রম উৎপাদনের দক্ষতা। এই পেপারটি প্রথমে একটি সহজ তাত্ত্বিক ফলাফল উপস্থাপন করে যা প্রমাণ করে যে SSM গুলি কোনও "প্রকৃত দীর্ঘ ক্রম" উৎপাদন সমস্যা সঠিকভাবে সমাধান করতে পারে না (আনুষ্ঠানিকভাবে সংজ্ঞায়িত অর্থে), যা এর প্রধান প্রতিযোগিতামূলক সুবিধাকে দুর্বল করে। তবে গবেষণা দেখায় যে এই সীমাবদ্ধতা SSM গুলিকে ইন্টারেক্টিভ বাহ্যিক টুল অ্যাক্সেস প্রদান করে প্রশমিত করা যেতে পারে। বাস্তবে, সঠিক টুল অ্যাক্সেস এবং সমস্যা-সম্পর্কিত প্রশিক্ষণ ডেটা নির্বাচনের অধীনে, SSM গুলি যেকোনো সমাধানযোগ্য সমস্যা সমাধান করতে এবং নির্বিচারে সমস্যার দৈর্ঘ্য/জটিলতায় সাধারণীকরণ করতে শিখতে পারে। তাত্ত্বিক আবিষ্কারের উপর ভিত্তি করে, লেখকরা প্রমাণ করেছেন যে টুল-বর্ধিত SSM গুলি বিভিন্ন পাটিগণিত, যুক্তি এবং প্রোগ্রামিং কাজে উল্লেখযোগ্য দৈর্ঘ্য সাধারণীকরণ ক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

১. ট্রান্সফরমারের গণনামূলক বাধা: ট্রান্সফরমার মনোযোগ প্রক্রিয়াকরণের কারণে, গণনামূলক জটিলতা ক্রম দৈর্ঘ্যের সাথে দ্বিঘাতভাবে বৃদ্ধি পায়, মেমোরি দৈর্ঘ্যের সাথে রৈখিকভাবে বৃদ্ধি পায়, যা দীর্ঘ প্রসঙ্গ এবং দীর্ঘ ক্রম উৎপাদন কাজে প্রধান সীমাবদ্ধতা হয়ে ওঠে।

२. SSM গুলির উত্থান: এই সমস্যা সমাধানের জন্য, গবেষকরা বিভিন্ন বিকল্প আর্কিটেকচার প্রস্তাব করেছেন, যেমন রৈখিক ট্রান্সফরমার এবং স্টেট স্পেস মডেল (SSM), যার মধ্যে রয়েছে Mamba, DeltaNet ইত্যাদি, যা স্থির মেমোরি এবং রৈখিক গণনামূলক জটিলতা অর্জন করে।

३. SSM গুলির সীমাবদ্ধতা: SSM গুলি দক্ষতায় সুবিধা থাকা সত্ত্বেও, কিছু গবেষণা নির্দেশ করে যে তারা দীর্ঘ ক্রম স্মৃতি এবং প্রসঙ্গ শেখার প্রয়োজন এমন কাজে উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে।

গবেষণা প্রেরণা

লেখকরা দীর্ঘ ক্রম উৎপাদন কাজে SSM গুলির ক্ষমতা এবং সীমাবদ্ধতা বোঝার লক্ষ্য রাখেন, বিশেষত যেখানে আউটপুট দৈর্ঘ্য সমস্যার জটিলতার সাথে বৃদ্ধি পায়। এগুলি ঠিক সেই ধরনের কাজ যেখানে SSM গুলি ট্রান্সফরমারের তুলনায় স্পষ্ট যুক্তি দক্ষতার সুবিধা প্রদর্শন করে।

মূল অবদান

१. তাত্ত্বিক নেতিবাচক ফলাফল: প্রমাণ করে যে SSM গুলি "প্রকৃত দীর্ঘ ক্রম উৎপাদন সমস্যা" সঠিকভাবে সমাধান করতে পারে না, এমনকি নির্বিচারে দীর্ঘ চিন্তার শৃঙ্খল (CoT) উৎপাদনের অনুমতি দিলেও।

२. টুল ব্যবহারের তাত্ত্বিক কাঠামো: ReAct এজেন্ট অধ্যয়নের জন্য একটি নতুন তাত্ত্বিক কাঠামো প্রবর্তন করে, প্রমাণ করে যে ইন্টারেক্টিভ টুল ব্যবহার SSM গুলির ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে।

३. দৈর্ঘ্য সাধারণীকরণের পর্যাপ্ততা উপপাদ্য: প্রমাণ করে যে উপযুক্ত টুল অ্যাক্সেস এবং নির্দিষ্ট প্রশিক্ষণ ডেটা সহ সজ্জিত SSM গুলি যেকোনো সমাধানযোগ্য দীর্ঘ ক্রম উৎপাদন কাজে দৈর্ঘ্য সাধারণীকরণ অর্জন করতে পারে।

४. পরীক্ষামূলক যাচাইকরণ: পাটিগণিত, যুক্তিবাদী যুক্তি এবং প্রোগ্রামিং কাজে টুল-বর্ধিত SSM গুলির উচ্চতর দৈর্ঘ্য সাধারণীকরণ ক্ষমতা প্রদর্শন করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

দীর্ঘ ক্রম উৎপাদন কাজের আনুষ্ঠানিক সংজ্ঞা:

  • Σ কে শব্দভান্ডার হতে দিন, X₁,X₂,... এবং Y₁,Y₂,... যথাক্রমে ইনপুট এবং আউটপুট স্থান ক্রম হতে দিন
  • D₁,D₂,... বিতরণ ক্রম হতে দিন, যেখানে Dₙ হল Xₙ এর উপর বিতরণ
  • f: Σ* → Σ* প্রকৃত ফাংশন হতে দিন, f(Xₙ) ⊆ Yₙ সন্তুষ্ট করে

সংজ্ঞা 2.2: (f, {Dₙ}) কে কভারেজ α এর দীর্ঘ ক্রম উৎপাদন কাজ বলা হয়, যদি এবং শুধুমাত্র যদি suppₐ(f(Dₙ)) n এর সাথে একঘেয়েভাবে বৃদ্ধি পায় এবং limₙ→∞ suppₐ(f(Dₙ)) = ∞।

সাধারণীকৃত স্টেট স্পেস মডেল (GSSM)

সংজ্ঞা: GSSM নিম্নলিখিত উপাদান দ্বারা সংজ্ঞায়িত:

  • স্টেট স্পেস S (সীমিত সেট)
  • প্রাথমিক অবস্থা s₀ ∈ S
  • আপডেট নিয়ম u: S × Σ → S
  • আউটপুট নিয়ম r: S → Δ(Σ)

টুল ব্যবহারের সেটিং: १. শুধুমাত্র CoT: শুধুমাত্র চিন্তা এবং আউটপুট টোকেন অনুমতি দেওয়া २. একক-রাউন্ড টুল ব্যবহার: একক টুল আহ্বান অনুমতি দেওয়া ३. ইন্টারেক্টিভ টুল ব্যবহার: নির্বিচারে সংখ্যক টুল আহ্বান এবং মুক্ত ইন্টারলিভিং অনুমতি দেওয়া

মূল তাত্ত্বিক ফলাফল

উপপাদ্য 2.1 (নেতিবাচক ফলাফল): যেকোনো কভারেজ α এর দীর্ঘ ক্রম উৎপাদন কাজ f এর জন্য, একটি সমস্যা জটিলতা n₀ বিদ্যমান, যেমন সমস্ত n ≥ n₀ এর জন্য, যেকোনো শুধুমাত্র CoT বা একক-রাউন্ড টুল ব্যবহারের GSSM h এর ত্রুটির হার: errₙ(h) ≥ 1-α।

উপপাদ্য 2.2 (ইতিবাচক ফলাফল): একটি মেমোরি টুল oracle O এবং সহজ GSSM শেখার অ্যালগরিদম A বিদ্যমান, যেমন যেকোনো গণনাযোগ্য দীর্ঘ ক্রম উৎপাদন কাজ f এর জন্য, একটি প্রশিক্ষণ বিতরণ ক্রম {Pₙ} বিদ্যমান, যেমন A ইন্টারেক্টিভ সেটিংয়ে দৈর্ঘ্য সাধারণীকরণ অর্জন করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. মেমোরি টুল ডিজাইন: বাহ্যিক মেমোরি অ্যাক্সেস পড়া/লেখার পয়েন্টার-শৈলী টুল প্রদান করে, যা টিউরিং মেশিন অপারেশন অনুকরণ করতে পারে।

२. ইন্টারেক্টিভ প্রশিক্ষণ প্যারাডাইম: টুল ব্যবহারের ট্র্যাজেক্টরি সহ প্রশিক্ষণ ডেটা তৈরি করে, SSM গুলিকে বাহ্যিক মেমোরি ব্যবহার করে অভ্যন্তরীণ মেমোরি সীমাবদ্ধতা অতিক্রম করতে শেখায়।

३. অ্যালগরিদম ট্র্যাজেক্টরি প্রজন্ম: বিভিন্ন কাজের জন্য (সংযোজন, গুণন, যুক্তিবাদী যুক্তি ইত্যাদি) সিন্থেটিক টুল ব্যবহারের ট্র্যাজেক্টরি ডিজাইন করে, প্রয়োজনীয় অ্যালগরিদম সঠিকভাবে অনুকরণ করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. পাটিগণিত কাজ: বহু-অঙ্কের সংযোজন এবং গুণন, সর্বোচ্চ ৫-১০ অঙ্ক প্রশিক্ষণ, সর্বোচ্চ ১০০০ অঙ্ক পরীক্ষা २. হ্যানয়ের টাওয়ার: সর্বোচ্চ ৮টি ডিস্ক প্রশিক্ষণ, সর্বোচ্চ ১२টি ডিস্ক পরীক্ষা
३. যুক্তিবাদী গ্রাফ যুক্তি: সর্বোচ্চ ১০টি নোড প্রশিক্ষণ, সর্বোচ্চ ১০০০টি নোড পরীক্ষা ४. কোড মেরামত: সর্বোচ্চ ১६টি ফাংশনের কোড লাইব্রেরি প্রশিক্ষণ, বৃহত্তর স্কেল পরীক্ষা

মডেল কনফিগারেশন

  • SSM: Mamba-130M/1.4B, LSTM, GRU
  • ট্রান্সফরমার: Pythia-160M/1.4B, Mistral (স্লাইডিং উইন্ডো মনোযোগ)
  • সমস্ত মডেল স্কেল তুলনীয় (~१३०M প্যারামিটার)

টুল প্রকার

१. পয়েন্টার-শৈলী মেমোরি: প্রাথমিকীকরণ, চলন, পড়া অপারেশন সমর্থন করে २. অনুসন্ধান টুল: প্রসঙ্গে প্যাটার্ন অনুসন্ধান সমর্থন করে ३. Bash কমান্ড: কোড মেরামত কাজের জন্য ফাইল অপারেশন ব্যবহার করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পাটিগণিত কাজের কর্মক্ষমতা:

  • Mamba ৫-অঙ্কের প্রশিক্ষণের পরে ১০০০-অঙ্কের সংযোজন নিখুঁতভাবে সম্পাদন করতে পারে (१००% নির্ভুলতা)
  • গুণন কাজ: १०-অঙ্ক × १-অঙ্ক প্রশিক্ষণ → १०००-অঙ্ক × १-অঙ্ক পরীক্ষা (१००% নির্ভুলতা)
  • ট্রান্সফরমার মডেল প্রশিক্ষণ দৈর্ঘ্যের বাইরে সাধারণীকরণ করতে প্রায় অক্ষম

যুক্তিবাদী কাজের কর্মক্ষমতা:

  • যুক্তিবাদী গ্রাফ যুক্তি: १०-নোড প্রশিক্ষণ → १०००-নোড পরীক্ষা (९८% নির্ভুলতা)
  • হ্যানয়ের টাওয়ার: ८-ডিস্ক প্রশিক্ষণ → १२-ডিস্ক পরীক্ষা (४९% নির্ভুলতা, সূচকীয় আউটপুট দৈর্ঘ্য বৃদ্ধি)

কোড মেরামত কাজ:

  • ইন্টারেক্টিভ এজেন্ট প্রশিক্ষণের অধীনে, Mamba বৃহত্তর কোড লাইব্রেরিতে ভাল কর্মক্ষমতা বজায় রাখে
  • ট্রান্সফরমার ছোট কোড লাইব্রেরিতে ভাল কর্মক্ষমতা করে, কিন্তু বৃহত্তর স্কেলে সাধারণীকরণ করতে পারে না

বিলোপন পরীক্ষা

মূল আবিষ্কার: १. CoT বা টুল ব্যবহার অপসারণ দৈর্ঘ্য সাধারণীকরণ ক্ষমতা প্রায় সম্পূর্ণভাবে হারায় २. একক-রাউন্ড টুল ব্যবহার সীমিত প্রভাব, ইন্টারেক্টিভ ব্যবহার অত্যন্ত গুরুত্বপূর্ণ ३. কাজ মিশ্রণ প্রশিক্ষণ সীমিত বাজেটে সাধারণীকরণ উন্নত করতে পারে

পরীক্ষামূলক আবিষ্কার

१. আর্কিটেকচার সুবিধা: SSM/RNN গুলি টুল-বর্ধিত সেটিংয়ে ট্রান্সফরমারের চেয়ে উল্লেখযোগ্যভাবে ভাল २. ইন্টারেক্টিভিটির গুরুত্ব: ইন্টারেক্টিভ টুল ব্যবহার দৈর্ঘ্য সাধারণীকরণ অর্জনের চাবিকাঠি ३. প্রশিক্ষণ ডেটার গুণমান: সাবধানে তৈরি অ্যালগরিদম ট্র্যাজেক্টরি সাফল্যের জন্য অত্যন্ত গুরুত্বপূর্ণ ४. স্কেলেবিলিটি: পদ্ধতি বিভিন্ন অ্যালগরিদম কাজে স্কেলযোগ্য

সম্পর্কিত কাজ

প্রধান গবেষণা দিক

१. চিন্তার শৃঙ্খল এবং খসড়া: CoT LLM গুলির যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, তাত্ত্বিকভাবে প্রকাশ ক্ষমতা এবং শেখার যোগ্যতা উন্নত করে २. নিউরাল টিউরিং মেশিন: নিউরাল নেটওয়ার্ক দিয়ে টিউরিং মেশিন অনুকরণ করার প্রাথমিক প্রচেষ্টা, কিন্তু ব্যাপকভাবে গ্রহণ করা হয়নি ३. দৈর্ঘ্য সাধারণীকরণ: ট্রান্সফরমারের দৈর্ঘ্য সাধারণীকরণ অধ্যয়নের বিস্তৃত কাজ, বিভিন্ন উন্নতি কৌশল প্রস্তাব করে

এই পেপারের অবদান

  • প্রথমবারের মতো SSM গুলির দৈর্ঘ্য সাধারণীকরণ তাত্ত্বিক সীমাবদ্ধতা সিস্টেমেটিকভাবে অধ্যয়ন করে
  • টুল ব্যবহারকে সীমাবদ্ধতা অতিক্রমের কার্যকর সমাধান হিসাবে প্রস্তাব করে
  • স্বাধীন মডেলের পরিবর্তে এজেন্ট সিস্টেমের প্রেক্ষাপটে আর্কিটেকচার কর্মক্ষমতা বিশ্লেষণ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. SSM গুলি স্বাধীনভাবে ব্যবহার করার সময় মৌলিক দৈর্ঘ্য সাধারণীকরণ সীমাবদ্ধতা রয়েছে २. ইন্টারেক্টিভ টুল ব্যবহার এই সীমাবদ্ধতাগুলি সম্পূর্ণভাবে অতিক্রম করতে পারে ३. এজেন্ট সেটিংয়ে, SSM গুলি ট্রান্সফরমারের চেয়ে উচ্চতর হতে পারে

সীমাবদ্ধতা

१. তাত্ত্বিক বিশ্লেষণের শেখার অ্যালগরিদম তুলনামূলকভাবে সহজ (স্ট্রিং ম্যাচিং) २. হ্যানয়ের টাওয়ারের মতো সূচকীয় আউটপুট দৈর্ঘ্যের কাজের সাধারণীকরণ সীমিত ३. সাবধানে ডিজাইন করা প্রশিক্ষণ ট্র্যাজেক্টরি প্রয়োজন ४. কোড মেরামত কাজের সাধারণীকরণ ডিগ্রি সীমিত

ভবিষ্যত দিক

१. আরও SSM-ভিত্তিক টুল ব্যবহার এজেন্ট বিকাশ করা २. আরও প্রাকৃতিক শেখার অ্যালগরিদম (যেমন গ্রেডিয়েন্ট ডিসেন্ট) এর তাত্ত্বিক গ্যারান্টি অধ্যয়ন করা ३. আরও জটিল যুক্তি এবং এজেন্ট কাজে সম্প্রসারণ করা ४. হাইব্রিড আর্কিটেকচারের সম্ভাবনা অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক কঠোরতা: SSM গুলির সীমাবদ্ধতার কঠোর গাণিতিক প্রমাণ প্রদান করে २. ব্যবহারিক মূল্য: টুল ব্যবহারের ব্যবহারিক কার্যকারিতা প্রদর্শন করে ३. পরীক্ষামূলক ব্যাপকতা: একাধিক কাজের ধরন এবং মডেল আর্কিটেকচার কভার করে ४. গভীর অন্তর্দৃষ্টি: বিভিন্ন আর্কিটেকচারের সিস্টেমে কর্মক্ষমতা স্বাধীন ব্যবহার থেকে আলাদা হতে পারে তা প্রকাশ করে

অপূর্ণতা

१. তাত্ত্বিক এবং ব্যবহারিক ব্যবধান: তাত্ত্বিক বিশ্লেষণের সহজ শেখার অ্যালগরিদম এবং প্রকৃত নিউরাল নেটওয়ার্ক প্রশিক্ষণের মধ্যে ব্যবধান २. কাজের সীমাবদ্ধতা: প্রধানত অ্যালগরিদম-ধরনের কাজে ফোকাস করে, খোলা-শেষ প্রজন্ম কাজে প্রযোজ্যতা অস্পষ্ট ३. প্রকৌশল জটিলতা: প্রতিটি কাজের জন্য নির্দিষ্ট টুল এবং প্রশিক্ষণ ট্র্যাজেক্টরি ডিজাইন করা প্রয়োজন ४. স্কেলেবিলিটি সমস্যা: আরও জটিল বাস্তব-বিশ্ব কাজে কর্মক্ষমতা এখনও যাচাই করা প্রয়োজন

প্রভাব

१. তাত্ত্বিক অবদান: বিভিন্ন আর্কিটেকচারের মৌলিক ক্ষমতা পার্থক্য বোঝার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. ব্যবহারিক নির্দেশনা: এজেন্ট সিস্টেমে SSM প্রয়োগের জন্য তাত্ত্বিক সমর্থন প্রদান করে
३. গবেষণা দিক: টুল-বর্ধিত ভাষা মডেল সম্পর্কে আরও গবেষণা চালিত করতে পারে

প্রযোজ্য পরিস্থিতি

१. অ্যালগরিদম সম্পাদন: পরিচিত অ্যালগরিদম নির্ভুলভাবে সম্পাদন করার প্রয়োজন এমন কাজ २. দীর্ঘ ক্রম প্রক্রিয়াকরণ: সীমিত গণনামূলক সম্পদ কিন্তু দীর্ঘ ক্রম প্রক্রিয়াকরণের প্রয়োজন এমন পরিস্থিতি ३. এজেন্ট সিস্টেম: বাহ্যিক টুলের সাথে ইন্টারেক্ট করার প্রয়োজন এমন বুদ্ধিমান এজেন্ট অ্যাপ্লিকেশন ४. শিক্ষামূলক অ্যাপ্লিকেশন: অ্যালগরিদম সম্পাদন প্রক্রিয়া প্রদর্শনকারী শিক্ষণ সিস্টেম

সংদর্ভ

এই পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • ট্রান্সফরমার মূল পেপার (Vaswani et al., 2017)
  • Mamba এবং অন্যান্য SSM আর্কিটেকচার (Gu & Dao, 2023)
  • চিন্তার শৃঙ্খল সম্পর্কিত গবেষণা (Wei et al., 2022)
  • ReAct ফ্রেমওয়ার্ক (Yao et al., 2023)
  • দৈর্ঘ্য সাধারণীকরণ সম্পর্কিত কাজ (Zhou et al., 2024 ইত্যাদি)

সারসংক্ষেপ: এটি একটি তাত্ত্বিক এবং পরীক্ষামূলক উভয় দিক থেকে উচ্চ মানের পেপার, যা SSM গুলির ক্ষমতা সীমানা এবং টুল ব্যবহারের মূল্য বোঝার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে। যদিও বাস্তব প্রয়োগের স্কেলেবিলিটির ক্ষেত্রে এখনও যাচাই করা প্রয়োজন, তবে এর তাত্ত্বিক অবদান এবং পরীক্ষামূলক আবিষ্কার এই ক্ষেত্রের উন্নয়ন চালিত করতে গুরুত্বপূর্ণ তাৎপর্য রাখে।