2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

पुनरावर्ती-गहराई मॉडल के लिए कुशल समानांतर सैंपलर और विसरण भाषा मॉडल के साथ उनका संबंध

मूल जानकारी

पेपर ID: 2510.14961
शीर्षक: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
लेखक: Jonas Geiping, Xinyu Yang, Guinan Su
वर्गीकरण: cs.LG cs.CL
प्रकाशन तिथि: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.14961

सारांश

यह पेपर पुनरावर्ती गहराई वाले भाषा मॉडल (जिन्हें सार्वभौमिक ट्रांसफॉर्मर या पुनरावर्ती ट्रांसफॉर्मर भी कहा जाता है) और विसरण भाषा मॉडल के बीच संबंध का अध्ययन करता है। पुनरावर्ती गहराई मॉडल परतों की पुनरावृत्ति के माध्यम से गणना को बढ़ाते हैं और अनुमान कार्यों में श्रेष्ठ प्रदर्शन करते हैं। दोनों मॉडल वर्गों की समानता के आधार पर, लेखकों ने जनरेशन प्रक्रिया को त्वरित करने के लिए एक नया विसरण बाध्य सैंपलर विकसित किया है। यह सैंपलर प्रत्येक फॉरवर्ड पास में नए टोकन को डिकोड करता है, जबकि इन टोकन की संभावित स्थिति को पुनरावर्ती रूप से समानांतर में अनुकूलित करता है। सिद्धांत रूप में, समान समय बजट के तहत, यह सैंपलर आधारभूत स्वचेतन पीढ़ी की तुलना में अधिक अभिव्यक्तिशील है। अधिक महत्वपूर्ण रूप से, यह सैंपलर मौजूदा 3.5B पैरामीटर पुनरावर्ती गहराई ट्रांसफॉर्मर पर सीधे लागू किया जा सकता है, बिना किसी ट्यूनिंग के 5 गुना तक का त्वरण प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक बड़े भाषा मॉडल निश्चित गहराई के तंत्रिका नेटवर्क आर्किटेक्चर का उपयोग करते हैं, जिसमें आमतौर पर कम परतें होती हैं (केवल दो अंक)। यद्यपि यह डिज़ाइन प्रशिक्षण दक्षता और अधिकांश कार्यों पर अच्छा प्रदर्शन करता है, लेकिन गणित और प्रोग्रामिंग जैसे बहु-चरणीय तार्किक तर्क की आवश्यकता वाले जटिल कार्यों में सीमाएं हैं। जटिलता सिद्धांत के दृष्टिकोण से, निश्चित गहराई ट्रांसफॉर्मर TC0 जटिलता वर्ग से संबंधित हैं, जिनकी अभिव्यक्तिशील क्षमता सीमित है।

अनुसंधान प्रेरणा

कम्प्यूटेशनल क्षमता सीमा: निश्चित गहराई मॉडल बहु-चरणीय तार्किक श्रृंखलाओं को संभालने में कठिनाई का सामना करते हैं
अनुमान दक्षता समस्या: पुनरावर्ती गहराई मॉडल अधिक अभिव्यक्तिशील हैं, लेकिन जनरेशन धीमा है, प्रत्येक पुनरावृत्ति को क्रमिक रूप से निष्पादित किया जाना चाहिए
समानांतरकरण आवश्यकता: आधुनिक GPU आर्किटेक्चर समानांतर कम्प्यूटिंग के लिए अवसर प्रदान करते हैं, लेकिन पारंपरिक स्वचेतन जनरेशन इसका पूर्ण लाभ नहीं उठा सकता

मौजूदा विधियों की सीमाएं

श्रृंखला-विचार विधि: आंतरिक तर्क प्रक्रिया को छोटे चरणों में बाहर निकालने की आवश्यकता है, जो अनुक्रम लंबाई बढ़ाता है
पुनरावर्ती गहराई मॉडल: अभिव्यक्तिशील क्षमता मजबूत है, लेकिन अनुमान समय में प्रत्येक पुनरावर्ती चरण को क्रमिक रूप से निष्पादित किया जाना चाहिए, जिससे जनरेशन धीमा होता है
पारंपरिक समानांतरकरण विधियां: जैसे अनुमानित डिकोडिंग मुख्य रूप से निश्चित गहराई मॉडल के लिए डिज़ाइन की गई हैं

मूल योगदान

सैद्धांतिक योगदान: पुनरावर्ती गहराई मॉडल और विसरण मॉडल के बीच संबंध को स्पष्ट करता है, विसरण बाध्य और ब्लॉक या लहर-आधारित अनुमान रणनीति के माध्यम से दोनों के बीच सैद्धांतिक पुल स्थापित करता है
विधि नवाचार: पुनरावर्ती गहराई मॉडल के लिए लागू विसरण बाध्य सैंपलर प्रस्तावित करता है, अनुमान प्रक्रिया का समानांतरकरण प्राप्त करता है
प्रायोगिक सत्यापन: 3.5B पैरामीटर Huginn-0125 मॉडल पर विधि की प्रभावशीलता को सत्यापित करता है, GSM8K, MATH500, HumanEval और MBPP बेंचमार्क में लगभग 5 गुना गति वृद्धि प्राप्त करता है, जबकि समान सटीकता बनाए रखता है
व्यावहारिक मूल्य: यह सैंपलर मौजूदा पुनरावर्ती गहराई मॉडल पर सीधे लागू किया जा सकता है, पुनः प्रशिक्षण या ट्यूनिंग की आवश्यकता नहीं है

विधि विवरण

कार्य परिभाषा

एक पुनरावर्ती गहराई मॉडल और इनपुट प्रॉम्प्ट x दिया गया है, लक्ष्य पाठ जनरेशन प्रक्रिया को त्वरित करना है, जबकि जनरेशन गुणवत्ता बनाए रखते हैं। विशेष रूप से, समान समय बजट में अधिक टोकन उत्पन्न करने या समान टोकन संख्या में जनरेशन समय कम करने की आवश्यकता है।

मॉडल आर्किटेक्चर

पुनरावर्ती गहराई मॉडल संरचना

इस पेपर में उपयोग किया गया पुनरावर्ती गहराई मॉडल (Huginn-0125) तीन मुख्य घटकों को शामिल करता है:

प्रस्तावना ब्लॉक (Prelude Block) P: एम्बेड किए गए इनपुट टोकन को संभावित स्थान में प्रक्षेपित करता है
पुनरावर्ती ब्लॉक (Recurrent Block) R: संभावित स्थान में r बार पुनरावृत्ति करता है, स्थिति वेक्टर s को अनुकूलित करके अनुमान करता है
समापन ब्लॉक (Coda Block) C: संभावित स्थिति को संभालता है और अगले टोकन की संभाव्यता वितरण उत्पन्न करता है

गणितीय प्रतिनिधित्व निम्नानुसार है:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) for i ∈ {1, ..., r}
p = C(sᵣ)

विसरण बाध्य सैंपलर डिज़ाइन

मूल विचार विसरण बाध्य सिद्धांत को पुनरावर्ती गहराई मॉडल पर लागू करना है, "विकर्ण" समानांतरकरण प्राप्त करना:

समानांतर टोकन जनरेशन: प्रत्येक फॉरवर्ड पास एक साथ कई टोकन स्थितियों को संभालता है
पुनरावर्ती अनुकूलन: सभी सक्रिय टोकन की संभावित स्थिति को क्रमिक रूप से अनुकूलित करने के लिए पुनरावर्ती चरणों का उपयोग करता है
गतिशील फ्रीजिंग: संभावित स्थान दूरी के आधार पर अनुकूली निकास तंत्र

तकनीकी नवाचार बिंदु

1. इनपुट इंजेक्शन तंत्र

पुनरावर्ती प्रक्रिया एम्बेड किए गए इनपुट e द्वारा शर्तबद्ध है, जो सैंपलर को शर्त परिवर्तन के समय "पथ सुधार" करने की अनुमति देता है, बिना आंशिक रूप से गणना की गई स्थिति को त्यागे।

2. KV कैश साझाकरण

विभिन्न पुनरावर्ती गहराई KV कैश साझा कर सकते हैं, जिससे मेमोरी उपयोग में उल्लेखनीय कमी आती है। प्रयोग दर्शाते हैं कि यह मॉडल स्वाभाविक रूप से KV कैश साझाकरण का समर्थन करता है, केवल प्रत्येक टोकन स्थिति के नवीनतम पुनरावृत्ति की KV स्थिति को संग्रहीत करने की आवश्यकता है।

3. अनुकूली निकास रणनीति

संभावित स्थान में सामान्यीकृत दूरी को निकास मानदंड के रूप में उपयोग करता है:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

जब δᵢ < ε हो, तो संबंधित स्थिति का टोकन फ्रीज किया जाता है और KV कैश में जोड़ा जाता है।

4. स्थिरीकरण घटक

गति तंत्र: इनपुट शर्त e में गति जोड़ता है: e = η·e_prev + (1-η)·P(y_current)
शोर इंजेक्शन: प्रत्येक नमूनाकरण चरण में शोर जोड़ता है: z' = (1-βₜ)z + βₜ·z_noise

प्रायोगिक सेटअप

डेटासेट

GSM8K: गणितीय तर्क कार्य, CoT संस्करण और 8-shot सेटिंग का उपयोग करता है
MATH500: उच्च कठिनाई गणितीय समस्याएं
HumanEval: कोड जनरेशन कार्य
MBPP: Python प्रोग्रामिंग समस्याएं

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy): कार्य-विशिष्ट सटीकता संकेतक
जनरेशन गति (Tokens/Second): प्रति सेकंड उत्पन्न टोकन की संख्या, CUDA इवेंट का उपयोग करके मापा जाता है

तुलना विधियां

स्थिर स्वचेतन (Static AR): विभिन्न पुनरावर्ती चरणों (r=4,8,32,64) के साथ आधारभूत विधि
अनुकूली कम्प्यूटेशन स्वचेतन: मूल कार्य में अनुकूली कम्प्यूटेशन सैंपलर
अनुमानित डिकोडिंग: सूक्ष्म-ट्यून किए गए स्व-अनुमानित डिकोडिंग आधारभूत

कार्यान्वयन विवरण

बैच आकार: 1 (एकल अनुक्रम अनुमान)
तापमान: 0.2, top-p: 0.95
डिफ़ॉल्ट पैरामीटर: r'=4, ε=0.03, βₜ=0, η=0.1
अधिकतम वेवफ्रंट आकार: 128
हार्डवेयर: A100-40GB GPU

प्रायोगिक परिणाम

मुख्य परिणाम

सभी बेंचमार्क में, विसरण बाध्य सैंपलर ने महत्वपूर्ण गति वृद्धि प्राप्त की:

सैंपलर	GSM8K	MATH500	HumanEval	MBPP
	Acc/t/s	Acc/t/s	Acc/t/s	Acc/t/s
Static AR (r=32)	41.77%/36.1	17.60%/6.4	22.56%/13.5	31.60%/15.3
Diff. Sampler	42.08%/157.3	18.00%/30.3	20.12%/64.9	31.00%/70.2
सापेक्ष सुधार	+0.31/4.36×	+0.40/4.73×	-2.44/4.81×	-0.60/4.59×

विलोपन प्रयोग

हाइपरपैरामीटर संवेदनशीलता विश्लेषण

आंतरिक पुनरावर्ती चरण r': r' बढ़ाने से सटीकता में सुधार होता है लेकिन थ्रूपुट कम होता है, r'=4 सर्वोत्तम संतुलन बिंदु है
निकास थ्रेशोल्ड ε: छोटे ε मान सटीकता में सुधार करते हैं लेकिन गति कम करते हैं, ε=0.03 अनुशंसित सेटिंग है
शोर गुणांक βₜ: r' छोटा होने पर, उपयुक्त शोर (βₜ=0.2-0.3) स्थिरता में सहायता करता है
वेवफ्रंट आकार: A100 GPU के लिए 64-128 इष्टतम सेटिंग है

मॉडल वेरिएंट सत्यापन

विभिन्न मॉडल चेकपॉइंट पर विधि की मजबूती को सत्यापित करता है:

SWA मॉडल: वजन औसत संस्करण
गणित सूक्ष्म-ट्यूनिंग मॉडल: MetaMath डेटासेट पर सूक्ष्म-ट्यून किया गया संस्करण

सभी वेरिएंट 4-5 गुना सामंजस्यपूर्ण गति वृद्धि दिखाते हैं, सटीकता विचलन 0.5-1% सीमा में है।

सैद्धांतिक विश्लेषण सत्यापन

गहराई बनाम चौड़ाई स्केलिंग

प्रयोग सैद्धांतिक विश्लेषण की भविष्यवाणियों को सत्यापित करते हैं:

प्रीफिल चरण: गहराई स्केलिंग चौड़ाई स्केलिंग से बेहतर है
डिकोडिंग चरण: विसरण बाध्य नमूनाकरण बेहतर चौड़ाई स्केलिंग प्राप्त करता है
अभिव्यक्तिता: समान समय बजट में, विसरण सैंपलर स्वचेतन जनरेशन से सख्ती से बेहतर है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक योगदान: पुनरावर्ती गहराई मॉडल और विसरण मॉडल के बीच सैद्धांतिक संबंध स्थापित करता है
व्यावहारिक मूल्य: 5 गुना अनुमान त्वरण प्राप्त करता है, जबकि जनरेशन गुणवत्ता बनाए रखता है
सामान्यता: विधि मौजूदा मॉडल पर सीधे लागू की जा सकती है, पुनः प्रशिक्षण की आवश्यकता नहीं है
नया दृष्टिकोण: पुनरावर्ती गहराई मॉडल को निरंतर कारणात्मक विसरण भाषा मॉडल के रूप में देखा जा सकता है

सीमाएं

बैच प्रोसेसिंग सीमा: वर्तमान कार्यान्वयन केवल एकल अनुक्रम अनुमान का समर्थन करता है, बैच प्रोसेसिंग परिदृश्य को जटिल अनुमान इंजन की आवश्यकता है
FLOP दक्षता: समानांतरता बढ़ाने के बावजूद, FLOP उपयोग वास्तव में बढ़ता है
हार्डवेयर निर्भरता: इष्टतम पैरामीटर सेटिंग विशिष्ट हार्डवेयर कॉन्फ़िगरेशन पर निर्भर है
मॉडल आवश्यकता: मॉडल को विशिष्ट आर्किटेक्चर आवश्यकताओं को पूरा करने की आवश्यकता है (इनपुट इंजेक्शन, मजबूत पुनरावृत्ति, आदि)

भविष्य की दिशा

बैच प्रोसेसिंग अनुमान इंजन: बड़े बैच अनुमान का समर्थन करने वाली प्रणाली विकसित करना
आर्किटेक्चर अनुकूलन: विसरण बाध्य नमूनाकरण के लिए अधिक उपयुक्त पुनरावर्ती गहराई आर्किटेक्चर डिज़ाइन करना
प्रशिक्षण उद्देश्य: विसरण भाषा मॉडलिंग में विस्तारित उद्देश्यों के अनुप्रयोग की खोज करना
सैद्धांतिक गहनता: विसरण मॉडल के रूप में पुनरावर्ती गहराई मॉडल के सैद्धांतिक आधार का आगे अध्ययन करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार पुनरावर्ती गहराई मॉडल और विसरण मॉडल के बीच संबंध स्थापित करता है, नया सैद्धांतिक दृष्टिकोण प्रदान करता है
उच्च व्यावहारिक मूल्य: महत्वपूर्ण अनुमान त्वरण प्राप्त करता है, मौजूदा मॉडल पर सीधे लागू किया जा सकता है
सैद्धांतिक कठोरता: गहराई बनाम चौड़ाई स्केलिंग का सैद्धांतिक विश्लेषण और अभिसरण प्रमाण प्रदान करता है
पर्याप्त प्रयोग: कई बेंचमार्क और मॉडल वेरिएंट पर विधि की प्रभावशीलता और मजबूती को सत्यापित करता है

कमियां

अनुप्रयोग सीमा: विधि को मॉडल को विशिष्ट आर्किटेक्चर आवश्यकताओं को पूरा करने की आवश्यकता है, जो सामान्यता को सीमित करता है
बैच प्रोसेसिंग समर्थन अपर्याप्त: एकल अनुक्रम अनुमान उत्पादन वातावरण में अनुप्रयोग को सीमित करता है
मेमोरी ओवरहेड: हालांकि KV कैश साझाकरण है, लेकिन अतिरिक्त संभावित स्थिति भंडारण की आवश्यकता है
पैरामीटर संवेदनशीलता: कई हाइपरपैरामीटर को विभिन्न कार्यों और हार्डवेयर के लिए समायोजित करने की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: पुनरावर्ती गहराई मॉडल और विसरण मॉडल अनुसंधान के लिए नया प्रतिच्छेदन बिंदु प्रदान करता है
इंजीनियरिंग मूल्य: बड़े मॉडल अनुमान अनुकूलन के लिए नया तकनीकी पथ प्रदान करता है
प्रेरणा महत्व: मॉडल आर्किटेक्चर और नमूनाकरण रणनीति संयोजन पर अधिक अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

एकल उपयोगकर्ता अनुमान: व्यक्तिगत या छोटे पैमाने के अनुप्रयोगों में पाठ जनरेशन
अनुमान-गहन कार्य: गणित, प्रोग्रामिंग आदि जिन्हें बहु-चरणीय तर्क की आवश्यकता है
संसाधन-सीमित वातावरण: सीमित कम्प्यूटेशनल संसाधनों के तहत अनुमान दक्षता बढ़ाने की आवश्यकता वाले परिदृश्य
अनुसंधान प्रोटोटाइप: पुनरावर्ती गहराई मॉडल और विसरण नमूनाकरण का आगे अनुसंधान

संदर्भ

पेपर संबंधित कार्यों के समृद्ध संदर्भ का हवाला देता है, जिसमें शामिल हैं:

Dehghani et al. (2019): Universal Transformers का मूल कार्य
Chen et al. (2024a): Diffusion Forcing विधि
Geiping et al. (2025): Huginn-0125 पुनरावर्ती गहराई मॉडल
Rombach et al. (2022): संभावित स्थान विसरण मॉडल
Leviathan et al. (2023): अनुमानित डिकोडिंग विधि

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है, जिसमें सैद्धांतिक नवाचार और व्यावहारिक मूल्य दोनों में महत्वपूर्ण योगदान है। पेपर सफलतापूर्वक दो महत्वपूर्ण मॉडल वर्गों के बीच संबंध स्थापित करता है और व्यावहारिक त्वरण विधि प्रस्तावित करता है। यद्यपि कुछ सीमाएं हैं, लेकिन यह भविष्य के अनुसंधान के लिए मूल्यवान दिशा और आधार प्रदान करता है।