Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic
أخذ العينات الموازي الفعال لنماذج العمق المتكرر وارتباطها بنماذج اللغة الانتشارية
تبحث هذه الورقة عن الروابط بين نماذج اللغة ذات العمق المتكرر (المعروفة أيضاً بالمحولات العامة أو المحولات المتكررة) ونماذج اللغة الانتشارية. تزيد نماذج العمق المتكرر من كمية الحساب من خلال تكرار الطبقات، مما يظهر مزايا في مهام الاستدلال. بناءً على التشابه بين فئتي النماذج، طور المؤلفون أخذ عينات انتشاري قسري جديد لتسريع عملية التوليد. يقوم أخذ العينات هذا بفك تشفير رموز جديدة في كل انتشار للأمام، مع تحسين الحالات الكامنة لهذه الرموز بشكل متوازٍ من خلال التكرار. من الناحية النظرية، في نفس ميزانية الوقت، يكون أخذ العينات هذا أكثر تعبيراً من توليد الانحدار الذاتي الأساسي. والأهم من ذلك، يمكن تطبيق أخذ العينات هذا مباشرة على محول عمق متكرر موجود بـ 3.5 مليار معامل دون أي ضبط، مما يحقق تسريعاً يصل إلى 5 أضعاف.
تعتمد نماذج اللغة الكبيرة التقليدية على معمارية شبكة عصبية بعمق ثابت، حيث يكون عدد الطبقات عادة قليلاً (رقمين فقط). بينما يعمل هذا التصميم بشكل جيد في كفاءة التدريب ومعظم المهام، إلا أنه يواجه قيوداً في المهام المعقدة التي تتطلب استدلالاً منطقياً متعدد الخطوات مثل الرياضيات والبرمجة. من منظور نظرية التعقيد، تنتمي المحولات ذات العمق الثابت إلى فئة التعقيد TC0، وهي محدودة في قدرتها التعبيرية.
المساهمة النظرية: توضيح الروابط بين نماذج العمق المتكرر والنماذج الانتشارية، وإنشاء جسر نظري بين الاثنين من خلال الإجبار الانتشاري واستراتيجيات الاستدلال القائمة على الكتل أو الموجات
ابتكار الطريقة: اقتراح أخذ عينات انتشاري قسري مناسب لنماذج العمق المتكرر، مما يحقق المعالجة الموازية لعملية الاستدلال
التحقق التجريبي: التحقق من فعالية الطريقة على نموذج Huginn-0125 بـ 3.5 مليار معامل، وتحقيق تحسن في السرعة بحوالي 5 أضعاف على معايير GSM8K و MATH500 و HumanEval و MBPP، مع الحفاظ على دقة مماثلة
القيمة العملية: يمكن تطبيق أخذ العينات هذا مباشرة على نماذج العمق المتكرر الموجودة دون الحاجة إلى إعادة التدريب أو الضبط
بالنظر إلى نموذج عمق متكرر وإدخال موجه x، الهدف هو تسريع عملية توليد النصوص مع الحفاظ على جودة التوليد. بشكل محدد، يجب توليد المزيد من الرموز ضمن نفس ميزانية الوقت، أو تقليل وقت التوليد لنفس عدد الرموز.
يمكن للأعماق المتكررة المختلفة مشاركة ذاكرة التخزين المؤقت KV، مما يقلل بشكل كبير من استخدام الذاكرة. تظهر التجارب أن النموذج يدعم بشكل طبيعي مشاركة ذاكرة التخزين المؤقت KV، حيث يتطلب فقط تخزين حالة KV لأحدث تكرار لكل موضع رمز.
Dehghani et al. (2019): العمل الأصلي لـ Universal Transformers
Chen et al. (2024a): طريقة Diffusion Forcing
Geiping et al. (2025): نموذج Huginn-0125 للعمق المتكرر
Rombach et al. (2022): نماذج الانتشار في الفضاء الكامن
Leviathan et al. (2023): طريقة فك التشفير التكهني
التقييم الشامل: هذه ورقة بحثية عالية الجودة بمساهمات مهمة في الابتكار النظري والقيمة العملية. نجحت الورقة في إنشاء روابط بين فئتين مهمتين من النماذج، واقترحت طريقة تسريع عملية. بينما توجد بعض القيود، فإنها توفر اتجاهات قيمة وأساس للبحث المستقبلي.