2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

أخذ العينات الموازي الفعال لنماذج العمق المتكرر وارتباطها بنماذج اللغة الانتشارية

المعلومات الأساسية

معرّف الورقة: 2510.14961
العنوان: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
المؤلفون: Jonas Geiping, Xinyu Yang, Guinan Su
التصنيف: cs.LG cs.CL
تاريخ النشر: 16 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.14961

الملخص

تبحث هذه الورقة عن الروابط بين نماذج اللغة ذات العمق المتكرر (المعروفة أيضاً بالمحولات العامة أو المحولات المتكررة) ونماذج اللغة الانتشارية. تزيد نماذج العمق المتكرر من كمية الحساب من خلال تكرار الطبقات، مما يظهر مزايا في مهام الاستدلال. بناءً على التشابه بين فئتي النماذج، طور المؤلفون أخذ عينات انتشاري قسري جديد لتسريع عملية التوليد. يقوم أخذ العينات هذا بفك تشفير رموز جديدة في كل انتشار للأمام، مع تحسين الحالات الكامنة لهذه الرموز بشكل متوازٍ من خلال التكرار. من الناحية النظرية، في نفس ميزانية الوقت، يكون أخذ العينات هذا أكثر تعبيراً من توليد الانحدار الذاتي الأساسي. والأهم من ذلك، يمكن تطبيق أخذ العينات هذا مباشرة على محول عمق متكرر موجود بـ 3.5 مليار معامل دون أي ضبط، مما يحقق تسريعاً يصل إلى 5 أضعاف.

خلفية البحث والدافع

تعريف المشكلة

تعتمد نماذج اللغة الكبيرة التقليدية على معمارية شبكة عصبية بعمق ثابت، حيث يكون عدد الطبقات عادة قليلاً (رقمين فقط). بينما يعمل هذا التصميم بشكل جيد في كفاءة التدريب ومعظم المهام، إلا أنه يواجه قيوداً في المهام المعقدة التي تتطلب استدلالاً منطقياً متعدد الخطوات مثل الرياضيات والبرمجة. من منظور نظرية التعقيد، تنتمي المحولات ذات العمق الثابت إلى فئة التعقيد TC0، وهي محدودة في قدرتها التعبيرية.

دافع البحث

قيود القدرة الحسابية: تواجه النماذج ذات العمق الثابت صعوبة في التعامل مع السلاسل المنطقية متعددة الخطوات التي تتطلب قفزات مفاهيمية
مشكلة كفاءة الاستدلال: بينما تتمتع نماذج العمق المتكرر بقدرة تعبيرية أقوى، فإن سرعة التوليد بطيئة، حيث يجب تنفيذ كل تكرار بشكل متسلسل
الحاجة إلى المعالجة الموازية: توفر معمارية GPU الحديثة فرصاً للحساب الموازي، لكن التوليد الانحداري الذاتي التقليدي لا يستطيع الاستفادة الكاملة منها

قيود الطرق الموجودة

طرق سلسلة الفكر: تتطلب إضفاء الطابع الخارجي على عملية الاستدلال الداخلية إلى خطوات صغيرة، مما يزيد من طول التسلسل
نماذج العمق المتكرر: بينما تتمتع بقدرة تعبيرية قوية، يجب تنفيذ كل خطوة تكرار بشكل متسلسل أثناء الاستدلال، مما يؤدي إلى بطء سرعة التوليد
طرق المعالجة الموازية التقليدية: مثل فك التشفير التكهني تم تصميمها بشكل أساسي للنماذج ذات العمق الثابت

المساهمات الأساسية

المساهمة النظرية: توضيح الروابط بين نماذج العمق المتكرر والنماذج الانتشارية، وإنشاء جسر نظري بين الاثنين من خلال الإجبار الانتشاري واستراتيجيات الاستدلال القائمة على الكتل أو الموجات
ابتكار الطريقة: اقتراح أخذ عينات انتشاري قسري مناسب لنماذج العمق المتكرر، مما يحقق المعالجة الموازية لعملية الاستدلال
التحقق التجريبي: التحقق من فعالية الطريقة على نموذج Huginn-0125 بـ 3.5 مليار معامل، وتحقيق تحسن في السرعة بحوالي 5 أضعاف على معايير GSM8K و MATH500 و HumanEval و MBPP، مع الحفاظ على دقة مماثلة
القيمة العملية: يمكن تطبيق أخذ العينات هذا مباشرة على نماذج العمق المتكرر الموجودة دون الحاجة إلى إعادة التدريب أو الضبط

شرح الطريقة بالتفصيل

تعريف المهمة

بالنظر إلى نموذج عمق متكرر وإدخال موجه x، الهدف هو تسريع عملية توليد النصوص مع الحفاظ على جودة التوليد. بشكل محدد، يجب توليد المزيد من الرموز ضمن نفس ميزانية الوقت، أو تقليل وقت التوليد لنفس عدد الرموز.

معمارية النموذج

هيكل نموذج العمق المتكرر

يتضمن نموذج العمق المتكرر المستخدم (Huginn-0125) ثلاثة مكونات رئيسية:

كتلة المقدمة (Prelude Block) P: تعكس الرموز المدخلة المضمنة إلى الفضاء الكامن
الكتلة المتكررة (Recurrent Block) R: تكرر r مرات في الفضاء الكامن، وتحسن الاستدلال من خلال متجه الحالة s
كتلة الخاتمة (Coda Block) C: تعالج الحالة الكامنة وتنتج توزيع الاحتمالية للرمز التالي

التمثيل الرياضي كما يلي:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) for i ∈ {1, ..., r}
p = C(sᵣ)

تصميم أخذ العينات الانتشاري القسري

الفكرة الأساسية هي تطبيق مبدأ الإجبار الانتشاري على نماذج العمق المتكرر، لتحقيق المعالجة الموازية "القطرية":

توليد الرموز الموازي: معالجة مواضع رموز متعددة في كل انتشار للأمام
التحسين التكراري: تحسين الحالات الكامنة لجميع الرموز النشطة تدريجياً من خلال الخطوات المتكررة
التجميد الديناميكي: آلية خروج تكيفية بناءً على المسافة في الفضاء الكامن

نقاط الابتكار التقني

1. آلية حقن الإدخال

تتم عملية التكرار بشرط الإدخال المضمن e، مما يسمح لأخذ العينات بـ "تصحيح المسار" عند تغيير الشروط، دون الحاجة إلى التخلص من الحالات المحسوبة جزئياً.

2. مشاركة ذاكرة التخزين المؤقت KV

يمكن للأعماق المتكررة المختلفة مشاركة ذاكرة التخزين المؤقت KV، مما يقلل بشكل كبير من استخدام الذاكرة. تظهر التجارب أن النموذج يدعم بشكل طبيعي مشاركة ذاكرة التخزين المؤقت KV، حيث يتطلب فقط تخزين حالة KV لأحدث تكرار لكل موضع رمز.

3. استراتيجية الخروج التكيفية

استخدام المسافة المعايرة في الفضاء الكامن كمعيار للخروج:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

عندما يكون δᵢ < ε، يتم تجميد الرمز في الموضع المقابل وإضافته إلى ذاكرة التخزين المؤقت KV.

4. المكونات المستقرة

آلية الزخم: إضافة زخم لشروط الإدخال e: e = η·e_prev + (1-η)·P(y_current)
حقن الضوضاء: إضافة ضوضاء في كل خطوة أخذ عينات: z' = (1-βₜ)z + βₜ·z_noise

إعداد التجارب

مجموعات البيانات

GSM8K: مهمة الاستدلال الرياضي، باستخدام إصدار CoT وإعداد 8-shot
MATH500: مشاكل رياضية عالية الصعوبة
HumanEval: مهمة توليد الأكواد
MBPP: مشاكل البرمجة بلغة Python

مؤشرات التقييم

الدقة (Accuracy): مؤشرات الدقة الخاصة بالمهمة
سرعة التوليد (Tokens/Second): عدد الرموز المولدة في الثانية، تقاس باستخدام أحداث CUDA

الطرق المقارنة

الانحدار الذاتي الثابت (Static AR): طريقة الأساس مع خطوات تكرار مختلفة (r=4,8,32,64)
الانحدار الذاتي بالحساب التكيفي: أخذ عينات الحساب التكيفي من العمل الأصلي
فك التشفير التكهني: خط أساس فك التشفير التكهني الذاتي المضبوط بدقة

تفاصيل التنفيذ

حجم الدفعة: 1 (استدلال تسلسل واحد)
درجة الحرارة: 0.2، top-p: 0.95
المعاملات الافتراضية: r'=4, ε=0.03, βₜ=0, η=0.1
أقصى حجم موجة أمامية: 128
الأجهزة: GPU A100-40GB

نتائج التجارب

النتائج الرئيسية

يحقق أخذ العينات الانتشاري القسري تحسناً كبيراً في السرعة على جميع المعايير:

أخذ العينات	GSM8K	MATH500	HumanEval	MBPP
	Acc/t/s	Acc/t/s	Acc/t/s	Acc/t/s
Static AR (r=32)	41.77%/36.1	17.60%/6.4	22.56%/13.5	31.60%/15.3
Diff. Sampler	42.08%/157.3	18.00%/30.3	20.12%/64.9	31.00%/70.2
التحسن النسبي	+0.31/4.36×	+0.40/4.73×	-2.44/4.81×	-0.60/4.59×

تجارب الاستئصال

تحليل حساسية المعاملات الفائقة

خطوات التكرار الداخلي r': يزيد r' من الدقة لكن يقلل من الإنتاجية، r'=4 هو أفضل نقطة توازن
عتبة الخروج ε: تزيد قيم ε الأصغر من الدقة لكن تقلل من السرعة، ε=0.03 هو الإعداد الموصى به
معامل الضوضاء βₜ: عندما يكون r' صغيراً، تساعد كمية مناسبة من الضوضاء (βₜ=0.2-0.3) على الاستقرار
حجم الموجة الأمامية: 64-128 هو الإعداد الأمثل لـ GPU A100

التحقق من متغيرات النموذج

التحقق من قوة الطريقة على نقاط تفتيش نماذج مختلفة:

نموذج SWA: إصدار متوسط الأوزان
نموذج الضبط الدقيق الرياضي: إصدار مضبوط بدقة على مجموعة بيانات MetaMath

تظهر جميع المتغيرات تحسناً ثابتاً في السرعة بمعدل 4-5 أضعاف، مع انحراف في الدقة ضمن نطاق 0.5-1%.

التحقق من التحليل النظري

تحجيم العمق مقابل العرض

تتحقق التجارب من التنبؤات من التحليل النظري:

مرحلة الملء المسبق: يتفوق تحجيم العمق على تحجيم العرض
مرحلة فك التشفير: يحقق أخذ العينات الانتشاري القسري تحجيم عرض أفضل
التعبيرية: في نفس ميزانية الوقت، يكون أخذ العينات الانتشاري متفوقاً بشكل صارم على التوليد الانحداري الذاتي

الأعمال ذات الصلة

بحث النماذج المتكررة

التطور التاريخي: من RNN المبكرة إلى تطور المحولات العامة
الأساس النظري: القدرة الحسابية لآلة تورينج العامة وفئات التعقيد
التطبيقات العملية: المزايا في مهام التعلم الخوارزمي والاستدلال

نماذج اللغة الانتشارية

الانتشار في المجال المستمر: التطبيقات الناجحة في توليد الصور
الانتشار في المجال المنفصل: التحديات والحلول لتوليد النصوص
استراتيجيات الاستدلال: طرق الانتشار الكتلي والإجبار الانتشاري

تقنيات تسريع الاستدلال

فك التشفير التكهني: الاستفادة من نموذج صغير للمسودة، نموذج كبير للتحقق
استراتيجيات المعالجة الموازية: المقايضة بين الذاكرة المحدودة والحساب المحدود

الخلاصة والمناقشة

الاستنتاجات الرئيسية

المساهمة النظرية: إنشاء روابط نظرية بين نماذج العمق المتكرر والنماذج الانتشارية
القيمة العملية: تحقيق تسريع استدلال بمعدل 5 أضعاف مع الحفاظ على جودة التوليد
العمومية: يمكن تطبيق الطريقة مباشرة على النماذج الموجودة دون إعادة تدريب
منظور جديد: يمكن اعتبار نماذج العمق المتكرر كنماذج لغة انتشارية سببية مستمرة

القيود

قيود معالجة الدفعات: يدعم التنفيذ الحالي فقط استدلال تسلسل واحد، وتتطلب سيناريوهات معالجة الدفعات محرك استدلال معقد
كفاءة FLOP: بينما تزيد درجة المعالجة الموازية، يزداد استخدام FLOP فعلياً
الاعتماد على الأجهزة: تعتمد إعدادات المعاملات المثلى على تكوين أجهزة محدد
متطلبات النموذج: يتطلب النموذج استيفاء متطلبات معمارية محددة (حقن الإدخال، التكرار القوي، إلخ)

الاتجاهات المستقبلية

محرك استدلال معالجة الدفعات: تطوير أنظمة تدعم استدلال دفعات كبيرة
تحسين المعمارية: تصميم معمارية عمق متكرر أكثر ملاءمة لأخذ العينات الانتشاري القسري
أهداف التدريب: استكشاف تطبيق أهداف الفتح في نمذجة اللغة الانتشارية
تعميق النظرية: مزيد من البحث في الأساس النظري لنماذج العمق المتكرر كنماذج انتشارية

التقييم المتعمق

المزايا

ابتكار قوي: أول من يربط نماذج العمق المتكرر بالنماذج الانتشارية، مما يوفر منظوراً نظرياً جديداً
قيمة عملية عالية: تحقيق تسريع استدلال كبير، قابل للتطبيق المباشر على النماذج الموجودة
صرامة نظرية: توفير تحليل نظري لتحجيم العمق مقابل العرض وإثبات التقارب
تجارب شاملة: التحقق من فعالية الطريقة وقوتها على معايير متعددة ومتغيرات نموذج

أوجه القصور

قيود نطاق التطبيق: تتطلب الطريقة استيفاء النموذج لمتطلبات معمارية محددة، مما يحد من العمومية
دعم معالجة الدفعات غير كافٍ: يقيد استدلال التسلسل الواحد التطبيق في بيئات الإنتاج
النفقات العامة للذاكرة: على الرغم من مشاركة ذاكرة التخزين المؤقت KV، لا تزال هناك حاجة لتخزين حالة كامنة إضافية
حساسية المعاملات: تتطلب معاملات متعددة ضبطاً لمهام وأجهزة مختلفة

التأثير

المساهمة الأكاديمية: توفير نقطة تقاطع جديدة لبحث نماذج العمق المتكرر والنماذج الانتشارية
القيمة الهندسية: توفير مسار تقني جديد لتحسين استدلال النماذج الكبيرة
الدلالة الإلهامية: قد تلهم المزيد من الأبحاث حول الجمع بين معمارية النموذج واستراتيجيات أخذ العينات

السيناريوهات المناسبة

استدلال المستخدم الواحد: توليد النصوص في التطبيقات الشخصية أو الصغيرة الحجم
مهام الاستدلال الكثيفة: مهام تتطلب استدلالاً متعدد الخطوات مثل الرياضيات والبرمجة
البيئات ذات الموارد المحدودة: السيناريوهات التي تتطلب تحسين كفاءة الاستدلال مع موارد حسابية محدودة
النماذج الأولية للبحث: مزيد من البحث في نماذج العمق المتكرر وأخذ العينات الانتشاري

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:

Dehghani et al. (2019): العمل الأصلي لـ Universal Transformers
Chen et al. (2024a): طريقة Diffusion Forcing
Geiping et al. (2025): نموذج Huginn-0125 للعمق المتكرر
Rombach et al. (2022): نماذج الانتشار في الفضاء الكامن
Leviathan et al. (2023): طريقة فك التشفير التكهني

التقييم الشامل: هذه ورقة بحثية عالية الجودة بمساهمات مهمة في الابتكار النظري والقيمة العملية. نجحت الورقة في إنشاء روابط بين فئتين مهمتين من النماذج، واقترحت طريقة تسريع عملية. بينما توجد بعض القيود، فإنها توفر اتجاهات قيمة وأساس للبحث المستقبلي.