2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

فتح إمكانات نماذج اللغة الانتشارية من خلال ملء القوالب

المعلومات الأساسية

معرّف الورقة: 2510.13870
العنوان: Unlocking the Potential of Diffusion Language Models through Template Infilling
المؤلفون: Junhoo Lee (جامعة سيول الوطنية)، Seungyeon Kim (جامعة Sungkyunkwan)، Nojun Kwak (جامعة سيول الوطنية)
التصنيف: cs.CL cs.AI
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.13870

الملخص

ظهرت نماذج اللغة الانتشارية (DLMs) كبديل واعد للنماذج اللغوية الانحدارية الذاتية، لكن استراتيجيات الاستدلال بها تقتصر على التلميح القائم على البادئة الموروث من النموذج الانحداري الذاتي. تقترح هذه الورقة ملء القوالب (TI)، وهي طريقة تكييف مخصصة لعملية توليد DLMs. بخلاف التلميح بالبادئة التقليدي، يقوم TI أولاً بإنشاء قالب هيكلي للاستجابة المستهدفة، ثم ملء المقاطع المقنعة. لتعزيز مرونة هذا التحكم الهيكلي، يقدم المؤلفون تخصيص المقاطع الديناميكي (DSA)، الذي يعدل طول المقطع بشكل تكيفي بناءً على ثقة التوليد. في معايير الاستدلال الرياضي وتوليد الأكواد، حققت الطريقة تحسناً في الاتساق بنسبة 17.01% مقارنة بخط الأساس. علاوة على ذلك، يوفر TI مزايا إضافية في إعدادات توليد متعددة الرموز، مما يحقق تسريعاً فعالاً مع الحفاظ على جودة التوليد.

الخلفية البحثية والدافع

تعريف المشكلة

تولد نماذج اللغة الانتشارية (DLMs) النصوص من خلال عملية إزالة الضوضاء التكرارية، وهي تختلف بشكل أساسي عن نموذج التوليد من اليسار إلى اليمين في نماذج اللغة الانحدارية الذاتية (ALMs). تتمتع DLMs بالقدرة على التوليد الشرطي لأي مجموعة من المواضع، مع القدرة على نمذجة السياق ثنائي الاتجاه.

قيود الطرق الموجودة

استراتيجيات الاستدلال المحدودة: يتبع البحث الحالي في DLMs بشكل أساسي طرق التلميح القائمة على البادئة الموروثة من النماذج الانحدارية الذاتية
الإمكانيات غير المستخدمة بالكامل: يركز معظم البحث على استخدام قدرة توليد متعددة الرموز المتوازية في DLMs لتقليل تكاليف الاستدلال فقط
عدم توافق استراتيجية التكييف: غياب طرق التكييف المصممة خصيصاً لقدرة التوليد ثنائي الاتجاه في DLMs

الدافع البحثي

توفر قدرة التوليد الشرطي ثنائي الاتجاه في DLMs إمكانيات جديدة لتوليد النصوص، لكن طرق التقييم والتطبيق الحالية لا تستفيد بالكامل من هذه الميزة. يعتقد المؤلفون بضرورة تصميم طرق تكييف جديدة مخصصة لخصائص DLMs.

المساهمات الأساسية

اقتراح إطار Template Infilling (TI): طريقة توليد شرطي مخصصة تستفيد من قدرة التوليد ثنائي الاتجاه في DLMs
تصميم خوارزمية Dynamic Segment Allocation (DSA): آلية تعديل طول المقطع التكيفية القائمة على الثقة
التحقق التجريبي من الفعالية: تحسن متوسط بنسبة 17.01% في الأداء على مهام الاستدلال الرياضي وتوليد الأكواد
مزايا التوليد متعدد الرموز: إثبات أن TI يحافظ على استقرار الأداء عند توليد عدة رموز بالتوازي
إنشاء نموذج جديد: فتح اتجاه بحثي جديد لتصميم استراتيجيات التكييف في DLMs

شرح الطريقة

تعريف المهمة

باستخدام قدرة التوليد الشرطي ثنائي الاتجاه في DLMs، وبناءً على سياق الإدخال، توجيه عملية التوليد من خلال قالب منظم لإنتاج استجابة مستهدفة عالية الجودة.

معمارية النموذج

3.1 النظرية الأساسية

نموذج اللغة الانحداري الذاتي:

p(xt|x<t) = p(xt|x1, ..., xt-1)

نموذج اللغة الانتشاري:

p(x(t-1)|x(t))

حيث الخاصية الرئيسية لـ DLMs هي القدرة على التوليد الشرطي لأي مجموعة من المواضع:

p(xM|xO)

حيث O هي المواضع المرصودة، M هي المواضع المقنعة، و O∩M = ∅, O∪M = {1,...,N}

3.2 ملء القوالب (Template Infilling - TI)

يعمم TI التكييف بالبادئة التقليدي إلى ملء القوالب. يتم أولاً بناء قالب τ يحدد هيكل عظمي الاستجابة المستهدفة:

τ = [t1, M1, t2, M2, ..., tk, Mk]

حيث:

ti: نقاط تثبيت القالب (عناصر هيكلية محددة مسبقاً)
Mi: مقاطع مقنعة في انتظار الملء

3.3 تخصيص المقاطع الديناميكي (Dynamic Segment Allocation - DSA)

لحل قيود موضع القالب الثابت، يعدل DSA طول المقطع بشكل ديناميكي بناءً على الثقة.

تعريف الثقة:

ci = max p(xi = v|xO, xM\{i})
    v∈V

آلية توسيع المقطع: عندما تكون متوسط الثقة للمقطع Mi أقل من الحد الأدنى τ، يتم التوسيع من خلال إدراج رموز مقنعة إضافية:

M(k+1)_i = M(k)_i ∪ |Δ|

نقاط الابتكار التقني

التوليد الشرطي المنظم: توفير أولويات هيكلية صريحة من خلال نقاط تثبيت القالب، بدلاً من التوجيه الضمني بالبادئة
الاتساق العام: الاستفادة من قدرة DLMs على النظر في جميع المقاطع في نفس الوقت، لتوليد استجابات متماسكة عالمياً
تعديل الطول التكيفي: آلية تخصيص ديناميكية قائمة على الثقة، تحل مشكلة قيود الطول الثابت
استخدام السياق ثنائي الاتجاه: الاستفادة الكاملة من مزايا معمارية نمذجة DLMs ثنائية الاتجاه

إعداد التجارب

مجموعات البيانات

الاستدلال الرياضي: GSM8K - مجموعة بيانات مسائل الرياضيات التطبيقية للمدارس الابتدائية
توليد الأكواد: HumanEval - مجموعة بيانات تقييم قدرة تركيب البرامج

مقاييس التقييم

GSM8K: الدقة (Accuracy)
HumanEval: مقياس pass@1 (صحة المحاولة الواحدة)

طرق المقارنة

Fixed-Length Denoising: طرق خط الأساس بأطوال ثابتة مختلفة (64، 128، 256، 512)
Prefix-based Template: طريقة التلميح بالبادئة التقليدية

تفاصيل التنفيذ

النموذج الأساسي: LLaDA (Nie et al., 2025)
الأجهزة: وحدة معالجة رسومات NVIDIA RTX Pro 6000 واحدة
حد الثقة: 0.1
إعداد التقييم: التعلم بدون عينات، باستخدام Language Model Evaluation Harness
طريقة التوليد: التحديث المتوازي الكامل (بدون توليد الكتل)

نتائج التجارب

النتائج الرئيسية

الطريقة	GSM8K	HumanEval	المتوسط
خط الأساس (128)	48.75	11.59	30.17
TI	56.56	18.29	37.43
TI+DSA	72.10	22.50	47.30

الاكتشافات الأساسية:

يحقق TI تحسناً متوسطاً بنسبة 17.01% مقارنة بخط الأساس
يحقق TI+DSA تحسناً إضافياً، ويصل إلى أفضل أداء
يحقق تحسناً متسقاً عبر أنواع المهام المختلفة

التجارب الاستئصالية

مقارنة التلميح بالبادئة مقابل ملء القوالب

الطريقة	GSM8K	HumanEval	المتوسط
تلميح القالب بالبادئة	51.25	5.49	28.37
TI	56.56	18.29	37.26

يحقق TI تحسناً متوسطاً بنسبة 8.89% مقارنة بطريقة البادئة، مما يثبت مزايا التكييف المنظم.

تحليل التوليد متعدد الرموز

الطريقة	1 رمز	2 رمز	4 رموز	8 رموز	16 رمز
خط الأساس	48.75	47.84	44.73	35.48	18.50
TI	56.56	55.50	53.90	52.69	48.60

الاكتشافات الرئيسية: تنخفض أداء طريقة خط الأساس بشكل حاد عند توليد عدة رموز، بينما يحافظ TI على استقرار نسبي، مما يعكس مزايا التوجيه المنظم.

نتائج التجارب

عدم الاعتماد على المهمة: يحقق TI تحسناً في مجالين مختلفين - الاستدلال الرياضي وتوليد الأكواد
مزايا التنظيم: يتفوق ملء القوالب بشكل واضح على التلميح بالبادئة التقليدي
استقرار التوليد المتوازي: يحافظ TI على استقرار الأداء عند التوليد المتوازي لعدة رموز
فعالية التوجيه بالثقة: تحسن آلية DSA التكيفية الأداء بشكل إضافي

الأعمال ذات الصلة

تطور نماذج اللغة الانتشارية

الأعمال المبكرة: D3PM وضع الأساس للانتشار المنفصل، SEDD حسّن النمذجة من خلال熵 الدرجات
البحث على نطاق واسع: أظهرت LLaDA قابلية توسع DLMs على مستوى 8B
تحسين الكفاءة: يركز البحث الموجود بشكل أساسي على تقليل التكاليف الحسابية من خلال آليات التخزين المؤقت والتوليد متعدد الرموز

تقنيات التلميح في نماذج اللغة

النماذج الانحدارية الذاتية: التعلم بعدة عينات في GPT-3، توجيه الاستدلال في Chain-of-Thought
طرق الملء: تظل تقنيات الملء الموجودة مقيدة بالقيود أحادية الاتجاه
مساهمة هذه الورقة: أول استراتيجية تكييف ثنائية الاتجاه مخصصة لـ DLMs

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينجح ملء القوالب في الاستفادة من قدرة التوليد ثنائي الاتجاه في DLMs، محققاً تحسناً ملحوظاً في الأداء
يوفر تخصيص المقاطع الديناميكي آلية تحكم هيكلي مرن
يعرض TI مزايا فريدة في سيناريوهات التوليد المتوازي متعدد الرموز
تفتح هذه الطريقة اتجاهاً بحثياً جديداً لتطبيقات DLMs

القيود

قيود نموذج التدريب: لا تزال نماذج الضبط الدقيق للتعليمات الحالية مدربة على نموذج التلميح-الاستدلال التقليدي، وليست محسّنة لـ TI
الاعتماد على تصميم القالب: يتطلب تصميماً يدوياً لهياكل القوالب المناسبة
نطاق التقييم: تم التحقق فقط على مهام الاستدلال الرياضي وتوليد الأكواد، ويتطلب تقييماً أوسع للمهام

الاتجاهات المستقبلية

تكامل التدريب: دمج TI في عملية الضبط الدقيق للتعليمات، وتحسين قدرة التكييف بالقالب من مرحلة التدريب
توليد القالب التلقائي: البحث عن طرق لتوليد قوالب خاصة بالمهام بشكل تلقائي
التحقق من المهام الأوسع: التحقق من فعالية TI على نطاق أوسع من مهام معالجة اللغة الطبيعية

التقييم المتعمق

المزايا

ابتكار قوي: أول تصميم طريقة تكييف مخصصة لخاصية التوليد ثنائي الاتجاه في DLMs، متجاوزاً قيود التلميح بالبادئة التقليدي
معقولية الطريقة: يستفيد تصميم TI و DSA بالكامل من مزايا معمارية DLMs، مع أساس نظري متين
تجارب شاملة: التحقق من فعالية الطريقة من خلال تجارب مقارنة متعددة وأبحاث استئصالية
القيمة العملية: الاستقرار في سيناريوهات التوليد متعدد الرموز يوفر قيمة للتطبيقات العملية
الكتابة الواضحة: هيكل الورقة واضح، وصف الطريقة مفصل، سهل الفهم والتكرار

أوجه القصور

نطاق التقييم محدود: التحقق على نوعي مهام فقط، يفتقد التقييم الأوسع للمهام
الاعتماد على القالب: يتطلب تصميماً يدوياً للهياكل، قد يحد من عمومية الطريقة
نقص التحليل النظري: غياب تحليل نظري متعمق حول سبب تحسن TI للأداء
تحليل التكلفة الحسابية: لم يتم تحليل تكاليف الحساب بالتفصيل مقارنة بطرق خط الأساس
الدلالة الإحصائية: غياب تقارير اختبارات الدلالة الإحصائية

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد لبحث DLMs، الانتقال من تحسين الكفاءة إلى الاستفادة الكاملة من الإمكانيات
القيمة العملية: توفير طريقة تحسين الأداء جاهزة للاستخدام بدون تدريب إضافي
القيمة الإلهامية: إلهام الباحثين لإعادة التفكير في كيفية تصميم استراتيجيات التكييف المناسبة لمعماريات النماذج الجديدة
قابلية التكرار: توفير تفاصيل تنفيذ مفصلة، مما يسهل على الباحثين الآخرين التكرار والتحسين

السيناريوهات المناسبة

مهام التوليد المنظم: مناسب بشكل خاص للمهام التي تتطلب إخراجاً بهيكل معين، مثل حل المسائل الرياضية وتوليد الأكواد
التوليد المتوازي متعدد الرموز: يتمتع بمزايا فريدة في السيناريوهات التي تتطلب تسريع الاستدلال
تطبيقات DLMs: توفير حل تحسين الأداء لجميع نماذج اللغة القائمة على الانتشار
أداة البحث: توفير نموذج تجريبي جديد للبحث عن حدود إمكانيات DLMs

المراجع

تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:

أساس نماذج الانتشار: Ho et al. (2020) - نماذج الاحتمالية الانتشارية لإزالة الضوضاء
تطور DLMs: Austin et al. (2021) - D3PM، Lou et al. (2023) - SEDD، Nie et al. (2025) - LLaDA
تلميح نماذج اللغة: Brown et al. (2020) - GPT-3، Wei et al. (2022) - Chain-of-Thought
معايير التقييم: Cobbe et al. (2021) - GSM8K، Chen et al. (2021) - HumanEval

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح طريقة تكييف مبتكرة لنماذج اللغة الانتشارية. على الرغم من وجود بعض القيود في نطاق التقييم والتحليل النظري، فإن الفكرة الأساسية جديدة، والنتائج التجريبية مقنعة، وتوفر مساهمة قيمة لبحث وتطبيق DLMs. من المتوقع أن يدفع هذا العمل تطور نماذج اللغة الانتشارية من مجرد تحسين الكفاءة نحو الاستفادة الكاملة من الإمكانيات.