2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

التنبؤ بالمقياس الدلالي التالي عبر نماذج اللغة الانتشار الهرمية

المعلومات الأساسية

معرّف الورقة: 2510.08632
العنوان: التنبؤ بالمقياس الدلالي التالي عبر نماذج اللغة الانتشار الهرمية
المؤلفون: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
التصنيف: cs.CL cs.LG
المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية)
رابط الورقة: https://arxiv.org/abs/2510.08632

الملخص

تقدم هذه الورقة نماذج اللغة الانتشار الهرمية (HDLM) - نموذج انتشار منفصل جديد لنمذجة اللغة. يعتمد HDLM على مفردات هرمية، حيث يتم تعيين الرموز منخفضة المستوى ذات الدلالات التفصيلية بشكل شامل إلى رموز عالية المستوى ذات معاني خشنة الحبيبات. في العملية الأمامية، يتم إزعاج كل رمز بشكل مستقل وفقاً لجدول زمني إلى أسلاف عالية المستوى بدلالات أكثر تجريداً، بينما في العملية العكسية، يتنبأ النموذج تدريجياً بالدلالة التالية الأكثر تفصيلاً. يوفر HDLM عملية تنبؤ دلالي متغيرة بمرور الوقت للمقياس التالي لنمذجة اللغة. يشتق المؤلفون تعبيراً مغلق الشكل لحد الدليل السفلي للانتشار (ELBO)، ويثبتون أن HDLM يمكن تنفيذه بمرونة مع اعتبار MDLM الحالي حالة خاصة.

الخلفية البحثية والدافع

1. المشكلة المراد حلها

تواجه نماذج اللغة الانتشار المنفصلة الحالية عدة قيود أساسية:

الانتشار المقنع: جميع الرموز المقنعة لها نفس تضمين القناع، وتفتقر إلى دلالات غنية؛ لا يمكنها تصحيح الرموز المولدة بنفسها
الانتشار المنتظم: نفس الرمز يعمل كضوضاء في مرحلة الضوضاء لكنه يصبح ذا معنى عند فك التشفير، مما يؤدي إلى عدم اتساق دلالي وارتباك

2. أهمية المشكلة

على الرغم من أن نماذج اللغة الانحدارية الذاتية هي الطريقة الحديثة الأكثر تقدماً، إلا أن مخطط التنبؤ برمز واحد يحد بشكل أساسي من القدرة على مراجعة الرموز المولدة سابقاً. تحظى نماذج الانتشار باهتمام لقدرتها على إزالة الضوضاء التدريجية والتحسين، لكن طرق الانتشار المنفصلة الحالية لا تزال تواجه قيوداً كبيرة في نمذجة اللغة.

3. قيود الطرق الموجودة

MDLM و MD4: الرموز المقنعة تفتقر إلى دلالات غنية، لا يمكنها التصحيح الذاتي
الانتشار المنفصل المنتظم: أداء ضعيفة، عدم اتساق دلالي
GIDD: على الرغم من توحيد الأقنعة والضوضاء المنتظمة، فإن رموز الضوضاء لا تزال تفتقر إلى دلالات غنية، وقدرة التصحيح الذاتي محدودة

4. الدافع البحثي

يقترح المؤلفون تعظيم مزايا نماذج الانتشار من خلال إدخال هياكل دلالية هرمية، لتحقيق التوليد بأي ترتيب والتحسين الذاتي التدريجي، مشابهاً للتنبؤ بالمقياس التالي في نماذج الانحدار الذاتي البصرية (VAR).

المساهمات الأساسية

اقتراح إطار عمل HDLM: إطار عمل شامل ومرن لنمذجة اللغة الانتشار المنفصلة، يتم تنفيذه من خلال التنبؤ الدلالي المتغير بمرور الوقت للمقياس التالي
إنشاء أساس نظري صارم: بناءً على إطار عمل سلسلة ماركوف في الوقت المستمر (CTMC)، اشتقاق ELBO مغلق الشكل للانتشار المنفصل الهرمي
إثبات التوافقية: إثبات نظري بأن MDLM هي حالة خاصة من HDLM، مما يوضح عمومية الإطار
اقتراح تقنيات عملية: اقتراح تقنيات تدريب وأخذ عينات محسّنة بناءً على الرؤى النظرية
تحقيق تحسن الأداء: إظهار تحسن مستمر في حيرة التحقق والتوليد مقارنة بخطوط الأساس في تجارب توليد النصوص

شرح الطريقة

تعريف المهمة

تتمثل مهمة HDLM في التنبؤ التدريجي برموز أكثر تفصيلاً من خلال هيكل دلالي هرمي، بالنظر إلى إدخال مشوب بالضوضاء، حتى استعادة المفردات الأصلية. الإدخال عبارة عن رموز مشوبة بالضوضاء في مستويات مختلفة، والإخراج عبارة عن توزيع تنبؤ على مستوى الكلمة.

معمارية النموذج

1. تصميم المفردات الهرمية

مستويات المفردات: هيكل هرمي من رموز الكلمات النظيفة x إلى رموز المجموعات c إلى رموز الأقنعة m: x → c → m
علاقات التعيين: تعيين الرموز منخفضة المستوى إلى رموز عالية المستوى من خلال دالة شاملة c = Γx، حيث Γ ∈ R^{|C|×|V|}

2. العملية الأمامية

التوزيع الهامشي للعملية الأمامية هو:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

حيث β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. إطار عمل CTMC

مصفوفة المولد غير المتجانسة زمنياً هي:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. العملية العكسية

استخدام عملية عكسية قياسية:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

نقاط الابتكار التقني

1. الهيكل الدلالي الهرمي

الدلالات التدريجية: يمكن اعتبار المستويات الوسيطة رموزاً مفككة جزئياً، توفر دلالات أغنى من رمز قناع واحد
فك التشفير المرن: عدم اليقين في الدلالات الخشنة الحبيبات يسمح بمرونة فك تشفير أكبر

2. اشتقاق ELBO مغلق الشكل

خسارة التدريب المشتقة هي مزيج مرجح من خسائر الإنتروبيا المتقاطعة:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. آلية الإزعاج العشوائي

إدخال احتمالية الإزعاج ξ < 1، مما يسمح برموز الكلمات بالانتقال باحتمالية 1-ξ إلى مجموعة خاطئة، مما يحسن قدرة النموذج على التصحيح الذاتي.

إعداد التجارب

مجموعات البيانات

مجموعة البيانات الرئيسية: OpenWebText (OWT)، تحتوي على 131B رمز تدريب
مجموعات بيانات إضافية: LM1B (33B رمز) للتحقق الإضافي
طول السياق: 512 رمز، بدون حزم الجمل

مؤشرات التقييم

حيرة التحقق (Valid. PPL): حيرة مجموعة التحقق من OWT
حيرة التوليد (Gen. PPL): تقييم عينات التوليد باستخدام GPT2-large كنموذج مرجعي
المهام اللاحقة: ARC، BoolQ، PIQA، OpenBookQA، WinoGrande، وغيرها

طرق المقارنة

نماذج الانحدار الذاتي: GPT-2، Llama-110M
نماذج الانتشار المنفصلة: SEDD، MDLM، GIDD+

تفاصيل التنفيذ

معمارية النموذج: معمارية DiT، صغيرة (170M معامل) وأساسية (425M معامل)
محسّن: Adam (β=(0.9,0.99))، معدل التعلم 5×10^{-4}
خطوات التدريب: 500k خطوة، حجم الدفعة 512
قص الأوزان: قص أوزان الخسارة w_{t,m}، w_{t,c} إلى 2.0 أو 10.0 لتثبيت التحسين

نتائج التجارب

النتائج الرئيسية

النموذج	رموز التدريب	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

النتائج الرئيسية:

HDLM-small يتفوق على طرق الانتشار المنفصلة الأخرى في حيرة التحقق والتوليد
HDLM-base يحقق حيرة 19.22، متفوقاً أو مطابقاً لأداء نماذج الانحدار الذاتي

تجارب الاستئصال

1. تأثير عدد المجموعات

عدد المجموعات الأمثل حوالي 64-128 (تقريباً الجذر التربيعي لحجم المفردات)
عند n=1 يتم استعادة أداء MDLM، مما يتحقق من التحليل النظري

2. تأثير الإزعاج العشوائي

حيرة التوليد تنخفض بنسبة 51% عند ξ=0.9 (من 144.2 إلى 69.76)
حيرة التوليد تنخفض بنسبة 62% عند ξ=0.8 (إلى 54.15)
إثبات تحسن كبير في قدرة التصحيح الذاتي

3. جدولة العملية الأمامية

كلما زادت قيمة γ، كلما كانت مهمة إزالة الضوضاء أحادية الخطوة أصعب، لكن أداء الاستدلال الفعلية أفضل
عند γ=3 يتم الحصول على أفضل حيرة توليد 135.9

أداء المهام اللاحقة

في عدة مهام فهم، يحقق HDLM-small دقة متوسطة 39.62%، متفوقاً على GIDD بنسبة 38.53%، مما يوضح قدرة تعميم قوية.

الأعمال ذات الصلة

1. تطور نماذج الانتشار المنفصلة

D3PM: وضع الأساس النظري للانتشار المنفصل
SEDD: تعلم درجات محددة كنسبة توزيع هامشية
MDLM/MD4: تبسيط هدف التدريب للعملية الأمامية المقنعة

2. توسيع نطاق نماذج اللغة الانتشار

LLaDA و Dream: إظهار إمكانية توسيع نطاق نماذج اللغة الانتشار
Block Diffusion: استكشاف نموذج جديد لتوليد كتل النصوص الانحدارية الذاتية والانتشار داخل الكتل

3. مزايا هذه الورقة مقارنة بالأعمال ذات الصلة

توفير إجراء ضوضاء جديد، بسيط المفهوم وعملي الفعالية
الحفاظ على قدرة التصحيح الذاتي مع تجنب عيوب الضوضاء المنتظمة
إنشاء إطار نظري صارم و ELBO مغلق الشكل

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحسن HDLM نمذجة اللغة الانتشار المنفصلة بشكل فعال من خلال مخطط "التنبؤ الدلالي للمقياس التالي"
يوفر الهيكل الدلالي الهرمي تمثيلات وسيطة أغنى من رمز القناع التقليدي
تعزز آلية الإزعاج العشوائي بشكل كبير قدرة النموذج على التصحيح الذاتي
يتمتع الإطار النظري بعمومية وقابلية توسع جيدة

القيود

اعتماد جودة التجميع: استخدام تجميع K-means محدد مسبقاً حالياً، وتؤثر جودة التجميع بشكل كبير على الأداء
التعقيد الحسابي: قد تزيد الهياكل متعددة المستويات من التعقيد الحسابي للتدريب والاستدلال
حساسية المعاملات الفائقة: تتطلب ضبط دقيق للمعاملات الفائقة مثل قص الأوزان لتثبيت التدريب

الاتجاهات المستقبلية

استكشاف طرق تعلم هيكل هرمي أكثر تعقيداً (مثل DeepSets)
دراسة تنفيذ وتحسين مستويات وسيطة متعددة
توسيع الإطار إلى نماذج لغة أكبر حجماً
استكشاف التطبيقات في المهام متعددة الأنماط

التقييم المتعمق

المزايا

مساهمة نظرية صلبة: توفير إطار عمل CTMC كامل واشتقاق رياضي صارم
ابتكار الطريقة قوي: أول من يدخل الهياكل الدلالية الهرمية في نماذج اللغة الانتشار المنفصلة
تصميم التجارب شامل: يتضمن دراسات استئصال شاملة وتجارب مقارنة
قيمة عملية عالية: يمكن تطبيق التقنيات المقترحة مباشرة على أطر الانتشار الموجودة

أوجه القصور

قيود الحجم: تركز التجارب بشكل أساسي على نماذج متوسطة وصغيرة الحجم، التحقق على نطاق واسع غير كافٍ
طريقة التجميع البسيطة: طريقة التجميع الدلالي الحالية نسبياً أساسية، قد تحد من حد الأداء الأعلى
تقييم جودة التوليد: يعتمد بشكل أساسي على مؤشر الحيرة، يفتقر إلى التقييم البشري وتحليل التنوع

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لنمذجة اللغة الانتشار المنفصلة
القيمة العملية: الطريقة بسيطة وسهلة التنفيذ، من المتوقع أن تنتشر في التطبيقات العملية
قابلية الاستنساخ: يوفر المؤلفون تنفيذ كود كامل وإعداد تجارب مفصل

السيناريوهات المعمول بها

مهام توليد النصوص: مناسبة بشكل خاص للسيناريوهات التي تتطلب تحسين تدريجي
توليد النصوص القابل للتحكم: يسهل الهيكل الهرمي تنفيذ التحكم بدرجات حبيبات مختلفة
تحرير وتعديل النصوص: تجعل قدرة التصحيح الذاتي مناسبة لمهام تعديل النصوص

المراجع

تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار ونمذجة اللغة ونمذجة فضاء الحالة المنفصلة، بما في ذلك الأعمال الأساسية الرئيسية مثل D3PM و MDLM و GIDD، وكذلك نماذج اللغة الكلاسيكية مثل سلسلة GPT و BERT.