Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
التنبؤ بالمقياس الدلالي التالي عبر نماذج اللغة الانتشار الهرمية
تقدم هذه الورقة نماذج اللغة الانتشار الهرمية (HDLM) - نموذج انتشار منفصل جديد لنمذجة اللغة. يعتمد HDLM على مفردات هرمية، حيث يتم تعيين الرموز منخفضة المستوى ذات الدلالات التفصيلية بشكل شامل إلى رموز عالية المستوى ذات معاني خشنة الحبيبات. في العملية الأمامية، يتم إزعاج كل رمز بشكل مستقل وفقاً لجدول زمني إلى أسلاف عالية المستوى بدلالات أكثر تجريداً، بينما في العملية العكسية، يتنبأ النموذج تدريجياً بالدلالة التالية الأكثر تفصيلاً. يوفر HDLM عملية تنبؤ دلالي متغيرة بمرور الوقت للمقياس التالي لنمذجة اللغة. يشتق المؤلفون تعبيراً مغلق الشكل لحد الدليل السفلي للانتشار (ELBO)، ويثبتون أن HDLM يمكن تنفيذه بمرونة مع اعتبار MDLM الحالي حالة خاصة.
على الرغم من أن نماذج اللغة الانحدارية الذاتية هي الطريقة الحديثة الأكثر تقدماً، إلا أن مخطط التنبؤ برمز واحد يحد بشكل أساسي من القدرة على مراجعة الرموز المولدة سابقاً. تحظى نماذج الانتشار باهتمام لقدرتها على إزالة الضوضاء التدريجية والتحسين، لكن طرق الانتشار المنفصلة الحالية لا تزال تواجه قيوداً كبيرة في نمذجة اللغة.
يقترح المؤلفون تعظيم مزايا نماذج الانتشار من خلال إدخال هياكل دلالية هرمية، لتحقيق التوليد بأي ترتيب والتحسين الذاتي التدريجي، مشابهاً للتنبؤ بالمقياس التالي في نماذج الانحدار الذاتي البصرية (VAR).
تتمثل مهمة HDLM في التنبؤ التدريجي برموز أكثر تفصيلاً من خلال هيكل دلالي هرمي، بالنظر إلى إدخال مشوب بالضوضاء، حتى استعادة المفردات الأصلية. الإدخال عبارة عن رموز مشوبة بالضوضاء في مستويات مختلفة، والإخراج عبارة عن توزيع تنبؤ على مستوى الكلمة.
تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار ونمذجة اللغة ونمذجة فضاء الحالة المنفصلة، بما في ذلك الأعمال الأساسية الرئيسية مثل D3PM و MDLM و GIDD، وكذلك نماذج اللغة الكلاسيكية مثل سلسلة GPT و BERT.