2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic

पदानुक्रमित विसरण भाषा मॉडल के माध्यम से अगला शब्दार्थ पैमाना पूर्वानुमान

मूल जानकारी

  • पेपर ID: 2510.08632
  • शीर्षक: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
  • लेखक: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
  • वर्गीकरण: cs.CL cs.LG
  • प्रकाशन सम्मेलन: NeurIPS 2025 (39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2510.08632

सारांश

यह पेपर पदानुक्रमित विसरण भाषा मॉडल (HDLM) का परिचय देता है—भाषा मॉडलिंग के लिए एक नया असतत विसरण मॉडल। HDLM एक पदानुक्रमित शब्दावली पर आधारित है, जहाँ विस्तृत शब्दार्थ वाले निम्न-स्तरीय टोकन को मोटे-दाने वाले अर्थ वाले उच्च-स्तरीय टोकन में विशेषण रूप से मैप किया जाता है। अग्रगामी प्रक्रिया में, प्रत्येक टोकन अनुसूचक के अनुसार स्वतंत्र रूप से अधिक अमूर्त शब्दार्थ वाले उच्च-स्तरीय पूर्वज में विक्षुब्ध होता है, जबकि विपरीत प्रक्रिया में, मॉडल क्रमिक रूप से अगले अधिक विस्तृत शब्दार्थ की भविष्यवाणी करता है। HDLM भाषा मॉडलिंग के लिए एक सामान्य समय-परिवर्तनशील अगला शब्दार्थ पैमाना पूर्वानुमान प्रक्रिया प्रदान करता है। लेखकों ने विसरण साक्ष्य निचली सीमा (ELBO) के लिए एक बंद-रूप अभिव्यक्ति प्राप्त की है, और प्रदर्शित किया है कि HDLM लचीले ढंग से लागू किया जा सकता है, जबकि मौजूदा MDLM को एक विशेष मामले के रूप में शामिल करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या को हल करना

मौजूदा असतत विसरण भाषा मॉडल में कई मौलिक सीमाएँ हैं:

  • मास्क विसरण: सभी मास्क किए गए टोकन में समान मास्क एम्बेडिंग होती है, समृद्ध शब्दार्थ की कमी; पहले से उत्पन्न टोकन को स्वयं सुधारने में असमर्थ
  • समान विसरण: एक ही टोकन शोर चरण में शोर के रूप में कार्य करता है लेकिन डिकोडिंग के समय सार्थक हो जाता है, जिससे शब्दार्थ असंगति और भ्रम होता है

2. समस्या की महत्ता

स्वचालित प्रतिगामी भाषा मॉडल वर्तमान में अत्याधुनिक विधि हैं, लेकिन उनकी अगला-टोकन पूर्वानुमान योजना मौलिक रूप से पहले से उत्पन्न टोकन को संशोधित करने की क्षमता को सीमित करती है। विसरण मॉडल अपनी क्रमिक विनोइसिंग और परिशोधन क्षमता के लिए ध्यान आकर्षित कर रहे हैं, लेकिन मौजूदा असतत विसरण विधियों में भाषा मॉडलिंग में अभी भी महत्वपूर्ण सीमाएँ हैं।

3. मौजूदा विधियों की सीमाएँ

  • MDLM और MD4: मास्क किए गए टोकन में समृद्ध शब्दार्थ की कमी, स्वयं सुधार में असमर्थ
  • समान असतत विसरण: कमजोर प्रदर्शन, शब्दार्थ असंगति
  • GIDD: हालांकि मास्क और समान शोर को एकीकृत करता है, लेकिन शोर टोकन में अभी भी समृद्ध शब्दार्थ की कमी है, स्वयं सुधार क्षमता सीमित है

4. अनुसंधान प्रेरणा

लेखकों ने शब्दार्थ पदानुक्रम को पेश करके विसरण मॉडल के लाभों को अधिकतम करने का प्रस्ताव दिया है, जो दृश्य स्वचालित प्रतिगामी मॉडल (VAR) में अगले-पैमाने पूर्वानुमान के समान, मनमाने क्रम में उत्पादन और क्रमिक स्वयं-परिशोधन को सक्षम करता है।

मुख्य योगदान

  1. HDLM ढांचा प्रस्तावित किया: एक सामान्य और लचीला असतत विसरण भाषा मॉडलिंग ढांचा, समय-परिवर्तनशील अगला शब्दार्थ पैमाना पूर्वानुमान के माध्यम से लागू किया गया
  2. कठोर सैद्धांतिक आधार स्थापित किया: निरंतर-समय मार्कोव श्रृंखला (CTMC) ढांचे के आधार पर, पदानुक्रमित असतत विसरण के लिए बंद-रूप ELBO प्राप्त किया
  3. संगतता प्रमाणित की: सैद्धांतिक रूप से प्रमाणित किया कि MDLM HDLM का एक विशेष मामला है, ढांचे की सामान्यता प्रदर्शित की
  4. व्यावहारिक तकनीकें प्रस्तावित कीं: सैद्धांतिक अंतर्दृष्टि के आधार पर सुधारी गई प्रशिक्षण और नमूनाकरण तकनीकें प्रस्तावित कीं
  5. प्रदर्शन सुधार प्राप्त किया: पाठ उत्पादन प्रयोगों में आधारभूत से कम सत्यापन और उत्पादन भ्रम लगातार प्रदर्शित किया

विधि विवरण

कार्य परिभाषा

HDLM का कार्य शोर इनपुट दिए गए पदानुक्रमित शब्दार्थ संरचना के माध्यम से क्रमिक रूप से अधिक विस्तृत टोकन की भविष्यवाणी करना है, जब तक कि मूल शब्दावली को पुनः प्राप्त न किया जाए। इनपुट विभिन्न स्तरों पर शोर टोकन हैं, आउटपुट शब्द-स्तरीय पूर्वानुमान वितरण है।

मॉडल आर्किटेक्चर

1. पदानुक्रमित शब्दावली डिज़ाइन

  • शब्दावली पदानुक्रम: स्वच्छ शब्द टोकन x से क्लस्टर टोकन c तक मास्क टोकन m तक पदानुक्रम: x → c → m
  • मैपिंग संबंध: विशेषण फ़ंक्शन c = Γx के माध्यम से निम्न-स्तरीय टोकन को उच्च-स्तरीय टोकन में मैप किया जाता है, जहाँ Γ ∈ R^{|C|×|V|}

2. अग्रगामी प्रक्रिया

अग्रगामी प्रक्रिया का सीमांत वितरण है:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

जहाँ β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. CTMC ढांचा

समय गैर-सजातीय जनन मैट्रिक्स है:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. विपरीत प्रक्रिया

मानक विपरीत प्रक्रिया को अपनाता है:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

तकनीकी नवाचार बिंदु

1. शब्दार्थ पदानुक्रम संरचना

  • क्रमिक शब्दार्थ: मध्यवर्ती स्तर आंशिक रूप से डिकोड किए गए टोकन के रूप में देखे जा सकते हैं, एकल मास्क टोकन से अधिक समृद्ध शब्दार्थ प्रदान करते हैं
  • लचीला डिकोडिंग: मोटे-दाने वाले शब्दार्थ में अनिश्चितता अधिक डिकोडिंग लचीलापन की अनुमति देती है

2. बंद-रूप ELBO व्युत्पत्ति

व्युत्पन्न प्रशिक्षण हानि दो क्रॉस-एन्ट्रॉपी हानि का भारित संयोजन है:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. यादृच्छिक विक्षोभ तंत्र

विक्षोभ संभावना ξ < 1 को पेश करता है, जो शब्द टोकन को संभावना 1-ξ के साथ गलत क्लस्टर में स्थानांतरित करता है, मॉडल की स्वयं-सुधार क्षमता को बढ़ाता है।

प्रयोगात्मक सेटअप

डेटासेट

  • मुख्य डेटासेट: OpenWebText (OWT), 131B प्रशिक्षण टोकन युक्त
  • अतिरिक्त डेटासेट: LM1B (33B टोकन) पूरक सत्यापन के लिए
  • संदर्भ लंबाई: 512 टोकन, वाक्य पैकिंग का उपयोग नहीं किया

मूल्यांकन मेट्रिक्स

  • सत्यापन भ्रम (Valid. PPL): OWT सत्यापन सेट पर भ्रम
  • उत्पादन भ्रम (Gen. PPL): GPT2-large को संदर्भ मॉडल के रूप में उपयोग करके उत्पादन नमूनों का मूल्यांकन
  • डाउनस्ट्रीम कार्य: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande आदि

तुलना विधियाँ

  • स्वचालित प्रतिगामी मॉडल: GPT-2, Llama-110M
  • असतत विसरण मॉडल: SEDD, MDLM, GIDD+

कार्यान्वयन विवरण

  • मॉडल आर्किटेक्चर: DiT आर्किटेक्चर, Small (170M पैरामीटर) और Base (425M पैरामीटर)
  • अनुकूलक: Adam (β=(0.9,0.99)), सीखने की दर 5×10^{-4}
  • प्रशिक्षण चरण: 500k चरण, बैच आकार 512
  • वजन क्लिपिंग: हानि वजन w_{t,m}, w_{t,c} को 2.0 या 10.0 तक क्लिप करना अनुकूलन को स्थिर करने के लिए

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडलप्रशिक्षण टोकनValid. PPL (↓)Gen. PPL (↓)
MDLM-small131B≤27.39163.7
GIDD+-small131B≤25.82170.2
HDLM-small-64131B≤23.36144.2
HDLM-small-128131B≤23.25148.0
HDLM-base-128131B≤19.22139.9

मुख्य निष्कर्ष:

  • HDLM-small सत्यापन और उत्पादन भ्रम दोनों पर अन्य असतत विसरण विधियों से बेहतर है
  • HDLM-base 19.22 भ्रम तक पहुँचता है, स्वचालित प्रतिगामी मॉडल के प्रदर्शन को पार करता है या मेल खाता है

विलोपन प्रयोग

1. क्लस्टर संख्या प्रभाव

  • इष्टतम क्लस्टर संख्या लगभग 64-128 है (शब्दावली आकार का लगभग वर्गमूल)
  • n=1 पर MDLM प्रदर्शन को पुनः प्राप्त करता है, सैद्धांतिक विश्लेषण को सत्यापित करता है

2. यादृच्छिक विक्षोभ प्रभाव

  • ξ=0.9 पर उत्पादन भ्रम 51% कम होता है (144.2 से 69.76)
  • ξ=0.8 पर उत्पादन भ्रम 62% कम होता है (54.15 तक)
  • स्वयं-सुधार क्षमता में महत्वपूर्ण सुधार प्रदर्शित करता है

3. अग्रगामी प्रक्रिया अनुसूचन

  • γ मान जितना बड़ा, एकल-चरण विनोइसिंग कार्य उतना कठिन, लेकिन वास्तविक अनुमान प्रदर्शन बेहतर
  • γ=3 पर सर्वोत्तम उत्पादन भ्रम 135.9 प्राप्त किया

डाउनस्ट्रीम कार्य प्रदर्शन

कई समझ कार्यों पर, HDLM-small औसत सटीकता 39.62% तक पहुँचता है, GIDD के 38.53% से बेहतर, मजबूत सामान्यीकरण क्षमता प्रदर्शित करता है।

संबंधित कार्य

1. असतत विसरण मॉडल विकास

  • D3PM: असतत विसरण के सैद्धांतिक आधार स्थापित करता है
  • SEDD: सीमांत वितरण अनुपात के रूप में ठोस स्कोर सीखता है
  • MDLM/MD4: मास्क अग्रगामी प्रक्रिया प्रशिक्षण उद्देश्य को सरल बनाता है

2. विसरण भाषा मॉडल स्केलिंग

  • LLaDA और Dream: विसरण भाषा मॉडल की स्केलिंग क्षमता प्रदर्शित करते हैं
  • Block Diffusion: पाठ ब्लॉक को स्वचालित प्रतिगामी रूप से उत्पन्न करने और ब्लॉक के भीतर विसरण करने का नया प्रतिमान अन्वेषण करता है

3. इस पेपर की संबंधित कार्य की तुलना में श्रेष्ठता

  • एक नई शोर प्रक्रिया प्रदान करता है, अवधारणा में सरल और व्यावहारिक रूप से प्रभावी
  • समान शोर के नुकसान से बचते हुए स्वयं-सुधार क्षमता बनाए रखता है
  • कठोर सैद्धांतिक ढांचा और बंद-रूप ELBO स्थापित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. HDLM "अगला शब्दार्थ पैमाना पूर्वानुमान" योजना के माध्यम से असतत विसरण भाषा मॉडलिंग को प्रभावी ढंग से सुधारता है
  2. पदानुक्रमित शब्दार्थ संरचना पारंपरिक मास्क से अधिक समृद्ध मध्यवर्ती प्रतिनिधित्व प्रदान करती है
  3. यादृच्छिक विक्षोभ तंत्र मॉडल की स्वयं-सुधार क्षमता को महत्वपूर्ण रूप से बढ़ाता है
  4. सैद्धांतिक ढांचा अच्छी सामान्यता और विस्तारशीलता प्रदर्शित करता है

सीमाएँ

  1. क्लस्टर गुणवत्ता निर्भरता: वर्तमान में पूर्वनिर्धारित K-means क्लस्टरिंग का उपयोग करता है, क्लस्टर गुणवत्ता प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करती है
  2. कम्प्यूटेशनल जटिलता: बहु-स्तरीय संरचना प्रशिक्षण और अनुमान की कम्प्यूटेशनल ओवरहेड को बढ़ा सकती है
  3. हाइपरपैरामीटर संवेदनशीलता: प्रशिक्षण को स्थिर करने के लिए वजन क्लिपिंग जैसे हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है

भविष्य की दिशाएँ

  1. अधिक जटिल पदानुक्रमित संरचना सीखने की विधियों का अन्वेषण करें (जैसे DeepSets)
  2. कई मध्यवर्ती स्तरों के कार्यान्वयन और अनुकूलन का अनुसंधान करें
  3. ढांचे को बड़े पैमाने के भाषा मॉडल तक विस्तारित करें
  4. बहु-मोडल कार्यों में अनुप्रयोग का अन्वेषण करें

गहन मूल्यांकन

शक्तियाँ

  1. सैद्धांतिक योगदान दृढ़: संपूर्ण CTMC सैद्धांतिक ढांचा और कठोर गणितीय व्युत्पत्ति प्रदान करता है
  2. विधि नवाचार मजबूत: पहली बार असतत विसरण भाषा मॉडल में शब्दार्थ पदानुक्रम संरचना को पेश करता है
  3. प्रयोगात्मक डिज़ाइन व्यापक: व्यापक विलोपन अनुसंधान और तुलनात्मक प्रयोग शामिल हैं
  4. व्यावहारिक मूल्य उच्च: प्रस्तावित तकनीकें मौजूदा विसरण मॉडल ढांचे पर सीधे लागू की जा सकती हैं

कमियाँ

  1. स्केल सीमा: प्रयोग मुख्य रूप से मध्यम-छोटे पैमाने के मॉडल पर किए गए हैं, बड़े पैमाने का सत्यापन अपर्याप्त है
  2. क्लस्टरिंग विधि सरल: वर्तमान शब्दार्थ क्लस्टरिंग विधि अपेक्षाकृत बुनियादी है, प्रदर्शन सीमा को सीमित कर सकती है
  3. उत्पादन गुणवत्ता मूल्यांकन: मुख्य रूप से भ्रम मेट्रिक पर निर्भर करता है, मानव मूल्यांकन और विविधता विश्लेषण की कमी है

प्रभाव

  1. शैक्षणिक योगदान: असतत विसरण भाषा मॉडलिंग के लिए नई अनुसंधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: विधि सरल और लागू करने में आसान है, व्यावहारिक अनुप्रयोग में प्रचार की संभावना है
  3. पुनरुत्पादनीयता: लेखक संपूर्ण कोड कार्यान्वयन और विस्तृत प्रयोगात्मक सेटअप प्रदान करते हैं

लागू परिदृश्य

  1. पाठ उत्पादन कार्य: विशेष रूप से क्रमिक परिशोधन की आवश्यकता वाले उत्पादन परिदृश्यों के लिए उपयुक्त
  2. नियंत्रणीय पाठ उत्पादन: पदानुक्रमित संरचना विभिन्न दाने वाले नियंत्रण को लागू करने में सुविधाजनक है
  3. पाठ संपादन और संशोधन: स्वयं-सुधार क्षमता इसे पाठ संशोधन कार्यों के लिए उपयुक्त बनाती है

संदर्भ

पेपर विसरण मॉडल, भाषा मॉडलिंग और असतत अवस्था स्थान मॉडलिंग के क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें D3PM, MDLM, GIDD जैसे मुख्य आधार कार्य, साथ ही GPT श्रृंखला, BERT जैसे शास्त्रीय भाषा मॉडल शामिल हैं।