Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
पदानुक्रमित विसरण भाषा मॉडल के माध्यम से अगला शब्दार्थ पैमाना पूर्वानुमान
यह पेपर पदानुक्रमित विसरण भाषा मॉडल (HDLM) का परिचय देता है—भाषा मॉडलिंग के लिए एक नया असतत विसरण मॉडल। HDLM एक पदानुक्रमित शब्दावली पर आधारित है, जहाँ विस्तृत शब्दार्थ वाले निम्न-स्तरीय टोकन को मोटे-दाने वाले अर्थ वाले उच्च-स्तरीय टोकन में विशेषण रूप से मैप किया जाता है। अग्रगामी प्रक्रिया में, प्रत्येक टोकन अनुसूचक के अनुसार स्वतंत्र रूप से अधिक अमूर्त शब्दार्थ वाले उच्च-स्तरीय पूर्वज में विक्षुब्ध होता है, जबकि विपरीत प्रक्रिया में, मॉडल क्रमिक रूप से अगले अधिक विस्तृत शब्दार्थ की भविष्यवाणी करता है। HDLM भाषा मॉडलिंग के लिए एक सामान्य समय-परिवर्तनशील अगला शब्दार्थ पैमाना पूर्वानुमान प्रक्रिया प्रदान करता है। लेखकों ने विसरण साक्ष्य निचली सीमा (ELBO) के लिए एक बंद-रूप अभिव्यक्ति प्राप्त की है, और प्रदर्शित किया है कि HDLM लचीले ढंग से लागू किया जा सकता है, जबकि मौजूदा MDLM को एक विशेष मामले के रूप में शामिल करता है।
स्वचालित प्रतिगामी भाषा मॉडल वर्तमान में अत्याधुनिक विधि हैं, लेकिन उनकी अगला-टोकन पूर्वानुमान योजना मौलिक रूप से पहले से उत्पन्न टोकन को संशोधित करने की क्षमता को सीमित करती है। विसरण मॉडल अपनी क्रमिक विनोइसिंग और परिशोधन क्षमता के लिए ध्यान आकर्षित कर रहे हैं, लेकिन मौजूदा असतत विसरण विधियों में भाषा मॉडलिंग में अभी भी महत्वपूर्ण सीमाएँ हैं।
लेखकों ने शब्दार्थ पदानुक्रम को पेश करके विसरण मॉडल के लाभों को अधिकतम करने का प्रस्ताव दिया है, जो दृश्य स्वचालित प्रतिगामी मॉडल (VAR) में अगले-पैमाने पूर्वानुमान के समान, मनमाने क्रम में उत्पादन और क्रमिक स्वयं-परिशोधन को सक्षम करता है।
HDLM ढांचा प्रस्तावित किया: एक सामान्य और लचीला असतत विसरण भाषा मॉडलिंग ढांचा, समय-परिवर्तनशील अगला शब्दार्थ पैमाना पूर्वानुमान के माध्यम से लागू किया गया
कठोर सैद्धांतिक आधार स्थापित किया: निरंतर-समय मार्कोव श्रृंखला (CTMC) ढांचे के आधार पर, पदानुक्रमित असतत विसरण के लिए बंद-रूप ELBO प्राप्त किया
संगतता प्रमाणित की: सैद्धांतिक रूप से प्रमाणित किया कि MDLM HDLM का एक विशेष मामला है, ढांचे की सामान्यता प्रदर्शित की
व्यावहारिक तकनीकें प्रस्तावित कीं: सैद्धांतिक अंतर्दृष्टि के आधार पर सुधारी गई प्रशिक्षण और नमूनाकरण तकनीकें प्रस्तावित कीं
प्रदर्शन सुधार प्राप्त किया: पाठ उत्पादन प्रयोगों में आधारभूत से कम सत्यापन और उत्पादन भ्रम लगातार प्रदर्शित किया
HDLM का कार्य शोर इनपुट दिए गए पदानुक्रमित शब्दार्थ संरचना के माध्यम से क्रमिक रूप से अधिक विस्तृत टोकन की भविष्यवाणी करना है, जब तक कि मूल शब्दावली को पुनः प्राप्त न किया जाए। इनपुट विभिन्न स्तरों पर शोर टोकन हैं, आउटपुट शब्द-स्तरीय पूर्वानुमान वितरण है।
क्लस्टर गुणवत्ता निर्भरता: वर्तमान में पूर्वनिर्धारित K-means क्लस्टरिंग का उपयोग करता है, क्लस्टर गुणवत्ता प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करती है
कम्प्यूटेशनल जटिलता: बहु-स्तरीय संरचना प्रशिक्षण और अनुमान की कम्प्यूटेशनल ओवरहेड को बढ़ा सकती है
हाइपरपैरामीटर संवेदनशीलता: प्रशिक्षण को स्थिर करने के लिए वजन क्लिपिंग जैसे हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है
पेपर विसरण मॉडल, भाषा मॉडलिंग और असतत अवस्था स्थान मॉडलिंग के क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें D3PM, MDLM, GIDD जैसे मुख्य आधार कार्य, साथ ही GPT श्रृंखला, BERT जैसे शास्त्रीय भाषा मॉडल शामिल हैं।