2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

खंड-आसवित भाषा मॉडलिंग

मूल जानकारी

  • पेपर ID: 2501.00343
  • शीर्षक: Chunk-Distilled Language Modeling
  • लेखक: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन तिथि: 31 दिसंबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.00343

सारांश

यह पेपर खंड-आसवित भाषा मॉडलिंग (Chunk-Distilled Language Modeling, CD-LM) प्रस्तावित करता है, जो वर्तमान बड़े भाषा मॉडल की दो मुख्य चुनौतियों को संबोधित करने वाली एक पाठ पीढ़ी विधि है: टोकन-स्तरीय पीढ़ी की अक्षमता और नए डेटा तथा ज्ञान के अनुकूलन की कठिनाई। यह विधि गहन नेटवर्क-आधारित LLM को सरल पुनः प्राप्ति मॉड्यूल के साथ जोड़ती है, जो एकल डिकोडिंग चरण में बहु-टोकन पाठ खंड उत्पन्न करने की अनुमति देती है। इसका पुनः प्राप्ति ढांचा मॉडल या डोमेन-विशिष्ट डेटा स्टोर के लचीले निर्माण का समर्थन करता है, जो मौजूदा मॉडल के आंतरिक ज्ञान का उपयोग कर सकता है और मानव-टिप्पणीकृत कॉर्पस के विशेषज्ञ अंतर्दृष्टि को भी शामिल कर सकता है। यह अनुकूलनशीलता अतिरिक्त प्रशिक्षण के बिना भाषा मॉडल वितरण पर नियंत्रण को बढ़ाने की अनुमति देती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. पीढ़ी दक्षता समस्या: वर्तमान LLM स्वप्रतिगामी Transformer आर्किटेक्चर पर आधारित हैं, जो पाठ को क्रमिक रूप से टोकन-दर-टोकन उत्पन्न करते हैं, जिससे अनुमान दक्षता सीमित होती है
  2. ज्ञान अनुकूलन कठिनाई: प्रशिक्षण के बाद मॉडल पैरामीटर को अपडेट करने के लिए महंगे डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जिससे नए ज्ञान को गतिशील रूप से एकीकृत करना मुश्किल होता है

समस्या की महत्ता

  • मौजूदा समाधानों में सीमाएं हैं: अनुमानित डिकोडिंग (speculative decoding) गति में सुधार कर सकती है लेकिन निश्चित मॉडल वितरण बनाए रखती है; पुनः प्राप्ति-संवर्धित पीढ़ी (RAG) अनुकूलनशीलता में सुधार कर सकती है लेकिन आमतौर पर दक्षता लाभ नहीं देती है
  • दक्षता और प्रदर्शन दोनों समस्याओं को एक साथ हल करने वाले एकीकृत समाधान की आवश्यकता है

मुख्य अंतर्दृष्टि

पेपर यह देखता है कि LLM समान संदर्भ में अक्सर दोहराए जाने वाले पाठ खंड उत्पन्न करते हैं, ये खंड टोकन अनुक्रम पर उच्च संभाव्यता पठार प्रदर्शित करते हैं, जो दर्शाता है कि मॉडल को कुछ बहु-टोकन संयोजनों की मजबूत स्मृति है।

मुख्य योगदान

  1. CD-LM ढांचा प्रस्तावित करना: पीढ़ी दक्षता और मॉडलिंग प्रदर्शन दोनों को बढ़ाने वाली पहली पुनः प्राप्ति-संवर्धित भाषा मॉडलिंग विधि
  2. लचीली खंड निष्कर्षण तंत्र डिजाइन करना: तीन अनुप्रयोग परिदृश्यों का समर्थन करता है (ज्ञान आसवन, स्व-आसवन, विशेषज्ञ आसवन)
  3. कुशल पुनः प्राप्ति आर्किटेक्चर का निर्माण: trie संरचना-आधारित डेटा स्टोरेज और संदर्भ मिलान तंत्र
  4. संभाव्यता गणना एल्गोरिथ्म प्राप्त करना: पूर्ण अनुक्रम संभाव्यता गणना के लिए गतिशील प्रोग्रामिंग एल्गोरिथ्म प्रदान करना
  5. व्यापक प्रायोगिक सत्यापन: कई कार्यों पर दक्षता और प्रदर्शन के दोहरे सुधार का प्रदर्शन

विधि विवरण

कार्य परिभाषा

पूर्वसर्ग अनुक्रम x<nx_{<n} दिया गया है, CD-LM प्रत्येक पीढ़ी चरण में निम्नलिखित में से चुनता है:

  • पुनः प्राप्त पाठ खंड cnc_n को स्वीकार करना (कई टोकन पीढ़ी चरणों को छोड़ना)
  • खंड को अस्वीकार करना और आधार LM का उपयोग करके एकल टोकन उत्पन्न करना

मॉडल आर्किटेक्चर

1. संभाव्यता पीढ़ी मॉडल

CD-LM द्विआधारी यादृच्छिक चर znz_n प्रस्तुत करता है जो नियंत्रित करता है कि क्या स्थिति nn पर पुनः प्राप्त खंड का उपयोग किया जाए:

p(zn=1)=qnp(z_n = 1) = q_n

पीढ़ी प्रक्रिया इस प्रकार है:

  • यदि zn=1z_n = 1: खंड cnc_n स्वीकार करें, लंबाई τn\tau_n के साथ
  • यदि zn=0z_n = 0: आधार LM का उपयोग करके एकल टोकन उत्पन्न करें

2. खंड डेटा स्टोर निर्माण

डेटा स्टोर D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, जहां:

  • ri=(ui,vi)r_i = (u_i, v_i): uiu_i पूर्ववर्ती संदर्भ है, viv_i प्रवेश टोकन है
  • sis_i: पाठ खंड
  • trie संरचना {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} का उपयोग करके संग्रहीत, प्रत्येक TwT_w टोकन ww से शुरू होने वाले सभी खंडों को संग्रहीत करता है

3. अनुकूली खंड पुनः प्राप्ति

खंड प्रस्ताव मॉडल G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n):

(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$$ जहां $\text{sim}(\cdot, \cdot)$ कोसाइन समानता है, $g_\phi(\cdot)$ समानता से स्वीकृति संभाव्यता के लिए मानचित्रण फ़ंक्शन है। ### तकनीकी नवाचार बिंदु 1. **कठोर निर्णय तंत्र**: kNN-LM के नरम मिश्रण के विपरीत, CD-LM बहु-टोकन खंडों के लिए कठोर निर्णय लेता है 2. **प्रवेश टोकन बाधा**: पिछले टोकन को प्रवेश बिंदु के रूप में उपयोग करके खोज स्थान को सीमित करता है, पुनः प्राप्ति दक्षता में सुधार करता है 3. **प्रशिक्षण-मुक्त डिजाइन**: संपूर्ण ढांचे को अतिरिक्त प्रशिक्षण की आवश्यकता नहीं है, किसी भी तैयार LM के साथ उपयोग किया जा सकता है 4. **तीन आसवन मोड**: - **KCD-LM**: मजबूत मॉडल से ज्ञान आसवन - **SCD-LM**: स्व-स्मृति दक्षता सुधार - **ECD-LM**: विशेषज्ञ-टिप्पणीकृत ज्ञान को शामिल करना ## प्रायोगिक सेटअप ### डेटासेट 1. **भाषा मॉडलिंग**: WikiText-103, GitHub Code (Dockerfile) 2. **डोमेन अनुकूलन**: Medical Instruction Dataset, Pile-of-Law (Federal Register) 3. **दक्षता परीक्षण**: MT-Bench-80, MT-Bench-10 4. **ज्ञान इंजेक्शन**: Alan Turing Wikipedia पृष्ठ, संश्लेषित PII डेटा ### मूल्यांकन मेट्रिक्स - **प्रदर्शन**: भ्रम (PPL), MAUVE स्कोर, ROUGE-L, BLEURT - **दक्षता**: टोकन समय बचत (TTS), आगे प्रसार बचत (FPS) - **गुणवत्ता**: LLM-as-a-judge मूल्यांकन, मानव प्रवाहिता मूल्यांकन ### तुलना विधियां - kNN-LM, RETOMATON (गैर-पैरामीट्रिक विधियां) - REST (अनुमानित डिकोडिंग विधि) - सीधे सूक्ष्म-ट्यून किए गए आधार मॉडल ### कार्यान्वयन विवरण - खंड निष्कर्षण थ्रेशोल्ड $\gamma \in [0.3, 0.9]$ - समानता थ्रेशोल्ड $\eta$ सत्यापन सेट के माध्यम से ट्यून किया गया - संदर्भ लंबाई: 64 टोकन - $g_\phi$ के रूप में खंडित रैखिक फ़ंक्शन का उपयोग ## प्रायोगिक परिणाम ### मुख्य परिणाम #### 1. ज्ञान आसवन (KCD-LM) GPT-2 small (137M) → GPT-2 XL (1.5B) आसवन प्रयोग में: | डेटासेट | आधार LM | KCD-LM | सुधार | |---------|----------|---------|-------| | WikiText | 34.83 | 22.90 | 34.2% | | Medical | 51.68 | 24.95 | 51.7% | | Law | 11.41 | 8.24 | 27.8% | | Code | 106.44 | 50.77 | 52.3% | #### 2. स्व-आसवन दक्षता (SCD-LM) MT-Bench-80 पर दक्षता सुधार: | मॉडल | TTS सुधार | FPS सुधार | |------|-----------|-----------| | GPT-2-XL | 19.59% | 43.33% | | LLaMA-2 | 14.89% | 32.32% | | Mistral | 11.75% | 24.52% | #### 3. विशेषज्ञ आसवन (ECD-LM) Alan Turing ज्ञान प्रश्नोत्तर में इकाई कवरेज सुधार: | मॉडल | औसत इकाई संख्या सुधार | अद्वितीय इकाई सुधार | |------|----------------------|-------------------| | GPT2-XL | 46.8% | 42.2% | | LLaMA-2 | 13.5% | 17.7% | | Mistral | 18.5% | 11.9% | ### विलोपन प्रयोग 1. **खंड निष्कर्षण थ्रेशोल्ड प्रभाव**: निम्न थ्रेशोल्ड (0.3-0.4) अधिकांश कार्यों पर सर्वोत्तम प्रदर्शन करते हैं 2. **डेटा स्टोर आकार**: CD-LM को केवल kNN-LM के 30-40% भंडारण स्थान की आवश्यकता है 3. **पुनः प्राप्ति आवृत्ति**: प्रत्येक पुनः प्राप्ति केवल 0.0003-0.01% डेटा स्टोर खोजती है ### केस विश्लेषण पीढ़ी उदाहरण दिखाते हैं कि CD-LM सक्षम है: - पुनः प्राप्त पाठ खंडों को स्वाभाविक रूप से एकीकृत करना - समानता थ्रेशोल्ड के माध्यम से खंड उपयोग आवृत्ति को नियंत्रित करना - उत्पन्न पाठ की सुसंगतता और प्रवाहिता बनाए रखना ## संबंधित कार्य ### गैर-पैरामीट्रिक भाषा मॉडलिंग - kNN-LM: प्रत्येक टोकन स्थिति पर पुनः प्राप्ति, बड़ी कम्प्यूटेशनल लागत - NPM: पूरी तरह से गैर-पैरामीट्रिक, पैरामीट्रिक ज्ञान की कमी ### अनुमानित डिकोडिंग - REST: ड्राफ्ट टोकन अनुक्रम पुनः प्राप्त करता है, लेकिन LLM सत्यापन की आवश्यकता है - पारंपरिक अनुमानित डिकोडिंग: केवल गति में सुधार, प्रदर्शन में नहीं ### पुनः प्राप्ति-संवर्धित पीढ़ी - दानेदारपन द्वारा वर्गीकृत: दस्तावेज-स्तर, वाक्यांश-स्तर, टोकन-स्तर - CD-LM वाक्यांश-स्तर है, लेकिन कठोर निर्णय और दक्षता लाभ के साथ ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. CD-LM दक्षता और प्रदर्शन के दोहरे सुधार को सफलतापूर्वक प्राप्त करता है 2. प्रशिक्षण-मुक्त डिजाइन इसे मौजूदा LM में तैनात करना आसान बनाता है 3. तीन आसवन मोड विविध अनुप्रयोग परिदृश्यों का समर्थन करते हैं 4. कई कार्यों पर मौजूदा विधियों से महत्वपूर्ण रूप से बेहतर है ### सीमाएं 1. **पुनः प्राप्ति ओवरहेड**: हालांकि kNN-LM से अधिक कुशल है, फिर भी पुनः प्राप्ति विलंब मौजूद है 2. **खंड गुणवत्ता निर्भरता**: प्रदर्शन बड़े हिस्से में खंड निष्कर्षण गुणवत्ता पर निर्भर है 3. **डोमेन अनुकूलनशीलता**: विशिष्ट डोमेन के लिए विशेष डेटा स्टोर निर्माण की आवश्यकता है 4. **स्मृति आवश्यकताएं**: बड़े पैमाने पर डेटा स्टोर को अभी भी पर्याप्त स्मृति की आवश्यकता है ### भविष्य की दिशाएं 1. **पुनः प्राप्ति अनुकूलन**: परिमाणीकरण, डेटा स्टोर छंटाई, वैकल्पिक खोज रणनीतियां 2. **गतिशील खंड निष्कर्षण**: वास्तविक समय अनुकूली खंड पहचान तंत्र 3. **बहु-मोडल विस्तार**: छवि, ऑडियो आदि मोडल तक विस्तार 4. **प्रशिक्षणीय घटक**: प्रदर्शन को और अनुकूलित करने के लिए सीखने योग्य पैरामीटर प्रस्तुत करना ## गहन मूल्यांकन ### शक्तियां 1. **मजबूत नवाचार**: दक्षता और प्रदर्शन समस्याओं को एक साथ हल करने वाली पहली पुनः प्राप्ति-संवर्धित विधि 2. **सैद्धांतिक पूर्णता**: संपूर्ण संभाव्यता मॉडलिंग और कम्प्यूटेशनल ढांचा प्रदान करता है 3. **व्यापक प्रयोग**: कई कार्यों, मॉडल और मूल्यांकन आयामों को कवर करता है 4. **उच्च व्यावहारिकता**: प्रशिक्षण-मुक्त डिजाइन वास्तविक तैनाती को सुविधाजनक बनाता है 5. **स्पष्ट लेखन**: सटीक तकनीकी विवरण, विस्तृत प्रायोगिक सेटअप ### कमियां 1. **पुनः प्राप्ति दक्षता**: शुद्ध पैरामीट्रिक विधियों की तुलना में अभी भी अतिरिक्त ओवरहेड है 2. **हाइपरपैरामीटर संवेदनशीलता**: कई थ्रेशोल्ड पैरामीटर सावधानीपूर्वक ट्यूनिंग की आवश्यकता है 3. **लंबे पाठ प्रसंस्करण**: लंबे अनुक्रम पीढ़ी पर प्रभाव का अपर्याप्त मूल्यांकन 4. **सैद्धांतिक विश्लेषण**: अभिसरण और जटिलता के सैद्धांतिक गारंटी की कमी ### प्रभाव 1. **शैक्षणिक मूल्य**: पुनः प्राप्ति-संवर्धित भाषा मॉडलिंग के लिए नया प्रतिमान प्रदान करता है 2. **व्यावहारिक मूल्य**: संसाधन-सीमित परिदृश्यों में महत्वपूर्ण अनुप्रयोग क्षमता 3. **पुनरुत्पादनशीलता**: कोड और डेटा खोलने का वादा, पुनरुत्पादन को सुविधाजनक बनाता है 4. **प्रेरणा**: भविष्य के संबंधित अनुसंधान के लिए महत्वपूर्ण विचार प्रदान करता है ### लागू परिदृश्य 1. **संसाधन-सीमित वातावरण**: छोटे मॉडल को बड़े मॉडल के समीप प्रदर्शन की आवश्यकता होने पर 2. **डोमेन अनुकूलन**: विशिष्ट डोमेन ज्ञान के लिए तेजी से अनुकूलन की आवश्यकता होने पर 3. **वास्तविक समय प्रणाली**: अनुमान गति के लिए उच्च आवश्यकताओं वाले अनुप्रयोग 4. **ज्ञान अपडेट**: नए ज्ञान को गतिशील रूप से एकीकृत करने की आवश्यकता वाले परिदृश्य ## संदर्भ पेपर पुनः प्राप्ति-संवर्धित पीढ़ी, अनुमानित डिकोडिंग, गैर-पैरामीट्रिक भाषा मॉडलिंग आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जो CD-LM के डिजाइन के लिए एक मजबूत सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं। --- **समग्र मूल्यांकन**: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो नवीन CD-LM ढांचा प्रस्तावित करता है, जो सैद्धांतिक मॉडलिंग, तकनीकी कार्यान्वयन और प्रायोगिक सत्यापन के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है। यह विधि LLM की दक्षता और अनुकूलनशीलता समस्याओं को हल करने में महत्वपूर्ण मूल्य रखती है और वास्तविक अनुप्रयोगों में महत्वपूर्ण प्रभाव डालने की संभावना है।