2025-11-11T20:37:15.929319

DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models

Zhang, Ullah, Schultheis et al.

Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.

academic

DynaSpec: बड़े-शब्दकोश भाषा मॉडलों के लिए संदर्भ-जागरूक गतिशील अनुमानी नमूनाकरण

मूल जानकारी

पेपर ID: 2510.13847
शीर्षक: DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
लेखक: Jinbin Zhang (Aalto University), Nasib Ullah (Aalto University), Erik Schultheis (IST Austria), Rohit Babbar (University of Bath)
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन तिथि: 17 अक्टूबर, 2025 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13847

सारांश

अनुमानी डिकोडिंग (Speculative decoding) बड़े भाषा मॉडल (LLM) के अनुमान को तेज़ करने की एक मानक विधि बन गई है: एक छोटा ड्राफ्टिंग मॉडल कई टोकन प्रस्तावित करता है, और एक बड़ा लक्ष्य मॉडल अनुमानित लंबाई पर एक बार में सत्यापन करता है। LLM शब्दकोश के आकार में वृद्धि के साथ, टोकन की संख्या में भी उल्लेखनीय वृद्धि हुई है। हालांकि पूर्ण शब्दकोश पर सत्यापन लक्ष्य मॉडल को प्रभावित नहीं करता है, ड्राफ्टिंग मॉडल आउटपुट हेड के O(|V|d) पैरामीटर विलंबता की बाधा बन जाते हैं, जो पूरी पाइपलाइन को धीमा कर देते हैं। मौजूदा विधियां (जैसे FR-Spec, VocabTrim) ड्राफ्टिंग मॉडल के शब्दकोश को लक्ष्य मॉडल के शब्दकोश के एक निश्चित उपसमुच्चय तक सीमित करती हैं, जो टोकन आवृत्ति के अवरोही क्रम में व्यवस्थित होते हैं। हालांकि यह ड्राफ्टिंग समय की गणना को कम करता है, लेकिन इसमें कमजोरियां हैं: (i) आवृत्ति सूची कॉर्पस पर निर्भर है और सामान्यीकरण के लिए पुनः-ट्यूनिंग की आवश्यकता है; (ii) स्थिर छोटी सूची दुर्लभ या डोमेन-विशिष्ट टोकन को दबाती है, जिससे प्रति सत्यापन चरण में अपेक्षित टोकन संख्या कम हो जाती है। यह पेपर DynaSpec प्रस्तावित करता है, एक संदर्भ-जागरूक गतिशील छोटी सूची तंत्र जो मजबूत है, ड्राफ्टिंग को तेज़ करता है और विविध कार्यों में अच्छी तरह से सामान्यीकृत होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

बड़े भाषा मॉडल के विकास के साथ, शब्दकोश का आकार तेजी से बढ़ा है: Llama-2 के 32k टोकन से Llama-3 के 128k, DeepSeek-V3 के 129k, Qwen-2.5 के 152k, और यहां तक कि Gemma-3 के 262k टोकन तक। अनुमानी डिकोडिंग में, हालांकि बड़ा लक्ष्य मॉडल पूर्ण शब्दकोश की गणना का बोझ सहन कर सकता है, छोटे ड्राफ्टिंग मॉडल के आउटपुट परत के O(|V|d) पैरामीटर एक गंभीर विलंबता बाधा बन जाते हैं।

मौजूदा विधियों की सीमाएं

FR-Spec और VocabTrim: उच्च-आवृत्ति टोकन के निश्चित उपसमुच्चय का उपयोग करते हैं, जिनमें निम्नलिखित समस्याएं हैं:
- आवृत्ति सूची विशिष्ट कॉर्पस पर निर्भर है, बेंचमार्क में सामान्यीकरण खराब है
- स्थिर उपसमुच्चय दुर्लभ या डोमेन-विशिष्ट टोकन को दबा सकता है, स्वीकृति दर को कम कर सकता है
संदर्भ-जागरूकता की कमी: मौजूदा विधियां वर्तमान संदर्भ के अनुसार टोकन उम्मीदवार सेट को गतिशील रूप से समायोजित नहीं कर सकती हैं

अनुसंधान प्रेरणा

चरम वर्गीकरण (extreme classification) में मोटे-से-बारीक रूटिंग विचार के आधार पर, यह पेपर संदर्भ-जागरूक गतिशील शब्दकोश चयन तंत्र प्रस्तावित करता है, जो सत्यापन सटीकता बनाए रखते हुए ड्राफ्टिंग दक्षता में सुधार करता है।

मूल योगदान

DynaSpec फ्रेमवर्क प्रस्तावित करना: एक हल्के-वजन मोटे-अनाज मेटा-वर्गीकरण को पेश करता है जो संदर्भ को कुछ टोकन क्लस्टर में रूट करता है, ड्राफ्टिंग मॉडल केवल चयनित क्लस्टर के संघ पर काम करता है
सैद्धांतिक विश्लेषण: साबित करता है कि गतिशील संदर्भ शर्त अपेक्षित स्वीकृति दर के संदर्भ में किसी भी स्थिर उपसमुच्चय से सख्ती से बेहतर है
स्थिति-जागरूक शेड्यूलिंग: स्थिति-जागरूक क्लस्टर बजट नीति प्रस्तावित करता है, प्रारंभिक टोकन को अधिक क्लस्टर आवंटित करता है, बाद में धीरे-धीरे कम करता है, स्वीकृति दर और विलंबता को संतुलित करता है
सिस्टम अनुकूलन: फ्यूज्ड इंडेक्सिंग + GEMM कर्नेल और समानांतर निष्पादन के माध्यम से, गतिशील हेड के matmul ओवरहेड को कम करता है
प्रायोगिक सत्यापन: 7 मानक कार्यों पर सत्यापित, निश्चित छोटी सूची आधार रेखा की तुलना में औसत स्वीकृति लंबाई में सुसंगत सुधार प्राप्त करता है

विधि विवरण

कार्य परिभाषा

अनुमानी डिकोडिंग फ्रेमवर्क के तहत, लक्ष्य मॉडल T और ड्राफ्टिंग मॉडल D दिए गए, लक्ष्य है:

ड्राफ्टिंग मॉडल के प्रति-टोकन विलंबता TD को कम करना
उच्च स्वीकृति दर α बनाए रखना
सत्यापन प्रक्रिया की सटीकता सुनिश्चित करना (पूर्ण शब्दकोश)

मॉडल आर्किटेक्चर

1. शब्दकोश विभाजन

LM हेड वजन के स्तंभ-सामान्यीकृत पर गोलाकार k-means का उपयोग करके क्लस्टरिंग:

{WLM[:, v]/||WLM[:, v]||₂}v∈V → {C₁, ..., CM}

शब्दकोश V को M मोटे-अनाज टोकन क्लस्टर में विभाजित करता है।

2. हल्के-वजन रूटर

मेटा-वर्गीकरण rθ: Rᵈʳ → RM, टोकन एम्बेडिंग और पिछले चरण की छिपी स्थिति को इनपुट के रूप में:

s = rθ([E(xt), H̃t-1])

स्वतंत्र CUDA स्ट्रीम पर समानांतर में निष्पादित, प्रत्येक क्लस्टर के लिए स्कोर की गणना करता है।

3. स्थिति-जागरूक क्लस्टर चयन

स्थिति-जागरूक बजट kc(t) का उपयोग करता है:

kc(t) = {
  kmax,                    t ∈ {0,1}
  ⌊kmax/((t+1)·2)⌋,      t ≥ 2
}

शीर्ष-k क्लस्टर चुनता है छोटी सूची बनाने के लिए: VS(c,t) = ⋃m∈K(c,t) Cm

4. गतिशील ड्राफ्टिंग

ड्राफ्टिंग समय को विघटित करता है:

TD(c,t) ≈ Tembed + max{Tcore, Tmeta} + Tindex+gemm(B(c,t))

जहां B(c,t) ≪ |V|, शब्दकोश-संबंधित गणना को काफी कम करता है।

तकनीकी नवाचार बिंदु

संदर्भ-जागरूक गतिशील चयन: स्थिर विधियों की तुलना में, वर्तमान संदर्भ के अनुसार सबसे प्रासंगिक टोकन क्लस्टर चुन सकता है
मोटे-से-बारीक रूटिंग: चरम वर्गीकरण विचार से उधार लेता है, O(|V|d) जटिलता को O((M + |VS|)d) से बदलता है
स्थिति-जागरूक नीति: प्रारंभिक चरण प्राथमिकता रणनीति, स्वीकृति दर और कम्प्यूटेशनल दक्षता को संतुलित करता है
समानांतर निष्पादन: रूटर और ड्राफ्टिंग एन्कोडिंग विभिन्न CUDA स्ट्रीम पर समानांतर में, wall-clock ओवरहेड को कम करता है

प्रायोगिक सेटअप

डेटासेट

7 विविध कार्यों का उपयोग:

Spec-Bench: 6 कार्य जिनमें मशीन अनुवाद (WMT14 DE-EN), बहु-मोड़ संवाद (MT-Bench), पुनर्प्राप्ति प्रश्नोत्तर (Natural Questions), गणितीय तर्क (GSM8K), सारांश (CNN/DailyMail), RAG शामिल हैं
कोड जनरेशन: HumanEval (164 समस्याएं)
प्रत्येक कार्य के लिए 80 प्रॉम्प्ट, 1024 टोकन तक जनरेशन सीमा

मूल्यांकन मेट्रिक्स

औसत स्वीकृति लंबाई (Mean Acceptance Length): प्रत्येक ड्राफ्ट-सत्यापन चक्र में औसतन प्रस्तुत टोकन की संख्या
औसत शब्दकोश आकार: गतिशील छोटी सूची का औसत आकार

तुलनात्मक विधियां

Full Vocab (EAGLE-2): पूर्ण 128k शब्दकोश आधार रेखा
FR-Spec: आवृत्ति-क्रमबद्ध 32k निश्चित उपसमुच्चय विधि
DynaSpec वेरिएंट: निश्चित top-k बनाम स्थिति-जागरूक top-k

कार्यान्वयन विवरण

मॉडल: Llama-3-8B-Instruct (128k शब्दकोश)
हार्डवेयर: एकल NVIDIA A6000 GPU
क्लस्टर संख्या M सेटिंग और रूटर प्रशिक्षण ShareGPT और UltraChat200K उपसमुच्चय का उपयोग करते हैं

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	MT	Conv.	RAG	Math	QA	Summ.	Code	औसत
Full Vocab	3.66	4.11	4.03	4.31	3.45	3.68	4.77	4.00
FR-Spec	3.38	3.87	3.85	4.16	3.32	3.51	4.11	3.74
DynaSpec	3.51	4.05	3.91	4.21	3.40	3.51	4.71	3.90

मुख्य निष्कर्ष:

DynaSpec औसत स्वीकृति लंबाई में FR-Spec से बेहतर है, जबकि छोटी औसत छोटी सूची का उपयोग करता है (27.3k बनाम 32k)
पूर्ण शब्दकोश आधार रेखा की तुलना में, DynaSpec प्रतिस्पर्धी प्रदर्शन बनाए रखते हुए कम्प्यूटेशनल ओवरहेड को काफी कम करता है

विलोपन प्रयोग

स्थिति-जागरूक नीति प्रभाव:

DynaSpec-PA (स्थिति-जागरूक) बनाम DynaSpec-F (निश्चित top-k)
स्थिति-जागरूक नीति सभी कार्यों पर निश्चित नीति से बेहतर है
औसत शब्दकोश आकार छोटा है लेकिन स्वीकृति लंबाई अधिक है

FR-Spec + स्थिति-जागरूक:

विधि	औसत स्वीकृति लंबाई	औसत शब्दकोश आकार
FR-Spec-F	3.74	32,768
FR-Spec-PA	3.81	31,739

सैद्धांतिक सत्यापन

प्रायोगिक परिणाम सैद्धांतिक विश्लेषण में मूल निष्कर्षों को सत्यापित करते हैं:

गतिशील संदर्भ-जागरूक उपसमुच्चय अपेक्षित स्वीकृति दर में स्थिर उपसमुच्चय से सख्ती से बेहतर है
स्थिति-जागरूक शेड्यूलिंग प्रारंभिक स्वीकृति दर और बाद की कम्प्यूटेशनल दक्षता को प्रभावी ढंग से संतुलित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

गतिशील स्थिर से बेहतर है: संदर्भ-जागरूक गतिशील टोकन चयन स्वीकृति दर में किसी भी निश्चित उपसमुच्चय से सख्ती से बेहतर है
स्थिति-जागरूक प्रभावी है: प्रारंभिक टोकन प्राथमिकता नीति स्वीकृति दर और कम्प्यूटेशनल दक्षता को प्रभावी ढंग से संतुलित कर सकती है
सिस्टम व्यवहार्यता: समानांतर निष्पादन और कर्नेल फ्यूजन के माध्यम से, गतिशील विधि का सिस्टम ओवरहेड नियंत्रणीय है
व्यापक प्रयोज्यता: विधि EAGLE-शैली पाइपलाइन के साथ संगत है, प्लग-एंड-प्ले घटक के रूप में कार्य कर सकता है

सीमाएं

क्लस्टर विभाजन निर्भरता: LM हेड वजन पर आधारित क्लस्टरिंग सर्वोत्तम रणनीति नहीं हो सकती है
हाइपरपैरामीटर संवेदनशीलता: क्लस्टर संख्या M और बजट शेड्यूलिंग पैरामीटर विभिन्न मॉडलों के लिए ट्यूनिंग की आवश्यकता है
मेमोरी ओवरहेड: क्लस्टर मैपिंग और रूटर पैरामीटर संग्रहीत करने की आवश्यकता है
कोल्ड स्टार्ट समस्या: रूटर को अतिरिक्त प्रशिक्षण डेटा और समय की आवश्यकता है

भविष्य की दिशाएं

अनुकूली क्लस्टरिंग: कार्य या डोमेन-आधारित गतिशील क्लस्टरिंग रणनीति का अन्वेषण करना
अंत-से-अंत अनुकूलन: रूटर और ड्राफ्टिंग मॉडल का संयुक्त अनुकूलन
बहु-मोडल विस्तार: विधि को दृश्य-भाषा मॉडल तक विस्तारित करना
हार्डवेयर सह-डिजाइन: विशिष्ट हार्डवेयर के लिए कर्नेल कार्यान्वयन को अनुकूलित करना

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक आधार: गतिशील विधि की श्रेष्ठता साबित करने के लिए कठोर गणितीय विश्लेषण प्रदान करता है
मजबूत व्यावहारिकता: मौजूदा फ्रेमवर्क के साथ संगत, तैनाती में आसान
सिस्टम सोच: एल्गोरिदम और सिस्टम अनुकूलन दोनों पर विचार करता है, वास्तविक तैनाती समस्याओं को हल करता है
व्यापक प्रयोग: कई कार्यों और मेट्रिक्स पर विधि प्रभावशीलता सत्यापित करता है
स्पष्ट लेखन: तकनीकी विवरण सटीक रूप से वर्णित, तार्किक संरचना स्पष्ट है

कमजोरियां

मूल्यांकन सीमाएं: मुख्य रूप से एकल मॉडल सीरीज (Llama-3) पर परीक्षण, सामान्यीकरण की पुष्टि बाकी है
विलंबता विश्लेषण अपर्याप्त: अंत-से-अंत विलंबता का विस्तृत विश्लेषण और तुलना की कमी
क्लस्टर गुणवत्ता मूल्यांकन: विभिन्न क्लस्टरिंग रणनीतियों के प्रदर्शन प्रभाव का गहन विश्लेषण नहीं
स्केल सत्यापन: बड़े मॉडल या बड़े शब्दकोश पर सत्यापन नहीं
लागत विश्लेषण: रूटर प्रशिक्षण की कम्प्यूटेशनल लागत विश्लेषण की कमी

प्रभाव

शैक्षणिक मूल्य: बड़े शब्दकोश LLM अनुमान अनुकूलन के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: वास्तविक तैनाती में महत्वपूर्ण बाधा समस्या को हल करता है
पुनरुत्पादनीयता: विस्तृत एल्गोरिदम विवरण और कार्यान्वयन विवरण प्रदान करता है
प्रेरणा: संबंधित अनुकूलन दिशाओं के लिए सैद्धांतिक और व्यावहारिक मार्गदर्शन प्रदान करता है

प्रयोज्य परिदृश्य

बड़े शब्दकोश LLM तैनाती: विशेष रूप से 128k+ शब्दकोश वाले मॉडलों के लिए उपयुक्त
संसाधन-सीमित वातावरण: कम्प्यूटेशनल संसाधन सीमित होने पर प्रदर्शन और दक्षता को संतुलित करता है
बहु-कार्य अनुप्रयोग: विभिन्न डोमेन में सामान्यीकरण की आवश्यकता वाले परिदृश्य
वास्तविक समय अनुमान प्रणाली: विलंबता-संवेदनशील अनुप्रयोग परिदृश्य

संदर्भ

पेपर अनुमानी डिकोडिंग, बड़े शब्दकोश LLM, चरम वर्गीकरण आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जो विधि डिजाइन के लिए ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ साहित्य में EAGLE सीरीज, FR-Spec, और चरम वर्गीकरण में LightXML और CascadeXML जैसे कार्य शामिल हैं।