DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
Zhang, Ullah, Schultheis et al.
Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.
academic
DynaSpec: أخذ العينات التخمينية الديناميكية الموجهة بالسياق لنماذج اللغة الكبيرة ذات المفردات الواسعة
أصبح الفك التخميني (Speculative decoding) الطريقة المعيارية لتسريع استدلال نماذج اللغة الكبيرة: يقترح نموذج مسودة صغير عدة رموز، بينما يتحقق نموذج الهدف الكبير من طول التخمين دفعة واحدة. مع توسع حجم المفردات في نماذج اللغة الكبيرة، يزداد عدد الرموز بشكل كبير. بينما التحقق على المفردات الكاملة لا يؤثر كثيراً على نموذج الهدف، فإن معاملات رأس الإخراج O(|V|d) لنموذج المسودة تصبح اختناق الكمون، مما يبطئ خط الأنابيب بأكمله. الطرق الموجودة (مثل FR-Spec و VocabTrim) تقيد مفردات نموذج المسودة إلى مجموعة فرعية ثابتة من مفردات نموذج الهدف، مرتبة بترتيب تنازلي حسب تكرار الرموز. بينما يقلل هذا من حساب وقت المسودة، إلا أنه يعاني من الهشاشة: (i) قوائم التكرار تعتمد على المدونة وتتطلب إعادة ضبط للتعميم؛ (ii) القائمة القصيرة الثابتة تثبط الرموز النادرة أو الخاصة بالمجال، مما يقلل من عدد الرموز المتوقعة لكل خطوة تحقق. تقترح هذه الورقة DynaSpec، آلية قائمة قصيرة ديناميكية موجهة بالسياق، توفر متانة وتسريع المسودة وتعميماً جيداً عبر المهام المتنوعة.
مع تطور نماذج اللغة الكبيرة، ينمو حجم المفردات بشكل حاد: من 32k رمز في Llama-2 إلى 128k في Llama-3، و129k في DeepSeek-V3، وحتى 152k في Qwen-2.5، و262k رمز في Gemma-3. في الفك التخميني، بينما يمكن لنموذج الهدف الكبير تحمل العبء الحسابي للمفردات الكاملة، فإن معاملات الطبقة الإخراجية O(|V|d) لنموذج المسودة الصغير تصبح اختناق كمون خطير.
بناءً على فكرة التوجيه من الخشن إلى الدقيق في التصنيف الشديد، تقترح هذه الورقة آلية اختيار مفردات ديناميكية موجهة بالسياق، لتحسين كفاءة المسودة مع الحفاظ على دقة التحقق.
اقتراح إطار عمل DynaSpec: إدخال مصنف فوقي خفيف الوزن بحبيبات خشنة، يوجه السياق إلى عدد قليل من مجموعات الرموز، حيث يعمل نموذج المسودة فقط على اتحاد المجموعات المختارة
التحليل النظري: إثبات أن الاختيار الديناميكي الموجه بالسياق يتفوق بشكل صارم على أي مجموعة فرعية ثابتة من حيث معدل القبول المتوقع
جدولة موجهة بالموضع: اقتراح استراتيجية ميزانية مجموعة موجهة بالموضع، تخصص مجموعات أكثر للرموز المبكرة وتقلل تدريجياً لاحقاً، موازنة معدل القبول والكمون
التحسين النظامي: تخفيف عبء matmul للرأس الديناميكي من خلال دمج الفهرسة + نوى GEMM والتنفيذ المتوازي
التحقق التجريبي: التحقق على 7 مهام معيارية، تحقيق تحسن متسق في متوسط طول القبول مقارنة بخطوط الأساس ذات القائمة القصيرة الثابتة
تستشهد الورقة بأعمال مهمة في مجالات الفك التخميني، نماذج اللغة الكبيرة ذات المفردات الواسعة، والتصنيف الشديد، مما يوفر أساساً نظرياً متيناً لتصميم الطريقة. تشمل المراجع الرئيسية سلسلة EAGLE و FR-Spec وأعمال التصنيف الشديد مثل LightXML و CascadeXML.