DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
Zhang, Ullah, Schultheis et al.
Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.
academic
DynaSpec: Контекстно-осведомленная динамическая спекулятивная выборка для больших языковых моделей с расширенным словарем
Спекулятивное декодирование стало стандартным методом ускорения вывода больших языковых моделей: небольшая модель-черновик предлагает несколько токенов, а большая целевая модель проверяет их за один раз на предложенную длину. С расширением размера словаря LLM количество токенов значительно возросло. Хотя проверка на полном словаре оказывает незначительное влияние на целевую модель, параметры O(|V|d) выходного слоя модели-черновика становятся узким местом задержки, замедляя весь конвейер. Существующие методы (такие как FR-Spec и VocabTrim) ограничивают словарь модели-черновика фиксированным подмножеством словаря целевой модели, упорядоченным по убыванию частоты токенов. Хотя это снижает вычислительные затраты на черновик, это имеет недостатки: (i) списки частот зависят от корпуса и требуют переоптимизации для обобщения; (ii) статические короткие списки подавляют редкие или специфичные для домена токены, снижая ожидаемое количество токенов на этап проверки. В данной работе предлагается DynaSpec — механизм динамического короткого списка, осведомленный о контексте, обладающий устойчивостью, ускоряющий черновик и хорошо обобщающийся на разнообразные задачи.
С развитием больших языковых моделей размер словаря резко увеличился: от 32k токенов в Llama-2 до 128k в Llama-3, 129k в DeepSeek-V3, 152k в Qwen-2.5 и даже 262k токенов в Gemma-3. При спекулятивном декодировании, хотя большая целевая модель может справиться с вычислительной нагрузкой полного словаря, параметры выходного слоя O(|V|d) небольшой модели-черновика становятся серьезным узким местом задержки.
На основе идеи маршрутизации от грубого к точному из экстремальной классификации предлагается механизм динамического выбора словаря, осведомленный о контексте, который повышает эффективность черновика при сохранении точности проверки.
Предложена структура DynaSpec: введен легковесный грубозернистый метаклассификатор, который маршрутизирует контекст к небольшому количеству кластеров токенов, модель-черновик работает только на объединении выбранных кластеров
Теоретический анализ: доказано, что динамическое контекстное условие строго превосходит любое статическое подмножество с точки зрения ожидаемого коэффициента приемки
Расписание с учетом позиции: предложена стратегия бюджета кластера с учетом позиции, ранние токены получают больше кластеров, позже постепенно уменьшаются, балансируя коэффициент приемки и задержку
Системная оптимизация: через слитые индексные ядра + GEMM и параллельное выполнение снижается нагрузка matmul динамического выходного слоя
Экспериментальная проверка: проверено на 7 стандартных задачах, достигнута последовательная улучшение средней длины приемки по сравнению с базовыми линиями фиксированного короткого списка
Контекстно-осведомленный динамический выбор: в отличие от статических методов, может выбирать наиболее релевантные кластеры токенов на основе текущего контекста
Маршрутизация от грубого к точному: заимствуя идеи из экстремальной классификации, замена O(|V|d) сложности на O((M + |VS|)d)
Стратегия с учетом позиции: приоритизация ранних шагов, балансирование коэффициента приемки и вычислительной эффективности
Параллельное выполнение: маршрутизатор и кодирование черновика выполняются параллельно на разных потоках CUDA, снижая wall-clock задержку
DynaSpec превосходит FR-Spec по средней длине приемки при использовании меньшего среднего короткого списка (27.3k vs 32k)
По сравнению с базовой линией полного словаря, DynaSpec значительно снижает вычислительные затраты при сохранении конкурентоспособной производительности
Динамическое лучше статического: контекстно-осведомленный динамический выбор токенов строго превосходит любое фиксированное подмножество с точки зрения коэффициента приемки
Эффективность стратегии с учетом позиции: приоритизация ранних токенов эффективно балансирует коэффициент приемки и вычислительную эффективность
Системная осуществимость: через параллельное выполнение и слияние ядер системные издержки динамического метода управляемы
Широкая применимость: метод совместим с конвейерами в стиле EAGLE, может использоваться как plug-and-play компонент
Статья цитирует важные работы в областях спекулятивного декодирования, больших LLM со словарем, экстремальной классификации, обеспечивая прочную теоретическую базу для проектирования метода. Ключевые ссылки включают серию EAGLE, FR-Spec, а также работы LightXML и CascadeXML в экстремальной классификации.