DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
Zhang, Ullah, Schultheis et al.
Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.
academic
DynaSpec: Échantillonnage Spéculatif Dynamique Conscient du Contexte pour les Modèles de Langage à Grand Vocabulaire
Le décodage spéculatif s'est établi comme une méthode standard pour accélérer l'inférence des grands modèles de langage : un petit modèle de brouillon propose plusieurs tokens, tandis qu'un grand modèle cible les valide tous à la fois sur la longueur spéculée. Avec l'expansion de la taille du vocabulaire des LLM, le nombre de tokens augmente considérablement. Bien que la validation sur le vocabulaire complet ait peu d'impact sur le modèle cible, les paramètres O(|V|d) de la tête de sortie du modèle de brouillon deviennent un goulot d'étranglement de latence, ralentissant l'ensemble du pipeline. Les méthodes existantes (comme FR-Spec et VocabTrim) limitent le vocabulaire du modèle de brouillon à un sous-ensemble fixe du vocabulaire du modèle cible, trié par ordre décroissant de fréquence des tokens. Bien que cela réduise le calcul du temps de brouillon, cette approche présente des fragilités : (i) les listes de fréquence dépendent du corpus et nécessitent un réajustement pour généraliser ; (ii) les listes courtes statiques suppriment les tokens rares ou spécifiques au domaine, réduisant le nombre attendu de tokens par étape de validation. Cet article propose DynaSpec, un mécanisme de liste courte dynamique conscient du contexte, robuste, qui accélère le brouillon et généralise bien sur des tâches diversifiées.
Avec le développement des grands modèles de langage, la taille du vocabulaire a augmenté de façon spectaculaire : de 32k tokens pour Llama-2 à 128k pour Llama-3, 129k pour DeepSeek-V3, 152k pour Qwen-2.5, et même 262k tokens pour Gemma-3. Dans le décodage spéculatif, bien que le grand modèle cible puisse supporter la charge de calcul du vocabulaire complet, les paramètres O(|V|d) de la couche de sortie du petit modèle de brouillon constituent un goulot d'étranglement de latence grave.
FR-Spec et VocabTrim : utilisent un sous-ensemble fixe de tokens haute fréquence, présentant les problèmes suivants :
Les listes de fréquence dépendent d'un corpus spécifique et généralisent mal entre les benchmarks
Le sous-ensemble statique peut supprimer les tokens rares ou spécifiques au domaine, réduisant le taux d'acceptation
Manque de Conscience du Contexte : les méthodes existantes ne peuvent pas ajuster dynamiquement l'ensemble des candidats tokens en fonction du contexte actuel
S'inspirant de l'idée du routage grossier à fin dans la classification extrême, cet article propose un mécanisme de sélection de vocabulaire dynamique conscient du contexte, qui améliore l'efficacité du brouillon tout en maintenant la précision de la validation.
Proposition du cadre DynaSpec : introduction d'un léger métaclassificateur granulaire grossier qui achemine le contexte vers un petit nombre de grappes de tokens, le modèle de brouillon opérant uniquement sur l'union des grappes sélectionnées
Analyse Théorique : preuve que le conditionnement dynamique conscient du contexte est strictement supérieur à tout sous-ensemble statique en termes de taux d'acceptation attendu
Planification Consciente de la Position : proposition d'une stratégie de budget de grappe consciente de la position, allouant plus de grappes aux tokens précoces et réduisant progressivement pour les tokens tardifs, équilibrant le taux d'acceptation et la latence
Optimisation Système : atténuation de la surcharge matmul de la tête dynamique par fusion d'index + noyaux GEMM et exécution parallèle
Vérification Expérimentale : validation sur 7 tâches standard, obtenant des améliorations cohérentes de la longueur d'acceptation moyenne par rapport aux bases de référence de liste courte fixe
Sélection Dynamique Consciente du Contexte : comparé aux méthodes statiques, capable de sélectionner les grappes de tokens les plus pertinentes en fonction du contexte actuel
Routage Grossier à Fin : s'inspirant de la classification extrême, remplaçant la complexité O(|V|d) par O((M + |VS|)d)
Stratégie Consciente de la Position : stratégie de priorité aux étapes précoces, équilibrant le taux d'acceptation et l'efficacité de calcul
Exécution Parallèle : routeur et codage de brouillon exécutés en parallèle sur différents flux CUDA, réduisant la surcharge wall-clock
DynaSpec surpasse FR-Spec en longueur d'acceptation moyenne, tout en utilisant une liste courte moyenne plus petite (27,3k vs 32k)
Comparé à la base de référence du vocabulaire complet, DynaSpec réduit significativement la surcharge de calcul tout en maintenant des performances compétitives
Dynamique Supérieur au Statique : la sélection dynamique de tokens consciente du contexte est strictement supérieure à tout sous-ensemble fixe en termes de taux d'acceptation
Efficacité Consciente de la Position : la stratégie de priorité aux tokens précoces équilibre efficacement le taux d'acceptation et l'efficacité de calcul
Faisabilité Système : par exécution parallèle et fusion de noyaux, la surcharge système de la méthode dynamique est contrôlable
Applicabilité Large : la méthode est compatible avec les pipelines de style EAGLE, pouvant servir de composant plug-and-play
Dépendance du Partitionnement : le regroupement basé sur les poids de la tête LM peut ne pas être la stratégie optimale
Sensibilité aux Hyperparamètres : le nombre de grappes M et les paramètres de planification de budget nécessitent un ajustement pour différents modèles
Surcharge Mémoire : nécessite le stockage de la cartographie des grappes et des paramètres du routeur
Problème de Démarrage à Froid : le routeur nécessite des données d'entraînement supplémentaires et du temps
L'article cite des travaux importants dans les domaines connexes du décodage spéculatif, des LLM à grand vocabulaire et de la classification extrême, fournissant une base théorique solide pour la conception de la méthode. Les références clés incluent la série EAGLE, FR-Spec, ainsi que des travaux en classification extrême comme LightXML et CascadeXML.