2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

Quantize-Sample-and-Verify: Accélération des LLM via Décodage Spéculatif Adaptatif Edge-Cloud

Informations Fondamentales

ID de l'article: 2507.00605
Titre: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Auteurs: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
Classification: eess.SP (Génie Électrique et Sciences des Systèmes - Traitement du Signal)
Date de Publication: 1er juillet 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2507.00605

Résumé

Dans les systèmes de décodage spéculatif edge-cloud (SD), les appareils périphériques équipés de petits modèles de langage (SLM) génèrent des jetons brouillons, qui sont ensuite vérifiés par un grand modèle de langage (LLM) dans le cloud. Le goulot d'étranglement critique de tels systèmes est la bande passante de communication limitée entre l'edge et le cloud, ce qui rend nécessaire la quantification des informations de jetons transmises. Ce travail introduit une nouvelle stratégie de quantification-échantillonnage (Q-S) qui préserve de manière prouvable la distribution de sortie du modèle cloud, garantissant que les jetons vérifiés correspondent à la distribution des jetons générés directement par le LLM. Nous développons un modèle de débit explicitement tenant compte de la latence de communication pour le SD edge-cloud. Sur la base de ce modèle, nous proposons un mécanisme adaptatif qui optimise le débit de jetons en ajustant dynamiquement la longueur des brouillons et la précision de quantification en réponse à l'incertitude sémantique et aux conditions du canal. Les résultats de simulation démontrent que la méthode Q-S proposée améliore significativement l'efficacité du décodage dans des scénarios de déploiement edge-cloud réalistes.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche aborde est la limitation de la bande passante de communication dans les systèmes de décodage spéculatif edge-cloud. Dans le décodage spéculatif traditionnel, les appareils périphériques doivent transmettre au cloud une grande quantité d'informations de distribution de probabilité, ce qui affecte gravement les performances du système dans les environnements à bande passante limitée.

Importance

Valeur Pratique: L'inférence collaborative edge-cloud est une tendance importante dans le déploiement actuel des LLM, capable d'équilibrer les ressources de calcul et la latence de réponse
Défis Techniques: Les méthodes existantes corrompent la distribution de sortie originale du LLM lors de la quantification des distributions de probabilité, affectant la qualité de génération
Bénéfices Économiques: Réduction des appels API redondants, amélioration de l'efficacité énergétique et de la scalabilité du système

Limitations des Méthodes Existantes

Les méthodes existantes d'échantillonnage-quantification (S-Q) présentent des défauts critiques:

La stratégie d'échantillonnage d'abord puis de quantification entraîne une incohérence entre la distribution d'échantillonnage edge et la distribution de vérification cloud
Viole la propriété fondamentale du décodage spéculatif de préserver la distribution des jetons du LLM
Les performances se dégradent significativement à des températures d'échantillonnage élevées

Motivation de la Recherche

La motivation de cet article est de concevoir un schéma de décodage spéculatif edge-cloud qui réduit les frais généraux de communication tout en préservant strictement la cohérence de la distribution de sortie du LLM.

Contributions Principales

Proposition d'une stratégie de quantification-échantillonnage (Q-S): Préserve de manière prouvable la distribution de sortie du LLM cloud, garantissant l'absence de perte de qualité de génération
Établissement d'un modèle de débit tenant compte de la latence de communication: Modélise explicitement l'impact des délais de transmission en liaison montante et descendante sur les performances du système
Conception d'un mécanisme d'allocation de ressources adaptatif: Ajuste dynamiquement la longueur des brouillons et la précision de quantification basé sur l'apprentissage par renforcement
Fourniture de garanties théoriques: Démontre l'équivalence de distribution de la méthode Q-S via la Proposition 1

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de décodage spéculatif edge-cloud est définie comme suit: étant donné un préfixe d'entrée s¹, le système doit générer une séquence de jetons via le SLM edge, vérifiée par le LLM cloud, produisant finalement une séquence de jetons avec la même distribution que celle générée directement par le LLM.

Architecture du Modèle

Architecture du Système

Le système comprend quatre phases clés:

Génération de Jetons: Le SLM edge génère de manière autorégressive L^t jetons brouillons
Transmission en Liaison Montante: Transmet les distributions de probabilité quantifiées et les jetons au cloud
Vérification de Jetons: Le LLM cloud vérifie en parallèle les jetons brouillons
Transmission en Liaison Descendante: Retourne les résultats de vérification et les jetons nouvellement générés

Mécanisme Principal de la Stratégie Q-S

Innovation Clé: Quantifier d'abord la distribution de probabilité, puis échantillonner à partir de la distribution quantifiée

Expression Mathématique:

Vecteur de probabilité quantifié: q̂ᵗₗ = Quantize(qᵗₗ)
Échantillonnage à partir de la distribution quantifiée: xᵗₗ ~ q̂ᵗₗ
Probabilité de vérification: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Algorithme de Quantification par Réseau

Utilise la quantification de vecteurs de probabilité basée sur réseau:

Ensemble de quantification: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
Nombre de bits codés: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
Complexité: O(V log(V))

Points d'Innovation Technique

1. Preuve de Préservation de Distribution

Proposition 1: Le décodage spéculatif Q-S edge-cloud garantit que la probabilité P(X = xᵗₗ) du jeton généré xᵗₗ est égale à la probabilité correspondante pᵗₗ,xᵗₗ du LLM.

La clé de cette propriété réside dans le fait que l'échantillonnage et la vérification utilisent la même distribution quantifiée, tandis que la méthode S-Q utilise des distributions différentes causant un décalage de distribution.

2. Mécanisme d'Optimisation Adaptatif

Politique dynamique basée sur l'apprentissage par renforcement π, l'espace d'état comprend:

Information Sémantique: Vecteur de confiance de préfixe fᵗ et confiance moyenne f̄ᵗ
Information de Connexion: Débit de canal en liaison montante actuel Cᵗᵤ

Espace d'action: aᵗ = (Lᵗ, bᵗ), c'est-à-dire la longueur des brouillons et le nombre de bits de quantification

3. Modélisation de la Latence

Modèle de latence totale:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Où:

Latence en liaison montante: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
Latence en liaison descendante: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Configuration Expérimentale

Ensemble de Données

Ensemble de Données: Ensemble de données CNN/DailyMail pour résumé de texte abstrait
Tâche: Génération de résumé de texte abstrait
Métriques d'Évaluation: Score ROUGE-2, débit de jetons, entropie de Shannon

Configuration du Modèle

LLM Cloud: OPT-13B (13 milliards de paramètres)
SLM Edge: OPT-125M (125 millions de paramètres)
Matériel: GPU NVIDIA A100 40GB
Taille de Lot: 1 (conforme aux normes de la littérature existante)

Modèle de Canal

Utilise un modèle de Markov à deux états pour simuler le canal en liaison montante variant dans le temps:

État de Faible Vitesse: Moyenne 350 kbps (similaire à NB-IoT)
État de Haute Vitesse: Moyenne 4 Mbps
Probabilités de transition d'état: p_low→high et p_high→low

Méthodes de Comparaison

LLM: Utilisation directe du LLM cloud
SLM: Utilisation uniquement du SLM edge
S-Q: Décodage spéculatif d'échantillonnage-quantification
Q-S (Statique): Méthode statique de quantification-échantillonnage
Q-S (Heuristique): Q-S adaptatif heuristique
Q-S (Dynamique): Q-S dynamique basé sur l'apprentissage par renforcement

Résultats Expérimentaux

Résultats Principaux

1. Préservation de la Qualité de Génération

Comparaison des Scores ROUGE-2:

Les méthodes Q-S (statique et dynamique) maintiennent le même score ROUGE-2 que le LLM à toutes les températures d'échantillonnage
La méthode S-Q s'écarte significativement des performances du LLM à haute température
Valide les garanties théoriques de la Proposition 1

2. Amélioration du Débit

Environnement Réseau à Faible Vitesse (350 kbps):

Q-S (Dynamique) améliore le débit de jetons d'environ 40-50% par rapport au LLM
Amélioration d'environ 15-20% par rapport à la méthode Q-S statique
Amélioration d'environ 8-12% par rapport à la méthode heuristique

Environnement Réseau à Haute Vitesse (4 Mbps):

La communication n'est plus le goulot d'étranglement principal, mais la méthode dynamique offre toujours une amélioration de 5-10%
Démontre la robustesse de la stratégie adaptative

3. Analyse d'Entropie

L'entropie de Shannon des jetons de toutes les méthodes augmente avec la température d'échantillonnage, confirmant l'effet correct du paramètre de température sur la diversité de sortie.

Expériences d'Ablation

En comparant les trois variantes de Q-S (statique, heuristique et dynamique), on valide:

Efficacité de la Stratégie de Quantification: Avantage de Q-S par rapport à S-Q
Valeur du Mécanisme Adaptatif: Amélioration de l'ajustement dynamique par rapport aux paramètres fixes
Nécessité de l'Apprentissage par Renforcement: Amélioration par rapport aux règles heuristiques simples

Découvertes Clés

La Cohérence de Distribution est Cruciale: Maintenir la cohérence entre les distributions d'échantillonnage et de vérification est essentiel pour préserver la qualité de génération
La Latence de Communication Affecte Significativement les Performances: Dans les environnements à faible bande passante, les frais généraux de communication deviennent le goulot d'étranglement principal
L'Effet de la Stratégie Adaptative est Significatif: L'ajustement dynamique des paramètres s'adapte efficacement à différentes conditions sémantiques et réseau

Travaux Connexes

Recherche sur le Décodage Spéculatif

Décodage Spéculatif de Base: Méthode d'échantillonnage spéculatif originale proposée par Chen et al.1
Collaboration Edge-Cloud: Première exploration de la collaboration edge-cloud SD par Hao et al.4
Saut de Jetons Basé sur l'Incertitude: Stratégie de saut de jetons basée sur l'incertitude proposée par Oh et al.5

Techniques de Quantification

Quantification de Vecteurs de Probabilité: Algorithme de quantification par réseau de Reznik10
Quantification de Prompts: Quantification au niveau des prompts par Jiao et al.11 et Hao et al.12
Quantification du Cache KV: Méthode de quantification du cache clé-valeur par He et al.13

Avantages Relatifs de cet Article

Garanties Théoriques: Première preuve rigoureuse de préservation de distribution
Modélisation Système: Modèle système complet tenant explicitement compte de la latence de communication
Optimisation Adaptative: Ajustement dynamique des paramètres basé sur l'apprentissage par renforcement

Conclusion et Discussion

Conclusions Principales

La Stratégie Q-S Surpasse S-Q: Réalise une amélioration significative du débit tout en préservant la qualité de génération
Le Mécanisme Adaptatif est Efficace: L'ajustement dynamique de la longueur des brouillons et de la précision de quantification s'adapte efficacement à différentes conditions
Cohérence entre Théorie et Pratique: L'analyse théorique et les résultats expérimentaux se valident mutuellement

Limitations

Hypothèses du Modèle: Suppose une transmission en liaison descendante sans délai, les scénarios réels peuvent être plus complexes
Méthode de Quantification: Considère uniquement la quantification par réseau, l'efficacité d'autres méthodes de quantification reste inconnue
Limitation des Tâches: Validé uniquement sur des tâches de résumé de texte, la généralisation reste à vérifier
Dépendance Matérielle: Les expériences sont basées sur des GPU haute performance, les performances sur les appareils edge réels peuvent différer

Directions Futures

Extension à d'Autres Tâches: Scénarios d'application tels que la génération de dialogue, la génération de code
Modèles Réseau Plus Complexes: Considération des pertes de paquets, de la gigue et d'autres problèmes réseau réels
Extension Multimodale: Scénarios image-texte, parole-texte et autres contextes multimodaux
Optimisation Matérielle: Stratégies d'optimisation pour des matériels edge spécifiques

Évaluation Approfondie

Points Forts

Contributions Théoriques Solides: La Proposition 1 fournit des garanties mathématiques rigoureuses, comblant le vide théorique des méthodes existantes
Définition Claire du Problème: Identifie précisément les défauts fondamentaux de la méthode S-Q et propose une solution ciblée
Modélisation Systématique: Considère complètement les délais de calcul et de communication, établissant un modèle de performance complet
Conception Expérimentale Raisonnable: Valide l'efficacité de la méthode sous plusieurs angles, incluant la qualité, le débit et la robustesse
Valeur Pratique Élevée: Résout les problèmes pratiques du déploiement edge-cloud, avec des perspectives d'application importantes

Insuffisances

Portée Expérimentale Limitée: Validé uniquement sur une tâche et un ensemble de données uniques, preuves de généralisation insuffisantes
Méthodes de Base Simples: Les méthodes heuristiques comparées sont relativement simples, manquent de bases plus fortes
Simulation Matérielle: Simule les performances des appareils edge via des facteurs d'échelle, peut différer de la situation réelle
Modèle Réseau Simplifié: Le modèle de Markov à deux états est trop simplifié, les réseaux réels sont plus complexes
Analyse Insuffisante des Frais Généraux de Calcul: Analyse limitée des frais généraux de calcul de la quantification et de l'apprentissage par renforcement

Impact

Valeur Académique: Fournit une base théorique et des méthodes pratiques pour le décodage spéculatif edge-cloud
Applications Industrielles: Offre une orientation directe pour le déploiement de l'IA edge
Inspiration pour la Recherche: Fournit de nouvelles perspectives pour les domaines connexes (apprentissage fédéré, inférence distribuée, etc.)
Potentiel de Normalisation: Peut influencer l'établissement de normes pour la collaboration edge-cloud

Scénarios d'Application

Environnements à Bande Passante Limitée: Communications par satellite, réseaux dans les zones reculées, etc.
Applications Sensibles à la Latence: Systèmes de dialogue en temps réel, services d'IA edge
Appareils aux Ressources Limitées: Appareils mobiles, appareils IoT, etc.
Architectures Hybrides Cloud: Applications d'entreprise nécessitant une collaboration edge-cloud

Reproductibilité

L'article fournit des configurations expérimentales détaillées et des liens vers du code open-source, offrant une bonne reproductibilité. Cependant, la validation du déploiement sur des appareils edge réels nécessite des travaux supplémentaires.

Références

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Évaluation Globale: Cet article est un travail de haute qualité avec des contributions importantes dans le domaine du décodage spéculatif edge-cloud. L'analyse théorique est rigoureuse, la validation expérimentale est suffisante, et il résout les problèmes clés des applications pratiques. Malgré certaines limitations, son caractère innovant et sa valeur pratique en font un travail important dans ce domaine.