Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic
Quantize-Sample-and-Verify: Accélération des LLM via Décodage Spéculatif Adaptatif Edge-Cloud
Dans les systèmes de décodage spéculatif edge-cloud (SD), les appareils périphériques équipés de petits modèles de langage (SLM) génèrent des jetons brouillons, qui sont ensuite vérifiés par un grand modèle de langage (LLM) dans le cloud. Le goulot d'étranglement critique de tels systèmes est la bande passante de communication limitée entre l'edge et le cloud, ce qui rend nécessaire la quantification des informations de jetons transmises. Ce travail introduit une nouvelle stratégie de quantification-échantillonnage (Q-S) qui préserve de manière prouvable la distribution de sortie du modèle cloud, garantissant que les jetons vérifiés correspondent à la distribution des jetons générés directement par le LLM. Nous développons un modèle de débit explicitement tenant compte de la latence de communication pour le SD edge-cloud. Sur la base de ce modèle, nous proposons un mécanisme adaptatif qui optimise le débit de jetons en ajustant dynamiquement la longueur des brouillons et la précision de quantification en réponse à l'incertitude sémantique et aux conditions du canal. Les résultats de simulation démontrent que la méthode Q-S proposée améliore significativement l'efficacité du décodage dans des scénarios de déploiement edge-cloud réalistes.
Le problème fondamental que cette recherche aborde est la limitation de la bande passante de communication dans les systèmes de décodage spéculatif edge-cloud. Dans le décodage spéculatif traditionnel, les appareils périphériques doivent transmettre au cloud une grande quantité d'informations de distribution de probabilité, ce qui affecte gravement les performances du système dans les environnements à bande passante limitée.
Valeur Pratique: L'inférence collaborative edge-cloud est une tendance importante dans le déploiement actuel des LLM, capable d'équilibrer les ressources de calcul et la latence de réponse
Défis Techniques: Les méthodes existantes corrompent la distribution de sortie originale du LLM lors de la quantification des distributions de probabilité, affectant la qualité de génération
Bénéfices Économiques: Réduction des appels API redondants, amélioration de l'efficacité énergétique et de la scalabilité du système
Les méthodes existantes d'échantillonnage-quantification (S-Q) présentent des défauts critiques:
La stratégie d'échantillonnage d'abord puis de quantification entraîne une incohérence entre la distribution d'échantillonnage edge et la distribution de vérification cloud
Viole la propriété fondamentale du décodage spéculatif de préserver la distribution des jetons du LLM
Les performances se dégradent significativement à des températures d'échantillonnage élevées
La motivation de cet article est de concevoir un schéma de décodage spéculatif edge-cloud qui réduit les frais généraux de communication tout en préservant strictement la cohérence de la distribution de sortie du LLM.
Proposition d'une stratégie de quantification-échantillonnage (Q-S): Préserve de manière prouvable la distribution de sortie du LLM cloud, garantissant l'absence de perte de qualité de génération
Établissement d'un modèle de débit tenant compte de la latence de communication: Modélise explicitement l'impact des délais de transmission en liaison montante et descendante sur les performances du système
Conception d'un mécanisme d'allocation de ressources adaptatif: Ajuste dynamiquement la longueur des brouillons et la précision de quantification basé sur l'apprentissage par renforcement
Fourniture de garanties théoriques: Démontre l'équivalence de distribution de la méthode Q-S via la Proposition 1
La tâche de décodage spéculatif edge-cloud est définie comme suit: étant donné un préfixe d'entrée s¹, le système doit générer une séquence de jetons via le SLM edge, vérifiée par le LLM cloud, produisant finalement une séquence de jetons avec la même distribution que celle générée directement par le LLM.
Proposition 1: Le décodage spéculatif Q-S edge-cloud garantit que la probabilité P(X = xᵗₗ) du jeton généré xᵗₗ est égale à la probabilité correspondante pᵗₗ,xᵗₗ du LLM.
La clé de cette propriété réside dans le fait que l'échantillonnage et la vérification utilisent la même distribution quantifiée, tandis que la méthode S-Q utilise des distributions différentes causant un décalage de distribution.
L'entropie de Shannon des jetons de toutes les méthodes augmente avec la température d'échantillonnage, confirmant l'effet correct du paramètre de température sur la diversité de sortie.
La Cohérence de Distribution est Cruciale: Maintenir la cohérence entre les distributions d'échantillonnage et de vérification est essentiel pour préserver la qualité de génération
La Latence de Communication Affecte Significativement les Performances: Dans les environnements à faible bande passante, les frais généraux de communication deviennent le goulot d'étranglement principal
L'Effet de la Stratégie Adaptative est Significatif: L'ajustement dynamique des paramètres s'adapte efficacement à différentes conditions sémantiques et réseau
La Stratégie Q-S Surpasse S-Q: Réalise une amélioration significative du débit tout en préservant la qualité de génération
Le Mécanisme Adaptatif est Efficace: L'ajustement dynamique de la longueur des brouillons et de la précision de quantification s'adapte efficacement à différentes conditions
Cohérence entre Théorie et Pratique: L'analyse théorique et les résultats expérimentaux se valident mutuellement
Portée Expérimentale Limitée: Validé uniquement sur une tâche et un ensemble de données uniques, preuves de généralisation insuffisantes
Méthodes de Base Simples: Les méthodes heuristiques comparées sont relativement simples, manquent de bases plus fortes
Simulation Matérielle: Simule les performances des appareils edge via des facteurs d'échelle, peut différer de la situation réelle
Modèle Réseau Simplifié: Le modèle de Markov à deux états est trop simplifié, les réseaux réels sont plus complexes
Analyse Insuffisante des Frais Généraux de Calcul: Analyse limitée des frais généraux de calcul de la quantification et de l'apprentissage par renforcement
L'article fournit des configurations expérimentales détaillées et des liens vers du code open-source, offrant une bonne reproductibilité. Cependant, la validation du déploiement sur des appareils edge réels nécessite des travaux supplémentaires.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.
Évaluation Globale: Cet article est un travail de haute qualité avec des contributions importantes dans le domaine du décodage spéculatif edge-cloud. L'analyse théorique est rigoureuse, la validation expérimentale est suffisante, et il résout les problèmes clés des applications pratiques. Malgré certaines limitations, son caractère innovant et sa valeur pratique en font un travail important dans ce domaine.