Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic
Quantize-Sample-and-Verify: Accelerazione LLM tramite Decodifica Speculativa Adattiva Edge-Cloud
Nei sistemi di decodifica speculativa edge-cloud (SD), i dispositivi edge dotati di piccoli modelli linguistici (SLM) generano token bozza, che vengono successivamente verificati da grandi modelli linguistici (LLM) nel cloud. Il collo di bottiglia critico di tali sistemi è la larghezza di banda di comunicazione limitata tra edge e cloud, il che rende necessaria la quantizzazione delle informazioni sui token generati trasmessi. Questo lavoro introduce una nuova strategia di quantizzazione-campionamento (Q-S) che dimostrabilmente preserva la distribuzione di output del modello cloud, garantendo che i token verificati corrispondano alla distribuzione dei token generati direttamente dall'LLM. Sviluppiamo un modello di throughput esplicito per SD edge-cloud che considera la latenza di comunicazione. Basandoci su questo modello, proponiamo un meccanismo adattivo che ottimizza il throughput dei token regolando dinamicamente la lunghezza della bozza e la precisione della quantizzazione in risposta all'incertezza semantica e alle condizioni del canale. I risultati delle simulazioni dimostrano che il metodo Q-S proposto migliora significativamente l'efficienza di decodifica in scenari realistici di distribuzione edge-cloud.
Il problema centrale affrontato da questa ricerca è la limitazione della larghezza di banda di comunicazione nei sistemi di decodifica speculativa edge-cloud. Nella decodifica speculativa tradizionale, i dispositivi edge devono trasmettere al cloud una grande quantità di informazioni sulla distribuzione di probabilità, il che compromette significativamente le prestazioni del sistema in ambienti con larghezza di banda limitata.
Valore Pratico: L'inferenza collaborativa edge-cloud è una tendenza importante nella distribuzione attuale di LLM, in grado di bilanciare le risorse computazionali e la latenza di risposta
Sfide Tecniche: I metodi esistenti danneggiano la distribuzione di output originale dell'LLM durante la quantizzazione della distribuzione di probabilità, influenzando la qualità della generazione
Benefici Economici: Riduzione delle chiamate API ridondanti, miglioramento dell'efficienza energetica e della scalabilità del sistema
I metodi esistenti di campionamento-quantizzazione (S-Q) presentano difetti critici:
La strategia di campionamento prima della quantizzazione porta a incoerenza tra la distribuzione di campionamento edge e la distribuzione di verifica cloud
Viola la proprietà fondamentale della decodifica speculativa di preservare la distribuzione dei token dell'LLM
Le prestazioni diminuiscono significativamente a temperature di campionamento elevate
La motivazione di questo lavoro è progettare uno schema di decodifica speculativa edge-cloud che riduca i costi di comunicazione mantenendo rigorosamente la coerenza della distribuzione di output dell'LLM.
Proposta della strategia Quantize-Sample (Q-S): Preserva dimostrabilmente la distribuzione di output dell'LLM cloud, garantendo che la qualità della generazione non sia compromessa
Stabilimento di un modello di throughput considerando la latenza di comunicazione: Modella esplicitamente l'impatto della latenza di trasmissione del collegamento ascendente e discendente sulle prestazioni del sistema
Progettazione di un meccanismo di allocazione delle risorse adattivo: Regola dinamicamente la lunghezza della bozza e la precisione della quantizzazione basandosi sull'apprendimento per rinforzo
Fornitura di garanzie teoriche: Dimostra l'equivalenza della distribuzione del metodo Q-S attraverso la Proposizione 1
Il compito di decodifica speculativa edge-cloud è definito come: dato un prefisso di input s¹, il sistema deve generare token bozza attraverso l'SLM edge, verificarli con l'LLM cloud, e infine generare una sequenza di token con la stessa distribuzione di quella generata direttamente dall'LLM.
Proposizione 1: La SD edge-cloud Q-S garantisce che la probabilità P(X = xᵗₗ) del token generato xᵗₗ sia uguale alla probabilità corrispondente pᵗₗ,xᵗₗ dell'LLM.
La chiave di questa proprietà è che il campionamento e la verifica utilizzano la stessa distribuzione quantizzata, mentre il metodo S-Q utilizza distribuzioni diverse causando uno spostamento della distribuzione.
L'entropia di Shannon dei token di tutti i metodi aumenta con l'aumento della temperatura di campionamento, confermando il corretto impatto del parametro di temperatura sulla diversità dell'output.
La Coerenza della Distribuzione è Critica: Mantenere la coerenza tra la distribuzione di campionamento e verifica è fondamentale per preservare la qualità della generazione
La Latenza di Comunicazione Influisce Significativamente sulle Prestazioni: In ambienti a bassa larghezza di banda, il costo di comunicazione diventa il collo di bottiglia principale
La Strategia Adattiva è Efficace: La regolazione dinamica dei parametri può affrontare efficacemente diverse condizioni semantiche e di rete
La Strategia Q-S è Superiore a S-Q: Realizza un significativo miglioramento del throughput mantenendo la qualità della generazione
Il Meccanismo Adattivo è Efficace: La regolazione dinamica della lunghezza della bozza e della precisione della quantizzazione può adattarsi a diverse condizioni
La Teoria e la Pratica Sono Coerenti: L'analisi teorica e i risultati sperimentali si verificano reciprocamente
L'articolo fornisce configurazioni sperimentali dettagliate e link a codice open source, con buona riproducibilità. Tuttavia, la verifica della distribuzione su dispositivi edge reali richiede ulteriori lavori.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.
Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della decodifica speculativa edge-cloud. L'analisi teorica è rigorosa, la verifica sperimentale è completa e risolve problemi critici nelle applicazioni pratiche. Nonostante alcune limitazioni, la sua innovatività e il valore pratico lo rendono un lavoro importante in questo campo.