2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic

Quantize-Sample-and-Verify: Accelerazione LLM tramite Decodifica Speculativa Adattiva Edge-Cloud

Informazioni Fondamentali

  • ID Articolo: 2507.00605
  • Titolo: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
  • Autori: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
  • Classificazione: eess.SP (Ingegneria Elettrica e Scienze dei Sistemi - Elaborazione dei Segnali)
  • Data di Pubblicazione: 1 luglio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2507.00605

Riassunto

Nei sistemi di decodifica speculativa edge-cloud (SD), i dispositivi edge dotati di piccoli modelli linguistici (SLM) generano token bozza, che vengono successivamente verificati da grandi modelli linguistici (LLM) nel cloud. Il collo di bottiglia critico di tali sistemi è la larghezza di banda di comunicazione limitata tra edge e cloud, il che rende necessaria la quantizzazione delle informazioni sui token generati trasmessi. Questo lavoro introduce una nuova strategia di quantizzazione-campionamento (Q-S) che dimostrabilmente preserva la distribuzione di output del modello cloud, garantendo che i token verificati corrispondano alla distribuzione dei token generati direttamente dall'LLM. Sviluppiamo un modello di throughput esplicito per SD edge-cloud che considera la latenza di comunicazione. Basandoci su questo modello, proponiamo un meccanismo adattivo che ottimizza il throughput dei token regolando dinamicamente la lunghezza della bozza e la precisione della quantizzazione in risposta all'incertezza semantica e alle condizioni del canale. I risultati delle simulazioni dimostrano che il metodo Q-S proposto migliora significativamente l'efficienza di decodifica in scenari realistici di distribuzione edge-cloud.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la limitazione della larghezza di banda di comunicazione nei sistemi di decodifica speculativa edge-cloud. Nella decodifica speculativa tradizionale, i dispositivi edge devono trasmettere al cloud una grande quantità di informazioni sulla distribuzione di probabilità, il che compromette significativamente le prestazioni del sistema in ambienti con larghezza di banda limitata.

Importanza

  1. Valore Pratico: L'inferenza collaborativa edge-cloud è una tendenza importante nella distribuzione attuale di LLM, in grado di bilanciare le risorse computazionali e la latenza di risposta
  2. Sfide Tecniche: I metodi esistenti danneggiano la distribuzione di output originale dell'LLM durante la quantizzazione della distribuzione di probabilità, influenzando la qualità della generazione
  3. Benefici Economici: Riduzione delle chiamate API ridondanti, miglioramento dell'efficienza energetica e della scalabilità del sistema

Limitazioni dei Metodi Esistenti

I metodi esistenti di campionamento-quantizzazione (S-Q) presentano difetti critici:

  • La strategia di campionamento prima della quantizzazione porta a incoerenza tra la distribuzione di campionamento edge e la distribuzione di verifica cloud
  • Viola la proprietà fondamentale della decodifica speculativa di preservare la distribuzione dei token dell'LLM
  • Le prestazioni diminuiscono significativamente a temperature di campionamento elevate

Motivazione della Ricerca

La motivazione di questo lavoro è progettare uno schema di decodifica speculativa edge-cloud che riduca i costi di comunicazione mantenendo rigorosamente la coerenza della distribuzione di output dell'LLM.

Contributi Principali

  1. Proposta della strategia Quantize-Sample (Q-S): Preserva dimostrabilmente la distribuzione di output dell'LLM cloud, garantendo che la qualità della generazione non sia compromessa
  2. Stabilimento di un modello di throughput considerando la latenza di comunicazione: Modella esplicitamente l'impatto della latenza di trasmissione del collegamento ascendente e discendente sulle prestazioni del sistema
  3. Progettazione di un meccanismo di allocazione delle risorse adattivo: Regola dinamicamente la lunghezza della bozza e la precisione della quantizzazione basandosi sull'apprendimento per rinforzo
  4. Fornitura di garanzie teoriche: Dimostra l'equivalenza della distribuzione del metodo Q-S attraverso la Proposizione 1

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di decodifica speculativa edge-cloud è definito come: dato un prefisso di input s¹, il sistema deve generare token bozza attraverso l'SLM edge, verificarli con l'LLM cloud, e infine generare una sequenza di token con la stessa distribuzione di quella generata direttamente dall'LLM.

Architettura del Modello

Architettura del Sistema

Il sistema comprende quattro fasi critiche:

  1. Generazione di Token: L'SLM edge genera autoregressivamente L^t token bozza
  2. Trasmissione Ascendente: Trasmette al cloud la distribuzione di probabilità quantizzata e i token
  3. Verifica dei Token: L'LLM cloud verifica in parallelo i token bozza
  4. Trasmissione Discendente: Restituisce i risultati della verifica e i token appena generati

Meccanismo Centrale della Strategia Q-S

Innovazione Chiave: Quantizzare prima la distribuzione di probabilità, quindi campionare dalla distribuzione quantizzata

Espressione Matematica:

  • Vettore di probabilità quantizzato: q̂ᵗₗ = Quantize(qᵗₗ)
  • Campionamento dalla distribuzione quantizzata: xᵗₗ ~ q̂ᵗₗ
  • Probabilità di verifica: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Algoritmo di Quantizzazione Reticolare

Utilizza la quantizzazione del vettore di probabilità basata su reticolo:

  • Insieme di quantizzazione: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
  • Numero di bit codificati: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
  • Complessità: O(V log(V))

Punti di Innovazione Tecnica

1. Dimostrazione della Preservazione della Distribuzione

Proposizione 1: La SD edge-cloud Q-S garantisce che la probabilità P(X = xᵗₗ) del token generato xᵗₗ sia uguale alla probabilità corrispondente pᵗₗ,xᵗₗ dell'LLM.

La chiave di questa proprietà è che il campionamento e la verifica utilizzano la stessa distribuzione quantizzata, mentre il metodo S-Q utilizza distribuzioni diverse causando uno spostamento della distribuzione.

2. Meccanismo di Ottimizzazione Adattivo

Una politica dinamica π basata su apprendimento per rinforzo, con spazio degli stati che include:

  • Informazioni semantiche: vettore di confidenza del prefisso fᵗ e confidenza media f̄ᵗ
  • Informazioni di connessione: velocità del canale ascendente corrente Cᵗᵤ

Spazio delle azioni: aᵗ = (Lᵗ, bᵗ), ovvero lunghezza della bozza e numero di bit di quantizzazione

3. Modellazione della Latenza

Modello di latenza totale:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Dove:

  • Latenza ascendente: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
  • Latenza discendente: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Configurazione Sperimentale

Dataset

  • Dataset: Dataset di sintesi di testo astratto CNN/DailyMail
  • Compito: Generazione di sintesi di testo astratto
  • Metriche di Valutazione: Punteggio ROUGE-2, throughput di token, entropia di Shannon

Configurazione del Modello

  • LLM Cloud: OPT-13B (13 miliardi di parametri)
  • SLM Edge: OPT-125M (125 milioni di parametri)
  • Hardware: GPU NVIDIA A100 40GB
  • Dimensione del Batch: 1 (conforme agli standard della letteratura attuale)

Modello del Canale

Utilizza un modello di Markov a due stati per simulare il canale ascendente variabile nel tempo:

  • Stato a Bassa Velocità: Media 350 kbps (simile a NB-IoT)
  • Stato ad Alta Velocità: Media 4 Mbps
  • Probabilità di transizione di stato: p_low→high e p_high→low

Metodi di Confronto

  1. LLM: Utilizzo diretto dell'LLM cloud
  2. SLM: Utilizzo solo dell'SLM edge
  3. S-Q: Decodifica speculativa campionamento-quantizzazione
  4. Q-S (Statico): Metodo quantizzazione-campionamento statico
  5. Q-S (Euristico): Q-S adattivo euristico
  6. Q-S (Dinamico): Q-S dinamico basato su apprendimento per rinforzo

Risultati Sperimentali

Risultati Principali

1. Preservazione della Qualità di Generazione

Confronto dei Punteggi ROUGE-2:

  • Il metodo Q-S (statico e dinamico) mantiene lo stesso punteggio ROUGE-2 dell'LLM a tutte le temperature di campionamento
  • Il metodo S-Q si discosta significativamente dalle prestazioni dell'LLM a temperature elevate
  • Verifica le garanzie teoriche della Proposizione 1

2. Miglioramento del Throughput

Ambiente di Rete a Bassa Velocità (350 kbps):

  • Q-S (Dinamico) migliora il throughput di token di circa il 40-50% rispetto all'LLM
  • Migliora di circa il 15-20% rispetto al metodo Q-S statico
  • Migliora di circa l'8-12% rispetto al metodo euristico

Ambiente di Rete ad Alta Velocità (4 Mbps):

  • La comunicazione non è più il collo di bottiglia principale, ma il metodo dinamico mostra ancora un miglioramento del 5-10%
  • Dimostra la robustezza della strategia adattiva

3. Analisi dell'Entropia

L'entropia di Shannon dei token di tutti i metodi aumenta con l'aumento della temperatura di campionamento, confermando il corretto impatto del parametro di temperatura sulla diversità dell'output.

Esperimenti di Ablazione

Confrontando tre varianti di Q-S (statica, euristica e dinamica), si verifica:

  1. Efficacia della Strategia di Quantizzazione: Vantaggi di Q-S rispetto a S-Q
  2. Valore del Meccanismo Adattivo: Miglioramento della regolazione dinamica rispetto ai parametri fissi
  3. Necessità dell'Apprendimento per Rinforzo: Miglioramento rispetto alle semplici regole euristiche

Scoperte Chiave

  1. La Coerenza della Distribuzione è Critica: Mantenere la coerenza tra la distribuzione di campionamento e verifica è fondamentale per preservare la qualità della generazione
  2. La Latenza di Comunicazione Influisce Significativamente sulle Prestazioni: In ambienti a bassa larghezza di banda, il costo di comunicazione diventa il collo di bottiglia principale
  3. La Strategia Adattiva è Efficace: La regolazione dinamica dei parametri può affrontare efficacemente diverse condizioni semantiche e di rete

Lavori Correlati

Ricerca sulla Decodifica Speculativa

  • Decodifica Speculativa di Base: Metodo di campionamento speculativo originale proposto da Chen et al.1
  • Collaborazione Edge-Cloud: Primo studio sulla SD collaborativa edge-cloud di Hao et al.4
  • Salto di Token Basato su Incertezza: Strategia di salto di token basata su incertezza proposta da Oh et al.5

Tecniche di Quantizzazione

  • Quantizzazione del Vettore di Probabilità: Algoritmo di quantizzazione reticolare di Reznik10
  • Quantizzazione del Prompt: Quantizzazione a livello di prompt di Jiao et al.11 e Hao et al.12
  • Quantizzazione della Cache KV: Metodo di quantizzazione della cache chiave-valore di He et al.13

Vantaggi Relativi di Questo Lavoro

  1. Garanzie Teoriche: Prima dimostrazione rigorosa della preservazione della distribuzione
  2. Modellazione del Sistema: Modello di sistema completo che considera esplicitamente la latenza di comunicazione
  3. Ottimizzazione Adattiva: Regolazione dinamica dei parametri basata su apprendimento per rinforzo

Conclusioni e Discussione

Conclusioni Principali

  1. La Strategia Q-S è Superiore a S-Q: Realizza un significativo miglioramento del throughput mantenendo la qualità della generazione
  2. Il Meccanismo Adattivo è Efficace: La regolazione dinamica della lunghezza della bozza e della precisione della quantizzazione può adattarsi a diverse condizioni
  3. La Teoria e la Pratica Sono Coerenti: L'analisi teorica e i risultati sperimentali si verificano reciprocamente

Limitazioni

  1. Assunzioni del Modello: Assume che la trasmissione discendente non abbia latenza, gli scenari reali potrebbero essere più complessi
  2. Metodo di Quantizzazione: Considera solo la quantizzazione reticolare, l'effetto di altri metodi di quantizzazione è sconosciuto
  3. Limitazione del Compito: Verificato solo su compiti di sintesi di testo, la generalizzabilità rimane da verificare
  4. Dipendenza dall'Hardware: Gli esperimenti si basano su GPU ad alte prestazioni, le prestazioni dei dispositivi edge reali potrebbero essere diverse

Direzioni Future

  1. Estensione ad Altri Compiti: Scenari di applicazione come generazione di dialoghi, generazione di codice
  2. Modelli di Rete Più Complessi: Considerazione di perdita di pacchetti, jitter e altri problemi di rete reali
  3. Estensione Multimodale: Scenari multimodali come immagine-testo, voce-testo
  4. Ottimizzazione Hardware: Strategie di ottimizzazione per hardware edge specifici

Valutazione Approfondita

Punti di Forza

  1. Contributi Teorici Solidi: La Proposizione 1 fornisce garanzie matematiche rigorose, colmando il vuoto teorico dei metodi esistenti
  2. Definizione Chiara del Problema: Identifica accuratamente il difetto fondamentale del metodo S-Q e propone una soluzione mirata
  3. Modellazione Sistematica: Considera completamente la latenza di calcolo e comunicazione, stabilendo un modello di prestazioni completo
  4. Progettazione Sperimentale Ragionevole: Verifica l'efficacia del metodo da più angolazioni, inclusa qualità, throughput e robustezza
  5. Alto Valore Pratico: Risolve problemi pratici nella distribuzione edge-cloud, con importanti prospettive di applicazione

Insufficienze

  1. Portata Sperimentale Limitata: Verificato solo su un singolo compito e dataset, prove insufficienti di generalizzabilità
  2. Metodi di Base Semplici: I metodi euristici di confronto sono relativamente semplici, mancano baseline più forti
  3. Simulazione Hardware: Simula le prestazioni dei dispositivi edge attraverso fattori di scala, potrebbe differire dalla situazione reale
  4. Semplificazione del Modello di Rete: Il modello di Markov a due stati è eccessivamente semplificato, le reti reali sono più complesse
  5. Analisi Insufficiente dei Costi Computazionali: L'analisi dei costi computazionali della quantizzazione e dell'apprendimento per rinforzo è limitata

Impatto

  1. Valore Accademico: Fornisce fondamenti teorici e metodi pratici per la decodifica speculativa edge-cloud
  2. Applicazione Industriale: Ha significato diretto per la guida della distribuzione dell'IA edge
  3. Ispirazione della Ricerca: Fornisce nuove prospettive per campi correlati (apprendimento federato, inferenza distribuita, ecc.)
  4. Potenziale di Standardizzazione: Potrebbe influenzare la formulazione di standard per la collaborazione edge-cloud

Scenari Applicabili

  1. Ambienti con Larghezza di Banda Limitata: Comunicazioni satellitari, reti in aree remote, ecc.
  2. Applicazioni Sensibili alla Latenza: Sistemi di dialogo in tempo reale, servizi IA edge
  3. Dispositivi con Risorse Limitate: Dispositivi mobili, dispositivi IoT
  4. Architetture Cloud Ibride: Applicazioni aziendali che richiedono collaborazione edge-cloud

Riproducibilità

L'articolo fornisce configurazioni sperimentali dettagliate e link a codice open source, con buona riproducibilità. Tuttavia, la verifica della distribuzione su dispositivi edge reali richiede ulteriori lavori.

Riferimenti Bibliografici

  1. Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
  2. Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
  3. Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
  4. Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo della decodifica speculativa edge-cloud. L'analisi teorica è rigorosa, la verifica sperimentale è completa e risolve problemi critici nelle applicazioni pratiche. Nonostante alcune limitazioni, la sua innovatività e il valore pratico lo rendono un lavoro importante in questo campo.