2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

Quantize-Sample-and-Verify: LLM-Beschleunigung durch adaptive Edge-Cloud-Spekulative Dekodierung

Grundinformationen

Papier-ID: 2507.00605
Titel: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Autoren: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
Klassifizierung: eess.SP (Elektrotechnik und Systemwissenschaft - Signalverarbeitung)
Veröffentlichungsdatum: 1. Juli 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2507.00605

Zusammenfassung

In Edge-Cloud-Spekulationsdekodierungssystemen (SD) generieren Edge-Geräte mit kleinen Sprachmodellen (SLM) Entwurfstokens, die dann von großen Sprachmodellen (LLM) in der Cloud validiert werden. Der kritische Engpass solcher Systeme ist die begrenzte Kommunikationsbandbreite zwischen Edge und Cloud, was eine Quantisierung der übertragenen generierten Token-Informationen erforderlich macht. Diese Arbeit führt eine neuartige Quantisierungs-Sampling-Strategie (Q-S) ein, die nachweislich die Ausgabeverteilung des Cloud-Modells beibehält und sicherstellt, dass validierte Tokens die gleiche Verteilung wie direkt vom LLM generierte Tokens aufweisen. Wir entwickeln ein explizites Durchsatzmodell für Edge-Cloud-SD, das Kommunikationsverzögerungen berücksichtigt. Basierend auf diesem Modell schlagen wir einen adaptiven Mechanismus vor, der durch dynamische Anpassung der Entwurfslänge und Quantisierungsgenauigkeit auf semantische Unsicherheit und Kanalbedingungen reagiert und damit den Token-Durchsatz optimiert. Simulationsergebnisse zeigen, dass die vorgeschlagene Q-S-Methode die Dekodierungseffizienz in realistischen Edge-Cloud-Bereitungsszenarios erheblich verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das diese Forschung löst, ist die Kommunikationsbandbreitenbeschränkung in Edge-Cloud-Spekulationsdekodierungssystemen. Bei traditioneller Spekulationsdekodierung muss das Edge-Gerät große Mengen an Wahrscheinlichkeitsverteilungsinformationen an die Cloud übertragen, was in bandbreitenbeschränkten Umgebungen die Systemleistung erheblich beeinträchtigt.

Bedeutung

Praktischer Wert: Edge-Cloud-Zusammenarbeit bei der Inferenz ist ein wichtiger Trend bei der aktuellen LLM-Bereitstellung und kann Rechenressourcen und Antwortlatenz ausgleichen
Technische Herausforderung: Bestehende Methoden zerstören die ursprüngliche Ausgabeverteilung des LLM bei der Quantisierung von Wahrscheinlichkeitsverteilungen und beeinflussen die Generierungsqualität
Wirtschaftlicher Nutzen: Reduzierung redundanter API-Aufrufe, Verbesserung der Energieeffizienz und Systemskalierbarkeit

Einschränkungen bestehender Methoden

Die bestehende Sample-Quantize-Methode (S-Q) weist kritische Mängel auf:

Die Strategie des Samplings vor der Quantisierung führt zu Inkonsistenzen zwischen der Edge-Sampling-Verteilung und der Cloud-Validierungsverteilung
Verstößt gegen die Kerneigenschaft der Spekulationsdekodierung, die LLM-Token-Verteilung beizubehalten
Leistung sinkt bei hohen Sampling-Temperaturen erheblich

Forschungsmotivation

Die Motivation dieser Arbeit ist die Entwicklung eines Edge-Cloud-Spekulationsdekodierungsschemas, das sowohl Kommunikationskosten reduziert als auch streng die Konsistenz der LLM-Ausgabeverteilung bewahrt.

Kernbeiträge

Einführung der Quantize-Sample-Strategie (Q-S): Bewahrt nachweislich die Ausgabeverteilung des Cloud-LLM und sichert die Generierungsqualität
Etablierung eines Durchsatzmodells mit Kommunikationsverzögerung: Modelliert explizit die Auswirkungen von Uplink- und Downlink-Übertragungsverzögerungen auf die Systemleistung
Entwicklung eines adaptiven Ressourcenallokationsmechanismus: Passt Entwurfslänge und Quantisierungsgenauigkeit basierend auf verstärktem Lernen dynamisch an
Bereitstellung theoretischer Garantien: Beweist durch Proposition 1 die Verteilungsäquivalenz der Q-S-Methode

Methodenerklärung

Aufgabendefinition

Die Edge-Cloud-Spekulationsdekodierungsaufgabe wird definiert als: Gegeben ein Eingabepräfix s¹ muss das System durch Edge-SLM generierte Entwurfstokens erzeugen, diese durch Cloud-LLM validieren und letztendlich eine Token-Sequenz mit der gleichen Verteilung wie die direkte Verwendung des LLM generieren.

Modellarchitektur

Systemarchitektur

Das System besteht aus vier Schlüsselphasen:

Token-Generierung: Edge-SLM generiert autoregressiv L^t Entwurfstokens
Uplink-Übertragung: Übertragung quantisierter Wahrscheinlichkeitsverteilungen und Tokens an die Cloud
Token-Validierung: Cloud-LLM validiert Entwurfstokens parallel
Downlink-Übertragung: Rückgabe von Validierungsergebnissen und neu generierten Tokens

Q-S-Strategie Kernmechanismus

Schlüsselinnovation: Quantisierung der Wahrscheinlichkeitsverteilung vor dem Sampling

Mathematische Formulierung:

Quantisierter Wahrscheinlichkeitsvektor: q̂ᵗₗ = Quantize(qᵗₗ)
Sampling aus quantisierter Verteilung: xᵗₗ ~ q̂ᵗₗ
Validierungswahrscheinlichkeit: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Gitterquantisierungsalgorithmus

Verwendung gitterbasierter Wahrscheinlichkeitsvektorquantisierung:

Quantisierungsmenge: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
Kodierungsbits: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
Komplexität: O(V log(V))

Technische Innovationspunkte

1. Beweis der Verteilungsbeibehaltung

Proposition 1: Q-S Edge-Cloud-SD garantiert, dass die Wahrscheinlichkeit P(X = xᵗₗ) des generierten Tokens xᵗₗ gleich der entsprechenden LLM-Wahrscheinlichkeit pᵗₗ,xᵗₗ ist.

Die Schlüsseleigenschaft liegt darin, dass Sampling und Validierung die gleiche quantisierte Verteilung verwenden, während die S-Q-Methode unterschiedliche Verteilungen verwendet und zu Verteilungsversatz führt.

2. Adaptiver Optimierungsmechanismus

Dynamische Richtlinie π basierend auf verstärktem Lernen mit Zustandsraum:

Semantische Information: Präfix-Konfidenzvektor fᵗ und durchschnittliche Konfidenz f̄ᵗ
Verbindungsinformation: Aktuelle Uplink-Kanalrate Cᵗᵤ

Aktionsraum: aᵗ = (Lᵗ, bᵗ), d.h. Entwurfslänge und Quantisierungsbits

3. Verzögerungsmodellierung

Gesamtverzögerungsmodell:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Wobei:

Uplink-Verzögerung: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
Downlink-Verzögerung: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Experimentelle Einrichtung

Datensätze

Datensatz: CNN/DailyMail abstraktes Textzusammenfassungsdatensatz
Aufgabe: Abstrakte Textzusammenfassungsgenerierung
Bewertungsmetriken: ROUGE-2-Score, Token-Durchsatz, Shannon-Entropie

Modellkonfiguration

Cloud-LLM: OPT-13B (13 Milliarden Parameter)
Edge-SLM: OPT-125M (125 Millionen Parameter)
Hardware: NVIDIA A100 40GB GPU
Batch-Größe: 1 (entspricht aktuellen Literaturstandards)

Kanalmodell

Verwendung eines Zwei-Zustands-Markov-Modells zur Simulation zeitvarianter Uplink-Kanäle:

Niedriger Geschwindigkeitszustand: Durchschnittlich 350 kbps (ähnlich NB-IoT)
Hoher Geschwindigkeitszustand: Durchschnittlich 4 Mbps
Zustandsübergangswahrscheinlichkeiten: p_low→high und p_high→low

Vergleichsmethoden

LLM: Direkte Verwendung von Cloud-LLM
SLM: Nur Edge-SLM
S-Q: Sample-Quantize-Spekulationsdekodierung
Q-S (Statisch): Statische Quantize-Sample-Methode
Q-S (Heuristisch): Heuristische adaptive Q-S
Q-S (Dynamisch): Dynamische Q-S basierend auf verstärktem Lernen

Experimentelle Ergebnisse

Hauptergebnisse

1. Beibehaltung der Generierungsqualität

ROUGE-2-Score-Vergleich:

Q-S-Methoden (statisch und dynamisch) behalten bei allen Sampling-Temperaturen den gleichen ROUGE-2-Score wie LLM bei
S-Q-Methode weicht bei hohen Temperaturen erheblich von LLM-Leistung ab
Verifiziert theoretische Garantien von Proposition 1

2. Durchsatzverbesserung

Niedriggeschwindigkeitsnetzwerk (350 kbps):

Q-S (Dynamisch) zeigt etwa 40-50% Token-Durchsatzverbesserung gegenüber LLM
Etwa 15-20% Verbesserung gegenüber statischem Q-S
Etwa 8-12% Verbesserung gegenüber heuristischer Methode

Hochgeschwindigkeitsnetzwerk (4 Mbps):

Kommunikation ist nicht mehr der Hauptengpass, aber dynamische Methode zeigt noch 5-10% Verbesserung
Beweist Robustheit der adaptiven Strategie

3. Entropieanalyse

Die Shannon-Entropie aller Methoden nimmt mit steigender Sampling-Temperatur zu und bestätigt die korrekte Auswirkung des Temperaturparameters auf die Ausgabevielfalt.

Ablationsstudien

Durch Vergleich von statischen, heuristischen und dynamischen Q-S-Varianten wird verifiziert:

Effektivität der Quantisierungsstrategie: Vorteile von Q-S gegenüber S-Q
Wert des adaptiven Mechanismus: Verbesserung durch dynamische Anpassung gegenüber festen Parametern
Notwendigkeit des verstärkten Lernens: Verbesserung gegenüber einfachen heuristischen Regeln

Schlüsselfunde

Verteilungskonsistenz ist kritisch: Die Beibehaltung konsistenter Sampling- und Validierungsverteilungen ist der Schlüssel zur Aufrechterhaltung der Generierungsqualität
Kommunikationsverzögerung beeinflusst Leistung erheblich: In Niedrigbandbreittenumgebungen wird Kommunikationsaufwand zum Hauptengpass
Adaptive Strategie ist hocheffektiv: Dynamische Parameteranpassung kann verschiedene semantische und Netzwerkbedingungen effektiv bewältigen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Q-S-Strategie übertrifft S-Q: Erreicht signifikante Durchsatzverbesserung bei Beibehaltung der Generierungsqualität
Adaptiver Mechanismus ist effektiv: Dynamische Anpassung von Entwurfslänge und Quantisierungsgenauigkeit kann verschiedene Bedingungen bewältigen
Theorie und Praxis stimmen überein: Theoretische Analyse und experimentelle Ergebnisse bestätigen sich gegenseitig

Einschränkungen

Modellannahmen: Annahme verzögerungsfreier Downlink-Übertragung, reale Szenarien können komplexer sein
Quantisierungsmethode: Nur Gitterquantisierung berücksichtigt, Effektivität anderer Quantisierungsmethoden unbekannt
Aufgabenbeschränkung: Nur auf Textzusammenfassungsaufgabe validiert, Generalisierbarkeit unklar
Hardwareabhängigkeit: Experimente basieren auf High-Performance-GPU, echte Edge-Geräte können unterschiedliche Leistung zeigen

Zukünftige Richtungen

Erweiterung auf andere Aufgaben: Dialoggenerierung, Codegenerierung und andere Anwendungsszenarien
Komplexere Netzwerkmodelle: Berücksichtigung von Paketverlusten, Jitter und anderen realen Netzwerkproblemen
Multimodale Erweiterung: Bild-Text-, Sprach-Text- und andere multimodale Szenarien
Hardwareoptimierung: Optimierungsstrategien für spezifische Edge-Hardware

Tiefgreifende Bewertung

Stärken

Solide theoretische Beiträge: Proposition 1 bietet strikte mathematische Garantien und füllt theoretische Lücken bestehender Methoden
Klare Problemdefinition: Genaue Identifikation der grundlegenden Mängel der S-Q-Methode mit gezielter Lösung
Umfassende Systemmodellierung: Vollständige Berücksichtigung von Rechen- und Kommunikationsverzögerungen mit etabliertem Leistungsmodell
Angemessenes Experimentdesign: Mehrdimensionale Validierung der Methodeneffektivität einschließlich Qualität, Durchsatz und Robustheit
Hoher praktischer Wert: Löst reale Probleme bei Edge-Cloud-Bereitstellung mit wichtigen Anwendungsperspektiven

Mängel

Begrenzte Experimentreichweite: Validierung nur auf einzelner Aufgabe und Datensatz, unzureichende Generalisierungsevidenz
Einfache Baseline-Methoden: Vergleichene heuristische Methoden sind relativ einfach, fehlende stärkere Baselines
Hardware-Simulation: Simulation von Edge-Geräteleistung durch Skalierungsfaktoren kann von realen Situationen abweichen
Vereinfachtes Netzwerkmodell: Zwei-Zustands-Markov-Modell ist zu vereinfacht, echte Netzwerke sind komplexer
Unzureichende Analyse des Rechenaufwands: Weniger Analyse des Rechenaufwands von Quantisierung und verstärktem Lernen

Einfluss

Akademischer Wert: Bietet theoretische Grundlagen und praktische Methoden für Edge-Cloud-Spekulationsdekodierung
Industrielle Anwendung: Direkte Orientierungshilfe für Edge-AI-Bereitstellung
Forschungsinspiration: Bietet neue Perspektiven für verwandte Bereiche (föderiertes Lernen, verteilte Inferenz usw.)
Standardisierungspotenzial: Kann Standardentwicklung für Edge-Cloud-Zusammenarbeit beeinflussen

Anwendungsszenarien

Bandbreitenbeschränkte Umgebungen: Satellitenkommunikation, Netzwerke in abgelegenen Gebieten usw.
Latenzempfindliche Anwendungen: Echtzeit-Dialogsysteme, Edge-AI-Services
Ressourcenbeschränkte Geräte: Mobile Geräte, IoT-Geräte usw.
Hybrid-Cloud-Architektur: Unternehmensanwendungen, die Edge-Cloud-Zusammenarbeit erfordern

Reproduzierbarkeit

Das Papier bietet detaillierte experimentelle Einrichtungen und Open-Source-Code-Links mit guter Reproduzierbarkeit. Bereitstellungsvalidierung auf echten Edge-Geräten erfordert jedoch weitere Arbeit.

Referenzen

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der Edge-Cloud-Spekulationsdekodierung. Die theoretische Analyse ist streng, die experimentelle Validierung ist umfassend und es löst Schlüsselprobleme in praktischen Anwendungen. Trotz einiger Einschränkungen machen seine Innovativität und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.