2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic

Quantize-Sample-and-Verify: LLM-Beschleunigung durch adaptive Edge-Cloud-Spekulative Dekodierung

Grundinformationen

  • Papier-ID: 2507.00605
  • Titel: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
  • Autoren: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
  • Klassifizierung: eess.SP (Elektrotechnik und Systemwissenschaft - Signalverarbeitung)
  • Veröffentlichungsdatum: 1. Juli 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2507.00605

Zusammenfassung

In Edge-Cloud-Spekulationsdekodierungssystemen (SD) generieren Edge-Geräte mit kleinen Sprachmodellen (SLM) Entwurfstokens, die dann von großen Sprachmodellen (LLM) in der Cloud validiert werden. Der kritische Engpass solcher Systeme ist die begrenzte Kommunikationsbandbreite zwischen Edge und Cloud, was eine Quantisierung der übertragenen generierten Token-Informationen erforderlich macht. Diese Arbeit führt eine neuartige Quantisierungs-Sampling-Strategie (Q-S) ein, die nachweislich die Ausgabeverteilung des Cloud-Modells beibehält und sicherstellt, dass validierte Tokens die gleiche Verteilung wie direkt vom LLM generierte Tokens aufweisen. Wir entwickeln ein explizites Durchsatzmodell für Edge-Cloud-SD, das Kommunikationsverzögerungen berücksichtigt. Basierend auf diesem Modell schlagen wir einen adaptiven Mechanismus vor, der durch dynamische Anpassung der Entwurfslänge und Quantisierungsgenauigkeit auf semantische Unsicherheit und Kanalbedingungen reagiert und damit den Token-Durchsatz optimiert. Simulationsergebnisse zeigen, dass die vorgeschlagene Q-S-Methode die Dekodierungseffizienz in realistischen Edge-Cloud-Bereitungsszenarios erheblich verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das diese Forschung löst, ist die Kommunikationsbandbreitenbeschränkung in Edge-Cloud-Spekulationsdekodierungssystemen. Bei traditioneller Spekulationsdekodierung muss das Edge-Gerät große Mengen an Wahrscheinlichkeitsverteilungsinformationen an die Cloud übertragen, was in bandbreitenbeschränkten Umgebungen die Systemleistung erheblich beeinträchtigt.

Bedeutung

  1. Praktischer Wert: Edge-Cloud-Zusammenarbeit bei der Inferenz ist ein wichtiger Trend bei der aktuellen LLM-Bereitstellung und kann Rechenressourcen und Antwortlatenz ausgleichen
  2. Technische Herausforderung: Bestehende Methoden zerstören die ursprüngliche Ausgabeverteilung des LLM bei der Quantisierung von Wahrscheinlichkeitsverteilungen und beeinflussen die Generierungsqualität
  3. Wirtschaftlicher Nutzen: Reduzierung redundanter API-Aufrufe, Verbesserung der Energieeffizienz und Systemskalierbarkeit

Einschränkungen bestehender Methoden

Die bestehende Sample-Quantize-Methode (S-Q) weist kritische Mängel auf:

  • Die Strategie des Samplings vor der Quantisierung führt zu Inkonsistenzen zwischen der Edge-Sampling-Verteilung und der Cloud-Validierungsverteilung
  • Verstößt gegen die Kerneigenschaft der Spekulationsdekodierung, die LLM-Token-Verteilung beizubehalten
  • Leistung sinkt bei hohen Sampling-Temperaturen erheblich

Forschungsmotivation

Die Motivation dieser Arbeit ist die Entwicklung eines Edge-Cloud-Spekulationsdekodierungsschemas, das sowohl Kommunikationskosten reduziert als auch streng die Konsistenz der LLM-Ausgabeverteilung bewahrt.

Kernbeiträge

  1. Einführung der Quantize-Sample-Strategie (Q-S): Bewahrt nachweislich die Ausgabeverteilung des Cloud-LLM und sichert die Generierungsqualität
  2. Etablierung eines Durchsatzmodells mit Kommunikationsverzögerung: Modelliert explizit die Auswirkungen von Uplink- und Downlink-Übertragungsverzögerungen auf die Systemleistung
  3. Entwicklung eines adaptiven Ressourcenallokationsmechanismus: Passt Entwurfslänge und Quantisierungsgenauigkeit basierend auf verstärktem Lernen dynamisch an
  4. Bereitstellung theoretischer Garantien: Beweist durch Proposition 1 die Verteilungsäquivalenz der Q-S-Methode

Methodenerklärung

Aufgabendefinition

Die Edge-Cloud-Spekulationsdekodierungsaufgabe wird definiert als: Gegeben ein Eingabepräfix s¹ muss das System durch Edge-SLM generierte Entwurfstokens erzeugen, diese durch Cloud-LLM validieren und letztendlich eine Token-Sequenz mit der gleichen Verteilung wie die direkte Verwendung des LLM generieren.

Modellarchitektur

Systemarchitektur

Das System besteht aus vier Schlüsselphasen:

  1. Token-Generierung: Edge-SLM generiert autoregressiv L^t Entwurfstokens
  2. Uplink-Übertragung: Übertragung quantisierter Wahrscheinlichkeitsverteilungen und Tokens an die Cloud
  3. Token-Validierung: Cloud-LLM validiert Entwurfstokens parallel
  4. Downlink-Übertragung: Rückgabe von Validierungsergebnissen und neu generierten Tokens

Q-S-Strategie Kernmechanismus

Schlüsselinnovation: Quantisierung der Wahrscheinlichkeitsverteilung vor dem Sampling

Mathematische Formulierung:

  • Quantisierter Wahrscheinlichkeitsvektor: q̂ᵗₗ = Quantize(qᵗₗ)
  • Sampling aus quantisierter Verteilung: xᵗₗ ~ q̂ᵗₗ
  • Validierungswahrscheinlichkeit: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Gitterquantisierungsalgorithmus

Verwendung gitterbasierter Wahrscheinlichkeitsvektorquantisierung:

  • Quantisierungsmenge: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
  • Kodierungsbits: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
  • Komplexität: O(V log(V))

Technische Innovationspunkte

1. Beweis der Verteilungsbeibehaltung

Proposition 1: Q-S Edge-Cloud-SD garantiert, dass die Wahrscheinlichkeit P(X = xᵗₗ) des generierten Tokens xᵗₗ gleich der entsprechenden LLM-Wahrscheinlichkeit pᵗₗ,xᵗₗ ist.

Die Schlüsseleigenschaft liegt darin, dass Sampling und Validierung die gleiche quantisierte Verteilung verwenden, während die S-Q-Methode unterschiedliche Verteilungen verwendet und zu Verteilungsversatz führt.

2. Adaptiver Optimierungsmechanismus

Dynamische Richtlinie π basierend auf verstärktem Lernen mit Zustandsraum:

  • Semantische Information: Präfix-Konfidenzvektor fᵗ und durchschnittliche Konfidenz f̄ᵗ
  • Verbindungsinformation: Aktuelle Uplink-Kanalrate Cᵗᵤ

Aktionsraum: aᵗ = (Lᵗ, bᵗ), d.h. Entwurfslänge und Quantisierungsbits

3. Verzögerungsmodellierung

Gesamtverzögerungsmodell:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Wobei:

  • Uplink-Verzögerung: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
  • Downlink-Verzögerung: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Experimentelle Einrichtung

Datensätze

  • Datensatz: CNN/DailyMail abstraktes Textzusammenfassungsdatensatz
  • Aufgabe: Abstrakte Textzusammenfassungsgenerierung
  • Bewertungsmetriken: ROUGE-2-Score, Token-Durchsatz, Shannon-Entropie

Modellkonfiguration

  • Cloud-LLM: OPT-13B (13 Milliarden Parameter)
  • Edge-SLM: OPT-125M (125 Millionen Parameter)
  • Hardware: NVIDIA A100 40GB GPU
  • Batch-Größe: 1 (entspricht aktuellen Literaturstandards)

Kanalmodell

Verwendung eines Zwei-Zustands-Markov-Modells zur Simulation zeitvarianter Uplink-Kanäle:

  • Niedriger Geschwindigkeitszustand: Durchschnittlich 350 kbps (ähnlich NB-IoT)
  • Hoher Geschwindigkeitszustand: Durchschnittlich 4 Mbps
  • Zustandsübergangswahrscheinlichkeiten: p_low→high und p_high→low

Vergleichsmethoden

  1. LLM: Direkte Verwendung von Cloud-LLM
  2. SLM: Nur Edge-SLM
  3. S-Q: Sample-Quantize-Spekulationsdekodierung
  4. Q-S (Statisch): Statische Quantize-Sample-Methode
  5. Q-S (Heuristisch): Heuristische adaptive Q-S
  6. Q-S (Dynamisch): Dynamische Q-S basierend auf verstärktem Lernen

Experimentelle Ergebnisse

Hauptergebnisse

1. Beibehaltung der Generierungsqualität

ROUGE-2-Score-Vergleich:

  • Q-S-Methoden (statisch und dynamisch) behalten bei allen Sampling-Temperaturen den gleichen ROUGE-2-Score wie LLM bei
  • S-Q-Methode weicht bei hohen Temperaturen erheblich von LLM-Leistung ab
  • Verifiziert theoretische Garantien von Proposition 1

2. Durchsatzverbesserung

Niedriggeschwindigkeitsnetzwerk (350 kbps):

  • Q-S (Dynamisch) zeigt etwa 40-50% Token-Durchsatzverbesserung gegenüber LLM
  • Etwa 15-20% Verbesserung gegenüber statischem Q-S
  • Etwa 8-12% Verbesserung gegenüber heuristischer Methode

Hochgeschwindigkeitsnetzwerk (4 Mbps):

  • Kommunikation ist nicht mehr der Hauptengpass, aber dynamische Methode zeigt noch 5-10% Verbesserung
  • Beweist Robustheit der adaptiven Strategie

3. Entropieanalyse

Die Shannon-Entropie aller Methoden nimmt mit steigender Sampling-Temperatur zu und bestätigt die korrekte Auswirkung des Temperaturparameters auf die Ausgabevielfalt.

Ablationsstudien

Durch Vergleich von statischen, heuristischen und dynamischen Q-S-Varianten wird verifiziert:

  1. Effektivität der Quantisierungsstrategie: Vorteile von Q-S gegenüber S-Q
  2. Wert des adaptiven Mechanismus: Verbesserung durch dynamische Anpassung gegenüber festen Parametern
  3. Notwendigkeit des verstärkten Lernens: Verbesserung gegenüber einfachen heuristischen Regeln

Schlüsselfunde

  1. Verteilungskonsistenz ist kritisch: Die Beibehaltung konsistenter Sampling- und Validierungsverteilungen ist der Schlüssel zur Aufrechterhaltung der Generierungsqualität
  2. Kommunikationsverzögerung beeinflusst Leistung erheblich: In Niedrigbandbreittenumgebungen wird Kommunikationsaufwand zum Hauptengpass
  3. Adaptive Strategie ist hocheffektiv: Dynamische Parameteranpassung kann verschiedene semantische und Netzwerkbedingungen effektiv bewältigen

Verwandte Arbeiten

Spekulationsdekodierungsforschung

  • Grundlegende Spekulationsdekodierung: Ursprüngliche spekulative Sampling-Methode von Chen et al.1
  • Edge-Cloud-Zusammenarbeit: Erste Erkundung von Edge-Cloud-Zusammenarbeit SD durch Hao et al.4
  • Unsicherheitsbasiertes Token-Überspringen: Token-Überspringungsstrategie basierend auf Unsicherheit von Oh et al.5

Quantisierungstechniken

  • Wahrscheinlichkeitsvektorquantisierung: Gitterquantisierungsalgorithmus von Reznik10
  • Prompt-Quantisierung: Prompt-Level-Quantisierung von Jiao et al.11 und Hao et al.12
  • KV-Cache-Quantisierung: Schlüssel-Wert-Cache-Quantisierung von He et al.13

Relative Vorteile dieses Papiers

  1. Theoretische Garantien: Erste strikte Beweise für Verteilungsbeibehaltung
  2. Systemmodellierung: Vollständiges Systemmodell mit expliziter Berücksichtigung von Kommunikationsverzögerungen
  3. Adaptive Optimierung: Dynamische Parameteranpassung basierend auf verstärktem Lernen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Q-S-Strategie übertrifft S-Q: Erreicht signifikante Durchsatzverbesserung bei Beibehaltung der Generierungsqualität
  2. Adaptiver Mechanismus ist effektiv: Dynamische Anpassung von Entwurfslänge und Quantisierungsgenauigkeit kann verschiedene Bedingungen bewältigen
  3. Theorie und Praxis stimmen überein: Theoretische Analyse und experimentelle Ergebnisse bestätigen sich gegenseitig

Einschränkungen

  1. Modellannahmen: Annahme verzögerungsfreier Downlink-Übertragung, reale Szenarien können komplexer sein
  2. Quantisierungsmethode: Nur Gitterquantisierung berücksichtigt, Effektivität anderer Quantisierungsmethoden unbekannt
  3. Aufgabenbeschränkung: Nur auf Textzusammenfassungsaufgabe validiert, Generalisierbarkeit unklar
  4. Hardwareabhängigkeit: Experimente basieren auf High-Performance-GPU, echte Edge-Geräte können unterschiedliche Leistung zeigen

Zukünftige Richtungen

  1. Erweiterung auf andere Aufgaben: Dialoggenerierung, Codegenerierung und andere Anwendungsszenarien
  2. Komplexere Netzwerkmodelle: Berücksichtigung von Paketverlusten, Jitter und anderen realen Netzwerkproblemen
  3. Multimodale Erweiterung: Bild-Text-, Sprach-Text- und andere multimodale Szenarien
  4. Hardwareoptimierung: Optimierungsstrategien für spezifische Edge-Hardware

Tiefgreifende Bewertung

Stärken

  1. Solide theoretische Beiträge: Proposition 1 bietet strikte mathematische Garantien und füllt theoretische Lücken bestehender Methoden
  2. Klare Problemdefinition: Genaue Identifikation der grundlegenden Mängel der S-Q-Methode mit gezielter Lösung
  3. Umfassende Systemmodellierung: Vollständige Berücksichtigung von Rechen- und Kommunikationsverzögerungen mit etabliertem Leistungsmodell
  4. Angemessenes Experimentdesign: Mehrdimensionale Validierung der Methodeneffektivität einschließlich Qualität, Durchsatz und Robustheit
  5. Hoher praktischer Wert: Löst reale Probleme bei Edge-Cloud-Bereitstellung mit wichtigen Anwendungsperspektiven

Mängel

  1. Begrenzte Experimentreichweite: Validierung nur auf einzelner Aufgabe und Datensatz, unzureichende Generalisierungsevidenz
  2. Einfache Baseline-Methoden: Vergleichene heuristische Methoden sind relativ einfach, fehlende stärkere Baselines
  3. Hardware-Simulation: Simulation von Edge-Geräteleistung durch Skalierungsfaktoren kann von realen Situationen abweichen
  4. Vereinfachtes Netzwerkmodell: Zwei-Zustands-Markov-Modell ist zu vereinfacht, echte Netzwerke sind komplexer
  5. Unzureichende Analyse des Rechenaufwands: Weniger Analyse des Rechenaufwands von Quantisierung und verstärktem Lernen

Einfluss

  1. Akademischer Wert: Bietet theoretische Grundlagen und praktische Methoden für Edge-Cloud-Spekulationsdekodierung
  2. Industrielle Anwendung: Direkte Orientierungshilfe für Edge-AI-Bereitstellung
  3. Forschungsinspiration: Bietet neue Perspektiven für verwandte Bereiche (föderiertes Lernen, verteilte Inferenz usw.)
  4. Standardisierungspotenzial: Kann Standardentwicklung für Edge-Cloud-Zusammenarbeit beeinflussen

Anwendungsszenarien

  1. Bandbreitenbeschränkte Umgebungen: Satellitenkommunikation, Netzwerke in abgelegenen Gebieten usw.
  2. Latenzempfindliche Anwendungen: Echtzeit-Dialogsysteme, Edge-AI-Services
  3. Ressourcenbeschränkte Geräte: Mobile Geräte, IoT-Geräte usw.
  4. Hybrid-Cloud-Architektur: Unternehmensanwendungen, die Edge-Cloud-Zusammenarbeit erfordern

Reproduzierbarkeit

Das Papier bietet detaillierte experimentelle Einrichtungen und Open-Source-Code-Links mit guter Reproduzierbarkeit. Bereitstellungsvalidierung auf echten Edge-Geräten erfordert jedoch weitere Arbeit.

Referenzen

  1. Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
  2. Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
  3. Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
  4. Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der Edge-Cloud-Spekulationsdekodierung. Die theoretische Analyse ist streng, die experimentelle Validierung ist umfassend und es löst Schlüsselprobleme in praktischen Anwendungen. Trotz einiger Einschränkungen machen seine Innovativität und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.