Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic
Quantize-Sample-and-Verify: LLM-Beschleunigung durch adaptive Edge-Cloud-Spekulative Dekodierung
In Edge-Cloud-Spekulationsdekodierungssystemen (SD) generieren Edge-Geräte mit kleinen Sprachmodellen (SLM) Entwurfstokens, die dann von großen Sprachmodellen (LLM) in der Cloud validiert werden. Der kritische Engpass solcher Systeme ist die begrenzte Kommunikationsbandbreite zwischen Edge und Cloud, was eine Quantisierung der übertragenen generierten Token-Informationen erforderlich macht. Diese Arbeit führt eine neuartige Quantisierungs-Sampling-Strategie (Q-S) ein, die nachweislich die Ausgabeverteilung des Cloud-Modells beibehält und sicherstellt, dass validierte Tokens die gleiche Verteilung wie direkt vom LLM generierte Tokens aufweisen. Wir entwickeln ein explizites Durchsatzmodell für Edge-Cloud-SD, das Kommunikationsverzögerungen berücksichtigt. Basierend auf diesem Modell schlagen wir einen adaptiven Mechanismus vor, der durch dynamische Anpassung der Entwurfslänge und Quantisierungsgenauigkeit auf semantische Unsicherheit und Kanalbedingungen reagiert und damit den Token-Durchsatz optimiert. Simulationsergebnisse zeigen, dass die vorgeschlagene Q-S-Methode die Dekodierungseffizienz in realistischen Edge-Cloud-Bereitungsszenarios erheblich verbessert.
Das Kernproblem, das diese Forschung löst, ist die Kommunikationsbandbreitenbeschränkung in Edge-Cloud-Spekulationsdekodierungssystemen. Bei traditioneller Spekulationsdekodierung muss das Edge-Gerät große Mengen an Wahrscheinlichkeitsverteilungsinformationen an die Cloud übertragen, was in bandbreitenbeschränkten Umgebungen die Systemleistung erheblich beeinträchtigt.
Praktischer Wert: Edge-Cloud-Zusammenarbeit bei der Inferenz ist ein wichtiger Trend bei der aktuellen LLM-Bereitstellung und kann Rechenressourcen und Antwortlatenz ausgleichen
Technische Herausforderung: Bestehende Methoden zerstören die ursprüngliche Ausgabeverteilung des LLM bei der Quantisierung von Wahrscheinlichkeitsverteilungen und beeinflussen die Generierungsqualität
Wirtschaftlicher Nutzen: Reduzierung redundanter API-Aufrufe, Verbesserung der Energieeffizienz und Systemskalierbarkeit
Die Motivation dieser Arbeit ist die Entwicklung eines Edge-Cloud-Spekulationsdekodierungsschemas, das sowohl Kommunikationskosten reduziert als auch streng die Konsistenz der LLM-Ausgabeverteilung bewahrt.
Einführung der Quantize-Sample-Strategie (Q-S): Bewahrt nachweislich die Ausgabeverteilung des Cloud-LLM und sichert die Generierungsqualität
Etablierung eines Durchsatzmodells mit Kommunikationsverzögerung: Modelliert explizit die Auswirkungen von Uplink- und Downlink-Übertragungsverzögerungen auf die Systemleistung
Entwicklung eines adaptiven Ressourcenallokationsmechanismus: Passt Entwurfslänge und Quantisierungsgenauigkeit basierend auf verstärktem Lernen dynamisch an
Bereitstellung theoretischer Garantien: Beweist durch Proposition 1 die Verteilungsäquivalenz der Q-S-Methode
Die Edge-Cloud-Spekulationsdekodierungsaufgabe wird definiert als: Gegeben ein Eingabepräfix s¹ muss das System durch Edge-SLM generierte Entwurfstokens erzeugen, diese durch Cloud-LLM validieren und letztendlich eine Token-Sequenz mit der gleichen Verteilung wie die direkte Verwendung des LLM generieren.
Proposition 1: Q-S Edge-Cloud-SD garantiert, dass die Wahrscheinlichkeit P(X = xᵗₗ) des generierten Tokens xᵗₗ gleich der entsprechenden LLM-Wahrscheinlichkeit pᵗₗ,xᵗₗ ist.
Die Schlüsseleigenschaft liegt darin, dass Sampling und Validierung die gleiche quantisierte Verteilung verwenden, während die S-Q-Methode unterschiedliche Verteilungen verwendet und zu Verteilungsversatz führt.
Die Shannon-Entropie aller Methoden nimmt mit steigender Sampling-Temperatur zu und bestätigt die korrekte Auswirkung des Temperaturparameters auf die Ausgabevielfalt.
Verteilungskonsistenz ist kritisch: Die Beibehaltung konsistenter Sampling- und Validierungsverteilungen ist der Schlüssel zur Aufrechterhaltung der Generierungsqualität
Kommunikationsverzögerung beeinflusst Leistung erheblich: In Niedrigbandbreittenumgebungen wird Kommunikationsaufwand zum Hauptengpass
Adaptive Strategie ist hocheffektiv: Dynamische Parameteranpassung kann verschiedene semantische und Netzwerkbedingungen effektiv bewältigen
Das Papier bietet detaillierte experimentelle Einrichtungen und Open-Source-Code-Links mit guter Reproduzierbarkeit. Bereitstellungsvalidierung auf echten Edge-Geräten erfordert jedoch weitere Arbeit.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.
Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der Edge-Cloud-Spekulationsdekodierung. Die theoretische Analyse ist streng, die experimentelle Validierung ist umfassend und es löst Schlüsselprobleme in praktischen Anwendungen. Trotz einiger Einschränkungen machen seine Innovativität und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.