2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

Quantize-Sample-and-Verify: अनुकूली Edge-Cloud सट्टा डिकोडिंग के माध्यम से LLM त्वरण

मूल जानकारी

पेपर ID: 2507.00605
शीर्षक: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
लेखक: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
वर्गीकरण: eess.SP (विद्युत अभियांत्रिकी और प्रणाली विज्ञान - संकेत प्रसंस्करण)
प्रकाशन तिथि: 1 जुलाई 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2507.00605

सारांश

Edge-Cloud सट्टा डिकोडिंग (SD) प्रणालियों में, छोटे भाषा मॉडल (SLM) से सुसज्जित Edge उपकरण ड्राफ्ट टोकन उत्पन्न करते हैं, जिन्हें क्लाउड में बड़े भाषा मॉडल (LLM) द्वारा सत्यापित किया जाता है। ऐसी प्रणालियों की मुख्य बाधा Edge और क्लाउड के बीच सीमित संचार बैंडविड्थ है, जो प्रेषित टोकन जानकारी को परिमाणित करना आवश्यक बनाता है। यह कार्य एक नई परिमाणीकरण-नमूना (Q-S) रणनीति प्रस्तुत करता है जो क्लाउड मॉडल के आउटपुट वितरण को सिद्ध रूप से संरक्षित करता है, यह सुनिश्चित करता है कि सत्यापित टोकन सीधे LLM द्वारा उत्पन्न टोकन के वितरण से मेल खाते हैं। हम Edge-Cloud SD के लिए एक स्पष्ट थ्रूपुट मॉडल विकसित करते हैं जो संचार विलंबता पर विचार करता है। इस मॉडल के आधार पर, हम एक अनुकूली तंत्र प्रस्तावित करते हैं जो शब्दार्थ अनिश्चितता और चैनल स्थितियों के प्रति प्रतिक्रिया करके ड्राफ्ट लंबाई और परिमाणीकरण सटीकता को गतिशील रूप से समायोजित करता है, जिससे टोकन थ्रूपुट अनुकूलित होता है। सिमुलेशन परिणाम दर्शाते हैं कि प्रस्तावित Q-S विधि वास्तविक Edge-Cloud तैनाती परिदृश्यों में डिकोडिंग दक्षता में उल्लेखनीय सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान Edge-Cloud सट्टा डिकोडिंग प्रणालियों में संचार बैंडविड्थ सीमाओं की समस्या को हल करने का लक्ष्य रखता है। पारंपरिक सट्टा डिकोडिंग में, Edge उपकरणों को क्लाउड को बड़ी मात्रा में संभाव्यता वितरण जानकारी प्रेषित करनी पड़ती है, जो बैंडविड्थ-सीमित वातावरण में प्रणाली प्रदर्शन को गंभीर रूप से प्रभावित करता है।

महत्व

व्यावहारिक मूल्य: Edge-Cloud सहयोगी अनुमान वर्तमान LLM तैनाती का एक महत्वपूर्ण प्रवृत्ति है, जो कम्प्यूटेशनल संसाधनों और प्रतिक्रिया विलंबता को संतुलित करता है
तकनीकी चुनौती: मौजूदा विधियां संभाव्यता वितरण को परिमाणित करते समय LLM के मूल आउटपुट वितरण को नष्ट करती हैं, जो उत्पादन गुणवत्ता को प्रभावित करता है
आर्थिक लाभ: अनावश्यक API कॉल को कम करता है, ऊर्जा दक्षता और प्रणाली स्केलेबिलिटी में सुधार करता है

मौजूदा विधियों की सीमाएं

मौजूदा नमूना-परिमाणीकरण (S-Q) विधियों में महत्वपूर्ण खामियां हैं:

पहले नमूना लेने के बाद परिमाणीकरण की रणनीति Edge नमूना वितरण और क्लाउड सत्यापन वितरण में असंगति का कारण बनती है
सट्टा डिकोडिंग के मूल गुण को LLM टोकन वितरण संरक्षित करने का उल्लंघन करता है
उच्च नमूना तापमान पर प्रदर्शन में उल्लेखनीय गिरावट

अनुसंधान प्रेरणा

इस पेपर की अनुसंधान प्रेरणा एक ऐसी Edge-Cloud सट्टा डिकोडिंग योजना डिजाइन करना है जो संचार ओवरहेड को कम कर सके और LLM आउटपुट वितरण की सख्त सामंजस्य को बनाए रख सके।

मुख्य योगदान

परिमाणीकरण-नमूना (Q-S) रणनीति प्रस्तावित की: क्लाउड LLM के आउटपुट वितरण को सिद्ध रूप से संरक्षित करता है, उत्पादन गुणवत्ता में कोई नुकसान नहीं सुनिश्चित करता है
संचार विलंबता पर विचार करने वाला थ्रूपुट मॉडल स्थापित किया: अपलिंक और डाउनलिंक प्रसारण विलंबता के प्रणाली प्रदर्शन पर प्रभाव को स्पष्ट रूप से मॉडल करता है
अनुकूली संसाधन आवंटन तंत्र डिजाइन किया: सुदृढ़ शिक्षा के आधार पर ड्राफ्ट लंबाई और परिमाणीकरण सटीकता को गतिशील रूप से समायोजित करता है
सैद्धांतिक गारंटी प्रदान की: Proposition 1 के माध्यम से Q-S विधि के वितरण समतुल्यता को सिद्ध करता है

विधि विवरण

कार्य परिभाषा

Edge-Cloud सट्टा डिकोडिंग कार्य को इस प्रकार परिभाषित किया जाता है: दिए गए इनपुट उपसर्ग s¹ के लिए, प्रणाली को Edge SLM के माध्यम से ड्राफ्ट टोकन उत्पन्न करने, क्लाउड LLM द्वारा सत्यापन करने, और अंततः सीधे LLM का उपयोग करके उत्पन्न टोकन अनुक्रम के समान वितरण वाले टोकन उत्पन्न करने की आवश्यकता है।

मॉडल आर्किटेक्चर

प्रणाली आर्किटेक्चर

प्रणाली में चार मुख्य चरण हैं:

टोकन उत्पादन: Edge SLM स्वचालित रूप से L^t ड्राफ्ट टोकन उत्पन्न करता है
अपलिंक प्रसारण: परिमाणित संभाव्यता वितरण और टोकन को क्लाउड में प्रेषित करता है
टोकन सत्यापन: क्लाउड LLM समानांतर में ड्राफ्ट टोकन को सत्यापित करता है
डाउनलिंक प्रसारण: सत्यापन परिणाम और नए उत्पन्न टोकन लौटाता है

Q-S रणनीति मुख्य तंत्र

मुख्य नवाचार: पहले संभाव्यता वितरण को परिमाणित करें, फिर परिमाणित वितरण से नमूना लें

गणितीय अभिव्यक्ति:

परिमाणित संभाव्यता वेक्टर: q̂ᵗₗ = Quantize(qᵗₗ)
परिमाणित वितरण से नमूना: xᵗₗ ~ q̂ᵗₗ
सत्यापन संभाव्यता: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

जाली परिमाणीकरण एल्गोरिथ्म

संभाव्यता वेक्टर परिमाणीकरण के लिए जाली-आधारित दृष्टिकोण का उपयोग:

परिमाणीकरण सेट: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
एन्कोडिंग बिट संख्या: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
जटिलता: O(V log(V))

तकनीकी नवाचार बिंदु

1. वितरण संरक्षण प्रमाण

Proposition 1: Q-S Edge-Cloud SD यह गारंटी देता है कि उत्पन्न टोकन xᵗₗ की संभाव्यता P(X = xᵗₗ) LLM की संबंधित संभाव्यता pᵗₗ,xᵗₗ के बराबर है।

इस गुण की कुंजी यह है कि नमूना लेना और सत्यापन एक ही परिमाणित वितरण का उपयोग करते हैं, जबकि S-Q विधि विभिन्न वितरणों का उपयोग करती है जिससे वितरण में बदलाव होता है।

2. अनुकूली अनुकूलन तंत्र

सुदृढ़ शिक्षा-आधारित गतिशील नीति π, स्थिति स्थान में शामिल हैं:

शब्दार्थ जानकारी: उपसर्ग आत्मविश्वास वेक्टर fᵗ और औसत आत्मविश्वास f̄ᵗ
कनेक्शन जानकारी: वर्तमान अपलिंक चैनल दर Cᵗᵤ

कार्य स्थान: aᵗ = (Lᵗ, bᵗ), अर्थात् ड्राफ्ट लंबाई और परिमाणीकरण बिट संख्या

3. विलंबता मॉडलिंग

कुल विलंबता मॉडल:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

जहां:

अपलिंक विलंबता: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
डाउनलिंक विलंबता: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

प्रायोगिक सेटअप

डेटासेट

डेटासेट: CNN/DailyMail सारांश डेटासेट
कार्य: सारांश पाठ उत्पादन
मूल्यांकन मेट्रिक्स: ROUGE-2 स्कोर, टोकन थ्रूपुट, शैनन एन्ट्रॉपी

मॉडल कॉन्फ़िगरेशन

क्लाउड LLM: OPT-13B (13 बिलियन पैरामीटर)
Edge SLM: OPT-125M (125 मिलियन पैरामीटर)
हार्डवेयर: NVIDIA A100 40GB GPU
बैच आकार: 1 (मौजूदा साहित्य मानक के अनुसार)

चैनल मॉडल

समय-परिवर्तनशील अपलिंक चैनल को अनुकरण करने के लिए द्वि-स्थिति मार्कोव मॉडल का उपयोग:

निम्न गति स्थिति: औसत 350 kbps (NB-IoT जैसा)
उच्च गति स्थिति: औसत 4 Mbps
स्थिति संक्रमण संभाव्यता: p_low→high और p_high→low

तुलनात्मक विधियां

LLM: क्लाउड LLM का सीधे उपयोग
SLM: केवल Edge SLM का उपयोग
S-Q: नमूना-परिमाणीकरण सट्टा डिकोडिंग
Q-S (Static): स्थिर परिमाणीकरण-नमूना विधि
Q-S (Heuristic): अनुमानी अनुकूली Q-S
Q-S (Dynamic): सुदृढ़ शिक्षा-आधारित गतिशील Q-S

प्रायोगिक परिणाम

मुख्य परिणाम

1. उत्पादन गुणवत्ता संरक्षण

ROUGE-2 स्कोर तुलना:

Q-S विधि (स्थिर और गतिशील) सभी नमूना तापमान पर LLM के समान ROUGE-2 स्कोर बनाए रखते हैं
S-Q विधि उच्च तापमान पर LLM प्रदर्शन से महत्वपूर्ण रूप से विचलित होती है
Proposition 1 की सैद्धांतिक गारंटी को सत्यापित करता है

2. थ्रूपुट वृद्धि

निम्न गति नेटवर्क वातावरण (350 kbps):

Q-S (Dynamic) LLM की तुलना में लगभग 40-50% टोकन थ्रूपुट वृद्धि
स्थिर Q-S विधि की तुलना में लगभग 15-20% वृद्धि
अनुमानी विधि की तुलना में लगभग 8-12% वृद्धि

उच्च गति नेटवर्क वातावरण (4 Mbps):

संचार अब मुख्य बाधा नहीं है, लेकिन गतिशील विधि अभी भी 5-10% वृद्धि प्रदान करती है
अनुकूली रणनीति की मजबूती को प्रमाणित करता है

3. एन्ट्रॉपी विश्लेषण

सभी विधियों की टोकन शैनन एन्ट्रॉपी नमूना तापमान के साथ बढ़ती है, तापमान पैरामीटर के आउटपुट विविधता पर सही प्रभाव की पुष्टि करता है।

विलोपन प्रयोग

स्थिर, अनुमानी और गतिशील तीन Q-S वेरिएंट की तुलना के माध्यम से, सत्यापित किया:

परिमाणीकरण रणनीति की प्रभावशीलता: S-Q पर Q-S का लाभ
अनुकूली तंत्र का मूल्य: निश्चित पैरामीटर पर गतिशील समायोजन की वृद्धि
सुदृढ़ शिक्षा की आवश्यकता: सरल अनुमानी नियमों पर सुधार

मुख्य निष्कर्ष

वितरण सामंजस्य महत्वपूर्ण है: नमूना लेने और सत्यापन वितरण की सामंजस्य उत्पादन गुणवत्ता बनाए रखने की कुंजी है
संचार विलंबता प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करती है: निम्न बैंडविड्थ वातावरण में, संचार ओवरहेड मुख्य बाधा बन जाता है
अनुकूली रणनीति प्रभावी है: गतिशील पैरामीटर समायोजन विभिन्न शब्दार्थ और नेटवर्क स्थितियों को प्रभावी ढंग से संभाल सकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Q-S रणनीति S-Q से बेहतर है: उत्पादन गुणवत्ता बनाए रखते हुए महत्वपूर्ण थ्रूपुट वृद्धि प्राप्त करता है
अनुकूली तंत्र प्रभावी है: ड्राफ्ट लंबाई और परिमाणीकरण सटीकता को गतिशील रूप से समायोजित करना विभिन्न स्थितियों के अनुकूल हो सकता है
सिद्धांत और व्यवहार सामंजस्यपूर्ण हैं: सैद्धांतिक विश्लेषण और प्रायोगिक परिणाम एक दूसरे को सत्यापित करते हैं

सीमाएं

मॉडल धारणाएं: डाउनलिंक प्रसारण को विलंबता-मुक्त मानता है, वास्तविक परिदृश्य अधिक जटिल हो सकते हैं
परिमाणीकरण विधि: केवल जाली परिमाणीकरण पर विचार करता है, अन्य परिमाणीकरण विधियों का प्रभाव अज्ञात है
कार्य सीमाएं: केवल पाठ सारांश कार्य पर सत्यापित, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
हार्डवेयर निर्भरता: प्रयोग उच्च-प्रदर्शन GPU पर आधारित हैं, वास्तविक Edge उपकरणों का प्रदर्शन भिन्न हो सकता है

भविष्य की दिशाएं

अन्य कार्यों तक विस्तार: संवाद उत्पादन, कोड उत्पादन आदि अनुप्रयोग परिदृश्य
अधिक जटिल नेटवर्क मॉडल: पैकेट हानि, जिटर आदि वास्तविक नेटवर्क समस्याओं पर विचार करना
बहु-मोडल विस्तार: छवि-पाठ, भाषण-पाठ आदि बहु-मोडल परिदृश्य
हार्डवेयर अनुकूलन: विशिष्ट Edge हार्डवेयर के लिए अनुकूलन रणनीतियां

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक योगदान: Proposition 1 कठोर गणितीय गारंटी प्रदान करता है, मौजूदा विधियों के सैद्धांतिक अंतराल को भरता है
स्पष्ट समस्या परिभाषा: S-Q विधि की मूल खामी को सटीक रूप से पहचानता है, लक्षित समाधान प्रस्तावित करता है
व्यवस्थित मॉडलिंग: कम्प्यूटेशनल और संचार विलंबता को व्यापक रूप से विचार करता है, संपूर्ण प्रदर्शन मॉडल स्थापित करता है
उचित प्रायोगिक डिजाइन: गुणवत्ता, थ्रूपुट और मजबूती सहित विधि प्रभावशीलता को बहु-कोण से सत्यापित करता है
उच्च व्यावहारिक मूल्य: Edge-Cloud तैनाती की वास्तविक समस्याओं को हल करता है, महत्वपूर्ण अनुप्रयोग संभावनाएं हैं

कमियां

सीमित प्रायोगिक सीमा: केवल एकल कार्य और डेटासेट पर सत्यापित, सामान्यीकरण साक्ष्य अपर्याप्त है
सरल आधार विधियां: तुलना की गई अनुमानी विधियां अपेक्षाकृत सरल हैं, मजबूत आधार की कमी है
हार्डवेयर अनुकरण: स्केलिंग कारक के माध्यम से Edge उपकरण प्रदर्शन का अनुकरण करता है, वास्तविक स्थिति से भिन्न हो सकता है
नेटवर्क मॉडल सरलीकरण: द्वि-स्थिति मार्कोव मॉडल अत्यधिक सरलीकृत है, वास्तविक नेटवर्क अधिक जटिल है
कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त: परिमाणीकरण और सुदृढ़ शिक्षा के कम्प्यूटेशनल ओवरहेड विश्लेषण कम है

प्रभाव

शैक्षणिक मूल्य: Edge-Cloud सट्टा डिकोडिंग के लिए सैद्धांतिक आधार और व्यावहारिक विधि प्रदान करता है
औद्योगिक अनुप्रयोग: Edge AI तैनाती के लिए सीधे निर्देशन मूल्य है
अनुसंधान प्रेरणा: संबंधित क्षेत्रों (संघीय शिक्षा, वितरित अनुमान आदि) के लिए नई सोच प्रदान करता है
मानकीकरण संभावना: Edge-Cloud सहयोग के मानकीकरण को प्रभावित कर सकता है

लागू परिदृश्य

बैंडविड्थ-सीमित वातावरण: उपग्रह संचार, दूरस्थ क्षेत्र नेटवर्क आदि
विलंबता-संवेदनशील अनुप्रयोग: वास्तविक समय संवाद प्रणाली, Edge AI सेवाएं
संसाधन-सीमित उपकरण: मोबाइल उपकरण, IoT उपकरण आदि
हाइब्रिड क्लाउड आर्किटेक्चर: Edge-Cloud सहयोग की आवश्यकता वाले एंटरप्राइज अनुप्रयोग

पुनरुत्पादनीयता

पेपर विस्तृत प्रायोगिक सेटअप और ओपन सोर्स कोड लिंक प्रदान करता है, अच्छी पुनरुत्पादनीयता है। लेकिन वास्तविक Edge उपकरणों की तैनाती सत्यापन को अभी और कार्य की आवश्यकता है।

संदर्भ

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

समग्र मूल्यांकन: यह Edge-Cloud सट्टा डिकोडिंग क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। सैद्धांतिक विश्लेषण कठोर है, प्रायोगिक सत्यापन पर्याप्त है, वास्तविक अनुप्रयोग में मुख्य समस्याओं को हल करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवीनता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाता है।