In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding 论文ID : 2507.00605标题 : Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding作者 : Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone分类 : eess.SP (电气工程与系统科学 - 信号处理)发表时间 : 2025年7月1日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2507.00605 在边缘云推测解码(SD)系统中,配备小型语言模型(SLM)的边缘设备生成草稿令牌,然后由云端的大型语言模型(LLM)进行验证。此类系统的关键瓶颈是边缘与云端之间的有限通信带宽,这使得对传输的生成令牌信息进行量化成为必要。本工作引入了一种新颖的量化-采样(Q-S)策略,可证明地保持云端模型的输出分布,确保验证的令牌与直接由LLM生成的令牌分布匹配。我们为边缘云SD开发了一个明确考虑通信延迟的吞吐量模型。基于该模型,我们提出了一种自适应机制,通过动态调整草稿长度和量化精度来响应语义不确定性和信道条件,从而优化令牌吞吐量。仿真结果表明,所提出的Q-S方法在现实的边缘云部署场景中显著提高了解码效率。
该研究要解决的核心问题是边缘云推测解码系统中的通信带宽限制问题。在传统的推测解码中,边缘设备需要向云端传输大量的概率分布信息,这在带宽受限的环境下会严重影响系统性能。
实用价值 : 边缘云协同推理是当前LLM部署的重要趋势,能够平衡计算资源和响应延迟技术挑战 : 现有方法在量化概率分布时会破坏LLM的原始输出分布,影响生成质量经济效益 : 减少冗余API调用,提高能效和系统可扩展性现有的样本-量化(S-Q)方法存在关键缺陷:
先采样后量化的策略导致边缘采样分布与云端验证分布不一致 违反了推测解码保持LLM令牌分布的核心性质 在高采样温度下性能显著下降 本文的研究动机是设计一种既能减少通信开销又能严格保持LLM输出分布一致性的边缘云推测解码方案。
提出了量化-采样(Q-S)策略 :证明性地保持云端LLM的输出分布,确保生成质量不受损失建立了考虑通信延迟的吞吐量模型 :明确建模上行链路和下行链路传输延迟对系统性能的影响设计了自适应资源分配机制 :基于强化学习动态调整草稿长度和量化精度提供了理论保证 :通过Proposition 1证明了Q-S方法的分布等价性边缘云推测解码任务定义为:给定输入前缀s¹,系统需要通过边缘SLM生成草稿令牌,云端LLM验证,最终生成与直接使用LLM相同分布的令牌序列。
系统包含四个关键阶段:
令牌生成 :边缘SLM自回归生成L^t个草稿令牌上行传输 :将量化后的概率分布和令牌传输到云端令牌验证 :云端LLM并行验证草稿令牌下行传输 :返回验证结果和新生成令牌关键创新 :先量化概率分布,再从量化后的分布中采样
数学表述:
量化概率向量:q̂ᵗₗ = Quantize(qᵗₗ) 从量化分布采样:xᵗₗ ~ q̂ᵗₗ 验证概率:αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ) 采用基于格子的概率向量量化:
量化集合:Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ} 编码比特数:b = ⌈log₂((ℓ+V-1)/(V-1))⌉ 复杂度:O(V log(V)) Proposition 1 : Q-S边缘云SD保证生成令牌xᵗₗ的概率P(X = xᵗₗ)与LLM的对应概率pᵗₗ,xᵗₗ相等。
这一性质的关键在于采样和验证使用相同的量化分布,而S-Q方法使用不同分布导致分布偏移。
基于强化学习的动态策略π,状态空间包括:
语义信息:前缀置信度向量fᵗ和平均置信度f̄ᵗ 连接信息:当前上行信道速率Cᵗᵤ 动作空间:aᵗ = (Lᵗ, bᵗ),即草稿长度和量化比特数
总延迟模型:
Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd
其中:
上行延迟:Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ 下行延迟:Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd 数据集 : CNN/DailyMail抽象文本摘要数据集任务 : 抽象文本摘要生成评价指标 : ROUGE-2分数、令牌吞吐量、香农熵云端LLM : OPT-13B (参数量130亿)边缘SLM : OPT-125M (参数量1.25亿)硬件 : NVIDIA A100 40GB GPU批处理大小 : 1 (符合现有文献标准)采用二状态马尔可夫模型模拟时变上行信道:
低速状态 : 平均350 kbps (类似NB-IoT)高速状态 : 平均4 Mbps状态转移概率:p_low→high 和 p_high→low LLM : 直接使用云端LLMSLM : 仅使用边缘SLMS-Q : 样本-量化推测解码Q-S (Static) : 静态量化-采样方法Q-S (Heuristic) : 启发式自适应Q-SQ-S (Dynamic) : 基于强化学习的动态Q-SROUGE-2分数对比 :
Q-S方法(静态和动态)在所有采样温度下都与LLM保持相同的ROUGE-2分数 S-Q方法在高温度下显著偏离LLM性能 验证了Proposition 1的理论保证 低速网络环境(350 kbps) :
Q-S (Dynamic)相比LLM提升约40-50%的令牌吞吐量 相比静态Q-S方法提升约15-20% 相比启发式方法提升约8-12% 高速网络环境(4 Mbps) :
通信不再是主要瓶颈,但动态方法仍有5-10%提升 证明了自适应策略的鲁棒性 所有方法的令牌香农熵都随采样温度增加而增长,确认了温度参数对输出多样性的正确影响。
通过对比静态、启发式和动态三种Q-S变体,验证了:
量化策略的有效性 :Q-S相比S-Q的优势自适应机制的价值 :动态调整相比固定参数的提升强化学习的必要性 :相比简单启发式规则的改进分布一致性至关重要 :保持采样和验证分布一致是维持生成质量的关键通信延迟显著影响性能 :在低带宽环境下,通信开销成为主要瓶颈自适应策略效果显著 :动态调整参数能够有效应对不同的语义和网络条件基础推测解码 :Chen等人1 提出的原始推测采样方法边缘云协同 :Hao等人4 首次探索边缘云协同SD不确定性跳过 :Oh等人5 提出基于不确定性的令牌跳过策略概率向量量化 :Reznik10 的格子量化算法提示量化 :Jiao等人11 和Hao等人12 的提示级量化KV缓存量化 :He等人13 的键值缓存量化方法理论保证 :首次提供分布保持的严格证明系统建模 :明确考虑通信延迟的完整系统模型自适应优化 :基于强化学习的动态参数调整Q-S策略优于S-Q :在保持生成质量的同时实现显著的吞吐量提升自适应机制有效 :动态调整草稿长度和量化精度能够适应不同条件理论与实践一致 :理论分析与实验结果相互验证模型假设 :假设下行传输无延迟,实际场景可能更复杂量化方法 :仅考虑格子量化,其他量化方法的效果未知任务局限 :仅在文本摘要任务上验证,泛化性有待验证硬件依赖 :实验基于高性能GPU,真实边缘设备性能可能不同扩展到其他任务 :对话生成、代码生成等应用场景更复杂的网络模型 :考虑包丢失、抖动等实际网络问题多模态扩展 :图像-文本、语音-文本等多模态场景硬件优化 :针对特定边缘硬件的优化策略理论贡献扎实 :Proposition 1提供了严格的数学保证,填补了现有方法的理论空白问题定义清晰 :准确识别了S-Q方法的根本缺陷,提出了针对性解决方案系统性建模 :全面考虑了计算和通信延迟,建立了完整的性能模型实验设计合理 :多角度验证方法有效性,包括质量、吞吐量和鲁棒性实用价值高 :解决了边缘云部署的实际问题,具有重要应用前景实验范围有限 :仅在单一任务和数据集上验证,泛化性证据不足基线方法简单 :对比的启发式方法相对简单,缺乏更强的基线硬件模拟 :通过缩放因子模拟边缘设备性能,可能与实际情况有差异网络模型简化 :二状态马尔可夫模型过于简化,实际网络更复杂计算开销分析不足 :量化和强化学习的计算开销分析较少学术价值 :为边缘云推测解码提供了理论基础和实用方法工业应用 :对边缘AI部署具有直接指导意义研究启发 :为相关领域(联邦学习、分布式推理等)提供了新思路标准化潜力 :可能影响边缘云协同的标准制定带宽受限环境 :卫星通信、偏远地区网络等延迟敏感应用 :实时对话系统、边缘AI服务资源受限设备 :移动设备、IoT设备等混合云架构 :需要边缘云协同的企业应用论文提供了详细的实验设置和开源代码链接,具有良好的可复现性。但真实边缘设备的部署验证仍需进一步工作。
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023. Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024. Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023. Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011. 总体评价 :这是一篇在边缘云推测解码领域具有重要贡献的高质量论文。理论分析严谨,实验验证充分,解决了实际应用中的关键问题。尽管存在一些局限性,但其创新性和实用价值使其成为该领域的重要工作。