2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

基本信息

论文ID: 2507.00605
标题: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
作者: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
分类: eess.SP (电气工程与系统科学 - 信号处理)
发表时间: 2025年7月1日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2507.00605

摘要

在边缘云推测解码(SD)系统中，配备小型语言模型(SLM)的边缘设备生成草稿令牌，然后由云端的大型语言模型(LLM)进行验证。此类系统的关键瓶颈是边缘与云端之间的有限通信带宽，这使得对传输的生成令牌信息进行量化成为必要。本工作引入了一种新颖的量化-采样(Q-S)策略，可证明地保持云端模型的输出分布，确保验证的令牌与直接由LLM生成的令牌分布匹配。我们为边缘云SD开发了一个明确考虑通信延迟的吞吐量模型。基于该模型，我们提出了一种自适应机制，通过动态调整草稿长度和量化精度来响应语义不确定性和信道条件，从而优化令牌吞吐量。仿真结果表明，所提出的Q-S方法在现实的边缘云部署场景中显著提高了解码效率。

实用价值: 边缘云协同推理是当前LLM部署的重要趋势，能够平衡计算资源和响应延迟
技术挑战: 现有方法在量化概率分布时会破坏LLM的原始输出分布，影响生成质量
经济效益: 减少冗余API调用，提高能效和系统可扩展性

现有方法局限性

现有的样本-量化(S-Q)方法存在关键缺陷：

先采样后量化的策略导致边缘采样分布与云端验证分布不一致
违反了推测解码保持LLM令牌分布的核心性质
在高采样温度下性能显著下降

研究动机

本文的研究动机是设计一种既能减少通信开销又能严格保持LLM输出分布一致性的边缘云推测解码方案。

核心贡献

提出了量化-采样(Q-S)策略：证明性地保持云端LLM的输出分布，确保生成质量不受损失
建立了考虑通信延迟的吞吐量模型：明确建模上行链路和下行链路传输延迟对系统性能的影响
设计了自适应资源分配机制：基于强化学习动态调整草稿长度和量化精度
提供了理论保证：通过Proposition 1证明了Q-S方法的分布等价性

令牌生成：边缘SLM自回归生成L^t个草稿令牌
上行传输：将量化后的概率分布和令牌传输到云端
令牌验证：云端LLM并行验证草稿令牌
下行传输：返回验证结果和新生成令牌

Q-S策略核心机制

关键创新：先量化概率分布，再从量化后的分布中采样

数学表述：

量化概率向量：q̂ᵗₗ = Quantize(qᵗₗ)
从量化分布采样：xᵗₗ ~ q̂ᵗₗ
验证概率：αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

格子量化算法

采用基于格子的概率向量量化：

量化集合：Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
编码比特数：b = ⌈log₂((ℓ+V-1)/(V-1))⌉
复杂度：O(V log(V))

语义信息：前缀置信度向量fᵗ和平均置信度f̄ᵗ
连接信息：当前上行信道速率Cᵗᵤ

动作空间：aᵗ = (Lᵗ, bᵗ)，即草稿长度和量化比特数

3. 延迟建模

总延迟模型：

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

其中：

上行延迟：Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
下行延迟：Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

实验设置

数据集

数据集: CNN/DailyMail抽象文本摘要数据集
任务: 抽象文本摘要生成
评价指标: ROUGE-2分数、令牌吞吐量、香农熵

模型配置

云端LLM: OPT-13B (参数量130亿)
边缘SLM: OPT-125M (参数量1.25亿)
硬件: NVIDIA A100 40GB GPU
批处理大小: 1 (符合现有文献标准)

信道模型

采用二状态马尔可夫模型模拟时变上行信道：

低速状态: 平均350 kbps (类似NB-IoT)
高速状态: 平均4 Mbps
状态转移概率：p_low→high 和 p_high→low

对比方法

LLM: 直接使用云端LLM
SLM: 仅使用边缘SLM
S-Q: 样本-量化推测解码
Q-S (Static): 静态量化-采样方法
Q-S (Heuristic): 启发式自适应Q-S
Q-S (Dynamic): 基于强化学习的动态Q-S

Q-S方法(静态和动态)在所有采样温度下都与LLM保持相同的ROUGE-2分数
S-Q方法在高温度下显著偏离LLM性能
验证了Proposition 1的理论保证

2. 吞吐量提升

低速网络环境(350 kbps)：

Q-S (Dynamic)相比LLM提升约40-50%的令牌吞吐量
相比静态Q-S方法提升约15-20%
相比启发式方法提升约8-12%

高速网络环境(4 Mbps)：

通信不再是主要瓶颈，但动态方法仍有5-10%提升
证明了自适应策略的鲁棒性

3. 熵分析

所有方法的令牌香农熵都随采样温度增加而增长，确认了温度参数对输出多样性的正确影响。

消融实验

通过对比静态、启发式和动态三种Q-S变体，验证了：

量化策略的有效性：Q-S相比S-Q的优势
自适应机制的价值：动态调整相比固定参数的提升
强化学习的必要性：相比简单启发式规则的改进

关键发现

分布一致性至关重要：保持采样和验证分布一致是维持生成质量的关键
通信延迟显著影响性能：在低带宽环境下，通信开销成为主要瓶颈
自适应策略效果显著：动态调整参数能够有效应对不同的语义和网络条件

结论与讨论

主要结论

Q-S策略优于S-Q：在保持生成质量的同时实现显著的吞吐量提升
自适应机制有效：动态调整草稿长度和量化精度能够适应不同条件
理论与实践一致：理论分析与实验结果相互验证

局限性

模型假设：假设下行传输无延迟，实际场景可能更复杂
量化方法：仅考虑格子量化，其他量化方法的效果未知
任务局限：仅在文本摘要任务上验证，泛化性有待验证
硬件依赖：实验基于高性能GPU，真实边缘设备性能可能不同

未来方向

扩展到其他任务：对话生成、代码生成等应用场景
更复杂的网络模型：考虑包丢失、抖动等实际网络问题
多模态扩展：图像-文本、语音-文本等多模态场景
硬件优化：针对特定边缘硬件的优化策略

深度评价

优点

理论贡献扎实：Proposition 1提供了严格的数学保证，填补了现有方法的理论空白
问题定义清晰：准确识别了S-Q方法的根本缺陷，提出了针对性解决方案
系统性建模：全面考虑了计算和通信延迟，建立了完整的性能模型
实验设计合理：多角度验证方法有效性，包括质量、吞吐量和鲁棒性
实用价值高：解决了边缘云部署的实际问题，具有重要应用前景

不足

实验范围有限：仅在单一任务和数据集上验证，泛化性证据不足
基线方法简单：对比的启发式方法相对简单，缺乏更强的基线
硬件模拟：通过缩放因子模拟边缘设备性能，可能与实际情况有差异
网络模型简化：二状态马尔可夫模型过于简化，实际网络更复杂
计算开销分析不足：量化和强化学习的计算开销分析较少

影响力

学术价值：为边缘云推测解码提供了理论基础和实用方法
工业应用：对边缘AI部署具有直接指导意义
研究启发：为相关领域(联邦学习、分布式推理等)提供了新思路
标准化潜力：可能影响边缘云协同的标准制定

适用场景

带宽受限环境：卫星通信、偏远地区网络等
延迟敏感应用：实时对话系统、边缘AI服务
资源受限设备：移动设备、IoT设备等
混合云架构：需要边缘云协同的企业应用

可复现性

论文提供了详细的实验设置和开源代码链接，具有良好的可复现性。但真实边缘设备的部署验证仍需进一步工作。

参考文献

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

总体评价：这是一篇在边缘云推测解码领域具有重要贡献的高质量论文。理论分析严谨，实验验证充分，解决了实际应用中的关键问题。尽管存在一些局限性，但其创新性和实用价值使其成为该领域的重要工作。