In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
논문 ID : 2507.00605제목 : Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding저자 : Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone분류 : eess.SP (전기공학 및 시스템 과학 - 신호 처리)발표 시간 : 2025년 7월 1일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2507.00605 엣지-클라우드 추측 디코딩(SD) 시스템에서 소형 언어 모델(SLM)을 탑재한 엣지 디바이스는 초안 토큰을 생성하고, 클라우드의 대형 언어 모델(LLM)이 이를 검증합니다. 이러한 시스템의 핵심 병목은 엣지와 클라우드 간의 제한된 통신 대역폭으로, 전송되는 생성 토큰 정보의 양자화가 필수적입니다. 본 연구는 클라우드 모델의 출력 분포를 증명 가능하게 유지하는 새로운 양자화-샘플(Q-S) 전략을 제시하여, 검증된 토큰이 LLM에서 직접 생성된 토큰의 분포와 일치하도록 보장합니다. 우리는 통신 지연을 명시적으로 고려하는 엣지-클라우드 SD를 위한 처리량 모델을 개발했습니다. 이 모델을 기반으로, 의미론적 불확실성과 채널 조건에 대응하여 초안 길이와 양자화 정확도를 동적으로 조정함으로써 토큰 처리량을 최적화하는 적응형 메커니즘을 제안합니다. 시뮬레이션 결과는 제안된 Q-S 방법이 현실적인 엣지-클라우드 배포 시나리오에서 디코딩 효율을 크게 향상시킴을 보여줍니다.
본 연구가 해결하고자 하는 핵심 문제는 엣지-클라우드 추측 디코딩 시스템에서의 통신 대역폭 제한 문제입니다. 기존 추측 디코딩에서 엣지 디바이스는 클라우드로 대량의 확률 분포 정보를 전송해야 하는데, 이는 대역폭이 제한된 환경에서 시스템 성능에 심각한 영향을 미칩니다.
실용적 가치 : 엣지-클라우드 협력 추론은 현재 LLM 배포의 중요한 추세로, 계산 자원과 응답 지연의 균형을 맞춥니다기술적 과제 : 기존 방법들은 확률 분포를 양자화할 때 LLM의 원본 출력 분포를 손상시켜 생성 품질에 영향을 미칩니다경제적 효익 : 중복 API 호출 감소, 에너지 효율 향상 및 시스템 확장성 개선기존의 샘플-양자화(S-Q) 방법은 핵심 결함을 가지고 있습니다:
먼저 샘플링한 후 양자화하는 전략으로 인해 엣지 샘플링 분포와 클라우드 검증 분포가 불일치 추측 디코딩의 LLM 토큰 분포 유지라는 핵심 특성 위반 높은 샘플링 온도에서 성능이 크게 저하 본 논문의 연구 동기는 통신 오버헤드를 줄이면서도 LLM 출력 분포의 일관성을 엄격히 유지하는 엣지-클라우드 추측 디코딩 방안을 설계하는 것입니다.
양자화-샘플(Q-S) 전략 제시 : 클라우드 LLM의 출력 분포를 증명 가능하게 유지하여 생성 품질 손실이 없음을 보장통신 지연을 고려한 처리량 모델 수립 : 상향 및 하향 링크 전송 지연이 시스템 성능에 미치는 영향을 명시적으로 모델링적응형 자원 할당 메커니즘 설계 : 강화학습 기반으로 초안 길이와 양자화 정확도를 동적으로 조정이론적 보장 제공 : Proposition 1을 통해 Q-S 방법의 분포 동등성 증명엣지-클라우드 추측 디코딩 작업은 다음과 같이 정의됩니다: 입력 접두사 s¹이 주어졌을 때, 시스템은 엣지 SLM을 통해 초안 토큰을 생성하고, 클라우드 LLM이 검증하여 최종적으로 LLM을 직접 사용한 것과 동일한 분포의 토큰 시퀀스를 생성합니다.
시스템은 네 가지 핵심 단계로 구성됩니다:
토큰 생성 : 엣지 SLM이 자회귀 방식으로 L^t개의 초안 토큰 생성상향 전송 : 양자화된 확률 분포와 토큰을 클라우드로 전송토큰 검증 : 클라우드 LLM이 초안 토큰을 병렬로 검증하향 전송 : 검증 결과 및 새로 생성된 토큰 반환핵심 혁신 : 먼저 확률 분포를 양자화한 후, 양자화된 분포에서 샘플링
수학적 표현:
양자화 확률 벡터: q̂ᵗₗ = Quantize(qᵗₗ) 양자화 분포에서 샘플링: xᵗₗ ~ q̂ᵗₗ 검증 확률: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ) 확률 벡터의 격자 기반 양자화 사용:
양자화 집합: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ} 인코딩 비트 수: b = ⌈log₂((ℓ+V-1)/(V-1))⌉ 복잡도: O(V log(V)) Proposition 1 : Q-S 엣지-클라우드 SD는 생성 토큰 xᵗₗ의 확률 P(X = xᵗₗ)이 LLM의 대응 확률 pᵗₗ,xᵗₗ과 같음을 보장합니다.
이 특성의 핵심은 샘플링과 검증이 동일한 양자화 분포를 사용하는 반면, S-Q 방법은 서로 다른 분포를 사용하여 분포 편향을 초래한다는 점입니다.
강화학습 기반 동적 정책 π, 상태 공간 포함:
의미론적 정보: 접두사 신뢰도 벡터 fᵗ 및 평균 신뢰도 f̄ᵗ 연결 정보: 현재 상향 채널 속도 Cᵗᵤ 행동 공간: aᵗ = (Lᵗ, bᵗ), 즉 초안 길이 및 양자화 비트 수
총 지연 모델:
Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd
여기서:
상향 지연: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ 하향 지연: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd 데이터셋 : CNN/DailyMail 추상 텍스트 요약 데이터셋작업 : 추상 텍스트 요약 생성평가 지표 : ROUGE-2 점수, 토큰 처리량, 섀넌 엔트로피클라우드 LLM : OPT-13B (130억 매개변수)엣지 SLM : OPT-125M (1.25억 매개변수)하드웨어 : NVIDIA A100 40GB GPU배치 크기 : 1 (기존 문헌 표준 준수)시간 변동 상향 채널을 시뮬레이션하기 위해 2상태 마르코프 모델 사용:
저속 상태 : 평균 350 kbps (NB-IoT 유사)고속 상태 : 평균 4 Mbps상태 전이 확률: p_low→high 및 p_high→low LLM : 클라우드 LLM 직접 사용SLM : 엣지 SLM만 사용S-Q : 샘플-양자화 추측 디코딩Q-S (Static) : 정적 양자화-샘플 방법Q-S (Heuristic) : 휴리스틱 적응형 Q-SQ-S (Dynamic) : 강화학습 기반 동적 Q-SROUGE-2 점수 비교 :
Q-S 방법(정적 및 동적)은 모든 샘플링 온도에서 LLM과 동일한 ROUGE-2 점수 유지 S-Q 방법은 높은 온도에서 LLM 성능에서 크게 벗어남 Proposition 1의 이론적 보장 검증 저속 네트워크 환경(350 kbps) :
Q-S (Dynamic)은 LLM 대비 약 40-50%의 토큰 처리량 향상 정적 Q-S 방법 대비 약 15-20% 향상 휴리스틱 방법 대비 약 8-12% 향상 고속 네트워크 환경(4 Mbps) :
통신이 더 이상 주요 병목이 아니지만, 동적 방법은 여전히 5-10% 향상 적응형 전략의 견고성 증명 모든 방법의 토큰 섀넌 엔트로피는 샘플링 온도 증가에 따라 증가하여, 온도 매개변수가 출력 다양성에 올바르게 영향을 미침을 확인합니다.
정적, 휴리스틱, 동적 세 가지 Q-S 변형을 비교하여 다음을 검증했습니다:
양자화 전략의 효과성 : S-Q 대비 Q-S의 우월성적응형 메커니즘의 가치 : 동적 조정 대비 고정 매개변수의 향상강화학습의 필요성 : 단순 휴리스틱 규칙 대비 개선분포 일관성의 중요성 : 샘플링과 검증 분포의 일관성 유지가 생성 품질 유지의 핵심통신 지연의 중대한 영향 : 저대역폭 환경에서 통신 오버헤드가 주요 병목적응형 전략의 현저한 효과 : 동적 매개변수 조정이 다양한 의미론적 및 네트워크 조건에 효과적으로 대응기초 추측 디코딩 : Chen 등1 이 제시한 원본 추측 샘플링 방법엣지-클라우드 협력 : Hao 등4 의 엣지-클라우드 협력 SD 최초 탐색불확실성 스킵 : Oh 등5 의 불확실성 기반 토큰 스킵 전략확률 벡터 양자화 : Reznik10 의 격자 양자화 알고리즘프롬프트 양자화 : Jiao 등11 및 Hao 등12 의 프롬프트 수준 양자화KV 캐시 양자화 : He 등13 의 키-값 캐시 양자화 방법이론적 보장 : 분포 유지의 엄격한 증명을 최초로 제공시스템 모델링 : 통신 지연을 명시적으로 고려한 완전한 시스템 모델적응형 최적화 : 강화학습 기반 동적 매개변수 조정Q-S 전략이 S-Q보다 우월 : 생성 품질 유지와 동시에 현저한 처리량 향상 달성적응형 메커니즘의 효과성 : 초안 길이와 양자화 정확도의 동적 조정이 다양한 조건에 적응이론과 실제의 일치 : 이론 분석과 실험 결과의 상호 검증모델 가정 : 하향 전송이 무지연이라고 가정하나, 실제 시나리오는 더 복잡할 수 있음양자화 방법 : 격자 양자화만 고려하며, 다른 양자화 방법의 효과는 미지수작업 한계 : 텍스트 요약 작업에서만 검증되어 일반화 가능성 미확인하드웨어 의존성 : 고성능 GPU 기반 실험으로 실제 엣지 디바이스 성능과 차이 가능다른 작업으로 확장 : 대화 생성, 코드 생성 등 응용 시나리오더 복잡한 네트워크 모델 : 패킷 손실, 지터 등 실제 네트워크 문제 고려멀티모달 확장 : 이미지-텍스트, 음성-텍스트 등 멀티모달 시나리오하드웨어 최적화 : 특정 엣지 하드웨어를 위한 최적화 전략견고한 이론적 기여 : Proposition 1은 엄격한 수학적 보장을 제공하여 기존 방법의 이론적 공백 해소명확한 문제 정의 : S-Q 방법의 근본적 결함을 정확히 파악하고 맞춤형 해결책 제시체계적 모델링 : 계산 및 통신 지연을 포괄적으로 고려한 완전한 성능 모델 수립합리적 실험 설계 : 품질, 처리량, 견고성 등 다각도에서 방법의 효과성 검증높은 실용적 가치 : 엣지-클라우드 배포의 실제 문제 해결로 중요한 응용 전망 제시제한된 실험 범위 : 단일 작업 및 데이터셋에서만 검증되어 일반화 가능성 증거 부족단순한 기준 방법 : 비교 휴리스틱 방법이 상대적으로 단순하여 더 강력한 기준 필요하드웨어 시뮬레이션 : 스케일링 계수로 엣지 디바이스 성능 시뮬레이션하여 실제 상황과 차이 가능단순화된 네트워크 모델 : 2상태 마르코프 모델이 과도하게 단순화되어 실제 네트워크는 더 복잡계산 오버헤드 분석 부족 : 양자화 및 강화학습의 계산 오버헤드 분석 미흡학술적 가치 : 엣지-클라우드 추측 디코딩에 이론적 기초 및 실용적 방법 제공산업 응용 : 엣지 AI 배포에 직접적 지도 의미연구 영감 : 관련 분야(연합학습, 분산 추론 등)에 새로운 사고방식 제시표준화 가능성 : 엣지-클라우드 협력 표준 제정에 영향 가능대역폭 제한 환경 : 위성 통신, 오지 지역 네트워크 등지연 민감 응용 : 실시간 대화 시스템, 엣지 AI 서비스자원 제한 디바이스 : 모바일 디바이스, IoT 디바이스 등하이브리드 클라우드 아키텍처 : 엣지-클라우드 협력이 필요한 기업 응용논문은 상세한 실험 설정 및 오픈소스 코드 링크를 제공하여 우수한 재현성을 갖추고 있습니다. 다만 실제 엣지 디바이스 배포 검증은 추가 작업이 필요합니다.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023. Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024. Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023. Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011. 종합 평가 : 이는 엣지-클라우드 추측 디코딩 분야에서 중요한 기여를 하는 고품질 논문입니다. 이론 분석이 엄격하고 실험 검증이 충분하며, 실제 응용의 핵심 문제를 해결합니다. 일부 한계가 있지만, 혁신성과 실용적 가치로 인해 해당 분야의 중요한 업적이 됩니다.