2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

양자화-샘플-검증: 적응형 엣지-클라우드 추측 디코딩을 통한 LLM 가속

기본 정보

논문 ID: 2507.00605
제목: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
저자: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
분류: eess.SP (전기공학 및 시스템 과학 - 신호 처리)
발표 시간: 2025년 7월 1일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2507.00605

초록

엣지-클라우드 추측 디코딩(SD) 시스템에서 소형 언어 모델(SLM)을 탑재한 엣지 디바이스는 초안 토큰을 생성하고, 클라우드의 대형 언어 모델(LLM)이 이를 검증합니다. 이러한 시스템의 핵심 병목은 엣지와 클라우드 간의 제한된 통신 대역폭으로, 전송되는 생성 토큰 정보의 양자화가 필수적입니다. 본 연구는 클라우드 모델의 출력 분포를 증명 가능하게 유지하는 새로운 양자화-샘플(Q-S) 전략을 제시하여, 검증된 토큰이 LLM에서 직접 생성된 토큰의 분포와 일치하도록 보장합니다. 우리는 통신 지연을 명시적으로 고려하는 엣지-클라우드 SD를 위한 처리량 모델을 개발했습니다. 이 모델을 기반으로, 의미론적 불확실성과 채널 조건에 대응하여 초안 길이와 양자화 정확도를 동적으로 조정함으로써 토큰 처리량을 최적화하는 적응형 메커니즘을 제안합니다. 시뮬레이션 결과는 제안된 Q-S 방법이 현실적인 엣지-클라우드 배포 시나리오에서 디코딩 효율을 크게 향상시킴을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 엣지-클라우드 추측 디코딩 시스템에서의 통신 대역폭 제한 문제입니다. 기존 추측 디코딩에서 엣지 디바이스는 클라우드로 대량의 확률 분포 정보를 전송해야 하는데, 이는 대역폭이 제한된 환경에서 시스템 성능에 심각한 영향을 미칩니다.

중요성

실용적 가치: 엣지-클라우드 협력 추론은 현재 LLM 배포의 중요한 추세로, 계산 자원과 응답 지연의 균형을 맞춥니다
기술적 과제: 기존 방법들은 확률 분포를 양자화할 때 LLM의 원본 출력 분포를 손상시켜 생성 품질에 영향을 미칩니다
경제적 효익: 중복 API 호출 감소, 에너지 효율 향상 및 시스템 확장성 개선

기존 방법의 한계

기존의 샘플-양자화(S-Q) 방법은 핵심 결함을 가지고 있습니다:

먼저 샘플링한 후 양자화하는 전략으로 인해 엣지 샘플링 분포와 클라우드 검증 분포가 불일치
추측 디코딩의 LLM 토큰 분포 유지라는 핵심 특성 위반
높은 샘플링 온도에서 성능이 크게 저하

연구 동기

본 논문의 연구 동기는 통신 오버헤드를 줄이면서도 LLM 출력 분포의 일관성을 엄격히 유지하는 엣지-클라우드 추측 디코딩 방안을 설계하는 것입니다.

핵심 기여

양자화-샘플(Q-S) 전략 제시: 클라우드 LLM의 출력 분포를 증명 가능하게 유지하여 생성 품질 손실이 없음을 보장
통신 지연을 고려한 처리량 모델 수립: 상향 및 하향 링크 전송 지연이 시스템 성능에 미치는 영향을 명시적으로 모델링
적응형 자원 할당 메커니즘 설계: 강화학습 기반으로 초안 길이와 양자화 정확도를 동적으로 조정
이론적 보장 제공: Proposition 1을 통해 Q-S 방법의 분포 동등성 증명

방법 상세 설명

작업 정의

엣지-클라우드 추측 디코딩 작업은 다음과 같이 정의됩니다: 입력 접두사 s¹이 주어졌을 때, 시스템은 엣지 SLM을 통해 초안 토큰을 생성하고, 클라우드 LLM이 검증하여 최종적으로 LLM을 직접 사용한 것과 동일한 분포의 토큰 시퀀스를 생성합니다.

모델 아키텍처

시스템 아키텍처

시스템은 네 가지 핵심 단계로 구성됩니다:

토큰 생성: 엣지 SLM이 자회귀 방식으로 L^t개의 초안 토큰 생성
상향 전송: 양자화된 확률 분포와 토큰을 클라우드로 전송
토큰 검증: 클라우드 LLM이 초안 토큰을 병렬로 검증
하향 전송: 검증 결과 및 새로 생성된 토큰 반환

Q-S 전략 핵심 메커니즘

핵심 혁신: 먼저 확률 분포를 양자화한 후, 양자화된 분포에서 샘플링

수학적 표현:

양자화 확률 벡터: q̂ᵗₗ = Quantize(qᵗₗ)
양자화 분포에서 샘플링: xᵗₗ ~ q̂ᵗₗ
검증 확률: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

격자 양자화 알고리즘

확률 벡터의 격자 기반 양자화 사용:

양자화 집합: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
인코딩 비트 수: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
복잡도: O(V log(V))

기술 혁신 포인트

1. 분포 유지성 증명

Proposition 1: Q-S 엣지-클라우드 SD는 생성 토큰 xᵗₗ의 확률 P(X = xᵗₗ)이 LLM의 대응 확률 pᵗₗ,xᵗₗ과 같음을 보장합니다.

이 특성의 핵심은 샘플링과 검증이 동일한 양자화 분포를 사용하는 반면, S-Q 방법은 서로 다른 분포를 사용하여 분포 편향을 초래한다는 점입니다.

2. 적응형 최적화 메커니즘

강화학습 기반 동적 정책 π, 상태 공간 포함:

의미론적 정보: 접두사 신뢰도 벡터 fᵗ 및 평균 신뢰도 f̄ᵗ
연결 정보: 현재 상향 채널 속도 Cᵗᵤ

행동 공간: aᵗ = (Lᵗ, bᵗ), 즉 초안 길이 및 양자화 비트 수

3. 지연 모델링

총 지연 모델:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

여기서:

상향 지연: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
하향 지연: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

실험 설정

데이터셋

데이터셋: CNN/DailyMail 추상 텍스트 요약 데이터셋
작업: 추상 텍스트 요약 생성
평가 지표: ROUGE-2 점수, 토큰 처리량, 섀넌 엔트로피

모델 구성

클라우드 LLM: OPT-13B (130억 매개변수)
엣지 SLM: OPT-125M (1.25억 매개변수)
하드웨어: NVIDIA A100 40GB GPU
배치 크기: 1 (기존 문헌 표준 준수)

채널 모델

시간 변동 상향 채널을 시뮬레이션하기 위해 2상태 마르코프 모델 사용:

저속 상태: 평균 350 kbps (NB-IoT 유사)
고속 상태: 평균 4 Mbps
상태 전이 확률: p_low→high 및 p_high→low

비교 방법

LLM: 클라우드 LLM 직접 사용
SLM: 엣지 SLM만 사용
S-Q: 샘플-양자화 추측 디코딩
Q-S (Static): 정적 양자화-샘플 방법
Q-S (Heuristic): 휴리스틱 적응형 Q-S
Q-S (Dynamic): 강화학습 기반 동적 Q-S

실험 결과

주요 결과

1. 생성 품질 유지

ROUGE-2 점수 비교:

Q-S 방법(정적 및 동적)은 모든 샘플링 온도에서 LLM과 동일한 ROUGE-2 점수 유지
S-Q 방법은 높은 온도에서 LLM 성능에서 크게 벗어남
Proposition 1의 이론적 보장 검증

2. 처리량 향상

저속 네트워크 환경(350 kbps):

Q-S (Dynamic)은 LLM 대비 약 40-50%의 토큰 처리량 향상
정적 Q-S 방법 대비 약 15-20% 향상
휴리스틱 방법 대비 약 8-12% 향상

고속 네트워크 환경(4 Mbps):

통신이 더 이상 주요 병목이 아니지만, 동적 방법은 여전히 5-10% 향상
적응형 전략의 견고성 증명

3. 엔트로피 분석

모든 방법의 토큰 섀넌 엔트로피는 샘플링 온도 증가에 따라 증가하여, 온도 매개변수가 출력 다양성에 올바르게 영향을 미침을 확인합니다.

절제 실험

정적, 휴리스틱, 동적 세 가지 Q-S 변형을 비교하여 다음을 검증했습니다:

양자화 전략의 효과성: S-Q 대비 Q-S의 우월성
적응형 메커니즘의 가치: 동적 조정 대비 고정 매개변수의 향상
강화학습의 필요성: 단순 휴리스틱 규칙 대비 개선

핵심 발견

분포 일관성의 중요성: 샘플링과 검증 분포의 일관성 유지가 생성 품질 유지의 핵심
통신 지연의 중대한 영향: 저대역폭 환경에서 통신 오버헤드가 주요 병목
적응형 전략의 현저한 효과: 동적 매개변수 조정이 다양한 의미론적 및 네트워크 조건에 효과적으로 대응

결론 및 논의

주요 결론

Q-S 전략이 S-Q보다 우월: 생성 품질 유지와 동시에 현저한 처리량 향상 달성
적응형 메커니즘의 효과성: 초안 길이와 양자화 정확도의 동적 조정이 다양한 조건에 적응
이론과 실제의 일치: 이론 분석과 실험 결과의 상호 검증

한계

모델 가정: 하향 전송이 무지연이라고 가정하나, 실제 시나리오는 더 복잡할 수 있음
양자화 방법: 격자 양자화만 고려하며, 다른 양자화 방법의 효과는 미지수
작업 한계: 텍스트 요약 작업에서만 검증되어 일반화 가능성 미확인
하드웨어 의존성: 고성능 GPU 기반 실험으로 실제 엣지 디바이스 성능과 차이 가능

향후 방향

다른 작업으로 확장: 대화 생성, 코드 생성 등 응용 시나리오
더 복잡한 네트워크 모델: 패킷 손실, 지터 등 실제 네트워크 문제 고려
멀티모달 확장: 이미지-텍스트, 음성-텍스트 등 멀티모달 시나리오
하드웨어 최적화: 특정 엣지 하드웨어를 위한 최적화 전략

심층 평가

장점

견고한 이론적 기여: Proposition 1은 엄격한 수학적 보장을 제공하여 기존 방법의 이론적 공백 해소
명확한 문제 정의: S-Q 방법의 근본적 결함을 정확히 파악하고 맞춤형 해결책 제시
체계적 모델링: 계산 및 통신 지연을 포괄적으로 고려한 완전한 성능 모델 수립
합리적 실험 설계: 품질, 처리량, 견고성 등 다각도에서 방법의 효과성 검증
높은 실용적 가치: 엣지-클라우드 배포의 실제 문제 해결로 중요한 응용 전망 제시

부족한 점

제한된 실험 범위: 단일 작업 및 데이터셋에서만 검증되어 일반화 가능성 증거 부족
단순한 기준 방법: 비교 휴리스틱 방법이 상대적으로 단순하여 더 강력한 기준 필요
하드웨어 시뮬레이션: 스케일링 계수로 엣지 디바이스 성능 시뮬레이션하여 실제 상황과 차이 가능
단순화된 네트워크 모델: 2상태 마르코프 모델이 과도하게 단순화되어 실제 네트워크는 더 복잡
계산 오버헤드 분석 부족: 양자화 및 강화학습의 계산 오버헤드 분석 미흡

영향력

학술적 가치: 엣지-클라우드 추측 디코딩에 이론적 기초 및 실용적 방법 제공
산업 응용: 엣지 AI 배포에 직접적 지도 의미
연구 영감: 관련 분야(연합학습, 분산 추론 등)에 새로운 사고방식 제시
표준화 가능성: 엣지-클라우드 협력 표준 제정에 영향 가능

적용 시나리오

대역폭 제한 환경: 위성 통신, 오지 지역 네트워크 등
지연 민감 응용: 실시간 대화 시스템, 엣지 AI 서비스
자원 제한 디바이스: 모바일 디바이스, IoT 디바이스 등
하이브리드 클라우드 아키텍처: 엣지-클라우드 협력이 필요한 기업 응용

재현성

논문은 상세한 실험 설정 및 오픈소스 코드 링크를 제공하여 우수한 재현성을 갖추고 있습니다. 다만 실제 엣지 디바이스 배포 검증은 추가 작업이 필요합니다.

참고문헌

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

종합 평가: 이는 엣지-클라우드 추측 디코딩 분야에서 중요한 기여를 하는 고품질 논문입니다. 이론 분석이 엄격하고 실험 검증이 충분하며, 실제 응용의 핵심 문제를 해결합니다. 일부 한계가 있지만, 혁신성과 실용적 가치로 인해 해당 분야의 중요한 업적이 됩니다.