2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.

In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.

academic

Quantize-Sample-and-Verify: Ускорение LLM через адаптивное спекулятивное декодирование Edge-Cloud

Основная информация

ID статьи: 2507.00605
Название: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Авторы: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
Классификация: eess.SP (электротехника и системные науки - обработка сигналов)
Дата публикации: 1 июля 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2507.00605

Аннотация

В системах спекулятивного декодирования edge-cloud (SD) граничные устройства, оснащённые малыми языковыми моделями (SLM), генерируют черновые токены, которые затем проверяются большой языковой моделью (LLM) в облаке. Ключным узким местом таких систем является ограниченная полоса пропускания между граничным устройством и облаком, что делает необходимым квантование передаваемой информации о сгенерированных токенах. В данной работе предлагается новая стратегия квантования-выборки (Q-S), которая доказуемо сохраняет распределение выходных данных облачной модели, гарантируя, что проверенные токены соответствуют распределению, генерируемому непосредственно LLM. Мы разработали модель пропускной способности для edge-cloud SD, явно учитывающую задержки коммуникации. На основе этой модели предлагается адаптивный механизм, динамически регулирующий длину черновика и точность квантования в ответ на семантическую неопределённость и условия канала, оптимизируя пропускную способность токенов. Результаты моделирования показывают, что предложенный метод Q-S значительно повышает эффективность декодирования в реалистичных сценариях развёртывания edge-cloud.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, — ограничения полосы пропускания коммуникации в системах спекулятивного декодирования edge-cloud. В традиционном спекулятивном декодировании граничное устройство должно передавать в облако большой объём информации о распределениях вероятностей, что серьёзно влияет на производительность системы в условиях ограниченной полосы пропускания.

Значимость

Практическая ценность: Совместное вывод edge-cloud — важный тренд в развёртывании LLM, позволяющий сбалансировать вычислительные ресурсы и задержку отклика
Технические вызовы: Существующие методы нарушают исходное распределение выходных данных LLM при квантовании распределений вероятностей, влияя на качество генерации
Экономическая выгода: Сокращение избыточных вызовов API, повышение энергоэффективности и масштабируемости системы

Ограничения существующих методов

Существующие методы выборки-квантования (S-Q) имеют критические недостатки:

Стратегия выборки перед квантованием приводит к несоответствию между распределением выборки на граничном устройстве и распределением проверки в облаке
Нарушает основное свойство спекулятивного декодирования — сохранение распределения токенов LLM
Производительность значительно снижается при высоких температурах выборки

Исследовательская мотивация

Мотивация данной работы заключается в разработке схемы edge-cloud спекулятивного декодирования, которая одновременно снижает коммуникационные издержки и строго сохраняет согласованность распределения выходных данных LLM.

Основные вклады

Предложена стратегия квантования-выборки (Q-S): Доказуемо сохраняет распределение выходных данных облачной LLM, гарантируя отсутствие потерь качества генерации
Разработана модель пропускной способности с учётом задержек коммуникации: Явно моделирует влияние задержек восходящего и нисходящего каналов на производительность системы
Разработан адаптивный механизм распределения ресурсов: На основе обучения с подкреплением динамически регулирует длину черновика и точность квантования
Предоставлены теоретические гарантии: Proposition 1 доказывает эквивалентность распределений метода Q-S

Подробное описание метода

Определение задачи

Задача edge-cloud спекулятивного декодирования определяется следующим образом: при заданном входном префиксе s¹ система должна генерировать черновые токены через граничную SLM, проверять их облачной LLM и в итоге генерировать последовательность токенов с тем же распределением, что и при прямом использовании LLM.

Архитектура модели

Архитектура системы

Система включает четыре ключевых этапа:

Генерация токенов: Граничная SLM авторегрессивно генерирует L^t черновых токенов
Восходящая передача: Передача квантованных распределений вероятностей и токенов в облако
Проверка токенов: Облачная LLM параллельно проверяет черновые токены
Нисходящая передача: Возврат результатов проверки и вновь сгенерированных токенов

Основной механизм стратегии Q-S

Ключевое нововведение: Квантование распределения вероятностей перед выборкой из квантованного распределения

Математическое описание:

Квантованный вектор вероятностей: q̂ᵗₗ = Quantize(qᵗₗ)
Выборка из квантованного распределения: xᵗₗ ~ q̂ᵗₗ
Вероятность проверки: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Алгоритм решётчатого квантования

Используется квантование вектора вероятностей на основе решётки:

Множество квантования: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
Количество кодируемых битов: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
Сложность: O(V log(V))

Технические инновации

1. Доказательство сохранения распределения

Proposition 1: Спекулятивное декодирование Q-S edge-cloud гарантирует, что вероятность сгенерированного токена xᵗₗ P(X = xᵗₗ) равна соответствующей вероятности LLM pᵗₗ,xᵗₗ.

Ключевым аспектом этого свойства является то, что выборка и проверка используют одно и то же квантованное распределение, тогда как метод S-Q использует разные распределения, что приводит к смещению распределения.

2. Адаптивный механизм оптимизации

Динамическая политика π на основе обучения с подкреплением, пространство состояний включает:

Семантическую информацию: вектор уверенности префикса fᵗ и среднюю уверенность f̄ᵗ
Информацию о соединении: текущую скорость восходящего канала Cᵗᵤ

Пространство действий: aᵗ = (Lᵗ, bᵗ), то есть длина черновика и количество битов квантования

3. Моделирование задержек

Модель общей задержки:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Где:

Задержка восходящего канала: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
Задержка нисходящего канала: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Экспериментальная установка

Наборы данных

Набор данных: Набор данных CNN/DailyMail для аннотирования абстрактного текста
Задача: Генерация аннотаций абстрактного текста
Метрики оценки: Оценка ROUGE-2, пропускная способность токенов, энтропия Шеннона

Конфигурация модели

Облачная LLM: OPT-13B (13 миллиардов параметров)
Граничная SLM: OPT-125M (125 миллионов параметров)
Оборудование: NVIDIA A100 40GB GPU
Размер пакета: 1 (соответствует стандартам существующей литературы)

Модель канала

Используется двухсостояние марковская модель для моделирования изменяющегося во времени восходящего канала:

Состояние низкой скорости: средняя скорость 350 кбит/с (аналогично NB-IoT)
Состояние высокой скорости: средняя скорость 4 Мбит/с
Вероятности переходов: p_low→high и p_high→low

Методы сравнения

LLM: Прямое использование облачной LLM
SLM: Использование только граничной SLM
S-Q: Спекулятивное декодирование выборка-квантование
Q-S (Static): Статический метод квантование-выборка
Q-S (Heuristic): Эвристический адаптивный Q-S
Q-S (Dynamic): Динамический Q-S на основе обучения с подкреплением

Результаты экспериментов

Основные результаты

1. Сохранение качества генерации

Сравнение оценок ROUGE-2:

Методы Q-S (статический и динамический) сохраняют одинаковые оценки ROUGE-2 с LLM при всех температурах выборки
Метод S-Q значительно отклоняется от производительности LLM при высоких температурах
Подтверждает теоретические гарантии Proposition 1

2. Увеличение пропускной способности

Среда сети низкой скорости (350 кбит/с):

Q-S (Dynamic) обеспечивает примерно 40-50% увеличение пропускной способности токенов по сравнению с LLM
Примерно 15-20% увеличение по сравнению со статическим методом Q-S
Примерно 8-12% увеличение по сравнению с эвристическим методом

Среда сети высокой скорости (4 Мбит/с):

Коммуникация больше не является основным узким местом, но динамический метод всё ещё обеспечивает 5-10% увеличение
Подтверждает надёжность адаптивной стратегии

3. Анализ энтропии

Энтропия Шеннона токенов всех методов увеличивается с ростом температуры выборки, подтверждая правильное влияние параметра температуры на разнообразие выходных данных.

Абляционные исследования

Путём сравнения трёх вариантов Q-S (статический, эвристический и динамический) подтверждается:

Эффективность стратегии квантования: Преимущество Q-S над S-Q
Ценность адаптивного механизма: Улучшение динамической регулировки по сравнению с фиксированными параметрами
Необходимость обучения с подкреплением: Улучшение по сравнению с простыми эвристическими правилами

Ключевые выводы

Согласованность распределения критична: Сохранение согласованности распределений выборки и проверки является ключом к сохранению качества генерации
Задержка коммуникации значительно влияет на производительность: В среде низкой полосы пропускания коммуникационные издержки становятся основным узким местом
Адаптивная стратегия показывает значительный эффект: Динамическая регулировка параметров эффективно адаптируется к различным семантическим и сетевым условиям

Связанные работы

Исследования спекулятивного декодирования

Базовое спекулятивное декодирование: Исходный метод спекулятивной выборки, предложенный Chen и др.1
Совместный вывод edge-cloud: Первое исследование совместного SD edge-cloud, проведённое Hao и др.4
Пропуск токенов на основе неопределённости: Стратегия пропуска токенов на основе неопределённости, предложенная Oh и др.5

Методы квантования

Квантование вектора вероятностей: Алгоритм решётчатого квантования Reznik10
Квантование подсказок: Квантование на уровне подсказок, предложенное Jiao и др.11 и Hao и др.12
Квантование KV-кэша: Метод квантования кэша ключ-значение, предложенный He и др.13

Относительные преимущества данной работы

Теоретические гарантии: Первое строгое доказательство сохранения распределения
Системное моделирование: Полная модель системы, явно учитывающая задержки коммуникации
Адаптивная оптимизация: Динамическая регулировка параметров на основе обучения с подкреплением

Выводы и обсуждение

Основные выводы

Стратегия Q-S превосходит S-Q: Достигает значительного увеличения пропускной способности при сохранении качества генерации
Адаптивный механизм эффективен: Динамическая регулировка длины черновика и точности квантования адаптируется к различным условиям
Теория и практика согласуются: Теоретический анализ и результаты экспериментов взаимно подтверждают друг друга

Ограничения

Предположения модели: Предполагается отсутствие задержки при нисходящей передаче, реальные сценарии могут быть более сложными
Метод квантования: Рассматривается только решётчатое квантование, эффективность других методов квантования неизвестна
Ограничения задачи: Проверка только на задаче аннотирования текста, универсальность требует дальнейшей проверки
Зависимость от оборудования: Эксперименты основаны на высокопроизводительных GPU, производительность на реальных граничных устройствах может отличаться

Направления будущих исследований

Расширение на другие задачи: Сценарии применения для диалоговой генерации, генерации кода и т.д.
Более сложные модели сети: Учёт потерь пакетов, дрожания и других реальных проблем сети
Расширение на мультимодальность: Сценарии изображение-текст, речь-текст и другие мультимодальные случаи
Оптимизация оборудования: Стратегии оптимизации для конкретного граничного оборудования

Глубокая оценка

Преимущества

Прочный теоретический вклад: Proposition 1 предоставляет строгие математические гарантии, заполняя теоретический пробел существующих методов
Чёткое определение проблемы: Точно определяет фундаментальный недостаток метода S-Q и предлагает целевое решение
Системное моделирование: Всесторонне учитывает вычислительные и коммуникационные задержки, устанавливая полную модель производительности
Разумный дизайн экспериментов: Многоаспектная проверка эффективности метода, включая качество, пропускную способность и надёжность
Высокая практическая ценность: Решает реальные проблемы развёртывания edge-cloud с важными перспективами применения

Недостатки

Ограниченный диапазон экспериментов: Проверка только на одной задаче и наборе данных, недостаточно доказательств универсальности
Простые методы сравнения: Методы сравнения относительно просты, отсутствуют более сильные базовые линии
Моделирование оборудования: Использование масштабирующих коэффициентов для моделирования производительности граничных устройств может отличаться от реальности
Упрощённая модель сети: Двухсостояние марковская модель чрезмерно упрощена, реальная сеть более сложна
Недостаточный анализ вычислительных издержек: Анализ вычислительных издержек квантования и обучения с подкреплением недостаточен

Влияние

Академическая ценность: Предоставляет теоретическую основу и практические методы для спекулятивного декодирования edge-cloud
Промышленное применение: Имеет прямое руководящее значение для развёртывания граничного AI
Исследовательское вдохновение: Предоставляет новые идеи для связанных областей (федеративное обучение, распределённый вывод и т.д.)
Потенциал стандартизации: Может повлиять на разработку стандартов совместного вывода edge-cloud

Применимые сценарии

Среды с ограниченной полосой пропускания: Спутниковая коммуникация, сети в отдалённых районах и т.д.
Приложения, чувствительные к задержкам: Системы диалога в реальном времени, сервисы граничного AI
Устройства с ограниченными ресурсами: Мобильные устройства, устройства IoT и т.д.
Гибридная облачная архитектура: Корпоративные приложения, требующие совместного вывода edge-cloud

Воспроизводимость

Статья предоставляет подробные экспериментальные установки и ссылки на открытый исходный код, обладая хорошей воспроизводимостью. Однако проверка развёртывания на реальных граничных устройствах требует дальнейшей работы.

Библиография

Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Общая оценка: Это высококачественная статья с важными вкладами в область спекулятивного декодирования edge-cloud. Теоретический анализ строг, экспериментальная проверка полна, решаются ключевые проблемы практического применения. Несмотря на некоторые ограничения, её инновационность и практическая ценность делают её важной работой в данной области.