Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic
Quantize-Sample-and-Verify: Ускорение LLM через адаптивное спекулятивное декодирование Edge-Cloud
В системах спекулятивного декодирования edge-cloud (SD) граничные устройства, оснащённые малыми языковыми моделями (SLM), генерируют черновые токены, которые затем проверяются большой языковой моделью (LLM) в облаке. Ключным узким местом таких систем является ограниченная полоса пропускания между граничным устройством и облаком, что делает необходимым квантование передаваемой информации о сгенерированных токенах. В данной работе предлагается новая стратегия квантования-выборки (Q-S), которая доказуемо сохраняет распределение выходных данных облачной модели, гарантируя, что проверенные токены соответствуют распределению, генерируемому непосредственно LLM. Мы разработали модель пропускной способности для edge-cloud SD, явно учитывающую задержки коммуникации. На основе этой модели предлагается адаптивный механизм, динамически регулирующий длину черновика и точность квантования в ответ на семантическую неопределённость и условия канала, оптимизируя пропускную способность токенов. Результаты моделирования показывают, что предложенный метод Q-S значительно повышает эффективность декодирования в реалистичных сценариях развёртывания edge-cloud.
Основная проблема, которую решает данное исследование, — ограничения полосы пропускания коммуникации в системах спекулятивного декодирования edge-cloud. В традиционном спекулятивном декодировании граничное устройство должно передавать в облако большой объём информации о распределениях вероятностей, что серьёзно влияет на производительность системы в условиях ограниченной полосы пропускания.
Практическая ценность: Совместное вывод edge-cloud — важный тренд в развёртывании LLM, позволяющий сбалансировать вычислительные ресурсы и задержку отклика
Технические вызовы: Существующие методы нарушают исходное распределение выходных данных LLM при квантовании распределений вероятностей, влияя на качество генерации
Экономическая выгода: Сокращение избыточных вызовов API, повышение энергоэффективности и масштабируемости системы
Мотивация данной работы заключается в разработке схемы edge-cloud спекулятивного декодирования, которая одновременно снижает коммуникационные издержки и строго сохраняет согласованность распределения выходных данных LLM.
Предложена стратегия квантования-выборки (Q-S): Доказуемо сохраняет распределение выходных данных облачной LLM, гарантируя отсутствие потерь качества генерации
Разработана модель пропускной способности с учётом задержек коммуникации: Явно моделирует влияние задержек восходящего и нисходящего каналов на производительность системы
Разработан адаптивный механизм распределения ресурсов: На основе обучения с подкреплением динамически регулирует длину черновика и точность квантования
Предоставлены теоретические гарантии: Proposition 1 доказывает эквивалентность распределений метода Q-S
Задача edge-cloud спекулятивного декодирования определяется следующим образом: при заданном входном префиксе s¹ система должна генерировать черновые токены через граничную SLM, проверять их облачной LLM и в итоге генерировать последовательность токенов с тем же распределением, что и при прямом использовании LLM.
Proposition 1: Спекулятивное декодирование Q-S edge-cloud гарантирует, что вероятность сгенерированного токена xᵗₗ P(X = xᵗₗ) равна соответствующей вероятности LLM pᵗₗ,xᵗₗ.
Ключевым аспектом этого свойства является то, что выборка и проверка используют одно и то же квантованное распределение, тогда как метод S-Q использует разные распределения, что приводит к смещению распределения.
Энтропия Шеннона токенов всех методов увеличивается с ростом температуры выборки, подтверждая правильное влияние параметра температуры на разнообразие выходных данных.
Согласованность распределения критична: Сохранение согласованности распределений выборки и проверки является ключом к сохранению качества генерации
Задержка коммуникации значительно влияет на производительность: В среде низкой полосы пропускания коммуникационные издержки становятся основным узким местом
Адаптивная стратегия показывает значительный эффект: Динамическая регулировка параметров эффективно адаптируется к различным семантическим и сетевым условиям
Предположения модели: Предполагается отсутствие задержки при нисходящей передаче, реальные сценарии могут быть более сложными
Метод квантования: Рассматривается только решётчатое квантование, эффективность других методов квантования неизвестна
Ограничения задачи: Проверка только на задаче аннотирования текста, универсальность требует дальнейшей проверки
Зависимость от оборудования: Эксперименты основаны на высокопроизводительных GPU, производительность на реальных граничных устройствах может отличаться
Ограниченный диапазон экспериментов: Проверка только на одной задаче и наборе данных, недостаточно доказательств универсальности
Простые методы сравнения: Методы сравнения относительно просты, отсутствуют более сильные базовые линии
Моделирование оборудования: Использование масштабирующих коэффициентов для моделирования производительности граничных устройств может отличаться от реальности
Упрощённая модель сети: Двухсостояние марковская модель чрезмерно упрощена, реальная сеть более сложна
Недостаточный анализ вычислительных издержек: Анализ вычислительных издержек квантования и обучения с подкреплением недостаточен
Статья предоставляет подробные экспериментальные установки и ссылки на открытый исходный код, обладая хорошей воспроизводимостью. Однако проверка развёртывания на реальных граничных устройствах требует дальнейшей работы.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.
Общая оценка: Это высококачественная статья с важными вкладами в область спекулятивного декодирования edge-cloud. Теоретический анализ строг, экспериментальная проверка полна, решаются ключевые проблемы практического применения. Несмотря на некоторые ограничения, её инновационность и практическая ценность делают её важной работой в данной области.