Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic
Cuantizar-Muestrear-y-Verificar: Aceleración de LLM mediante Decodificación Especulativa Adaptativa Borde-Nube
En sistemas de decodificación especulativa (SD) borde-nube, dispositivos periféricos equipados con modelos de lenguaje pequeños (SLM) generan tokens de borrador, que luego son verificados por un modelo de lenguaje grande (LLM) en la nube. El cuello de botella crítico de tales sistemas es el ancho de banda de comunicación limitado entre el borde y la nube, lo que hace necesaria la cuantización de la información de tokens generados transmitida. Este trabajo introduce una novedosa estrategia de cuantización-muestreo (Q-S) que demostrablemente preserva la distribución de salida del modelo en la nube, garantizando que los tokens verificados coincidan con la distribución de tokens generados directamente por el LLM. Desarrollamos un modelo de rendimiento explícitamente considerando la latencia de comunicación para SD borde-nube. Basándonos en este modelo, proponemos un mecanismo adaptativo que optimiza el rendimiento de tokens ajustando dinámicamente la longitud del borrador y la precisión de cuantización en respuesta a la incertidumbre semántica y las condiciones del canal. Los resultados de simulación demuestran que el método Q-S propuesto mejora significativamente la eficiencia de decodificación en escenarios realistas de despliegue borde-nube.
El problema central que aborda esta investigación es la limitación del ancho de banda de comunicación en sistemas de decodificación especulativa borde-nube. En la decodificación especulativa tradicional, los dispositivos periféricos necesitan transmitir grandes cantidades de información de distribución de probabilidad a la nube, lo que afecta gravemente el rendimiento del sistema en entornos con ancho de banda limitado.
Valor Práctico: La inferencia colaborativa borde-nube es una tendencia importante en el despliegue actual de LLM, capaz de equilibrar recursos computacionales y latencia de respuesta
Desafíos Técnicos: Los métodos existentes destruyen la distribución de salida original del LLM al cuantizar distribuciones de probabilidad, afectando la calidad de generación
Beneficio Económico: Reducir llamadas API redundantes, mejorar eficiencia energética y escalabilidad del sistema
Los métodos existentes de muestreo-cuantización (S-Q) tienen defectos críticos:
La estrategia de muestreo primero y cuantización después causa inconsistencia entre la distribución de muestreo periférico y la distribución de verificación en la nube
Viola la propiedad central de la decodificación especulativa de preservar la distribución de tokens del LLM
El rendimiento se degrada significativamente bajo temperaturas de muestreo altas
La motivación de este trabajo es diseñar un esquema de decodificación especulativa borde-nube que reduzca la sobrecarga de comunicación mientras mantiene estrictamente la consistencia de la distribución de salida del LLM.
Propone la estrategia de cuantización-muestreo (Q-S): Preserva demostrablemente la distribución de salida del LLM en la nube, garantizando que la calidad de generación no se vea comprometida
Establece un modelo de rendimiento considerando latencia de comunicación: Modela explícitamente el impacto de la latencia de transmisión de enlace ascendente y descendente en el rendimiento del sistema
Diseña un mecanismo de asignación de recursos adaptativo: Ajusta dinámicamente la longitud del borrador y la precisión de cuantización basándose en aprendizaje por refuerzo
Proporciona garantías teóricas: Demuestra la equivalencia de distribución del método Q-S mediante la Proposición 1
La tarea de decodificación especulativa borde-nube se define como: dado un prefijo de entrada s¹, el sistema necesita generar tokens de borrador a través del SLM periférico, verificar mediante el LLM en la nube, y finalmente generar una secuencia de tokens con la misma distribución que la generada directamente por el LLM.
Proposición 1: La SD borde-nube Q-S garantiza que la probabilidad P(X = xᵗₗ) del token generado xᵗₗ es igual a la probabilidad correspondiente pᵗₗ,xᵗₗ del LLM.
La clave de esta propiedad es que el muestreo y la verificación utilizan la misma distribución cuantizada, mientras que el método S-Q utiliza distribuciones diferentes causando desplazamiento de distribución.
La entropía de Shannon de tokens de todos los métodos aumenta con la temperatura de muestreo, confirmando el efecto correcto del parámetro de temperatura en la diversidad de salida.
La Consistencia de Distribución es Crítica: Mantener la consistencia entre distribuciones de muestreo y verificación es clave para preservar la calidad de generación
La Latencia de Comunicación Impacta Significativamente el Rendimiento: En entornos de bajo ancho de banda, la sobrecarga de comunicación se convierte en el cuello de botella principal
La Estrategia Adaptativa es Efectiva: El ajuste dinámico de parámetros puede responder efectivamente a diferentes condiciones semánticas y de red
El artículo proporciona configuración experimental detallada y enlaces a código de código abierto, con buena reproducibilidad. Sin embargo, la validación de despliegue en dispositivos periféricos reales requiere trabajo adicional.
Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de la decodificación especulativa borde-nube. El análisis teórico es riguroso, la verificación experimental es completa, y resuelve problemas clave en aplicaciones prácticas. Aunque existen algunas limitaciones, su innovación y valor práctico lo convierten en un trabajo importante en este campo.