2025-11-25T03:10:17.326863

Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding

Zhang, Cai, Yu et al.
In edge-cloud speculative decoding (SD), edge devices equipped with small language models (SLMs) generate draft tokens that are verified by large language models (LLMs) in the cloud. A key bottleneck in such systems is the limited communication bandwidth between edge and cloud, which necessitates quantization of the information transmitted about generated tokens. In this work, we introduce a novel quantize-sample (Q-S) strategy that provably preserves the output distribution of the cloud-based model, ensuring that the verified tokens match the distribution of those that would have been generated directly by the LLM. We develop a throughput model for edge-cloud SD that explicitly accounts for communication latency. Leveraging this model, we propose an adaptive mechanism that optimizes token throughput by dynamically adjusting the draft length and quantization precision in response to both semantic uncertainty and channel conditions. Simulations demonstrate that the proposed Q-S approach significantly improves decoding efficiency in realistic edge-cloud deployment scenarios.
academic

Cuantizar-Muestrear-y-Verificar: Aceleración de LLM mediante Decodificación Especulativa Adaptativa Borde-Nube

Información Básica

  • ID del Artículo: 2507.00605
  • Título: Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
  • Autores: Guangyi Zhang, Yunlong Cai, Guanding Yu, Petar Popovski, Osvaldo Simeone
  • Clasificación: eess.SP (Ingeniería Eléctrica y Ciencia de Sistemas - Procesamiento de Señales)
  • Fecha de Publicación: 1 de julio de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2507.00605

Resumen

En sistemas de decodificación especulativa (SD) borde-nube, dispositivos periféricos equipados con modelos de lenguaje pequeños (SLM) generan tokens de borrador, que luego son verificados por un modelo de lenguaje grande (LLM) en la nube. El cuello de botella crítico de tales sistemas es el ancho de banda de comunicación limitado entre el borde y la nube, lo que hace necesaria la cuantización de la información de tokens generados transmitida. Este trabajo introduce una novedosa estrategia de cuantización-muestreo (Q-S) que demostrablemente preserva la distribución de salida del modelo en la nube, garantizando que los tokens verificados coincidan con la distribución de tokens generados directamente por el LLM. Desarrollamos un modelo de rendimiento explícitamente considerando la latencia de comunicación para SD borde-nube. Basándonos en este modelo, proponemos un mecanismo adaptativo que optimiza el rendimiento de tokens ajustando dinámicamente la longitud del borrador y la precisión de cuantización en respuesta a la incertidumbre semántica y las condiciones del canal. Los resultados de simulación demuestran que el método Q-S propuesto mejora significativamente la eficiencia de decodificación en escenarios realistas de despliegue borde-nube.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la limitación del ancho de banda de comunicación en sistemas de decodificación especulativa borde-nube. En la decodificación especulativa tradicional, los dispositivos periféricos necesitan transmitir grandes cantidades de información de distribución de probabilidad a la nube, lo que afecta gravemente el rendimiento del sistema en entornos con ancho de banda limitado.

Importancia

  1. Valor Práctico: La inferencia colaborativa borde-nube es una tendencia importante en el despliegue actual de LLM, capaz de equilibrar recursos computacionales y latencia de respuesta
  2. Desafíos Técnicos: Los métodos existentes destruyen la distribución de salida original del LLM al cuantizar distribuciones de probabilidad, afectando la calidad de generación
  3. Beneficio Económico: Reducir llamadas API redundantes, mejorar eficiencia energética y escalabilidad del sistema

Limitaciones de Métodos Existentes

Los métodos existentes de muestreo-cuantización (S-Q) tienen defectos críticos:

  • La estrategia de muestreo primero y cuantización después causa inconsistencia entre la distribución de muestreo periférico y la distribución de verificación en la nube
  • Viola la propiedad central de la decodificación especulativa de preservar la distribución de tokens del LLM
  • El rendimiento se degrada significativamente bajo temperaturas de muestreo altas

Motivación de la Investigación

La motivación de este trabajo es diseñar un esquema de decodificación especulativa borde-nube que reduzca la sobrecarga de comunicación mientras mantiene estrictamente la consistencia de la distribución de salida del LLM.

Contribuciones Principales

  1. Propone la estrategia de cuantización-muestreo (Q-S): Preserva demostrablemente la distribución de salida del LLM en la nube, garantizando que la calidad de generación no se vea comprometida
  2. Establece un modelo de rendimiento considerando latencia de comunicación: Modela explícitamente el impacto de la latencia de transmisión de enlace ascendente y descendente en el rendimiento del sistema
  3. Diseña un mecanismo de asignación de recursos adaptativo: Ajusta dinámicamente la longitud del borrador y la precisión de cuantización basándose en aprendizaje por refuerzo
  4. Proporciona garantías teóricas: Demuestra la equivalencia de distribución del método Q-S mediante la Proposición 1

Explicación Detallada del Método

Definición de la Tarea

La tarea de decodificación especulativa borde-nube se define como: dado un prefijo de entrada s¹, el sistema necesita generar tokens de borrador a través del SLM periférico, verificar mediante el LLM en la nube, y finalmente generar una secuencia de tokens con la misma distribución que la generada directamente por el LLM.

Arquitectura del Modelo

Arquitectura del Sistema

El sistema contiene cuatro fases clave:

  1. Generación de Tokens: El SLM periférico genera autorregressivamente L^t tokens de borrador
  2. Transmisión Ascendente: Transmite las distribuciones de probabilidad cuantizadas y tokens a la nube
  3. Verificación de Tokens: El LLM en la nube verifica en paralelo los tokens de borrador
  4. Transmisión Descendente: Devuelve resultados de verificación y tokens recién generados

Mecanismo Central de la Estrategia Q-S

Innovación Clave: Cuantizar primero la distribución de probabilidad, luego muestrear desde la distribución cuantizada

Expresión Matemática:

  • Vector de probabilidad cuantizado: q̂ᵗₗ = Quantize(qᵗₗ)
  • Muestreo desde distribución cuantizada: xᵗₗ ~ q̂ᵗₗ
  • Probabilidad de verificación: αᵗₗ = min(1, pᵗₗ,xᵗₗ/q̂ᵗₗ,xᵗₗ)

Algoritmo de Cuantización de Retícula

Utiliza cuantización de vector de probabilidad basada en retícula:

  • Conjunto de cuantización: Qₗ = {q₁,q₂,...,qᵥ ∈ Q^V | qᵢ = oᵢ/ℓ, ∑ᵢoᵢ = ℓ}
  • Número de bits codificados: b = ⌈log₂((ℓ+V-1)/(V-1))⌉
  • Complejidad: O(V log(V))

Puntos de Innovación Técnica

1. Demostración de Preservación de Distribución

Proposición 1: La SD borde-nube Q-S garantiza que la probabilidad P(X = xᵗₗ) del token generado xᵗₗ es igual a la probabilidad correspondiente pᵗₗ,xᵗₗ del LLM.

La clave de esta propiedad es que el muestreo y la verificación utilizan la misma distribución cuantizada, mientras que el método S-Q utiliza distribuciones diferentes causando desplazamiento de distribución.

2. Mecanismo de Optimización Adaptativo

Política dinámica π basada en aprendizaje por refuerzo, con espacio de estados que incluye:

  • Información semántica: vector de confianza de prefijo fᵗ y confianza promedio f̄ᵗ
  • Información de conexión: velocidad de canal ascendente actual Cᵗᵤ

Espacio de acciones: aᵗ = (Lᵗ, bᵗ), es decir, longitud del borrador y número de bits de cuantización

3. Modelado de Latencia

Modelo de latencia total:

Tᵗ(Lᵗ, bᵗ; Cᵗᵤ, Cᵗd) = LᵗTSLM + Tᵗᵤ + TLLM + Tᵗd

Donde:

  • Latencia ascendente: Tᵗᵤ = (Lᵗ⌈log₂(V)⌉ + bᵗ)/Cᵗᵤ
  • Latencia descendente: Tᵗd = (⌈log₂(Lᵗ)⌉ + ⌈log₂(V)⌉)/Cᵗd

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos: Conjunto de datos de resumen de texto abstracto CNN/DailyMail
  • Tarea: Generación de resumen de texto abstracto
  • Métricas de Evaluación: Puntuación ROUGE-2, rendimiento de tokens, entropía de Shannon

Configuración del Modelo

  • LLM en la Nube: OPT-13B (13 mil millones de parámetros)
  • SLM Periférico: OPT-125M (125 millones de parámetros)
  • Hardware: GPU NVIDIA A100 40GB
  • Tamaño de Lote: 1 (conforme a estándares de literatura existente)

Modelo de Canal

Utiliza modelo de Markov de dos estados para simular canal ascendente variable en el tiempo:

  • Estado de Baja Velocidad: Promedio de 350 kbps (similar a NB-IoT)
  • Estado de Alta Velocidad: Promedio de 4 Mbps
  • Probabilidades de transición de estado: p_low→high y p_high→low

Métodos de Comparación

  1. LLM: Uso directo del LLM en la nube
  2. SLM: Uso solo del SLM periférico
  3. S-Q: Decodificación especulativa de muestreo-cuantización
  4. Q-S (Estático): Método de cuantización-muestreo estático
  5. Q-S (Heurístico): Q-S adaptativo heurístico
  6. Q-S (Dinámico): Q-S dinámico basado en aprendizaje por refuerzo

Resultados Experimentales

Resultados Principales

1. Preservación de Calidad de Generación

Comparación de Puntuación ROUGE-2:

  • El método Q-S (estático y dinámico) mantiene la misma puntuación ROUGE-2 que el LLM en todas las temperaturas de muestreo
  • El método S-Q se desvía significativamente del rendimiento del LLM a temperaturas altas
  • Verifica las garantías teóricas de la Proposición 1

2. Mejora de Rendimiento

Entorno de Red de Baja Velocidad (350 kbps):

  • Q-S (Dinámico) logra aproximadamente 40-50% de mejora en rendimiento de tokens en comparación con LLM
  • Aproximadamente 15-20% de mejora en comparación con el método Q-S estático
  • Aproximadamente 8-12% de mejora en comparación con el método heurístico

Entorno de Red de Alta Velocidad (4 Mbps):

  • La comunicación ya no es el cuello de botella principal, pero el método dinámico aún logra 5-10% de mejora
  • Demuestra la robustez de la estrategia adaptativa

3. Análisis de Entropía

La entropía de Shannon de tokens de todos los métodos aumenta con la temperatura de muestreo, confirmando el efecto correcto del parámetro de temperatura en la diversidad de salida.

Experimentos de Ablación

Mediante comparación de tres variantes de Q-S (estática, heurística y dinámica), se verifica:

  1. Efectividad de la Estrategia de Cuantización: Ventaja de Q-S sobre S-Q
  2. Valor del Mecanismo Adaptativo: Mejora del ajuste dinámico sobre parámetros fijos
  3. Necesidad del Aprendizaje por Refuerzo: Mejora sobre reglas heurísticas simples

Hallazgos Clave

  1. La Consistencia de Distribución es Crítica: Mantener la consistencia entre distribuciones de muestreo y verificación es clave para preservar la calidad de generación
  2. La Latencia de Comunicación Impacta Significativamente el Rendimiento: En entornos de bajo ancho de banda, la sobrecarga de comunicación se convierte en el cuello de botella principal
  3. La Estrategia Adaptativa es Efectiva: El ajuste dinámico de parámetros puede responder efectivamente a diferentes condiciones semánticas y de red

Trabajo Relacionado

Investigación en Decodificación Especulativa

  • Decodificación Especulativa Base: Método de muestreo especulativo original propuesto por Chen et al.1
  • Colaboración Borde-Nube: Primera exploración de SD colaborativo borde-nube por Hao et al.4
  • Omisión de Tokens Basada en Incertidumbre: Estrategia de omisión de tokens basada en incertidumbre propuesta por Oh et al.5

Técnicas de Cuantización

  • Cuantización de Vector de Probabilidad: Algoritmo de cuantización de retícula de Reznik10
  • Cuantización de Indicaciones: Cuantización a nivel de indicación por Jiao et al.11 y Hao et al.12
  • Cuantización de Caché KV: Método de cuantización de caché de clave-valor por He et al.13

Ventajas Relativas de Este Trabajo

  1. Garantías Teóricas: Primera demostración rigurosa de preservación de distribución
  2. Modelado de Sistema: Modelo completo del sistema considerando explícitamente latencia de comunicación
  3. Optimización Adaptativa: Ajuste dinámico de parámetros basado en aprendizaje por refuerzo

Conclusiones y Discusión

Conclusiones Principales

  1. La Estrategia Q-S es Superior a S-Q: Logra mejora significativa de rendimiento mientras preserva la calidad de generación
  2. El Mecanismo Adaptativo es Efectivo: El ajuste dinámico de longitud de borrador y precisión de cuantización puede adaptarse a diferentes condiciones
  3. Consistencia entre Teoría y Práctica: El análisis teórico y los resultados experimentales se verifican mutuamente

Limitaciones

  1. Supuestos del Modelo: Asume transmisión descendente sin latencia, escenarios reales pueden ser más complejos
  2. Método de Cuantización: Solo considera cuantización de retícula, efectos de otros métodos de cuantización desconocidos
  3. Limitación de Tareas: Validado solo en tareas de resumen de texto, generalización pendiente de verificación
  4. Dependencia de Hardware: Experimentos basados en GPU de alto rendimiento, rendimiento en dispositivos periféricos reales puede diferir

Direcciones Futuras

  1. Extensión a Otras Tareas: Escenarios de aplicación como generación de diálogos, generación de código
  2. Modelos de Red Más Complejos: Considerar pérdida de paquetes, jitter y otros problemas de red reales
  3. Extensión Multimodal: Escenarios imagen-texto, voz-texto y otros multimodales
  4. Optimización de Hardware: Estrategias de optimización para hardware periférico específico

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Sólida: La Proposición 1 proporciona garantías matemáticas rigurosas, llenando vacíos teóricos en métodos existentes
  2. Definición Clara del Problema: Identifica con precisión defectos fundamentales del método S-Q, propone soluciones específicas
  3. Modelado Sistemático: Considera comprehensivamente latencias de cálculo y comunicación, establece modelo de rendimiento completo
  4. Diseño Experimental Razonable: Verifica efectividad del método desde múltiples ángulos, incluyendo calidad, rendimiento y robustez
  5. Alto Valor Práctico: Resuelve problemas reales en despliegue borde-nube, tiene importantes perspectivas de aplicación

Deficiencias

  1. Rango Experimental Limitado: Validado solo en una tarea y conjunto de datos único, evidencia de generalización insuficiente
  2. Métodos de Referencia Simples: Los métodos heurísticos comparados son relativamente simples, carecen de referencias más fuertes
  3. Simulación de Hardware: Simula rendimiento de dispositivos periféricos mediante factores de escala, puede diferir de situaciones reales
  4. Modelo de Red Simplificado: El modelo de Markov de dos estados es demasiado simplificado, redes reales son más complejas
  5. Análisis Insuficiente de Sobrecarga Computacional: Análisis limitado de sobrecarga computacional de cuantización y aprendizaje por refuerzo

Impacto

  1. Valor Académico: Proporciona base teórica y método práctico para decodificación especulativa borde-nube
  2. Aplicación Industrial: Tiene significado orientador directo para despliegue de IA periférica
  3. Inspiración de Investigación: Proporciona nuevas perspectivas para campos relacionados (aprendizaje federado, inferencia distribuida, etc.)
  4. Potencial de Estandarización: Puede influir en formulación de estándares para colaboración borde-nube

Escenarios Aplicables

  1. Entornos de Ancho de Banda Limitado: Comunicación satelital, redes en áreas remotas, etc.
  2. Aplicaciones Sensibles a Latencia: Sistemas de diálogo en tiempo real, servicios de IA periférica
  3. Dispositivos con Recursos Limitados: Dispositivos móviles, dispositivos IoT, etc.
  4. Arquitectura Híbrida Nube: Aplicaciones empresariales que requieren colaboración borde-nube

Reproducibilidad

El artículo proporciona configuración experimental detallada y enlaces a código de código abierto, con buena reproducibilidad. Sin embargo, la validación de despliegue en dispositivos periféricos reales requiere trabajo adicional.

Referencias

  1. Chen, C., et al. "Accelerating large language model decoding with speculative sampling." arXiv:2302.01318, 2023.
  2. Hao, Z., et al. "Hybrid SLM and LLM for edge-cloud collaborative inference." Proc. Worksh. Edge Mobil. Found. Models, 2024.
  3. Leviathan, Y., et al. "Fast inference from transformers via speculative decoding." Proc. Int. Conf. Mach. Learn. (ICML), 2023.
  4. Reznik, Y. A. "An algorithm for quantization of discrete probability distributions." Data Compress. Conf. (DCC), 2011.

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de la decodificación especulativa borde-nube. El análisis teórico es riguroso, la verificación experimental es completa, y resuelve problemas clave en aplicaciones prácticas. Aunque existen algunas limitaciones, su innovación y valor práctico lo convierten en un trabajo importante en este campo.