2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: Eliminación del retraso de inferencia remota mediante corrección en dispositivo

Información Básica

  • ID del Artículo: 2510.13714
  • Título: Dedelayed: Eliminación del retraso de inferencia remota mediante corrección en dispositivo
  • Autores: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • Clasificación: eess.IV cs.AI cs.CV cs.LG
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13714

Resumen

La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones queden obsoletas, siendo inadecuadas para tareas en tiempo real. Para abordar este problema, este artículo introduce Dedelayed, un método de corrección de latencia que mitiga cualquier retraso de inferencia remota, permitiendo que los dispositivos locales generen salidas de baja latencia en tiempo real. El método utiliza un modelo local ligero para procesar el fotograma actual e integra características calculadas por un modelo remoto pesado a partir de fotogramas anteriores. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de segmentación semántica en comparación con los mejores modelos de línea base puros locales y puros remotos en todas las latencias de red de comunicación realistas superiores a 33 ms. Sin introducir latencia adicional, para una latencia de ida y vuelta de 100 ms, mejora en 6,4 mIoU en comparación con la inferencia puramente local y en 9,8 mIoU en comparación con la inferencia remota.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿cómo superar el problema de la latencia de red en la inferencia remota mientras se garantiza la precisión de la predicción en aplicaciones de procesamiento de video en tiempo real?

Importancia del Problema

  1. Requisitos de Aplicaciones en Tiempo Real: Aplicaciones como conducción autónoma, control de robots y dispositivos portátiles son extremadamente sensibles a la latencia, donde predicciones obsoletas pueden tener consecuencias catastróficas
  2. Restricciones de Recursos: Los dispositivos móviles están limitados por consumo de energía y capacidad computacional, siendo incapaces de ejecutar modelos complejos de aprendizaje profundo
  3. Ventajas de la Nube: Las GPU en la nube poseen una potencia computacional considerable, pudiendo procesar video de alta resolución y modelos complejos

Limitaciones de Métodos Existentes

Los métodos de computación distribuida existentes presentan tres deficiencias principales:

  1. Asignan todos los recursos del dispositivo a una única canalización de inferencia lineal, sin reservar recursos para opciones de respaldo local
  2. No consideran el impacto de la latencia en la precisión de la predicción
  3. Reducen significativamente la resolución espacio-temporal para gestionar costos computacionales, perdiendo los detalles visuales ricos de los sistemas de cámaras modernos

Motivación de la Investigación

Inspirado por el sistema visual humano, donde el nervio óptico solo puede transmitir una pequeña fracción de la información recibida por la retina, siendo el procesamiento temprano principalmente compresión, seguido de procesamiento metabólicamente intensivo en capas profundas de la corteza visual. De manera similar, las máquinas equipadas con sensores de video digital enfrentan restricciones comparables.

Contribuciones Principales

  1. Propuesta del Marco Dedelayed: Un marco de inferencia distribuida consciente de la latencia que mitiga los efectos de la latencia de red mediante la fusión de información local en tiempo real y características remotas retrasadas
  2. Análisis Cuantitativo de Latencia: Proporciona mediciones cuantitativas del impacto de la latencia en la precisión de predicción visual densa
  3. Verificación del Sistema Práctico: Valida la efectividad del sistema en tareas de segmentación de video en escenarios de conducción urbana, superando los esquemas existentes de inferencia puramente local o remota
  4. Estrategia de Fusión Simple y Efectiva: Utiliza fusión de características basada en adición, fácil de desplegar y extender a otros métodos en tiempo real

Explicación Detallada del Método

Definición de la Tarea

Dado un fotograma de entrada fresco x_t en el momento t, la predicción final ŷ_t se calcula mediante un modelo local ligero f_light, que procesa x_t e integra características temporalmente retrasadas z_{t-τ} del modelo remoto pesado f_heavy.

Representación Matemática:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Arquitectura del Modelo

Arquitectura General del Sistema

El sistema Dedelayed contiene dos componentes principales:

  1. Modelo Local Ligero: Procesa el fotograma actual, proporcionando capacidad de respuesta en tiempo real
  2. Modelo de Predicción Remota: Procesa secuencias de fotogramas históricos, proporcionando características de alta calidad

Módulo de Predicción Remota

  • Utiliza EfficientViT-L1 como red troncal ViT 2D, con tamaño de parche efectivo de 8×8
  • Mantiene una ventana de contexto de K fotogramas recientes
  • Concatena características de cada fotograma a lo largo del eje temporal, fusionando espacialmente en parches más grandes de 16×16
  • Añade incrustación de latencia aprendida basada en la latencia medida τ
  • Produce características condicionadas por latencia mediante codificador ViT 3D y agrupación aprendida (MLP-pool-MLP)

Modelo Local y Fusión

  • Calcula características de primera etapa: h = T1(x_t)
  • Realiza fusión temprana mediante adición elemento a elemento: h' = h + z_{t-τ}
  • Ambos tensores tienen forma 96 × H/8 × W/8, sin necesidad de proyección o cambio de tamaño
  • Si z_{t-τ} no está disponible, el modelo local se retrae a h' = h

Puntos de Innovación Técnica

  1. Mecanismo de Incrustación de Latencia: Similar a incrustaciones de posición en transformadores de texto o visuales, permite que el comportamiento del modelo remoto se adapte a cambios de canal
  2. Entrenamiento de Predicción Temporal: Simula latencia de D fotogramas durante el entrenamiento supervisado, entrenando el modelo remoto para predecir el futuro
  3. Inferencia de Resolución Mixta: El modelo local utiliza baja resolución, mientras que el modelo remoto utiliza procesamiento de múltiples fotogramas de alta resolución
  4. Garantía de Rendimiento: El rendimiento del sistema nunca es inferior al de cualquiera de los modelos independientes

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos de Video BDD100K: Contiene videos de escenas de conducción a 30 fps
  • Utiliza modelo EoMT preentrenado para generar etiquetas pseudoetiquetadas, ignorando píxeles de baja confianza
  • Utiliza subconjunto de 19 etiquetas de Cityscapes
  • Aplica códec de imagen WebP (calidad 85) para comprimir la secuencia de video ascendente

Métricas de Evaluación

  • mIoU (Intersección Media sobre Unión): Métrica de evaluación estándar para segmentación semántica
  • Rango de Latencia: 0-5 fotogramas (0-165 ms), representando latencias de ida y vuelta típicas

Métodos de Comparación

  1. Imagen Local: Inferencia local tradicional de fotograma único
  2. Imagen Remota: Inferencia remota tradicional de fotograma único
  3. Video Remoto: Procesamiento de video remoto sin predicción futura
  4. Remota Predictiva: Modelo de predicción remota consciente de latencia
  5. Local + Remota Predictiva: Sistema Dedelayed completo

Detalles de Implementación

  • Estrategia de Entrenamiento Multietapa: Los modelos remoto y local se entrenan independientemente primero, luego se ajustan conjuntamente
  • Optimizador: Optimizador Adan
  • Programación de Tasa de Aprendizaje: Programación de tasa de aprendizaje coseno trapezoidal
  • Función de Pérdida: Pérdida de entropía cruzada
  • Preentrenamiento: Clasificación ImageNet → Segmentación Cityscapes → Ajuste fino BDD100K

Resultados Experimentales

Resultados Principales

  1. Mejoras de Rendimiento Significativas:
    • Con latencia de ida y vuelta de 100 ms, mejora de 6,4 mIoU en comparación con inferencia puramente local
    • Mejora de 9,8 mIoU en comparación con inferencia remota
    • Supera la línea base más fuerte en todas las latencias realistas superiores a 33 ms
  2. Robustez ante Latencia:
    • Cuanto mayor es la latencia, más evidente es la ventaja de Dedelayed
    • Mejor rendimiento en escenas de alto movimiento
    • La inferencia distribuida con mitigación de latencia mantiene la precisión de manera más efectiva

Experimentos de Ablación

Los experimentos validan la contribución de cada componente:

  • Video Remoto vs Imagen Remota: Usar solo contexto de fotogramas históricos es insuficiente para mejorar el rendimiento
  • Remota Predictiva vs Video Remoto: El entrenamiento de predicción temporal mejora significativamente la robustez ante latencia
  • Local + Remota Predictiva vs Remota Predictiva: La fusión de información local mejora aún más el rendimiento

Análisis de Fluctuación de Latencia

  • El modelo mantiene buen rendimiento cuando la entrada de latencia no coincide con la latencia observada
  • Cuando la latencia observada excede la entrada de latencia, la degradación de rendimiento es gradual
  • Mantiene ventaja incluso en redes con fluctuación alta (σ=15 ms)

Adaptabilidad de Resolución

El modelo local asistido por remoto puede ejecutarse en resoluciones más bajas sin pérdida de precisión, demostrando la eficiencia de recursos del sistema.

Trabajo Relacionado

Investigación de Arquitecturas Ligeras

Trabajos existentes como EfficientViT y MobileNetV4 se enfocan en minimizar la computación para lograr rendimiento en tiempo real en dispositivos, pero están limitados por restricciones de consumo de energía y capacidad computacional de dispositivos.

Métodos de Computación Distribuida

  • MPEG AI y JPEG AI: Se enfocan en reducción de ancho de banda, careciendo de mecanismos de compensación de latencia
  • Clockwork Convnets: Reutiliza características obsoletas para reducir latencia, pero con capacidad de razonamiento temporal limitada
  • Accel: Utiliza transformación de flujo óptico hacia adelante para características de modelo pesado, pero no es aplicable a operaciones entre redes
  • Knowledge Boosting: Más relacionado con este trabajo, pero asume latencia fija

Ventajas de Este Trabajo

En comparación con trabajos relacionados, Dedelayed se generaliza a latencias más largas y variables mediante condicionamiento de latencia ajustable, mientras mantiene diseño simple y reutilizable.

Conclusiones y Discusión

Conclusiones Principales

  1. Dedelayed resuelve exitosamente el desafío central de la computación remota en sistemas en tiempo real: el problema de predicciones obsoletas causadas por latencia de red
  2. Al elevar la latencia como una variable de primera clase, el sistema supera líneas base fuertes en condiciones de red realistas
  3. El marco es aplicable a un amplio rango de dominios de problemas en tiempo real, haciendo que los sistemas inteligentes sean simultáneamente precisos y confiables en tiempo

Limitaciones

  1. Suposición de Latencia Fija: La implementación actual se enfoca principalmente en latencia relativamente estable, con adaptabilidad limitada a fluctuaciones extremas
  2. Sobrecarga Computacional: Aunque el modelo local es ligero, aún requiere computación adicional de fusión
  3. Limitaciones del Conjunto de Datos: Validado principalmente en escenarios de conducción, la generalización a otros dominios requiere verificación
  4. Dependencia de Red: Completamente dependiente de conectividad de red, pudiendo solo confiar en el modelo local durante interrupciones de red

Direcciones Futuras

El artículo propone investigaciones futuras incluyendo:

  1. Investigación de distribuciones de latencia variable y aleatoria
  2. Manejo de datos de alto movimiento
  3. Desarrollo de modelos locales más ligeros
  4. Exploración de capacidades de predicción futura local

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda un problema crítico en computación perimetral con valor práctico significativo
  2. Innovación del Método: La combinación de incrustación de latencia y entrenamiento de predicción temporal es novedosa
  3. Suficiencia Experimental: Experimentos de ablación completos y análisis de fluctuación de latencia
  4. Practicidad Fuerte: Estrategia de fusión simple basada en modelos existentes, fácil de desplegar
  5. Fundamento Teórico: Inspirado por el sistema visual humano, posee racionalidad biológica

Deficiencias

  1. Rango de Evaluación Limitado: Validado solo en tareas de segmentación semántica, faltando validación en otras tareas
  2. Rango de Latencia: Latencia máxima de 165 ms puede ser insuficiente para cubrir todos los escenarios prácticos
  3. Análisis de Costo Computacional Insuficiente: Falta análisis detallado de costos computacionales y de comunicación
  4. Comparación con Más Líneas Base: Podría compararse con más métodos recientes de computación perimetral

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas de solución para inferencia colaborativa perimetral-nube
  2. Valor Práctico: Tiene potencial de aplicación directa en conducción autónoma, robótica y otros campos
  3. Reproducibilidad: Proporciona código de implementación detallado, facilitando reproducción y extensión

Escenarios Aplicables

  1. Conducción Autónoma: Los sistemas vehiculares requieren percepción ambiental precisa y en tiempo real
  2. Robots Móviles: Navegación y evitación de obstáculos requieren respuesta de baja latencia
  3. Aplicaciones AR/VR: Comprensión de escena en tiempo real y renderizado
  4. Vigilancia por Video: Detección y seguimiento de objetivos en tiempo real

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

  • Serie de modelos ligeros EfficientViT
  • Conjuntos de datos BDD100K y Cityscapes
  • Investigación relacionada con computación perimetral e inferencia distribuida
  • Investigación biológica del sistema visual humano

Evaluación General: Este es un artículo de alta calidad que aborda problemas prácticos, proponiendo el marco Dedelayed que posee valor importante tanto en teoría como en práctica. El método es simple y efectivo, la validación experimental es completa, proporcionando contribuciones valiosas al campo de la inferencia colaborativa perimetral-nube. Aunque hay espacio para mejora en el rango de evaluación y capacidad de manejo de latencia, en general es un trabajo de investigación significativo.