2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: Eliminación del retraso de inferencia remota mediante corrección en dispositivo

Información Básica

ID del Artículo: 2510.13714
Título: Dedelayed: Eliminación del retraso de inferencia remota mediante corrección en dispositivo
Autores: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
Clasificación: eess.IV cs.AI cs.CV cs.LG
Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13714

Resumen

La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones queden obsoletas, siendo inadecuadas para tareas en tiempo real. Para abordar este problema, este artículo introduce Dedelayed, un método de corrección de latencia que mitiga cualquier retraso de inferencia remota, permitiendo que los dispositivos locales generen salidas de baja latencia en tiempo real. El método utiliza un modelo local ligero para procesar el fotograma actual e integra características calculadas por un modelo remoto pesado a partir de fotogramas anteriores. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de segmentación semántica en comparación con los mejores modelos de línea base puros locales y puros remotos en todas las latencias de red de comunicación realistas superiores a 33 ms. Sin introducir latencia adicional, para una latencia de ida y vuelta de 100 ms, mejora en 6,4 mIoU en comparación con la inferencia puramente local y en 9,8 mIoU en comparación con la inferencia remota.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿cómo superar el problema de la latencia de red en la inferencia remota mientras se garantiza la precisión de la predicción en aplicaciones de procesamiento de video en tiempo real?

Importancia del Problema

Requisitos de Aplicaciones en Tiempo Real: Aplicaciones como conducción autónoma, control de robots y dispositivos portátiles son extremadamente sensibles a la latencia, donde predicciones obsoletas pueden tener consecuencias catastróficas
Restricciones de Recursos: Los dispositivos móviles están limitados por consumo de energía y capacidad computacional, siendo incapaces de ejecutar modelos complejos de aprendizaje profundo
Ventajas de la Nube: Las GPU en la nube poseen una potencia computacional considerable, pudiendo procesar video de alta resolución y modelos complejos

Limitaciones de Métodos Existentes

Los métodos de computación distribuida existentes presentan tres deficiencias principales:

Asignan todos los recursos del dispositivo a una única canalización de inferencia lineal, sin reservar recursos para opciones de respaldo local
No consideran el impacto de la latencia en la precisión de la predicción
Reducen significativamente la resolución espacio-temporal para gestionar costos computacionales, perdiendo los detalles visuales ricos de los sistemas de cámaras modernos

Motivación de la Investigación

Inspirado por el sistema visual humano, donde el nervio óptico solo puede transmitir una pequeña fracción de la información recibida por la retina, siendo el procesamiento temprano principalmente compresión, seguido de procesamiento metabólicamente intensivo en capas profundas de la corteza visual. De manera similar, las máquinas equipadas con sensores de video digital enfrentan restricciones comparables.

Contribuciones Principales

Propuesta del Marco Dedelayed: Un marco de inferencia distribuida consciente de la latencia que mitiga los efectos de la latencia de red mediante la fusión de información local en tiempo real y características remotas retrasadas
Análisis Cuantitativo de Latencia: Proporciona mediciones cuantitativas del impacto de la latencia en la precisión de predicción visual densa
Verificación del Sistema Práctico: Valida la efectividad del sistema en tareas de segmentación de video en escenarios de conducción urbana, superando los esquemas existentes de inferencia puramente local o remota
Estrategia de Fusión Simple y Efectiva: Utiliza fusión de características basada en adición, fácil de desplegar y extender a otros métodos en tiempo real

Explicación Detallada del Método

Definición de la Tarea

Dado un fotograma de entrada fresco x_t en el momento t, la predicción final ŷ_t se calcula mediante un modelo local ligero f_light, que procesa x_t e integra características temporalmente retrasadas z_{t-τ} del modelo remoto pesado f_heavy.

Representación Matemática:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Arquitectura del Modelo

Arquitectura General del Sistema

El sistema Dedelayed contiene dos componentes principales:

Modelo Local Ligero: Procesa el fotograma actual, proporcionando capacidad de respuesta en tiempo real
Modelo de Predicción Remota: Procesa secuencias de fotogramas históricos, proporcionando características de alta calidad

Módulo de Predicción Remota

Utiliza EfficientViT-L1 como red troncal ViT 2D, con tamaño de parche efectivo de 8×8
Mantiene una ventana de contexto de K fotogramas recientes
Concatena características de cada fotograma a lo largo del eje temporal, fusionando espacialmente en parches más grandes de 16×16
Añade incrustación de latencia aprendida basada en la latencia medida τ
Produce características condicionadas por latencia mediante codificador ViT 3D y agrupación aprendida (MLP-pool-MLP)

Modelo Local y Fusión

Calcula características de primera etapa: h = T1(x_t)
Realiza fusión temprana mediante adición elemento a elemento: h' = h + z_{t-τ}
Ambos tensores tienen forma 96 × H/8 × W/8, sin necesidad de proyección o cambio de tamaño
Si z_{t-τ} no está disponible, el modelo local se retrae a h' = h

Puntos de Innovación Técnica

Mecanismo de Incrustación de Latencia: Similar a incrustaciones de posición en transformadores de texto o visuales, permite que el comportamiento del modelo remoto se adapte a cambios de canal
Entrenamiento de Predicción Temporal: Simula latencia de D fotogramas durante el entrenamiento supervisado, entrenando el modelo remoto para predecir el futuro
Inferencia de Resolución Mixta: El modelo local utiliza baja resolución, mientras que el modelo remoto utiliza procesamiento de múltiples fotogramas de alta resolución
Garantía de Rendimiento: El rendimiento del sistema nunca es inferior al de cualquiera de los modelos independientes

Configuración Experimental

Conjunto de Datos

Conjunto de Datos de Video BDD100K: Contiene videos de escenas de conducción a 30 fps
Utiliza modelo EoMT preentrenado para generar etiquetas pseudoetiquetadas, ignorando píxeles de baja confianza
Utiliza subconjunto de 19 etiquetas de Cityscapes
Aplica códec de imagen WebP (calidad 85) para comprimir la secuencia de video ascendente

Métricas de Evaluación

mIoU (Intersección Media sobre Unión): Métrica de evaluación estándar para segmentación semántica
Rango de Latencia: 0-5 fotogramas (0-165 ms), representando latencias de ida y vuelta típicas

Métodos de Comparación

Imagen Local: Inferencia local tradicional de fotograma único
Imagen Remota: Inferencia remota tradicional de fotograma único
Video Remoto: Procesamiento de video remoto sin predicción futura
Remota Predictiva: Modelo de predicción remota consciente de latencia
Local + Remota Predictiva: Sistema Dedelayed completo

Detalles de Implementación

Estrategia de Entrenamiento Multietapa: Los modelos remoto y local se entrenan independientemente primero, luego se ajustan conjuntamente
Optimizador: Optimizador Adan
Programación de Tasa de Aprendizaje: Programación de tasa de aprendizaje coseno trapezoidal
Función de Pérdida: Pérdida de entropía cruzada
Preentrenamiento: Clasificación ImageNet → Segmentación Cityscapes → Ajuste fino BDD100K

Resultados Experimentales

Resultados Principales

Mejoras de Rendimiento Significativas:
- Con latencia de ida y vuelta de 100 ms, mejora de 6,4 mIoU en comparación con inferencia puramente local
- Mejora de 9,8 mIoU en comparación con inferencia remota
- Supera la línea base más fuerte en todas las latencias realistas superiores a 33 ms
Robustez ante Latencia:
- Cuanto mayor es la latencia, más evidente es la ventaja de Dedelayed
- Mejor rendimiento en escenas de alto movimiento
- La inferencia distribuida con mitigación de latencia mantiene la precisión de manera más efectiva

Experimentos de Ablación

Los experimentos validan la contribución de cada componente:

Video Remoto vs Imagen Remota: Usar solo contexto de fotogramas históricos es insuficiente para mejorar el rendimiento
Remota Predictiva vs Video Remoto: El entrenamiento de predicción temporal mejora significativamente la robustez ante latencia
Local + Remota Predictiva vs Remota Predictiva: La fusión de información local mejora aún más el rendimiento

Análisis de Fluctuación de Latencia

El modelo mantiene buen rendimiento cuando la entrada de latencia no coincide con la latencia observada
Cuando la latencia observada excede la entrada de latencia, la degradación de rendimiento es gradual
Mantiene ventaja incluso en redes con fluctuación alta (σ=15 ms)

Adaptabilidad de Resolución

El modelo local asistido por remoto puede ejecutarse en resoluciones más bajas sin pérdida de precisión, demostrando la eficiencia de recursos del sistema.

Trabajo Relacionado

Investigación de Arquitecturas Ligeras

Trabajos existentes como EfficientViT y MobileNetV4 se enfocan en minimizar la computación para lograr rendimiento en tiempo real en dispositivos, pero están limitados por restricciones de consumo de energía y capacidad computacional de dispositivos.

Métodos de Computación Distribuida

MPEG AI y JPEG AI: Se enfocan en reducción de ancho de banda, careciendo de mecanismos de compensación de latencia
Clockwork Convnets: Reutiliza características obsoletas para reducir latencia, pero con capacidad de razonamiento temporal limitada
Accel: Utiliza transformación de flujo óptico hacia adelante para características de modelo pesado, pero no es aplicable a operaciones entre redes
Knowledge Boosting: Más relacionado con este trabajo, pero asume latencia fija

Ventajas de Este Trabajo

En comparación con trabajos relacionados, Dedelayed se generaliza a latencias más largas y variables mediante condicionamiento de latencia ajustable, mientras mantiene diseño simple y reutilizable.

Conclusiones y Discusión

Conclusiones Principales

Dedelayed resuelve exitosamente el desafío central de la computación remota en sistemas en tiempo real: el problema de predicciones obsoletas causadas por latencia de red
Al elevar la latencia como una variable de primera clase, el sistema supera líneas base fuertes en condiciones de red realistas
El marco es aplicable a un amplio rango de dominios de problemas en tiempo real, haciendo que los sistemas inteligentes sean simultáneamente precisos y confiables en tiempo

Limitaciones

Suposición de Latencia Fija: La implementación actual se enfoca principalmente en latencia relativamente estable, con adaptabilidad limitada a fluctuaciones extremas
Sobrecarga Computacional: Aunque el modelo local es ligero, aún requiere computación adicional de fusión
Limitaciones del Conjunto de Datos: Validado principalmente en escenarios de conducción, la generalización a otros dominios requiere verificación
Dependencia de Red: Completamente dependiente de conectividad de red, pudiendo solo confiar en el modelo local durante interrupciones de red

Direcciones Futuras

El artículo propone investigaciones futuras incluyendo:

Investigación de distribuciones de latencia variable y aleatoria
Manejo de datos de alto movimiento
Desarrollo de modelos locales más ligeros
Exploración de capacidades de predicción futura local

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda un problema crítico en computación perimetral con valor práctico significativo
Innovación del Método: La combinación de incrustación de latencia y entrenamiento de predicción temporal es novedosa
Suficiencia Experimental: Experimentos de ablación completos y análisis de fluctuación de latencia
Practicidad Fuerte: Estrategia de fusión simple basada en modelos existentes, fácil de desplegar
Fundamento Teórico: Inspirado por el sistema visual humano, posee racionalidad biológica

Deficiencias

Rango de Evaluación Limitado: Validado solo en tareas de segmentación semántica, faltando validación en otras tareas
Rango de Latencia: Latencia máxima de 165 ms puede ser insuficiente para cubrir todos los escenarios prácticos
Análisis de Costo Computacional Insuficiente: Falta análisis detallado de costos computacionales y de comunicación
Comparación con Más Líneas Base: Podría compararse con más métodos recientes de computación perimetral

Impacto

Contribución Académica: Proporciona nuevas perspectivas de solución para inferencia colaborativa perimetral-nube
Valor Práctico: Tiene potencial de aplicación directa en conducción autónoma, robótica y otros campos
Reproducibilidad: Proporciona código de implementación detallado, facilitando reproducción y extensión

Escenarios Aplicables

Conducción Autónoma: Los sistemas vehiculares requieren percepción ambiental precisa y en tiempo real
Robots Móviles: Navegación y evitación de obstáculos requieren respuesta de baja latencia
Aplicaciones AR/VR: Comprensión de escena en tiempo real y renderizado
Vigilancia por Video: Detección y seguimiento de objetivos en tiempo real

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Serie de modelos ligeros EfficientViT
Conjuntos de datos BDD100K y Cityscapes
Investigación relacionada con computación perimetral e inferencia distribuida
Investigación biológica del sistema visual humano

Evaluación General: Este es un artículo de alta calidad que aborda problemas prácticos, proponiendo el marco Dedelayed que posee valor importante tanto en teoría como en práctica. El método es simple y efectivo, la validación experimental es completa, proporcionando contribuciones valiosas al campo de la inferencia colaborativa perimetral-nube. Aunque hay espacio para mejora en el rango de evaluación y capacidad de manejo de latencia, en general es un trabajo de investigación significativo.