Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed: Eliminación del retraso de inferencia remota mediante corrección en dispositivo
La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones queden obsoletas, siendo inadecuadas para tareas en tiempo real. Para abordar este problema, este artículo introduce Dedelayed, un método de corrección de latencia que mitiga cualquier retraso de inferencia remota, permitiendo que los dispositivos locales generen salidas de baja latencia en tiempo real. El método utiliza un modelo local ligero para procesar el fotograma actual e integra características calculadas por un modelo remoto pesado a partir de fotogramas anteriores. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de segmentación semántica en comparación con los mejores modelos de línea base puros locales y puros remotos en todas las latencias de red de comunicación realistas superiores a 33 ms. Sin introducir latencia adicional, para una latencia de ida y vuelta de 100 ms, mejora en 6,4 mIoU en comparación con la inferencia puramente local y en 9,8 mIoU en comparación con la inferencia remota.
El problema central que aborda esta investigación es: ¿cómo superar el problema de la latencia de red en la inferencia remota mientras se garantiza la precisión de la predicción en aplicaciones de procesamiento de video en tiempo real?
Requisitos de Aplicaciones en Tiempo Real: Aplicaciones como conducción autónoma, control de robots y dispositivos portátiles son extremadamente sensibles a la latencia, donde predicciones obsoletas pueden tener consecuencias catastróficas
Restricciones de Recursos: Los dispositivos móviles están limitados por consumo de energía y capacidad computacional, siendo incapaces de ejecutar modelos complejos de aprendizaje profundo
Ventajas de la Nube: Las GPU en la nube poseen una potencia computacional considerable, pudiendo procesar video de alta resolución y modelos complejos
Los métodos de computación distribuida existentes presentan tres deficiencias principales:
Asignan todos los recursos del dispositivo a una única canalización de inferencia lineal, sin reservar recursos para opciones de respaldo local
No consideran el impacto de la latencia en la precisión de la predicción
Reducen significativamente la resolución espacio-temporal para gestionar costos computacionales, perdiendo los detalles visuales ricos de los sistemas de cámaras modernos
Inspirado por el sistema visual humano, donde el nervio óptico solo puede transmitir una pequeña fracción de la información recibida por la retina, siendo el procesamiento temprano principalmente compresión, seguido de procesamiento metabólicamente intensivo en capas profundas de la corteza visual. De manera similar, las máquinas equipadas con sensores de video digital enfrentan restricciones comparables.
Propuesta del Marco Dedelayed: Un marco de inferencia distribuida consciente de la latencia que mitiga los efectos de la latencia de red mediante la fusión de información local en tiempo real y características remotas retrasadas
Análisis Cuantitativo de Latencia: Proporciona mediciones cuantitativas del impacto de la latencia en la precisión de predicción visual densa
Verificación del Sistema Práctico: Valida la efectividad del sistema en tareas de segmentación de video en escenarios de conducción urbana, superando los esquemas existentes de inferencia puramente local o remota
Estrategia de Fusión Simple y Efectiva: Utiliza fusión de características basada en adición, fácil de desplegar y extender a otros métodos en tiempo real
Dado un fotograma de entrada fresco x_t en el momento t, la predicción final ŷ_t se calcula mediante un modelo local ligero f_light, que procesa x_t e integra características temporalmente retrasadas z_{t-τ} del modelo remoto pesado f_heavy.
Mecanismo de Incrustación de Latencia: Similar a incrustaciones de posición en transformadores de texto o visuales, permite que el comportamiento del modelo remoto se adapte a cambios de canal
Entrenamiento de Predicción Temporal: Simula latencia de D fotogramas durante el entrenamiento supervisado, entrenando el modelo remoto para predecir el futuro
Inferencia de Resolución Mixta: El modelo local utiliza baja resolución, mientras que el modelo remoto utiliza procesamiento de múltiples fotogramas de alta resolución
Garantía de Rendimiento: El rendimiento del sistema nunca es inferior al de cualquiera de los modelos independientes
El modelo local asistido por remoto puede ejecutarse en resoluciones más bajas sin pérdida de precisión, demostrando la eficiencia de recursos del sistema.
Trabajos existentes como EfficientViT y MobileNetV4 se enfocan en minimizar la computación para lograr rendimiento en tiempo real en dispositivos, pero están limitados por restricciones de consumo de energía y capacidad computacional de dispositivos.
En comparación con trabajos relacionados, Dedelayed se generaliza a latencias más largas y variables mediante condicionamiento de latencia ajustable, mientras mantiene diseño simple y reutilizable.
Dedelayed resuelve exitosamente el desafío central de la computación remota en sistemas en tiempo real: el problema de predicciones obsoletas causadas por latencia de red
Al elevar la latencia como una variable de primera clase, el sistema supera líneas base fuertes en condiciones de red realistas
El marco es aplicable a un amplio rango de dominios de problemas en tiempo real, haciendo que los sistemas inteligentes sean simultáneamente precisos y confiables en tiempo
Suposición de Latencia Fija: La implementación actual se enfoca principalmente en latencia relativamente estable, con adaptabilidad limitada a fluctuaciones extremas
Sobrecarga Computacional: Aunque el modelo local es ligero, aún requiere computación adicional de fusión
Limitaciones del Conjunto de Datos: Validado principalmente en escenarios de conducción, la generalización a otros dominios requiere verificación
Dependencia de Red: Completamente dependiente de conectividad de red, pudiendo solo confiar en el modelo local durante interrupciones de red
El artículo cita trabajos importantes en campos relacionados, incluyendo:
Serie de modelos ligeros EfficientViT
Conjuntos de datos BDD100K y Cityscapes
Investigación relacionada con computación perimetral e inferencia distribuida
Investigación biológica del sistema visual humano
Evaluación General: Este es un artículo de alta calidad que aborda problemas prácticos, proponiendo el marco Dedelayed que posee valor importante tanto en teoría como en práctica. El método es simple y efectivo, la validación experimental es completa, proporcionando contribuciones valiosas al campo de la inferencia colaborativa perimetral-nube. Aunque hay espacio para mejora en el rango de evaluación y capacidad de manejo de latencia, en general es un trabajo de investigación significativo.