2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed : Suppression du délai d'inférence à distance via correction sur appareil

Informations de base

ID de l'article : 2510.13714
Titre : Dedelayed: Deleting remote inference delay via on-device correction
Auteurs : Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
Classification : eess.IV cs.AI cs.CV cs.LG
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13714

Résumé

L'inférence à distance permet aux appareils légers d'exploiter des modèles puissants basés sur le cloud. Cependant, la latence du réseau de communication rend les prédictions obsolètes, ce qui les rend inadaptées aux tâches en temps réel. Pour résoudre ce problème, cet article introduit Dedelayed, une méthode de correction de latence qui atténue tout délai d'inférence à distance, permettant à l'appareil local de produire des résultats en temps réel avec une faible latence. La méthode utilise un modèle local léger pour traiter l'image actuelle et fusionne les caractéristiques calculées par un modèle à distance lourd à partir d'images passées. Sur des vidéos de l'ensemble de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport aux meilleures approches purement locales et purement à distance pour tous les délais de réseau réalistes supérieurs à 33 ms. Sans introduire de latence supplémentaire, pour un délai aller-retour de 100 ms, il améliore de 6,4 mIoU par rapport à l'inférence purement locale et de 9,8 mIoU par rapport à l'inférence à distance.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé par cette recherche est : comment surmonter le problème de latence réseau de l'inférence à distance tout en garantissant la précision des prédictions dans les applications de traitement vidéo en temps réel.

Importance du problème

Besoins d'applications en temps réel : Les applications telles que la conduite autonome, le contrôle robotique et les appareils portables sont extrêmement sensibles à la latence, et les prédictions obsolètes peuvent avoir des conséquences catastrophiques
Contraintes de ressources : Les appareils mobiles sont limités par la consommation d'énergie et la capacité de calcul, et ne peuvent pas exécuter des modèles d'apprentissage profond complexes
Avantages du cloud : Les GPU basés sur le cloud possèdent une puissance de calcul puissante et peuvent traiter des vidéos haute résolution et des modèles complexes

Limitations des méthodes existantes

Les méthodes de calcul distribué existantes présentent trois défauts majeurs :

Allouer toutes les ressources de l'appareil à un seul pipeline d'inférence linéaire, sans réserver de ressources pour un plan de secours local
Ne pas tenir compte de l'impact de la latence sur la précision des prédictions
Réduire considérablement la résolution spatio-temporelle pour gérer les coûts de calcul, perdant ainsi les détails visuels riches des systèmes de caméra modernes

Motivation de la recherche

Inspirée par le système visuel humain, où le nerf optique ne peut transmettre qu'une petite fraction des informations reçues par la rétine, le traitement précoce effectuant principalement une compression, suivi d'un traitement métaboliquement intensif dans les couches profondes du cortex visuel. De même, les machines équipées de capteurs vidéo numériques font face à des contraintes similaires.

Contributions principales

Proposition du cadre Dedelayed : Un cadre d'inférence distribué sensible à la latence qui atténue l'impact de la latence réseau en fusionnant les informations locales en temps réel et les caractéristiques à distance retardées
Analyse quantitative de la latence : Fournit une mesure quantitative de l'impact de la latence sur la précision des prédictions visuelles denses
Vérification du système réel : Valide l'efficacité du système sur la tâche de segmentation vidéo en scènes urbaines de conduite, surpassant les approches d'inférence purement locales ou purement à distance existantes
Stratégie de fusion simple et efficace : Utilise une fusion de caractéristiques basée sur l'addition, facile à déployer et à étendre à d'autres méthodes en temps réel

Explication détaillée de la méthode

Définition de la tâche

Étant donné une nouvelle image d'entrée x_t au moment t, la prédiction finale ŷ_t est calculée par un modèle local léger f_light, qui traite x_t et fusionne les caractéristiques temporellement retardées z_{t-τ} du modèle à distance lourd f_heavy.

Représentation mathématique :

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Architecture du modèle

Architecture globale du système

Le système Dedelayed comprend deux composants principaux :

Modèle local léger : Traite l'image actuelle et fournit une capacité de réponse en temps réel
Modèle de prédiction à distance : Traite la séquence d'images historiques et fournit des caractéristiques de haute qualité

Module de prédiction à distance

Utilise EfficientViT-L1 comme réseau backbone ViT 2D, avec une taille de patch effective de 8×8
Maintient une fenêtre de contexte des K images les plus récentes
Concatène les caractéristiques de chaque image le long de l'axe temporel, fusionnant spatialement en patches plus grands de 16×16
Ajoute un plongement de latence appris basé sur la latence mesurée τ
Produit des caractéristiques conditionnées par la latence via un encodeur ViT 3D et un pooling appris (MLP-pool-MLP)

Modèle local et fusion

Calcule les caractéristiques de première étape : h = T1(x_t)
Fusion précoce par addition élément par élément : h' = h + z_{t-τ}
Les deux tenseurs ont la même forme 96 × H/8 × W/8, sans nécessiter de projection ou de redimensionnement
Si z_{t-τ} n'est pas disponible, le modèle local revient à h' = h

Points d'innovation technique

Mécanisme d'plongement de latence : Similaire aux plongements de position dans les transformers textuels ou visuels, permettant au modèle à distance d'adapter son comportement aux variations du canal
Entraînement avec prédiction temporelle : Simule une latence de D images pendant l'entraînement supervisé, entraînant le modèle à distance à prédire l'avenir
Inférence à résolution mixte : Le modèle local utilise une basse résolution, tandis que le modèle à distance utilise un traitement multi-images haute résolution
Garantie de performance : La performance du système n'est jamais inférieure à celle de l'un ou l'autre modèle indépendant

Configuration expérimentale

Ensemble de données

Ensemble de données vidéo BDD100K : Contient des vidéos de scènes de conduite à 30 fps
Utilise un modèle EoMT pré-entraîné pour générer des pseudo-étiquettes, ignorant les pixels de faible confiance
Utilise un sous-ensemble de 19 étiquettes de Cityscapes
Applique le codec d'image WebP (qualité 85) pour compresser le flux vidéo en amont

Métriques d'évaluation

mIoU (Intersection moyenne sur Union) : Métrique d'évaluation standard pour la segmentation sémantique
Plage de latence : 0-5 images (0-165 ms), représentant les délais aller-retour typiques

Méthodes de comparaison

Local image : Inférence locale traditionnelle sur une seule image
Remote image : Inférence à distance traditionnelle sur une seule image
Remote video : Traitement vidéo à distance sans prédiction future
Remote predictive : Modèle de prédiction à distance sensible à la latence
Local + remote predictive : Système Dedelayed complet

Détails d'implémentation

Stratégie d'entraînement multi-étapes : Les modèles à distance et locaux sont d'abord entraînés indépendamment, puis affinés conjointement
Optimiseur : Optimiseur Adan
Planification du taux d'apprentissage : Planification du taux d'apprentissage cosinus trapézoïdal
Fonction de perte : Perte d'entropie croisée
Pré-entraînement : Classification ImageNet → Segmentation Cityscapes → Affinage BDD100K

Résultats expérimentaux

Résultats principaux

Améliorations significatives de performance :
- Avec un délai aller-retour de 100 ms, amélioration de 6,4 mIoU par rapport à l'inférence purement locale
- Amélioration de 9,8 mIoU par rapport à l'inférence à distance
- Surpasse la meilleure ligne de base pour tous les délais réalistes supérieurs à 33 ms
Robustesse à la latence :
- Plus la latence est longue, plus l'avantage de Dedelayed est important
- Meilleure performance dans les scènes à mouvement élevé
- L'inférence distribuée avec atténuation de latence maintient plus efficacement la précision

Expériences d'ablation

Les expériences valident la contribution de chaque composant :

Remote video vs Remote image : L'utilisation seule du contexte d'images historiques est insuffisante pour améliorer la performance
Remote predictive vs Remote video : L'entraînement avec prédiction temporelle améliore significativement la robustesse à la latence
Local + remote predictive vs Remote predictive : La fusion d'informations locales améliore davantage la performance

Analyse de la gigue de latence

Le modèle maintient une bonne performance même lorsque l'entrée de latence ne correspond pas à la latence observée
Lorsque la latence observée dépasse l'entrée de latence, la dégradation de performance est relativement modérée
Maintient l'avantage même dans un réseau à gigue élevée (σ=15 ms)

Adaptabilité de résolution

Le modèle local assisté par le cloud peut fonctionner à une résolution plus basse sans perte de précision, démontrant l'efficacité des ressources du système.

Travaux connexes

Recherche sur les architectures légères

Les travaux existants tels qu'EfficientViT et MobileNetV4 se concentrent sur la minimisation du calcul pour réaliser une performance en temps réel sur les appareils, mais sont limités par la consommation d'énergie et la capacité de calcul des appareils.

Méthodes de calcul distribué

MPEG AI et JPEG AI : Se concentrent sur la réduction de la bande passante, manquent de mécanismes de compensation de latence
Clockwork Convnets : Réutilisent les caractéristiques obsolètes pour réduire la latence, mais ont une capacité de raisonnement temporel limitée
Accel : Utilise la transformation avant du flux optique pour les caractéristiques de modèle lourd, mais ne convient pas aux opérations inter-réseau
Knowledge Boosting : Le plus pertinent pour cet article, mais suppose une latence fixe

Avantages de cet article

Par rapport aux travaux connexes, Dedelayed se généralise à des latences plus longues et variables en conditionnant sur une latence ajustable, tout en maintenant une conception simple et réutilisable.

Conclusion et discussion

Conclusions principales

Dedelayed résout avec succès le défi fondamental du calcul à distance dans les systèmes en temps réel : le problème de l'obsolescence des prédictions causée par la latence réseau
En élevant la latence au rang de variable de première classe, le système surpasse les lignes de base fortes dans les conditions réseau réelles
Le cadre s'applique à un large éventail de domaines de problèmes en temps réel, rendant les systèmes intelligents à la fois précis et fiables en temps opportun

Limitations

Hypothèse de latence fixe : L'implémentation actuelle cible principalement les latences relativement stables, avec une adaptabilité limitée aux gigue extrêmes
Surcharge de calcul : Bien que le modèle local soit léger, il nécessite toujours un calcul de fusion supplémentaire
Limitations de l'ensemble de données : Principalement validé sur des scènes de conduite, la généralisation à d'autres domaines reste à vérifier
Dépendance réseau : Dépend complètement de la connectivité réseau, ne pouvant compter que sur le modèle local en cas d'interruption réseau

Directions futures

Les futures recherches proposées par l'article incluent :

Étudier les distributions de latence variables et aléatoires
Traiter les données à mouvement élevé
Développer des modèles locaux plus légers
Explorer les capacités de prédiction future locales

Évaluation approfondie

Points forts

Importance du problème : Résout un problème clé de l'informatique en périphérie avec une valeur pratique importante
Innovativité de la méthode : La combinaison de l'plongement de latence et de l'entraînement avec prédiction temporelle est novatrice
Suffisance expérimentale : Expériences d'ablation complètes et analyse de la gigue de latence
Forte praticité : Stratégie de fusion simple basée sur les modèles existants, facile à déployer
Fondement théorique : Inspirée par le système visuel humain, possède une rationalité biologique

Insuffisances

Portée d'évaluation limitée : Validée uniquement sur la tâche de segmentation sémantique, manque de validation sur d'autres tâches
Plage de latence : La latence maximale de 165 ms peut être insuffisante pour couvrir tous les scénarios réels
Analyse insuffisante des coûts de calcul : Manque d'analyse détaillée des coûts de calcul et de communication
Comparaison avec plus de lignes de base : Pourrait être comparée avec plus de méthodes d'informatique en périphérie récentes

Impact

Contribution académique : Fournit une nouvelle approche pour l'inférence collaborative edge-cloud
Valeur pratique : Potentiel d'application directe dans les domaines de la conduite autonome, de la robotique, etc.
Reproductibilité : Fournit un code d'implémentation détaillé, facilitant la reproduction et l'extension

Scénarios d'application

Conduite autonome : Les systèmes embarqués nécessitent une perception environnementale en temps réel et précise
Robots mobiles : La navigation et l'évitement d'obstacles nécessitent une réponse à faible latence
Applications AR/VR : Compréhension et rendu de scènes en temps réel
Surveillance vidéo : Détection et suivi de cibles en temps réel

Références

L'article cite les travaux importants dans les domaines connexes, notamment :

Série de modèles légers EfficientViT
Ensembles de données BDD100K et Cityscapes
Recherches connexes en informatique en périphérie et inférence distribuée
Recherches biologiques sur le système visuel humain

Évaluation globale : Ceci est un article de haute qualité résolvant des problèmes pratiques, proposant un cadre Dedelayed ayant une valeur importante sur le plan théorique et pratique. La méthode est simple et efficace, la validation expérimentale est suffisante, fournissant une contribution précieuse au domaine de l'inférence collaborative edge-cloud. Bien qu'il y ait de la place pour l'amélioration dans la portée d'évaluation et la capacité de traitement de la latence, c'est globalement un travail de recherche significatif.