2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed : Suppression du délai d'inférence à distance via correction sur appareil

Informations de base

  • ID de l'article : 2510.13714
  • Titre : Dedelayed: Deleting remote inference delay via on-device correction
  • Auteurs : Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • Classification : eess.IV cs.AI cs.CV cs.LG
  • Date de publication : 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13714

Résumé

L'inférence à distance permet aux appareils légers d'exploiter des modèles puissants basés sur le cloud. Cependant, la latence du réseau de communication rend les prédictions obsolètes, ce qui les rend inadaptées aux tâches en temps réel. Pour résoudre ce problème, cet article introduit Dedelayed, une méthode de correction de latence qui atténue tout délai d'inférence à distance, permettant à l'appareil local de produire des résultats en temps réel avec une faible latence. La méthode utilise un modèle local léger pour traiter l'image actuelle et fusionne les caractéristiques calculées par un modèle à distance lourd à partir d'images passées. Sur des vidéos de l'ensemble de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport aux meilleures approches purement locales et purement à distance pour tous les délais de réseau réalistes supérieurs à 33 ms. Sans introduire de latence supplémentaire, pour un délai aller-retour de 100 ms, il améliore de 6,4 mIoU par rapport à l'inférence purement locale et de 9,8 mIoU par rapport à l'inférence à distance.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental abordé par cette recherche est : comment surmonter le problème de latence réseau de l'inférence à distance tout en garantissant la précision des prédictions dans les applications de traitement vidéo en temps réel.

Importance du problème

  1. Besoins d'applications en temps réel : Les applications telles que la conduite autonome, le contrôle robotique et les appareils portables sont extrêmement sensibles à la latence, et les prédictions obsolètes peuvent avoir des conséquences catastrophiques
  2. Contraintes de ressources : Les appareils mobiles sont limités par la consommation d'énergie et la capacité de calcul, et ne peuvent pas exécuter des modèles d'apprentissage profond complexes
  3. Avantages du cloud : Les GPU basés sur le cloud possèdent une puissance de calcul puissante et peuvent traiter des vidéos haute résolution et des modèles complexes

Limitations des méthodes existantes

Les méthodes de calcul distribué existantes présentent trois défauts majeurs :

  1. Allouer toutes les ressources de l'appareil à un seul pipeline d'inférence linéaire, sans réserver de ressources pour un plan de secours local
  2. Ne pas tenir compte de l'impact de la latence sur la précision des prédictions
  3. Réduire considérablement la résolution spatio-temporelle pour gérer les coûts de calcul, perdant ainsi les détails visuels riches des systèmes de caméra modernes

Motivation de la recherche

Inspirée par le système visuel humain, où le nerf optique ne peut transmettre qu'une petite fraction des informations reçues par la rétine, le traitement précoce effectuant principalement une compression, suivi d'un traitement métaboliquement intensif dans les couches profondes du cortex visuel. De même, les machines équipées de capteurs vidéo numériques font face à des contraintes similaires.

Contributions principales

  1. Proposition du cadre Dedelayed : Un cadre d'inférence distribué sensible à la latence qui atténue l'impact de la latence réseau en fusionnant les informations locales en temps réel et les caractéristiques à distance retardées
  2. Analyse quantitative de la latence : Fournit une mesure quantitative de l'impact de la latence sur la précision des prédictions visuelles denses
  3. Vérification du système réel : Valide l'efficacité du système sur la tâche de segmentation vidéo en scènes urbaines de conduite, surpassant les approches d'inférence purement locales ou purement à distance existantes
  4. Stratégie de fusion simple et efficace : Utilise une fusion de caractéristiques basée sur l'addition, facile à déployer et à étendre à d'autres méthodes en temps réel

Explication détaillée de la méthode

Définition de la tâche

Étant donné une nouvelle image d'entrée x_t au moment t, la prédiction finale ŷ_t est calculée par un modèle local léger f_light, qui traite x_t et fusionne les caractéristiques temporellement retardées z_{t-τ} du modèle à distance lourd f_heavy.

Représentation mathématique :

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Architecture du modèle

Architecture globale du système

Le système Dedelayed comprend deux composants principaux :

  1. Modèle local léger : Traite l'image actuelle et fournit une capacité de réponse en temps réel
  2. Modèle de prédiction à distance : Traite la séquence d'images historiques et fournit des caractéristiques de haute qualité

Module de prédiction à distance

  • Utilise EfficientViT-L1 comme réseau backbone ViT 2D, avec une taille de patch effective de 8×8
  • Maintient une fenêtre de contexte des K images les plus récentes
  • Concatène les caractéristiques de chaque image le long de l'axe temporel, fusionnant spatialement en patches plus grands de 16×16
  • Ajoute un plongement de latence appris basé sur la latence mesurée τ
  • Produit des caractéristiques conditionnées par la latence via un encodeur ViT 3D et un pooling appris (MLP-pool-MLP)

Modèle local et fusion

  • Calcule les caractéristiques de première étape : h = T1(x_t)
  • Fusion précoce par addition élément par élément : h' = h + z_{t-τ}
  • Les deux tenseurs ont la même forme 96 × H/8 × W/8, sans nécessiter de projection ou de redimensionnement
  • Si z_{t-τ} n'est pas disponible, le modèle local revient à h' = h

Points d'innovation technique

  1. Mécanisme d'plongement de latence : Similaire aux plongements de position dans les transformers textuels ou visuels, permettant au modèle à distance d'adapter son comportement aux variations du canal
  2. Entraînement avec prédiction temporelle : Simule une latence de D images pendant l'entraînement supervisé, entraînant le modèle à distance à prédire l'avenir
  3. Inférence à résolution mixte : Le modèle local utilise une basse résolution, tandis que le modèle à distance utilise un traitement multi-images haute résolution
  4. Garantie de performance : La performance du système n'est jamais inférieure à celle de l'un ou l'autre modèle indépendant

Configuration expérimentale

Ensemble de données

  • Ensemble de données vidéo BDD100K : Contient des vidéos de scènes de conduite à 30 fps
  • Utilise un modèle EoMT pré-entraîné pour générer des pseudo-étiquettes, ignorant les pixels de faible confiance
  • Utilise un sous-ensemble de 19 étiquettes de Cityscapes
  • Applique le codec d'image WebP (qualité 85) pour compresser le flux vidéo en amont

Métriques d'évaluation

  • mIoU (Intersection moyenne sur Union) : Métrique d'évaluation standard pour la segmentation sémantique
  • Plage de latence : 0-5 images (0-165 ms), représentant les délais aller-retour typiques

Méthodes de comparaison

  1. Local image : Inférence locale traditionnelle sur une seule image
  2. Remote image : Inférence à distance traditionnelle sur une seule image
  3. Remote video : Traitement vidéo à distance sans prédiction future
  4. Remote predictive : Modèle de prédiction à distance sensible à la latence
  5. Local + remote predictive : Système Dedelayed complet

Détails d'implémentation

  • Stratégie d'entraînement multi-étapes : Les modèles à distance et locaux sont d'abord entraînés indépendamment, puis affinés conjointement
  • Optimiseur : Optimiseur Adan
  • Planification du taux d'apprentissage : Planification du taux d'apprentissage cosinus trapézoïdal
  • Fonction de perte : Perte d'entropie croisée
  • Pré-entraînement : Classification ImageNet → Segmentation Cityscapes → Affinage BDD100K

Résultats expérimentaux

Résultats principaux

  1. Améliorations significatives de performance :
    • Avec un délai aller-retour de 100 ms, amélioration de 6,4 mIoU par rapport à l'inférence purement locale
    • Amélioration de 9,8 mIoU par rapport à l'inférence à distance
    • Surpasse la meilleure ligne de base pour tous les délais réalistes supérieurs à 33 ms
  2. Robustesse à la latence :
    • Plus la latence est longue, plus l'avantage de Dedelayed est important
    • Meilleure performance dans les scènes à mouvement élevé
    • L'inférence distribuée avec atténuation de latence maintient plus efficacement la précision

Expériences d'ablation

Les expériences valident la contribution de chaque composant :

  • Remote video vs Remote image : L'utilisation seule du contexte d'images historiques est insuffisante pour améliorer la performance
  • Remote predictive vs Remote video : L'entraînement avec prédiction temporelle améliore significativement la robustesse à la latence
  • Local + remote predictive vs Remote predictive : La fusion d'informations locales améliore davantage la performance

Analyse de la gigue de latence

  • Le modèle maintient une bonne performance même lorsque l'entrée de latence ne correspond pas à la latence observée
  • Lorsque la latence observée dépasse l'entrée de latence, la dégradation de performance est relativement modérée
  • Maintient l'avantage même dans un réseau à gigue élevée (σ=15 ms)

Adaptabilité de résolution

Le modèle local assisté par le cloud peut fonctionner à une résolution plus basse sans perte de précision, démontrant l'efficacité des ressources du système.

Travaux connexes

Recherche sur les architectures légères

Les travaux existants tels qu'EfficientViT et MobileNetV4 se concentrent sur la minimisation du calcul pour réaliser une performance en temps réel sur les appareils, mais sont limités par la consommation d'énergie et la capacité de calcul des appareils.

Méthodes de calcul distribué

  • MPEG AI et JPEG AI : Se concentrent sur la réduction de la bande passante, manquent de mécanismes de compensation de latence
  • Clockwork Convnets : Réutilisent les caractéristiques obsolètes pour réduire la latence, mais ont une capacité de raisonnement temporel limitée
  • Accel : Utilise la transformation avant du flux optique pour les caractéristiques de modèle lourd, mais ne convient pas aux opérations inter-réseau
  • Knowledge Boosting : Le plus pertinent pour cet article, mais suppose une latence fixe

Avantages de cet article

Par rapport aux travaux connexes, Dedelayed se généralise à des latences plus longues et variables en conditionnant sur une latence ajustable, tout en maintenant une conception simple et réutilisable.

Conclusion et discussion

Conclusions principales

  1. Dedelayed résout avec succès le défi fondamental du calcul à distance dans les systèmes en temps réel : le problème de l'obsolescence des prédictions causée par la latence réseau
  2. En élevant la latence au rang de variable de première classe, le système surpasse les lignes de base fortes dans les conditions réseau réelles
  3. Le cadre s'applique à un large éventail de domaines de problèmes en temps réel, rendant les systèmes intelligents à la fois précis et fiables en temps opportun

Limitations

  1. Hypothèse de latence fixe : L'implémentation actuelle cible principalement les latences relativement stables, avec une adaptabilité limitée aux gigue extrêmes
  2. Surcharge de calcul : Bien que le modèle local soit léger, il nécessite toujours un calcul de fusion supplémentaire
  3. Limitations de l'ensemble de données : Principalement validé sur des scènes de conduite, la généralisation à d'autres domaines reste à vérifier
  4. Dépendance réseau : Dépend complètement de la connectivité réseau, ne pouvant compter que sur le modèle local en cas d'interruption réseau

Directions futures

Les futures recherches proposées par l'article incluent :

  1. Étudier les distributions de latence variables et aléatoires
  2. Traiter les données à mouvement élevé
  3. Développer des modèles locaux plus légers
  4. Explorer les capacités de prédiction future locales

Évaluation approfondie

Points forts

  1. Importance du problème : Résout un problème clé de l'informatique en périphérie avec une valeur pratique importante
  2. Innovativité de la méthode : La combinaison de l'plongement de latence et de l'entraînement avec prédiction temporelle est novatrice
  3. Suffisance expérimentale : Expériences d'ablation complètes et analyse de la gigue de latence
  4. Forte praticité : Stratégie de fusion simple basée sur les modèles existants, facile à déployer
  5. Fondement théorique : Inspirée par le système visuel humain, possède une rationalité biologique

Insuffisances

  1. Portée d'évaluation limitée : Validée uniquement sur la tâche de segmentation sémantique, manque de validation sur d'autres tâches
  2. Plage de latence : La latence maximale de 165 ms peut être insuffisante pour couvrir tous les scénarios réels
  3. Analyse insuffisante des coûts de calcul : Manque d'analyse détaillée des coûts de calcul et de communication
  4. Comparaison avec plus de lignes de base : Pourrait être comparée avec plus de méthodes d'informatique en périphérie récentes

Impact

  1. Contribution académique : Fournit une nouvelle approche pour l'inférence collaborative edge-cloud
  2. Valeur pratique : Potentiel d'application directe dans les domaines de la conduite autonome, de la robotique, etc.
  3. Reproductibilité : Fournit un code d'implémentation détaillé, facilitant la reproduction et l'extension

Scénarios d'application

  1. Conduite autonome : Les systèmes embarqués nécessitent une perception environnementale en temps réel et précise
  2. Robots mobiles : La navigation et l'évitement d'obstacles nécessitent une réponse à faible latence
  3. Applications AR/VR : Compréhension et rendu de scènes en temps réel
  4. Surveillance vidéo : Détection et suivi de cibles en temps réel

Références

L'article cite les travaux importants dans les domaines connexes, notamment :

  • Série de modèles légers EfficientViT
  • Ensembles de données BDD100K et Cityscapes
  • Recherches connexes en informatique en périphérie et inférence distribuée
  • Recherches biologiques sur le système visuel humain

Évaluation globale : Ceci est un article de haute qualité résolvant des problèmes pratiques, proposant un cadre Dedelayed ayant une valeur importante sur le plan théorique et pratique. La méthode est simple et efficace, la validation expérimentale est suffisante, fournissant une contribution précieuse au domaine de l'inférence collaborative edge-cloud. Bien qu'il y ait de la place pour l'amélioration dans la portée d'évaluation et la capacité de traitement de la latence, c'est globalement un travail de recherche significatif.