Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed : Suppression du délai d'inférence à distance via correction sur appareil
L'inférence à distance permet aux appareils légers d'exploiter des modèles puissants basés sur le cloud. Cependant, la latence du réseau de communication rend les prédictions obsolètes, ce qui les rend inadaptées aux tâches en temps réel. Pour résoudre ce problème, cet article introduit Dedelayed, une méthode de correction de latence qui atténue tout délai d'inférence à distance, permettant à l'appareil local de produire des résultats en temps réel avec une faible latence. La méthode utilise un modèle local léger pour traiter l'image actuelle et fusionne les caractéristiques calculées par un modèle à distance lourd à partir d'images passées. Sur des vidéos de l'ensemble de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport aux meilleures approches purement locales et purement à distance pour tous les délais de réseau réalistes supérieurs à 33 ms. Sans introduire de latence supplémentaire, pour un délai aller-retour de 100 ms, il améliore de 6,4 mIoU par rapport à l'inférence purement locale et de 9,8 mIoU par rapport à l'inférence à distance.
Le problème fondamental abordé par cette recherche est : comment surmonter le problème de latence réseau de l'inférence à distance tout en garantissant la précision des prédictions dans les applications de traitement vidéo en temps réel.
Besoins d'applications en temps réel : Les applications telles que la conduite autonome, le contrôle robotique et les appareils portables sont extrêmement sensibles à la latence, et les prédictions obsolètes peuvent avoir des conséquences catastrophiques
Contraintes de ressources : Les appareils mobiles sont limités par la consommation d'énergie et la capacité de calcul, et ne peuvent pas exécuter des modèles d'apprentissage profond complexes
Avantages du cloud : Les GPU basés sur le cloud possèdent une puissance de calcul puissante et peuvent traiter des vidéos haute résolution et des modèles complexes
Les méthodes de calcul distribué existantes présentent trois défauts majeurs :
Allouer toutes les ressources de l'appareil à un seul pipeline d'inférence linéaire, sans réserver de ressources pour un plan de secours local
Ne pas tenir compte de l'impact de la latence sur la précision des prédictions
Réduire considérablement la résolution spatio-temporelle pour gérer les coûts de calcul, perdant ainsi les détails visuels riches des systèmes de caméra modernes
Inspirée par le système visuel humain, où le nerf optique ne peut transmettre qu'une petite fraction des informations reçues par la rétine, le traitement précoce effectuant principalement une compression, suivi d'un traitement métaboliquement intensif dans les couches profondes du cortex visuel. De même, les machines équipées de capteurs vidéo numériques font face à des contraintes similaires.
Proposition du cadre Dedelayed : Un cadre d'inférence distribué sensible à la latence qui atténue l'impact de la latence réseau en fusionnant les informations locales en temps réel et les caractéristiques à distance retardées
Analyse quantitative de la latence : Fournit une mesure quantitative de l'impact de la latence sur la précision des prédictions visuelles denses
Vérification du système réel : Valide l'efficacité du système sur la tâche de segmentation vidéo en scènes urbaines de conduite, surpassant les approches d'inférence purement locales ou purement à distance existantes
Stratégie de fusion simple et efficace : Utilise une fusion de caractéristiques basée sur l'addition, facile à déployer et à étendre à d'autres méthodes en temps réel
Étant donné une nouvelle image d'entrée x_t au moment t, la prédiction finale ŷ_t est calculée par un modèle local léger f_light, qui traite x_t et fusionne les caractéristiques temporellement retardées z_{t-τ} du modèle à distance lourd f_heavy.
Mécanisme d'plongement de latence : Similaire aux plongements de position dans les transformers textuels ou visuels, permettant au modèle à distance d'adapter son comportement aux variations du canal
Entraînement avec prédiction temporelle : Simule une latence de D images pendant l'entraînement supervisé, entraînant le modèle à distance à prédire l'avenir
Inférence à résolution mixte : Le modèle local utilise une basse résolution, tandis que le modèle à distance utilise un traitement multi-images haute résolution
Garantie de performance : La performance du système n'est jamais inférieure à celle de l'un ou l'autre modèle indépendant
Le modèle local assisté par le cloud peut fonctionner à une résolution plus basse sans perte de précision, démontrant l'efficacité des ressources du système.
Les travaux existants tels qu'EfficientViT et MobileNetV4 se concentrent sur la minimisation du calcul pour réaliser une performance en temps réel sur les appareils, mais sont limités par la consommation d'énergie et la capacité de calcul des appareils.
Par rapport aux travaux connexes, Dedelayed se généralise à des latences plus longues et variables en conditionnant sur une latence ajustable, tout en maintenant une conception simple et réutilisable.
Dedelayed résout avec succès le défi fondamental du calcul à distance dans les systèmes en temps réel : le problème de l'obsolescence des prédictions causée par la latence réseau
En élevant la latence au rang de variable de première classe, le système surpasse les lignes de base fortes dans les conditions réseau réelles
Le cadre s'applique à un large éventail de domaines de problèmes en temps réel, rendant les systèmes intelligents à la fois précis et fiables en temps opportun
Hypothèse de latence fixe : L'implémentation actuelle cible principalement les latences relativement stables, avec une adaptabilité limitée aux gigue extrêmes
Surcharge de calcul : Bien que le modèle local soit léger, il nécessite toujours un calcul de fusion supplémentaire
Limitations de l'ensemble de données : Principalement validé sur des scènes de conduite, la généralisation à d'autres domaines reste à vérifier
Dépendance réseau : Dépend complètement de la connectivité réseau, ne pouvant compter que sur le modèle local en cas d'interruption réseau
L'article cite les travaux importants dans les domaines connexes, notamment :
Série de modèles légers EfficientViT
Ensembles de données BDD100K et Cityscapes
Recherches connexes en informatique en périphérie et inférence distribuée
Recherches biologiques sur le système visuel humain
Évaluation globale : Ceci est un article de haute qualité résolvant des problèmes pratiques, proposant un cadre Dedelayed ayant une valeur importante sur le plan théorique et pratique. La méthode est simple et efficace, la validation expérimentale est suffisante, fournissant une contribution précieuse au domaine de l'inférence collaborative edge-cloud. Bien qu'il y ait de la place pour l'amélioration dans la portée d'évaluation et la capacité de traitement de la latence, c'est globalement un travail de recherche significatif.