Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed: Löschen von Fernverzögerung bei Inferenz durch lokale Korrektur
Fernverzögerung bei Inferenz ermöglicht leichtgewichtigen Geräten die Nutzung leistungsstarker Cloud-Modelle. Allerdings führt die Kommunikationsnetzwerkverzögerung zu veralteten Vorhersageergebnissen, die für Echtzeitaufgaben ungeeignet sind. Um dieses Problem zu lösen, wird Dedelayed eingeführt – eine Verzögerungskorrekturmethode, die beliebige Fernverzögerungen bei Inferenz abschwächen kann und lokalen Geräten ermöglicht, in Echtzeit Ausgaben mit niedriger Latenz zu erzeugen. Das Verfahren nutzt ein leichtgewichtiges lokales Modell zur Verarbeitung des aktuellen Frames und fusioniert Merkmale, die von einem leistungsstarken Fernmodell aus früheren Frames berechnet wurden. Bei Videos aus dem BDD100K-Fahrdatensatz verbessert Dedelayed die Genauigkeit der semantischen Segmentierung bei allen realistischen Kommunikationsnetzwerkverzögerungen über 33 ms im Vergleich zu den stärkeren Baselines aus reiner lokaler und reiner Fernverarbeitung. Bei einer Verzögerung von 100 ms Roundtrip wird ohne zusätzliche Latenz eine Verbesserung von 6,4 mIoU gegenüber reiner lokaler Inferenz und 9,8 mIoU gegenüber Fernverzögerung erreicht.
Das Kernproblem dieser Forschung ist: Wie können bei der Echtzeitverarbeitung von Videos Vorhersagegenauigkeit gewährleistet und gleichzeitig Netzwerkverzögerungen bei Fernverzögerung überwunden werden?
Anforderungen von Echtzeitanwendungen: Autonomes Fahren, Robotersteuerung, tragbare Geräte und andere Anwendungen sind äußerst latenzempfindlich; veraltete Vorhersagen können zu katastrophalen Folgen führen
Ressourcenbeschränkungen: Mobile Geräte sind durch Stromverbrauch und Rechenleistung begrenzt und können komplexe Deep-Learning-Modelle nicht ausführen
Cloud-Vorteile: Cloud-GPUs verfügen über leistungsstarke Rechenkapazität und können hochauflösende Videos und komplexe Modelle verarbeiten
Bestehende verteilte Rechenmethoden weisen drei Hauptmängel auf:
Alle Geräteressourcen werden einer einzigen linearen Inferenz-Pipeline zugeordnet, ohne Ressourcen für lokale Backup-Lösungen zu reservieren
Die Auswirkung von Verzögerungen auf die Vorhersagegenauigkeit wird nicht berücksichtigt
Zeitliche und räumliche Auflösung wird erheblich reduziert, um Rechenkosten zu verwalten, wodurch die reichhaltigen visuellen Details moderner Kamerasysteme verloren gehen
Inspiriert durch das menschliche Sehsystem, das nur einen kleinen Teil der vom Auge empfangenen Informationen über den Sehnerv übertragen kann, wobei frühe Verarbeitung hauptsächlich Kompression durchführt und dann tiefere Verarbeitung in der visuellen Rinde stattfindet. Ähnlich sehen sich Maschinen mit digitalen Videosensoren vergleichbaren Einschränkungen gegenüber.
Vorschlag des Dedelayed-Rahmens: Ein verzögerungsbewusster verteilter Inferenz-Rahmen, der die Auswirkungen von Netzwerkverzögerungen durch Fusion von lokalen Echtzeitinformationen und verzögerten Fernmerkmalen abschwächt
Verzögerungsquantifizierungsanalyse: Bereitstellung quantitativer Messungen der Auswirkungen von Verzögerungen auf die Genauigkeit dichter visueller Vorhersagen
Validierung praktischer Systeme: Validierung der Systemeffektivität bei Videosegmentierungsaufgaben in städtischen Fahrsituationen, die über bestehende lokale oder Fernverzögerungslösungen hinausgehen
Einfache und effektive Fusionsstrategie: Verwendung von additionsbasierter Merkmalsfusion, die leicht bereitzustellen und auf andere Echtzeitverfahren übertragbar ist
Gegeben ein neuer Input-Frame x_t zum Zeitpunkt t wird die endgültige Vorhersage ŷ_t durch ein leichtgewichtiges lokales Modell f_light berechnet, das x_t verarbeitet und zeitlich verzögerte Merkmale z_{t-τ} aus einem leistungsstarken Fernmodell f_heavy fusioniert.
Verzögerungseinbettungsmechanismus: Ähnlich wie Positions- oder Sichteinbettungen in Transformern ermöglicht es dem Fernmodell, sein Verhalten an Kanalveränderungen anzupassen
Zeitliche Vorhersagetraining: Simulation von D-Frame-Verzögerungen während des überwachten Trainings, Training des Fernmodells zur Vorhersage der Zukunft
Hybrid-Auflösungs-Inferenz: Lokales Modell mit niedriger Auflösung, Fernmodell mit hoher Auflösung und Multi-Frame-Verarbeitung
Leistungsgarantie: Systemleistung ist niemals schlechter als eines der unabhängigen Modelle
Das von Fernverzögerung unterstützte lokale Modell kann mit niedrigerer Auflösung arbeiten, ohne Genauigkeit zu verlieren, was die Ressourceneffizienz des Systems demonstriert.
Bestehende Arbeiten wie EfficientViT und MobileNetV4 konzentrieren sich auf die Minimierung von Berechnungen zur Erzielung von Echtzeitgeräte-Leistung, sind aber durch Geräte-Stromverbrauch und Rechenleistung begrenzt.
Im Vergleich zu verwandten Arbeiten verallgemeinert Dedelayed durch verzögerungsbedingte Anpassung auf längere und variable Verzögerungen, während das Design einfach und wiederverwendbar bleibt.
Annahme fester Verzögerung: Die aktuelle Implementierung zielt hauptsächlich auf relativ stabile Verzögerungen ab; die Anpassungsfähigkeit an extremes Jitter ist begrenzt
Rechenaufwand: Obwohl das lokale Modell leichtgewichtig ist, erfordert es zusätzliche Fusionsberechnungen
Datensatz-Einschränkungen: Hauptsächlich in Fahrsituationen validiert; die Verallgemeinerung auf andere Bereiche steht aus
Netzwerkabhängigkeit: Vollständig abhängig von Netzwerkverbindung; bei Netzwerkunterbrechung nur auf lokales Modell angewiesen
Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:
EfficientViT-Serie leichtgewichtiger Modelle
BDD100K- und Cityscapes-Datensätze
Forschung zu Edge-Computing und verteilter Inferenz
Biologische Forschung zum menschlichen Sehsystem
Gesamtbewertung: Dies ist ein hochqualitatives Paper, das praktische Probleme löst. Der vorgeschlagene Dedelayed-Rahmen hat sowohl theoretischen als auch praktischen Wert. Die Methode ist einfach und effektiv, die experimentelle Validierung ist umfassend und bietet wertvolle Beiträge zum Bereich der Edge-Cloud-Zusammenarbeit bei Inferenz. Obwohl es noch Verbesserungspotenzial bei der Bewertungsreichweite und Verzögerungsbehandlungsfähigkeit gibt, ist dies insgesamt eine bedeutungsvolle Forschungsarbeit.