2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: Löschen von Fernverzögerung bei Inferenz durch lokale Korrektur

Grundlegende Informationen

Paper-ID: 2510.13714
Titel: Dedelayed: Deleting remote inference delay via on-device correction
Autoren: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
Klassifizierung: eess.IV cs.AI cs.CV cs.LG
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13714

Zusammenfassung

Fernverzögerung bei Inferenz ermöglicht leichtgewichtigen Geräten die Nutzung leistungsstarker Cloud-Modelle. Allerdings führt die Kommunikationsnetzwerkverzögerung zu veralteten Vorhersageergebnissen, die für Echtzeitaufgaben ungeeignet sind. Um dieses Problem zu lösen, wird Dedelayed eingeführt – eine Verzögerungskorrekturmethode, die beliebige Fernverzögerungen bei Inferenz abschwächen kann und lokalen Geräten ermöglicht, in Echtzeit Ausgaben mit niedriger Latenz zu erzeugen. Das Verfahren nutzt ein leichtgewichtiges lokales Modell zur Verarbeitung des aktuellen Frames und fusioniert Merkmale, die von einem leistungsstarken Fernmodell aus früheren Frames berechnet wurden. Bei Videos aus dem BDD100K-Fahrdatensatz verbessert Dedelayed die Genauigkeit der semantischen Segmentierung bei allen realistischen Kommunikationsnetzwerkverzögerungen über 33 ms im Vergleich zu den stärkeren Baselines aus reiner lokaler und reiner Fernverarbeitung. Bei einer Verzögerung von 100 ms Roundtrip wird ohne zusätzliche Latenz eine Verbesserung von 6,4 mIoU gegenüber reiner lokaler Inferenz und 9,8 mIoU gegenüber Fernverzögerung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können bei der Echtzeitverarbeitung von Videos Vorhersagegenauigkeit gewährleistet und gleichzeitig Netzwerkverzögerungen bei Fernverzögerung überwunden werden?

Bedeutung des Problems

Anforderungen von Echtzeitanwendungen: Autonomes Fahren, Robotersteuerung, tragbare Geräte und andere Anwendungen sind äußerst latenzempfindlich; veraltete Vorhersagen können zu katastrophalen Folgen führen
Ressourcenbeschränkungen: Mobile Geräte sind durch Stromverbrauch und Rechenleistung begrenzt und können komplexe Deep-Learning-Modelle nicht ausführen
Cloud-Vorteile: Cloud-GPUs verfügen über leistungsstarke Rechenkapazität und können hochauflösende Videos und komplexe Modelle verarbeiten

Einschränkungen bestehender Methoden

Bestehende verteilte Rechenmethoden weisen drei Hauptmängel auf:

Alle Geräteressourcen werden einer einzigen linearen Inferenz-Pipeline zugeordnet, ohne Ressourcen für lokale Backup-Lösungen zu reservieren
Die Auswirkung von Verzögerungen auf die Vorhersagegenauigkeit wird nicht berücksichtigt
Zeitliche und räumliche Auflösung wird erheblich reduziert, um Rechenkosten zu verwalten, wodurch die reichhaltigen visuellen Details moderner Kamerasysteme verloren gehen

Forschungsmotivation

Inspiriert durch das menschliche Sehsystem, das nur einen kleinen Teil der vom Auge empfangenen Informationen über den Sehnerv übertragen kann, wobei frühe Verarbeitung hauptsächlich Kompression durchführt und dann tiefere Verarbeitung in der visuellen Rinde stattfindet. Ähnlich sehen sich Maschinen mit digitalen Videosensoren vergleichbaren Einschränkungen gegenüber.

Kernbeiträge

Vorschlag des Dedelayed-Rahmens: Ein verzögerungsbewusster verteilter Inferenz-Rahmen, der die Auswirkungen von Netzwerkverzögerungen durch Fusion von lokalen Echtzeitinformationen und verzögerten Fernmerkmalen abschwächt
Verzögerungsquantifizierungsanalyse: Bereitstellung quantitativer Messungen der Auswirkungen von Verzögerungen auf die Genauigkeit dichter visueller Vorhersagen
Validierung praktischer Systeme: Validierung der Systemeffektivität bei Videosegmentierungsaufgaben in städtischen Fahrsituationen, die über bestehende lokale oder Fernverzögerungslösungen hinausgehen
Einfache und effektive Fusionsstrategie: Verwendung von additionsbasierter Merkmalsfusion, die leicht bereitzustellen und auf andere Echtzeitverfahren übertragbar ist

Methodische Details

Aufgabendefinition

Gegeben ein neuer Input-Frame x_t zum Zeitpunkt t wird die endgültige Vorhersage ŷ_t durch ein leichtgewichtiges lokales Modell f_light berechnet, das x_t verarbeitet und zeitlich verzögerte Merkmale z_{t-τ} aus einem leistungsstarken Fernmodell f_heavy fusioniert.

Mathematische Darstellung:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Modellarchitektur

Gesamtsystemarchitektur

Das Dedelayed-System besteht aus zwei Hauptkomponenten:

Lokales leichtgewichtiges Modell: Verarbeitet den aktuellen Frame und bietet Echtzeitreaktionsfähigkeit
Fernverzögerungsmodul: Verarbeitet historische Frame-Sequenzen und bietet hochwertige Merkmale

Fernverzögerungsmodul

Verwendet EfficientViT-L1 als 2D ViT-Backbone mit effektiver Patch-Größe von 8×8
Verwaltet ein Kontextfenster der K letzten Frames
Verkettung von Frame-Merkmalen entlang der zeitlichen Achse, räumliche Zusammenfassung zu größeren 16×16-Patches
Hinzufügen von gelernten Verzögerungseinbettungen basierend auf gemessener Verzögerung τ
Erzeugung verzögerungsbedingter Merkmale durch 3D-ViT-Encoder und gelernte Pooling (MLP-pool-MLP)

Lokales Modell und Fusion

Berechnung von Merkmalen der ersten Stufe: h = T1(x_t)
Frühe Fusion durch elementweise Addition: h' = h + z_{t-τ}
Beide Tensoren haben die Form 96 × H/8 × W/8, keine Projektion oder Größenänderung erforderlich
Falls z_{t-τ} nicht verfügbar ist, fällt das lokale Modell auf h' = h zurück

Technische Innovationen

Verzögerungseinbettungsmechanismus: Ähnlich wie Positions- oder Sichteinbettungen in Transformern ermöglicht es dem Fernmodell, sein Verhalten an Kanalveränderungen anzupassen
Zeitliche Vorhersagetraining: Simulation von D-Frame-Verzögerungen während des überwachten Trainings, Training des Fernmodells zur Vorhersage der Zukunft
Hybrid-Auflösungs-Inferenz: Lokales Modell mit niedriger Auflösung, Fernmodell mit hoher Auflösung und Multi-Frame-Verarbeitung
Leistungsgarantie: Systemleistung ist niemals schlechter als eines der unabhängigen Modelle

Experimentelle Einrichtung

Datensatz

BDD100K-Videodatensatz: Enthält Fahrszenario-Videos mit 30 fps
Verwendung eines vortrainierten EoMT-Modells zur Erzeugung von Pseudo-Labels, Ignorieren von Pixeln mit niedriger Konfidenz
Verwendung einer 19-Label-Teilmenge von Cityscapes
Anwendung von WebP-Bildcodec (Qualität 85) zur Kompression des Upstream-Videostroms

Bewertungsmetriken

mIoU (Mean Intersection over Union): Standardbewertungsmetrik für semantische Segmentierung
Verzögerungsbereich: 0-5 Frames (0-165 ms), repräsentativ für typische Roundtrip-Verzögerungen

Vergleichsmethoden

Local image: Traditionelle Single-Frame-Lokalverzögerung
Remote image: Traditionelle Single-Frame-Fernverzögerung
Remote video: Fernverzögerung-Videoverarbeitung ohne Zukunftsvorhersage
Remote predictive: Verzögerungsbewusstes Fernverzögerungsvorhersagemodell
Local + remote predictive: Vollständiges Dedelayed-System

Implementierungsdetails

Multi-Stage-Trainingsstrategie: Fern- und lokale Modelle werden zunächst unabhängig trainiert, dann gemeinsam optimiert
Optimierer: Adan-Optimierer
Lernraten-Planung: Trapezförmige Cosinus-Lernraten-Planung
Verlustfunktion: Kreuzentropie-Verlust
Vortraining: ImageNet-Klassifizierung → Cityscapes-Segmentierung → BDD100K-Feinabstimmung

Experimentelle Ergebnisse

Hauptergebnisse

Signifikante Leistungsverbesserung:
- Bei 100 ms Roundtrip-Verzögerung Verbesserung von 6,4 mIoU gegenüber reiner Lokalverzögerung
- Verbesserung von 9,8 mIoU gegenüber Fernverzögerung
- Übertrifft stärkste Baselines bei allen realistischen Verzögerungen über 33 ms
Verzögerungsrobustheit:
- Je länger die Verzögerung, desto offensichtlicher der Vorteil von Dedelayed
- Bessere Leistung in hochbewegten Szenen
- Verteilte Inferenz mit Verzögerungsabschwächung erhält Genauigkeit effektiver

Ablationsstudien

Experimente validieren die Beiträge einzelner Komponenten:

Remote video vs Remote image: Nur die Verwendung von Kontext aus historischen Frames reicht nicht aus, um die Leistung zu verbessern
Remote predictive vs Remote video: Zeitliches Vorhersagetraining verbessert die Verzögerungsrobustheit erheblich
Local + remote predictive vs Remote predictive: Fusion lokaler Informationen verbessert die Leistung weiter

Verzögerungsjitter-Analyse

Modell behält gute Leistung bei, wenn Eingabeverzögerung und beobachtete Verzögerung nicht übereinstimmen
Wenn beobachtete Verzögerung die Eingabeverzögerung übersteigt, ist der Leistungsabfall gemäßigt
Behält Vorteil in hochem Jitter-Netzwerk (σ=15ms) bei

Auflösungsadaptivität

Das von Fernverzögerung unterstützte lokale Modell kann mit niedrigerer Auflösung arbeiten, ohne Genauigkeit zu verlieren, was die Ressourceneffizienz des Systems demonstriert.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Dedelayed löst erfolgreich die Kernherausforderung des Fernrechnens in Echtzeitystemen: das Problem veralteter Vorhersagen durch Netzwerkverzögerungen
Durch Erhebung der Verzögerung zu einer erstklassigen Variablen übertrifft das System unter realistischen Netzwerkbedingungen starke Baselines
Der Rahmen ist auf ein breites Spektrum von Echtzeitproblemen anwendbar und macht intelligente Systeme sowohl genau als auch zeitlich zuverlässig

Einschränkungen

Annahme fester Verzögerung: Die aktuelle Implementierung zielt hauptsächlich auf relativ stabile Verzögerungen ab; die Anpassungsfähigkeit an extremes Jitter ist begrenzt
Rechenaufwand: Obwohl das lokale Modell leichtgewichtig ist, erfordert es zusätzliche Fusionsberechnungen
Datensatz-Einschränkungen: Hauptsächlich in Fahrsituationen validiert; die Verallgemeinerung auf andere Bereiche steht aus
Netzwerkabhängigkeit: Vollständig abhängig von Netzwerkverbindung; bei Netzwerkunterbrechung nur auf lokales Modell angewiesen

Zukünftige Richtungen

Die im Paper vorgeschlagenen zukünftigen Forschungsarbeiten umfassen:

Untersuchung variabler und zufälliger Verzögerungsverteilungen
Umgang mit hochbewegten Daten
Entwicklung leichterer lokaler Modelle
Erkundung lokaler Zukunftsvorhersagefähigkeiten

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst kritische Probleme im Edge-Computing mit wichtigem praktischem Wert
Methodische Innovation: Die Kombination von Verzögerungseinbettung und zeitlichem Vorhersagetraining ist neuartig
Experimentelle Vollständigkeit: Umfassende Ablationsstudien und Verzögerungsjitter-Analyse
Hohe Praktikabilität: Einfache Fusionsstrategie basierend auf bestehenden Modellen, leicht bereitzustellen
Theoretische Grundlage: Von menschlichem Sehsystem inspiriert, biologisch plausibel

Mängel

Begrenzte Bewertungsreichweite: Validierung nur bei semantischen Segmentierungsaufgaben, Validierung anderer Aufgaben fehlt
Verzögerungsbereich: Maximale 165 ms Verzögerung kann nicht alle praktischen Szenarien abdecken
Unzureichende Kostenanalyse: Detaillierte Analyse von Rechen- und Kommunikationskosten fehlt
Vergleich mit mehr Baselines: Vergleich mit mehr aktuellen Edge-Computing-Methoden möglich

Einfluss

Akademischer Beitrag: Bietet neue Lösungsansätze für Edge-Cloud-Zusammenarbeit bei Inferenz
Praktischer Wert: Direktes Anwendungspotenzial in autonomem Fahren, Robotik und anderen Bereichen
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungscode erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

Autonomes Fahren: Fahrzeugsysteme benötigen Echtzeitumgebungswahrnehmung mit hoher Genauigkeit
Mobile Roboter: Navigation und Hindernisvermeidung erfordern Echtzeitreaktion mit niedriger Latenz
AR/VR-Anwendungen: Echtzeitszenenverständnis und Rendering
Videoüberwachung: Echtzeitzielerkennung und Verfolgung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

EfficientViT-Serie leichtgewichtiger Modelle
BDD100K- und Cityscapes-Datensätze
Forschung zu Edge-Computing und verteilter Inferenz
Biologische Forschung zum menschlichen Sehsystem

Gesamtbewertung: Dies ist ein hochqualitatives Paper, das praktische Probleme löst. Der vorgeschlagene Dedelayed-Rahmen hat sowohl theoretischen als auch praktischen Wert. Die Methode ist einfach und effektiv, die experimentelle Validierung ist umfassend und bietet wertvolle Beiträge zum Bereich der Edge-Cloud-Zusammenarbeit bei Inferenz. Obwohl es noch Verbesserungspotenzial bei der Bewertungsreichweite und Verzögerungsbehandlungsfähigkeit gibt, ist dies insgesamt eine bedeutungsvolle Forschungsarbeit.