2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: Löschen von Fernverzögerung bei Inferenz durch lokale Korrektur

Grundlegende Informationen

  • Paper-ID: 2510.13714
  • Titel: Dedelayed: Deleting remote inference delay via on-device correction
  • Autoren: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • Klassifizierung: eess.IV cs.AI cs.CV cs.LG
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13714

Zusammenfassung

Fernverzögerung bei Inferenz ermöglicht leichtgewichtigen Geräten die Nutzung leistungsstarker Cloud-Modelle. Allerdings führt die Kommunikationsnetzwerkverzögerung zu veralteten Vorhersageergebnissen, die für Echtzeitaufgaben ungeeignet sind. Um dieses Problem zu lösen, wird Dedelayed eingeführt – eine Verzögerungskorrekturmethode, die beliebige Fernverzögerungen bei Inferenz abschwächen kann und lokalen Geräten ermöglicht, in Echtzeit Ausgaben mit niedriger Latenz zu erzeugen. Das Verfahren nutzt ein leichtgewichtiges lokales Modell zur Verarbeitung des aktuellen Frames und fusioniert Merkmale, die von einem leistungsstarken Fernmodell aus früheren Frames berechnet wurden. Bei Videos aus dem BDD100K-Fahrdatensatz verbessert Dedelayed die Genauigkeit der semantischen Segmentierung bei allen realistischen Kommunikationsnetzwerkverzögerungen über 33 ms im Vergleich zu den stärkeren Baselines aus reiner lokaler und reiner Fernverarbeitung. Bei einer Verzögerung von 100 ms Roundtrip wird ohne zusätzliche Latenz eine Verbesserung von 6,4 mIoU gegenüber reiner lokaler Inferenz und 9,8 mIoU gegenüber Fernverzögerung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können bei der Echtzeitverarbeitung von Videos Vorhersagegenauigkeit gewährleistet und gleichzeitig Netzwerkverzögerungen bei Fernverzögerung überwunden werden?

Bedeutung des Problems

  1. Anforderungen von Echtzeitanwendungen: Autonomes Fahren, Robotersteuerung, tragbare Geräte und andere Anwendungen sind äußerst latenzempfindlich; veraltete Vorhersagen können zu katastrophalen Folgen führen
  2. Ressourcenbeschränkungen: Mobile Geräte sind durch Stromverbrauch und Rechenleistung begrenzt und können komplexe Deep-Learning-Modelle nicht ausführen
  3. Cloud-Vorteile: Cloud-GPUs verfügen über leistungsstarke Rechenkapazität und können hochauflösende Videos und komplexe Modelle verarbeiten

Einschränkungen bestehender Methoden

Bestehende verteilte Rechenmethoden weisen drei Hauptmängel auf:

  1. Alle Geräteressourcen werden einer einzigen linearen Inferenz-Pipeline zugeordnet, ohne Ressourcen für lokale Backup-Lösungen zu reservieren
  2. Die Auswirkung von Verzögerungen auf die Vorhersagegenauigkeit wird nicht berücksichtigt
  3. Zeitliche und räumliche Auflösung wird erheblich reduziert, um Rechenkosten zu verwalten, wodurch die reichhaltigen visuellen Details moderner Kamerasysteme verloren gehen

Forschungsmotivation

Inspiriert durch das menschliche Sehsystem, das nur einen kleinen Teil der vom Auge empfangenen Informationen über den Sehnerv übertragen kann, wobei frühe Verarbeitung hauptsächlich Kompression durchführt und dann tiefere Verarbeitung in der visuellen Rinde stattfindet. Ähnlich sehen sich Maschinen mit digitalen Videosensoren vergleichbaren Einschränkungen gegenüber.

Kernbeiträge

  1. Vorschlag des Dedelayed-Rahmens: Ein verzögerungsbewusster verteilter Inferenz-Rahmen, der die Auswirkungen von Netzwerkverzögerungen durch Fusion von lokalen Echtzeitinformationen und verzögerten Fernmerkmalen abschwächt
  2. Verzögerungsquantifizierungsanalyse: Bereitstellung quantitativer Messungen der Auswirkungen von Verzögerungen auf die Genauigkeit dichter visueller Vorhersagen
  3. Validierung praktischer Systeme: Validierung der Systemeffektivität bei Videosegmentierungsaufgaben in städtischen Fahrsituationen, die über bestehende lokale oder Fernverzögerungslösungen hinausgehen
  4. Einfache und effektive Fusionsstrategie: Verwendung von additionsbasierter Merkmalsfusion, die leicht bereitzustellen und auf andere Echtzeitverfahren übertragbar ist

Methodische Details

Aufgabendefinition

Gegeben ein neuer Input-Frame x_t zum Zeitpunkt t wird die endgültige Vorhersage ŷ_t durch ein leichtgewichtiges lokales Modell f_light berechnet, das x_t verarbeitet und zeitlich verzögerte Merkmale z_{t-τ} aus einem leistungsstarken Fernmodell f_heavy fusioniert.

Mathematische Darstellung:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Modellarchitektur

Gesamtsystemarchitektur

Das Dedelayed-System besteht aus zwei Hauptkomponenten:

  1. Lokales leichtgewichtiges Modell: Verarbeitet den aktuellen Frame und bietet Echtzeitreaktionsfähigkeit
  2. Fernverzögerungsmodul: Verarbeitet historische Frame-Sequenzen und bietet hochwertige Merkmale

Fernverzögerungsmodul

  • Verwendet EfficientViT-L1 als 2D ViT-Backbone mit effektiver Patch-Größe von 8×8
  • Verwaltet ein Kontextfenster der K letzten Frames
  • Verkettung von Frame-Merkmalen entlang der zeitlichen Achse, räumliche Zusammenfassung zu größeren 16×16-Patches
  • Hinzufügen von gelernten Verzögerungseinbettungen basierend auf gemessener Verzögerung τ
  • Erzeugung verzögerungsbedingter Merkmale durch 3D-ViT-Encoder und gelernte Pooling (MLP-pool-MLP)

Lokales Modell und Fusion

  • Berechnung von Merkmalen der ersten Stufe: h = T1(x_t)
  • Frühe Fusion durch elementweise Addition: h' = h + z_{t-τ}
  • Beide Tensoren haben die Form 96 × H/8 × W/8, keine Projektion oder Größenänderung erforderlich
  • Falls z_{t-τ} nicht verfügbar ist, fällt das lokale Modell auf h' = h zurück

Technische Innovationen

  1. Verzögerungseinbettungsmechanismus: Ähnlich wie Positions- oder Sichteinbettungen in Transformern ermöglicht es dem Fernmodell, sein Verhalten an Kanalveränderungen anzupassen
  2. Zeitliche Vorhersagetraining: Simulation von D-Frame-Verzögerungen während des überwachten Trainings, Training des Fernmodells zur Vorhersage der Zukunft
  3. Hybrid-Auflösungs-Inferenz: Lokales Modell mit niedriger Auflösung, Fernmodell mit hoher Auflösung und Multi-Frame-Verarbeitung
  4. Leistungsgarantie: Systemleistung ist niemals schlechter als eines der unabhängigen Modelle

Experimentelle Einrichtung

Datensatz

  • BDD100K-Videodatensatz: Enthält Fahrszenario-Videos mit 30 fps
  • Verwendung eines vortrainierten EoMT-Modells zur Erzeugung von Pseudo-Labels, Ignorieren von Pixeln mit niedriger Konfidenz
  • Verwendung einer 19-Label-Teilmenge von Cityscapes
  • Anwendung von WebP-Bildcodec (Qualität 85) zur Kompression des Upstream-Videostroms

Bewertungsmetriken

  • mIoU (Mean Intersection over Union): Standardbewertungsmetrik für semantische Segmentierung
  • Verzögerungsbereich: 0-5 Frames (0-165 ms), repräsentativ für typische Roundtrip-Verzögerungen

Vergleichsmethoden

  1. Local image: Traditionelle Single-Frame-Lokalverzögerung
  2. Remote image: Traditionelle Single-Frame-Fernverzögerung
  3. Remote video: Fernverzögerung-Videoverarbeitung ohne Zukunftsvorhersage
  4. Remote predictive: Verzögerungsbewusstes Fernverzögerungsvorhersagemodell
  5. Local + remote predictive: Vollständiges Dedelayed-System

Implementierungsdetails

  • Multi-Stage-Trainingsstrategie: Fern- und lokale Modelle werden zunächst unabhängig trainiert, dann gemeinsam optimiert
  • Optimierer: Adan-Optimierer
  • Lernraten-Planung: Trapezförmige Cosinus-Lernraten-Planung
  • Verlustfunktion: Kreuzentropie-Verlust
  • Vortraining: ImageNet-Klassifizierung → Cityscapes-Segmentierung → BDD100K-Feinabstimmung

Experimentelle Ergebnisse

Hauptergebnisse

  1. Signifikante Leistungsverbesserung:
    • Bei 100 ms Roundtrip-Verzögerung Verbesserung von 6,4 mIoU gegenüber reiner Lokalverzögerung
    • Verbesserung von 9,8 mIoU gegenüber Fernverzögerung
    • Übertrifft stärkste Baselines bei allen realistischen Verzögerungen über 33 ms
  2. Verzögerungsrobustheit:
    • Je länger die Verzögerung, desto offensichtlicher der Vorteil von Dedelayed
    • Bessere Leistung in hochbewegten Szenen
    • Verteilte Inferenz mit Verzögerungsabschwächung erhält Genauigkeit effektiver

Ablationsstudien

Experimente validieren die Beiträge einzelner Komponenten:

  • Remote video vs Remote image: Nur die Verwendung von Kontext aus historischen Frames reicht nicht aus, um die Leistung zu verbessern
  • Remote predictive vs Remote video: Zeitliches Vorhersagetraining verbessert die Verzögerungsrobustheit erheblich
  • Local + remote predictive vs Remote predictive: Fusion lokaler Informationen verbessert die Leistung weiter

Verzögerungsjitter-Analyse

  • Modell behält gute Leistung bei, wenn Eingabeverzögerung und beobachtete Verzögerung nicht übereinstimmen
  • Wenn beobachtete Verzögerung die Eingabeverzögerung übersteigt, ist der Leistungsabfall gemäßigt
  • Behält Vorteil in hochem Jitter-Netzwerk (σ=15ms) bei

Auflösungsadaptivität

Das von Fernverzögerung unterstützte lokale Modell kann mit niedrigerer Auflösung arbeiten, ohne Genauigkeit zu verlieren, was die Ressourceneffizienz des Systems demonstriert.

Verwandte Arbeiten

Forschung zu leichtgewichtigen Architekturen

Bestehende Arbeiten wie EfficientViT und MobileNetV4 konzentrieren sich auf die Minimierung von Berechnungen zur Erzielung von Echtzeitgeräte-Leistung, sind aber durch Geräte-Stromverbrauch und Rechenleistung begrenzt.

Verteilte Rechenmethoden

  • MPEG AI und JPEG AI: Konzentrieren sich auf Bandbreiteneinsparungen, fehlen Verzögerungskompensationsmechanismen
  • Clockwork Convnets: Wiederverwendung veralteter Merkmale zur Verzögerungsreduktion, aber begrenzte zeitliche Vorhersagefähigkeit
  • Accel: Verwendung von optischen Fluss-Vorwärtstransformationen für schwere Modellmerkmale, aber nicht für netzwerkübergreifende Operationen geeignet
  • Knowledge Boosting: Am meisten mit dieser Arbeit verwandt, aber geht von fester Verzögerung aus

Vorteile dieser Arbeit

Im Vergleich zu verwandten Arbeiten verallgemeinert Dedelayed durch verzögerungsbedingte Anpassung auf längere und variable Verzögerungen, während das Design einfach und wiederverwendbar bleibt.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Dedelayed löst erfolgreich die Kernherausforderung des Fernrechnens in Echtzeitystemen: das Problem veralteter Vorhersagen durch Netzwerkverzögerungen
  2. Durch Erhebung der Verzögerung zu einer erstklassigen Variablen übertrifft das System unter realistischen Netzwerkbedingungen starke Baselines
  3. Der Rahmen ist auf ein breites Spektrum von Echtzeitproblemen anwendbar und macht intelligente Systeme sowohl genau als auch zeitlich zuverlässig

Einschränkungen

  1. Annahme fester Verzögerung: Die aktuelle Implementierung zielt hauptsächlich auf relativ stabile Verzögerungen ab; die Anpassungsfähigkeit an extremes Jitter ist begrenzt
  2. Rechenaufwand: Obwohl das lokale Modell leichtgewichtig ist, erfordert es zusätzliche Fusionsberechnungen
  3. Datensatz-Einschränkungen: Hauptsächlich in Fahrsituationen validiert; die Verallgemeinerung auf andere Bereiche steht aus
  4. Netzwerkabhängigkeit: Vollständig abhängig von Netzwerkverbindung; bei Netzwerkunterbrechung nur auf lokales Modell angewiesen

Zukünftige Richtungen

Die im Paper vorgeschlagenen zukünftigen Forschungsarbeiten umfassen:

  1. Untersuchung variabler und zufälliger Verzögerungsverteilungen
  2. Umgang mit hochbewegten Daten
  3. Entwicklung leichterer lokaler Modelle
  4. Erkundung lokaler Zukunftsvorhersagefähigkeiten

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst kritische Probleme im Edge-Computing mit wichtigem praktischem Wert
  2. Methodische Innovation: Die Kombination von Verzögerungseinbettung und zeitlichem Vorhersagetraining ist neuartig
  3. Experimentelle Vollständigkeit: Umfassende Ablationsstudien und Verzögerungsjitter-Analyse
  4. Hohe Praktikabilität: Einfache Fusionsstrategie basierend auf bestehenden Modellen, leicht bereitzustellen
  5. Theoretische Grundlage: Von menschlichem Sehsystem inspiriert, biologisch plausibel

Mängel

  1. Begrenzte Bewertungsreichweite: Validierung nur bei semantischen Segmentierungsaufgaben, Validierung anderer Aufgaben fehlt
  2. Verzögerungsbereich: Maximale 165 ms Verzögerung kann nicht alle praktischen Szenarien abdecken
  3. Unzureichende Kostenanalyse: Detaillierte Analyse von Rechen- und Kommunikationskosten fehlt
  4. Vergleich mit mehr Baselines: Vergleich mit mehr aktuellen Edge-Computing-Methoden möglich

Einfluss

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für Edge-Cloud-Zusammenarbeit bei Inferenz
  2. Praktischer Wert: Direktes Anwendungspotenzial in autonomem Fahren, Robotik und anderen Bereichen
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungscode erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

  1. Autonomes Fahren: Fahrzeugsysteme benötigen Echtzeitumgebungswahrnehmung mit hoher Genauigkeit
  2. Mobile Roboter: Navigation und Hindernisvermeidung erfordern Echtzeitreaktion mit niedriger Latenz
  3. AR/VR-Anwendungen: Echtzeitszenenverständnis und Rendering
  4. Videoüberwachung: Echtzeitzielerkennung und Verfolgung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

  • EfficientViT-Serie leichtgewichtiger Modelle
  • BDD100K- und Cityscapes-Datensätze
  • Forschung zu Edge-Computing und verteilter Inferenz
  • Biologische Forschung zum menschlichen Sehsystem

Gesamtbewertung: Dies ist ein hochqualitatives Paper, das praktische Probleme löst. Der vorgeschlagene Dedelayed-Rahmen hat sowohl theoretischen als auch praktischen Wert. Die Methode ist einfach und effektiv, die experimentelle Validierung ist umfassend und bietet wertvolle Beiträge zum Bereich der Edge-Cloud-Zusammenarbeit bei Inferenz. Obwohl es noch Verbesserungspotenzial bei der Bewertungsreichweite und Verzögerungsbehandlungsfähigkeit gibt, ist dies insgesamt eine bedeutungsvolle Forschungsarbeit.