Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic
Dedelayed: Eliminazione del ritardo di inferenza remota tramite correzione on-device
L'inferenza remota consente ai dispositivi leggeri di sfruttare potenti modelli cloud. Tuttavia, la latenza della rete di comunicazione rende le previsioni obsolete, inadatte per compiti in tempo reale. Per affrontare questo problema, il presente articolo introduce Dedelayed, un metodo di correzione della latenza che mitiga qualsiasi ritardo di inferenza remota, permettendo ai dispositivi locali di produrre output a bassa latenza in tempo reale. Il metodo utilizza un modello locale leggero per elaborare il fotogramma corrente e fonde le caratteristiche calcolate da un modello remoto pesante da fotogrammi passati. Su video del dataset di guida BDD100K, Dedelayed migliora la precisione della segmentazione semantica rispetto ai baseline più forti tra quelli puramente locali e puramente remoti per tutte le latenze di rete di comunicazione realistiche superiori a 33ms. Senza introdurre latenza aggiuntiva, per una latenza di andata e ritorno di 100ms, migliora di 6,4 mIoU rispetto all'inferenza puramente locale e di 9,8 mIoU rispetto all'inferenza remota.
Il problema centrale affrontato da questa ricerca è: come superare il problema della latenza di rete nell'inferenza remota mantenendo al contempo la precisione della previsione nelle applicazioni di elaborazione video in tempo reale.
Esigenze di Applicazioni in Tempo Reale: Applicazioni come la guida autonoma, il controllo robotico e i dispositivi indossabili sono estremamente sensibili alla latenza, e previsioni obsolete potrebbero causare conseguenze catastrofiche
Vincoli di Risorse: I dispositivi mobili sono limitati da consumo energetico e capacità computazionale, impedendo l'esecuzione di complessi modelli di deep learning
Vantaggi del Cloud: Le GPU cloud possiedono potenza computazionale significativa per elaborare video ad alta risoluzione e modelli complessi
I metodi di calcolo distribuito esistenti presentano tre difetti principali:
Allocano tutte le risorse del dispositivo a una singola pipeline di inferenza lineare, senza riservare risorse per soluzioni di backup locali
Non considerano l'impatto della latenza sulla precisione della previsione
Riducono significativamente la risoluzione spaziotemporale per gestire i costi computazionali, perdendo i ricchi dettagli visivi dei sistemi di fotocamere moderne
Ispirato dal sistema visivo umano, dove il nervo ottico può trasmettere solo una piccola frazione delle informazioni ricevute dalla retina, con l'elaborazione iniziale principalmente dedicata alla compressione e l'elaborazione metabolicamente intensiva che avviene negli strati più profondi della corteccia visiva. Analogamente, le macchine dotate di sensori video digitali affrontano vincoli simili.
Propone il Framework Dedelayed: Un framework di inferenza distribuita consapevole della latenza che mitiga gli effetti della latenza di rete fondendo informazioni locali in tempo reale e caratteristiche remote ritardate
Analisi Quantitativa della Latenza: Fornisce misurazioni quantitative dell'impatto della latenza sulla precisione della previsione visiva densa
Verifica del Sistema Pratico: Convalida l'efficacia del sistema su compiti di segmentazione video in scenari di guida urbana, superando i baseline di inferenza locale o remota esistenti
Strategia di Fusione Semplice ed Efficace: Impiega la fusione di caratteristiche basata su addizione, facile da distribuire e estendere ad altri metodi in tempo reale
Dato un fotogramma di input fresco x_t al momento t, la previsione finale ŷ_t viene calcolata tramite un modello locale leggero f_light, che elabora x_t e fonde le caratteristiche ritardate temporalmente z_{t-τ} dal modello remoto pesante f_heavy.
Meccanismo di Embedding della Latenza: Simile agli embedding di posizione nei transformer testuali o visivi, consente al modello remoto di adattare il comportamento ai cambiamenti del canale
Addestramento di Previsione Temporale: Simula latenza di D fotogrammi durante l'addestramento supervisionato, addestrando il modello remoto a prevedere il futuro
Inferenza a Risoluzione Mista: Il modello locale utilizza bassa risoluzione, il modello remoto utilizza elaborazione multi-fotogramma ad alta risoluzione
Garanzia di Prestazioni: Le prestazioni del sistema non sono mai peggiori di nessuno dei due modelli indipendenti
Il modello locale assistito da remoto può funzionare a risoluzioni inferiori senza perdita di precisione, dimostrando l'efficienza delle risorse del sistema.
Lavori esistenti come EfficientViT e MobileNetV4 si concentrano sulla minimizzazione del calcolo per ottenere prestazioni in tempo reale su dispositivi, ma sono limitati dal consumo energetico e dalla capacità computazionale dei dispositivi.
Rispetto ai lavori correlati, Dedelayed si generalizza a latenze più lunghe e variabili attraverso il condizionamento della latenza regolabile, mantenendo al contempo semplicità di progettazione e riutilizzabilità.
Dedelayed risolve con successo la sfida centrale del calcolo remoto nei sistemi in tempo reale: il problema della previsione obsoleta causata dalla latenza di rete
Elevando la latenza a variabile di primo ordine, il sistema supera i baseline forti in condizioni di rete realistiche
Il framework è applicabile a un ampio spettro di problemi in tempo reale, rendendo i sistemi intelligenti sia accurati che affidabili e tempestivi
Assunzione di Latenza Fissa: L'implementazione attuale è principalmente orientata a latenze relativamente stabili, con adattabilità limitata a jitter estremo
Overhead Computazionale: Sebbene il modello locale sia leggero, richiede comunque calcolo di fusione aggiuntivo
Limitazioni del Dataset: Principalmente convalidato su scenari di guida, la generalizzazione ad altri domini rimane da verificare
Dipendenza dalla Rete: Completamente dipendente dalla connettività di rete, può fare affidamento solo sul modello locale in caso di interruzione di rete
L'articolo cita importanti lavori nei campi correlati, inclusi:
Serie di modelli leggeri EfficientViT
Dataset BDD100K e Cityscapes
Ricerca su calcolo edge e inferenza distribuita
Ricerca biologica sul sistema visivo umano
Valutazione Complessiva: Questo è un articolo di alta qualità che affronta problemi pratici. Il framework Dedelayed proposto ha valore significativo sia in teoria che in pratica. Il metodo è semplice ed efficace, la verifica sperimentale è completa, fornendo contributi preziosi al campo dell'inferenza cooperativa edge-cloud. Sebbene ci sia spazio per miglioramenti nella portata di valutazione e nella capacità di gestione della latenza, nel complesso è un lavoro di ricerca significativo e meritevole.