2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, RacapÃ© et al.

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

academic

Dedelayed: Eliminazione del ritardo di inferenza remota tramite correzione on-device

Informazioni Fondamentali

ID Articolo: 2510.13714
Titolo: Dedelayed: Eliminazione del ritardo di inferenza remota tramite correzione on-device
Autori: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
Classificazione: eess.IV cs.AI cs.CV cs.LG
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.13714

Riassunto

L'inferenza remota consente ai dispositivi leggeri di sfruttare potenti modelli cloud. Tuttavia, la latenza della rete di comunicazione rende le previsioni obsolete, inadatte per compiti in tempo reale. Per affrontare questo problema, il presente articolo introduce Dedelayed, un metodo di correzione della latenza che mitiga qualsiasi ritardo di inferenza remota, permettendo ai dispositivi locali di produrre output a bassa latenza in tempo reale. Il metodo utilizza un modello locale leggero per elaborare il fotogramma corrente e fonde le caratteristiche calcolate da un modello remoto pesante da fotogrammi passati. Su video del dataset di guida BDD100K, Dedelayed migliora la precisione della segmentazione semantica rispetto ai baseline più forti tra quelli puramente locali e puramente remoti per tutte le latenze di rete di comunicazione realistiche superiori a 33ms. Senza introdurre latenza aggiuntiva, per una latenza di andata e ritorno di 100ms, migliora di 6,4 mIoU rispetto all'inferenza puramente locale e di 9,8 mIoU rispetto all'inferenza remota.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come superare il problema della latenza di rete nell'inferenza remota mantenendo al contempo la precisione della previsione nelle applicazioni di elaborazione video in tempo reale.

Importanza del Problema

Esigenze di Applicazioni in Tempo Reale: Applicazioni come la guida autonoma, il controllo robotico e i dispositivi indossabili sono estremamente sensibili alla latenza, e previsioni obsolete potrebbero causare conseguenze catastrofiche
Vincoli di Risorse: I dispositivi mobili sono limitati da consumo energetico e capacità computazionale, impedendo l'esecuzione di complessi modelli di deep learning
Vantaggi del Cloud: Le GPU cloud possiedono potenza computazionale significativa per elaborare video ad alta risoluzione e modelli complessi

Limitazioni dei Metodi Esistenti

I metodi di calcolo distribuito esistenti presentano tre difetti principali:

Allocano tutte le risorse del dispositivo a una singola pipeline di inferenza lineare, senza riservare risorse per soluzioni di backup locali
Non considerano l'impatto della latenza sulla precisione della previsione
Riducono significativamente la risoluzione spaziotemporale per gestire i costi computazionali, perdendo i ricchi dettagli visivi dei sistemi di fotocamere moderne

Motivazione della Ricerca

Ispirato dal sistema visivo umano, dove il nervo ottico può trasmettere solo una piccola frazione delle informazioni ricevute dalla retina, con l'elaborazione iniziale principalmente dedicata alla compressione e l'elaborazione metabolicamente intensiva che avviene negli strati più profondi della corteccia visiva. Analogamente, le macchine dotate di sensori video digitali affrontano vincoli simili.

Contributi Principali

Propone il Framework Dedelayed: Un framework di inferenza distribuita consapevole della latenza che mitiga gli effetti della latenza di rete fondendo informazioni locali in tempo reale e caratteristiche remote ritardate
Analisi Quantitativa della Latenza: Fornisce misurazioni quantitative dell'impatto della latenza sulla precisione della previsione visiva densa
Verifica del Sistema Pratico: Convalida l'efficacia del sistema su compiti di segmentazione video in scenari di guida urbana, superando i baseline di inferenza locale o remota esistenti
Strategia di Fusione Semplice ed Efficace: Impiega la fusione di caratteristiche basata su addizione, facile da distribuire e estendere ad altri metodi in tempo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un fotogramma di input fresco x_t al momento t, la previsione finale ŷ_t viene calcolata tramite un modello locale leggero f_light, che elabora x_t e fonde le caratteristiche ritardate temporalmente z_{t-τ} dal modello remoto pesante f_heavy.

Rappresentazione matematica:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Architettura del Modello

Architettura Complessiva del Sistema

Il sistema Dedelayed contiene due componenti principali:

Modello Locale Leggero: Elabora il fotogramma corrente, fornendo capacità di risposta in tempo reale
Modello di Previsione Remota: Elabora sequenze di fotogrammi storici, fornendo caratteristiche di alta qualità

Modulo di Previsione Remota

Utilizza EfficientViT-L1 come backbone ViT 2D, con dimensione patch effettiva di 8×8
Mantiene una finestra di contesto dei K fotogrammi più recenti
Concatena le caratteristiche di ogni fotogramma lungo l'asse temporale, unendo spazialmente in patch più grandi di 16×16
Aggiunge embedding di latenza appreso basato sulla latenza misurata τ
Produce caratteristiche condizionate dalla latenza tramite encoder ViT 3D e pooling appreso (MLP-pool-MLP)

Modello Locale e Fusione

Calcola le caratteristiche della prima fase: h = T1(x_t)
Esegue fusione precoce tramite addizione elemento per elemento: h' = h + z_{t-τ}
Entrambi i tensori hanno forma 96 × H/8 × W/8, senza necessità di proiezione o ridimensionamento
Se z_{t-τ} non è disponibile, il modello locale ritorna a h' = h

Punti di Innovazione Tecnica

Meccanismo di Embedding della Latenza: Simile agli embedding di posizione nei transformer testuali o visivi, consente al modello remoto di adattare il comportamento ai cambiamenti del canale
Addestramento di Previsione Temporale: Simula latenza di D fotogrammi durante l'addestramento supervisionato, addestrando il modello remoto a prevedere il futuro
Inferenza a Risoluzione Mista: Il modello locale utilizza bassa risoluzione, il modello remoto utilizza elaborazione multi-fotogramma ad alta risoluzione
Garanzia di Prestazioni: Le prestazioni del sistema non sono mai peggiori di nessuno dei due modelli indipendenti

Configurazione Sperimentale

Dataset

Dataset Video BDD100K: Contiene video di scene di guida a 30fps
Utilizza il modello EoMT pre-addestrato per generare pseudo-etichette, ignorando pixel a bassa confidenza
Utilizza il sottoinsieme di 19 etichette di Cityscapes
Applica il codec immagine WebP (qualità 85) per comprimere il flusso video in salita

Metriche di Valutazione

mIoU (mean Intersection over Union): Metrica di valutazione standard per la segmentazione semantica
Intervallo di Latenza: 0-5 fotogrammi (0-165ms), rappresentativo di latenze di andata e ritorno tipiche

Metodi di Confronto

Local image: Inferenza locale tradizionale a singolo fotogramma
Remote image: Inferenza remota tradizionale a singolo fotogramma
Remote video: Elaborazione video remota senza previsione del futuro
Remote predictive: Modello di previsione remota consapevole della latenza
Local + remote predictive: Sistema Dedelayed completo

Dettagli di Implementazione

Strategia di Addestramento Multi-fase: I modelli remoto e locale vengono addestrati indipendentemente, seguiti da fine-tuning congiunto
Ottimizzatore: Ottimizzatore Adan
Pianificazione del Tasso di Apprendimento: Pianificazione del tasso di apprendimento coseno trapezoidale
Funzione di Perdita: Perdita di entropia incrociata
Pre-addestramento: Classificazione ImageNet → Segmentazione Cityscapes → Fine-tuning BDD100K

Risultati Sperimentali

Risultati Principali

Miglioramenti Significativi delle Prestazioni:
- Con latenza di andata e ritorno di 100ms, migliora di 6,4 mIoU rispetto all'inferenza puramente locale
- Migliora di 9,8 mIoU rispetto all'inferenza remota
- Supera il baseline più forte per tutte le latenze realistiche superiori a 33ms
Robustezza alla Latenza:
- Maggiore è la latenza, più evidente è il vantaggio di Dedelayed
- Prestazioni migliori in scene ad alto movimento
- L'inferenza distribuita con mitigazione della latenza mantiene più efficacemente la precisione

Esperimenti di Ablazione

Gli esperimenti convalidano il contributo di ogni componente:

Remote video vs Remote image: L'utilizzo solo del contesto di fotogrammi storici non è sufficiente per migliorare le prestazioni
Remote predictive vs Remote video: L'addestramento di previsione temporale migliora significativamente la robustezza alla latenza
Local + remote predictive vs Remote predictive: La fusione di informazioni locali migliora ulteriormente le prestazioni

Analisi del Jitter di Latenza

Il modello mantiene buone prestazioni quando l'input di latenza non corrisponde alla latenza osservata
Quando la latenza osservata supera l'input di latenza, il degrado delle prestazioni è più graduale
Mantiene il vantaggio anche in reti con alto jitter (σ=15ms)

Adattabilità della Risoluzione

Il modello locale assistito da remoto può funzionare a risoluzioni inferiori senza perdita di precisione, dimostrando l'efficienza delle risorse del sistema.

Lavori Correlati

Ricerca su Architetture Leggere

Lavori esistenti come EfficientViT e MobileNetV4 si concentrano sulla minimizzazione del calcolo per ottenere prestazioni in tempo reale su dispositivi, ma sono limitati dal consumo energetico e dalla capacità computazionale dei dispositivi.

Metodi di Calcolo Distribuito

MPEG AI e JPEG AI: Si concentrano sulla riduzione della larghezza di banda, mancano di meccanismi di compensazione della latenza
Clockwork Convnets: Riutilizzano caratteristiche obsolete per ridurre la latenza, ma hanno capacità di inferenza temporale limitata
Accel: Utilizza trasformazione in avanti del flusso ottico per caratteristiche di modello pesante, ma non applicabile alle operazioni di rete
Knowledge Boosting: Più correlato al presente lavoro, ma assume latenza fissa

Vantaggi di questo Lavoro

Rispetto ai lavori correlati, Dedelayed si generalizza a latenze più lunghe e variabili attraverso il condizionamento della latenza regolabile, mantenendo al contempo semplicità di progettazione e riutilizzabilità.

Conclusioni e Discussione

Conclusioni Principali

Dedelayed risolve con successo la sfida centrale del calcolo remoto nei sistemi in tempo reale: il problema della previsione obsoleta causata dalla latenza di rete
Elevando la latenza a variabile di primo ordine, il sistema supera i baseline forti in condizioni di rete realistiche
Il framework è applicabile a un ampio spettro di problemi in tempo reale, rendendo i sistemi intelligenti sia accurati che affidabili e tempestivi

Limitazioni

Assunzione di Latenza Fissa: L'implementazione attuale è principalmente orientata a latenze relativamente stabili, con adattabilità limitata a jitter estremo
Overhead Computazionale: Sebbene il modello locale sia leggero, richiede comunque calcolo di fusione aggiuntivo
Limitazioni del Dataset: Principalmente convalidato su scenari di guida, la generalizzazione ad altri domini rimane da verificare
Dipendenza dalla Rete: Completamente dipendente dalla connettività di rete, può fare affidamento solo sul modello locale in caso di interruzione di rete

Direzioni Future

Le future ricerche proposte nell'articolo includono:

Studio di distribuzioni di latenza variabili e casuali
Gestione di dati ad alto movimento
Sviluppo di modelli locali più leggeri
Esplorazione delle capacità di previsione futura locale

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta un problema critico nel calcolo edge, con significativo valore pratico
Innovazione del Metodo: La combinazione di embedding di latenza e addestramento di previsione temporale è innovativa
Completezza Sperimentale: Esperimenti di ablazione completi e analisi del jitter di latenza
Forte Praticità: Strategia di fusione semplice basata su modelli esistenti, facile da distribuire
Fondamento Teorico: Ispirato dal sistema visivo umano, con razionalità biologica

Insufficienze

Portata di Valutazione Limitata: Convalidato solo su compiti di segmentazione semantica, mancano verifiche su altri compiti
Intervallo di Latenza: La latenza massima di 165ms potrebbe non coprire tutti gli scenari pratici
Analisi Insufficiente dei Costi Computazionali: Manca analisi dettagliata dei costi computazionali e di comunicazione
Confronto con Più Baseline: Potrebbe confrontarsi con più metodi di calcolo edge recenti

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'inferenza cooperativa edge-cloud
Valore Pratico: Ha potenziale di applicazione diretta in guida autonoma, robotica e altri campi
Riproducibilità: Fornisce codice di implementazione dettagliato, facilitando la riproduzione e l'estensione

Scenari Applicabili

Guida Autonoma: I sistemi di bordo richiedono percezione ambientale in tempo reale e accurata
Robot Mobili: La navigazione e l'evitamento di ostacoli richiedono risposte a bassa latenza
Applicazioni AR/VR: Comprensione e rendering di scene in tempo reale
Videosorveglianza: Rilevamento e tracciamento di target in tempo reale

Bibliografia

L'articolo cita importanti lavori nei campi correlati, inclusi:

Serie di modelli leggeri EfficientViT
Dataset BDD100K e Cityscapes
Ricerca su calcolo edge e inferenza distribuita
Ricerca biologica sul sistema visivo umano

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta problemi pratici. Il framework Dedelayed proposto ha valore significativo sia in teoria che in pratica. Il metodo è semplice ed efficace, la verifica sperimentale è completa, fornendo contributi preziosi al campo dell'inferenza cooperativa edge-cloud. Sebbene ci sia spazio per miglioramenti nella portata di valutazione e nella capacità di gestione della latenza, nel complesso è un lavoro di ricerca significativo e meritevole.