2025-11-13T17:19:11.429701

Dedelayed: Deleting remote inference delay via on-device correction

Jacobellis, Ulhaq, Racapé et al.
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
academic

Dedelayed: Eliminazione del ritardo di inferenza remota tramite correzione on-device

Informazioni Fondamentali

  • ID Articolo: 2510.13714
  • Titolo: Dedelayed: Eliminazione del ritardo di inferenza remota tramite correzione on-device
  • Autori: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
  • Classificazione: eess.IV cs.AI cs.CV cs.LG
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13714

Riassunto

L'inferenza remota consente ai dispositivi leggeri di sfruttare potenti modelli cloud. Tuttavia, la latenza della rete di comunicazione rende le previsioni obsolete, inadatte per compiti in tempo reale. Per affrontare questo problema, il presente articolo introduce Dedelayed, un metodo di correzione della latenza che mitiga qualsiasi ritardo di inferenza remota, permettendo ai dispositivi locali di produrre output a bassa latenza in tempo reale. Il metodo utilizza un modello locale leggero per elaborare il fotogramma corrente e fonde le caratteristiche calcolate da un modello remoto pesante da fotogrammi passati. Su video del dataset di guida BDD100K, Dedelayed migliora la precisione della segmentazione semantica rispetto ai baseline più forti tra quelli puramente locali e puramente remoti per tutte le latenze di rete di comunicazione realistiche superiori a 33ms. Senza introdurre latenza aggiuntiva, per una latenza di andata e ritorno di 100ms, migliora di 6,4 mIoU rispetto all'inferenza puramente locale e di 9,8 mIoU rispetto all'inferenza remota.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come superare il problema della latenza di rete nell'inferenza remota mantenendo al contempo la precisione della previsione nelle applicazioni di elaborazione video in tempo reale.

Importanza del Problema

  1. Esigenze di Applicazioni in Tempo Reale: Applicazioni come la guida autonoma, il controllo robotico e i dispositivi indossabili sono estremamente sensibili alla latenza, e previsioni obsolete potrebbero causare conseguenze catastrofiche
  2. Vincoli di Risorse: I dispositivi mobili sono limitati da consumo energetico e capacità computazionale, impedendo l'esecuzione di complessi modelli di deep learning
  3. Vantaggi del Cloud: Le GPU cloud possiedono potenza computazionale significativa per elaborare video ad alta risoluzione e modelli complessi

Limitazioni dei Metodi Esistenti

I metodi di calcolo distribuito esistenti presentano tre difetti principali:

  1. Allocano tutte le risorse del dispositivo a una singola pipeline di inferenza lineare, senza riservare risorse per soluzioni di backup locali
  2. Non considerano l'impatto della latenza sulla precisione della previsione
  3. Riducono significativamente la risoluzione spaziotemporale per gestire i costi computazionali, perdendo i ricchi dettagli visivi dei sistemi di fotocamere moderne

Motivazione della Ricerca

Ispirato dal sistema visivo umano, dove il nervo ottico può trasmettere solo una piccola frazione delle informazioni ricevute dalla retina, con l'elaborazione iniziale principalmente dedicata alla compressione e l'elaborazione metabolicamente intensiva che avviene negli strati più profondi della corteccia visiva. Analogamente, le macchine dotate di sensori video digitali affrontano vincoli simili.

Contributi Principali

  1. Propone il Framework Dedelayed: Un framework di inferenza distribuita consapevole della latenza che mitiga gli effetti della latenza di rete fondendo informazioni locali in tempo reale e caratteristiche remote ritardate
  2. Analisi Quantitativa della Latenza: Fornisce misurazioni quantitative dell'impatto della latenza sulla precisione della previsione visiva densa
  3. Verifica del Sistema Pratico: Convalida l'efficacia del sistema su compiti di segmentazione video in scenari di guida urbana, superando i baseline di inferenza locale o remota esistenti
  4. Strategia di Fusione Semplice ed Efficace: Impiega la fusione di caratteristiche basata su addizione, facile da distribuire e estendere ad altri metodi in tempo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un fotogramma di input fresco x_t al momento t, la previsione finale ŷ_t viene calcolata tramite un modello locale leggero f_light, che elabora x_t e fonde le caratteristiche ritardate temporalmente z_{t-τ} dal modello remoto pesante f_heavy.

Rappresentazione matematica:

z_{t-τ} = f_heavy(τ, x_{≤t-τ})     (1)
ŷ_t = f_light(x_t, z_{t-τ})        (2)

Architettura del Modello

Architettura Complessiva del Sistema

Il sistema Dedelayed contiene due componenti principali:

  1. Modello Locale Leggero: Elabora il fotogramma corrente, fornendo capacità di risposta in tempo reale
  2. Modello di Previsione Remota: Elabora sequenze di fotogrammi storici, fornendo caratteristiche di alta qualità

Modulo di Previsione Remota

  • Utilizza EfficientViT-L1 come backbone ViT 2D, con dimensione patch effettiva di 8×8
  • Mantiene una finestra di contesto dei K fotogrammi più recenti
  • Concatena le caratteristiche di ogni fotogramma lungo l'asse temporale, unendo spazialmente in patch più grandi di 16×16
  • Aggiunge embedding di latenza appreso basato sulla latenza misurata τ
  • Produce caratteristiche condizionate dalla latenza tramite encoder ViT 3D e pooling appreso (MLP-pool-MLP)

Modello Locale e Fusione

  • Calcola le caratteristiche della prima fase: h = T1(x_t)
  • Esegue fusione precoce tramite addizione elemento per elemento: h' = h + z_{t-τ}
  • Entrambi i tensori hanno forma 96 × H/8 × W/8, senza necessità di proiezione o ridimensionamento
  • Se z_{t-τ} non è disponibile, il modello locale ritorna a h' = h

Punti di Innovazione Tecnica

  1. Meccanismo di Embedding della Latenza: Simile agli embedding di posizione nei transformer testuali o visivi, consente al modello remoto di adattare il comportamento ai cambiamenti del canale
  2. Addestramento di Previsione Temporale: Simula latenza di D fotogrammi durante l'addestramento supervisionato, addestrando il modello remoto a prevedere il futuro
  3. Inferenza a Risoluzione Mista: Il modello locale utilizza bassa risoluzione, il modello remoto utilizza elaborazione multi-fotogramma ad alta risoluzione
  4. Garanzia di Prestazioni: Le prestazioni del sistema non sono mai peggiori di nessuno dei due modelli indipendenti

Configurazione Sperimentale

Dataset

  • Dataset Video BDD100K: Contiene video di scene di guida a 30fps
  • Utilizza il modello EoMT pre-addestrato per generare pseudo-etichette, ignorando pixel a bassa confidenza
  • Utilizza il sottoinsieme di 19 etichette di Cityscapes
  • Applica il codec immagine WebP (qualità 85) per comprimere il flusso video in salita

Metriche di Valutazione

  • mIoU (mean Intersection over Union): Metrica di valutazione standard per la segmentazione semantica
  • Intervallo di Latenza: 0-5 fotogrammi (0-165ms), rappresentativo di latenze di andata e ritorno tipiche

Metodi di Confronto

  1. Local image: Inferenza locale tradizionale a singolo fotogramma
  2. Remote image: Inferenza remota tradizionale a singolo fotogramma
  3. Remote video: Elaborazione video remota senza previsione del futuro
  4. Remote predictive: Modello di previsione remota consapevole della latenza
  5. Local + remote predictive: Sistema Dedelayed completo

Dettagli di Implementazione

  • Strategia di Addestramento Multi-fase: I modelli remoto e locale vengono addestrati indipendentemente, seguiti da fine-tuning congiunto
  • Ottimizzatore: Ottimizzatore Adan
  • Pianificazione del Tasso di Apprendimento: Pianificazione del tasso di apprendimento coseno trapezoidale
  • Funzione di Perdita: Perdita di entropia incrociata
  • Pre-addestramento: Classificazione ImageNet → Segmentazione Cityscapes → Fine-tuning BDD100K

Risultati Sperimentali

Risultati Principali

  1. Miglioramenti Significativi delle Prestazioni:
    • Con latenza di andata e ritorno di 100ms, migliora di 6,4 mIoU rispetto all'inferenza puramente locale
    • Migliora di 9,8 mIoU rispetto all'inferenza remota
    • Supera il baseline più forte per tutte le latenze realistiche superiori a 33ms
  2. Robustezza alla Latenza:
    • Maggiore è la latenza, più evidente è il vantaggio di Dedelayed
    • Prestazioni migliori in scene ad alto movimento
    • L'inferenza distribuita con mitigazione della latenza mantiene più efficacemente la precisione

Esperimenti di Ablazione

Gli esperimenti convalidano il contributo di ogni componente:

  • Remote video vs Remote image: L'utilizzo solo del contesto di fotogrammi storici non è sufficiente per migliorare le prestazioni
  • Remote predictive vs Remote video: L'addestramento di previsione temporale migliora significativamente la robustezza alla latenza
  • Local + remote predictive vs Remote predictive: La fusione di informazioni locali migliora ulteriormente le prestazioni

Analisi del Jitter di Latenza

  • Il modello mantiene buone prestazioni quando l'input di latenza non corrisponde alla latenza osservata
  • Quando la latenza osservata supera l'input di latenza, il degrado delle prestazioni è più graduale
  • Mantiene il vantaggio anche in reti con alto jitter (σ=15ms)

Adattabilità della Risoluzione

Il modello locale assistito da remoto può funzionare a risoluzioni inferiori senza perdita di precisione, dimostrando l'efficienza delle risorse del sistema.

Lavori Correlati

Ricerca su Architetture Leggere

Lavori esistenti come EfficientViT e MobileNetV4 si concentrano sulla minimizzazione del calcolo per ottenere prestazioni in tempo reale su dispositivi, ma sono limitati dal consumo energetico e dalla capacità computazionale dei dispositivi.

Metodi di Calcolo Distribuito

  • MPEG AI e JPEG AI: Si concentrano sulla riduzione della larghezza di banda, mancano di meccanismi di compensazione della latenza
  • Clockwork Convnets: Riutilizzano caratteristiche obsolete per ridurre la latenza, ma hanno capacità di inferenza temporale limitata
  • Accel: Utilizza trasformazione in avanti del flusso ottico per caratteristiche di modello pesante, ma non applicabile alle operazioni di rete
  • Knowledge Boosting: Più correlato al presente lavoro, ma assume latenza fissa

Vantaggi di questo Lavoro

Rispetto ai lavori correlati, Dedelayed si generalizza a latenze più lunghe e variabili attraverso il condizionamento della latenza regolabile, mantenendo al contempo semplicità di progettazione e riutilizzabilità.

Conclusioni e Discussione

Conclusioni Principali

  1. Dedelayed risolve con successo la sfida centrale del calcolo remoto nei sistemi in tempo reale: il problema della previsione obsoleta causata dalla latenza di rete
  2. Elevando la latenza a variabile di primo ordine, il sistema supera i baseline forti in condizioni di rete realistiche
  3. Il framework è applicabile a un ampio spettro di problemi in tempo reale, rendendo i sistemi intelligenti sia accurati che affidabili e tempestivi

Limitazioni

  1. Assunzione di Latenza Fissa: L'implementazione attuale è principalmente orientata a latenze relativamente stabili, con adattabilità limitata a jitter estremo
  2. Overhead Computazionale: Sebbene il modello locale sia leggero, richiede comunque calcolo di fusione aggiuntivo
  3. Limitazioni del Dataset: Principalmente convalidato su scenari di guida, la generalizzazione ad altri domini rimane da verificare
  4. Dipendenza dalla Rete: Completamente dipendente dalla connettività di rete, può fare affidamento solo sul modello locale in caso di interruzione di rete

Direzioni Future

Le future ricerche proposte nell'articolo includono:

  1. Studio di distribuzioni di latenza variabili e casuali
  2. Gestione di dati ad alto movimento
  3. Sviluppo di modelli locali più leggeri
  4. Esplorazione delle capacità di previsione futura locale

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta un problema critico nel calcolo edge, con significativo valore pratico
  2. Innovazione del Metodo: La combinazione di embedding di latenza e addestramento di previsione temporale è innovativa
  3. Completezza Sperimentale: Esperimenti di ablazione completi e analisi del jitter di latenza
  4. Forte Praticità: Strategia di fusione semplice basata su modelli esistenti, facile da distribuire
  5. Fondamento Teorico: Ispirato dal sistema visivo umano, con razionalità biologica

Insufficienze

  1. Portata di Valutazione Limitata: Convalidato solo su compiti di segmentazione semantica, mancano verifiche su altri compiti
  2. Intervallo di Latenza: La latenza massima di 165ms potrebbe non coprire tutti gli scenari pratici
  3. Analisi Insufficiente dei Costi Computazionali: Manca analisi dettagliata dei costi computazionali e di comunicazione
  4. Confronto con Più Baseline: Potrebbe confrontarsi con più metodi di calcolo edge recenti

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per l'inferenza cooperativa edge-cloud
  2. Valore Pratico: Ha potenziale di applicazione diretta in guida autonoma, robotica e altri campi
  3. Riproducibilità: Fornisce codice di implementazione dettagliato, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Guida Autonoma: I sistemi di bordo richiedono percezione ambientale in tempo reale e accurata
  2. Robot Mobili: La navigazione e l'evitamento di ostacoli richiedono risposte a bassa latenza
  3. Applicazioni AR/VR: Comprensione e rendering di scene in tempo reale
  4. Videosorveglianza: Rilevamento e tracciamento di target in tempo reale

Bibliografia

L'articolo cita importanti lavori nei campi correlati, inclusi:

  • Serie di modelli leggeri EfficientViT
  • Dataset BDD100K e Cityscapes
  • Ricerca su calcolo edge e inferenza distribuita
  • Ricerca biologica sul sistema visivo umano

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta problemi pratici. Il framework Dedelayed proposto ha valore significativo sia in teoria che in pratica. Il metodo è semplice ed efficace, la verifica sperimentale è completa, fornendo contributi preziosi al campo dell'inferenza cooperativa edge-cloud. Sebbene ci sia spazio per miglioramenti nella portata di valutazione e nella capacità di gestione della latenza, nel complesso è un lavoro di ricerca significativo e meritevole.