2025-11-14T06:07:11.042630

Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework

Li, Wang, Liu et al.
Recent works have combined monocular event camera and inertial measurement unit to estimate the $SE(3)$ trajectory. However, the asynchronicity of event cameras brings a great challenge to conventional fusion algorithms. In this paper, we present an asynchronous event-inertial odometry under a unified Gaussian Process (GP) regression framework to naturally fuse asynchronous data associations and inertial measurements. A GP latent variable model is leveraged to build data-driven motion prior and acquire the analytical integration capacity. Then, asynchronous event-based feature associations and integral pseudo measurements are tightly coupled using the same GP framework. Subsequently, this fusion estimation problem is solved by underlying factor graph in a sliding-window manner. With consideration of sparsity, those historical states are marginalized orderly. A twin system is also designed for comparison, where the traditional inertial preintegration scheme is embedded in the GP-based framework to replace the GP latent variable model. Evaluations on public event-inertial datasets demonstrate the validity of both systems. Comparison experiments show competitive precision compared to the state-of-the-art synchronous scheme.
academic

Odometria Asincrona Event-Inerziale Utilizzando un Framework Unificato di Regressione Gaussiana

Informazioni Fondamentali

  • ID Articolo: 2412.03136
  • Titolo: Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework
  • Autori: Xudong Li, Zhixiang Wang, Zihao Liu, Yizhai Zhang, Fan Zhang, Xiuming Yao, Panfeng Huang
  • Classificazione: cs.RO (Robotica)
  • Data di Pubblicazione: 4 dicembre 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2412.03136

Riassunto

Questo articolo propone un metodo di odometria event-inerziale asincrona basato su un framework unificato di regressione gaussiana (GP) per fondere naturalmente le associazioni di dati asincrone e le misurazioni inerziali. Il metodo utilizza un modello di variabili latenti GP per costruire priori di movimento guidati dai dati e ottenere capacità di integrazione analitica, quindi accoppia strettamente l'associazione di caratteristiche event asincrone e le pseudo-misurazioni integrate all'interno dello stesso framework GP. Il problema di stima fusionato viene risolto attraverso l'ottimizzazione di grafi fattoriali con finestra scorrevole, considerando la sparsità per la marginalizzazione ordinata degli stati storici. Gli autori hanno inoltre progettato un sistema comparativo che incorpora lo schema tradizionale di preintegrazione inerziale nel framework GP. La valutazione su dataset pubblici event-inerziali dimostra l'efficacia di entrambi i sistemi, con esperimenti comparativi che mostrano precisione paragonabile ai metodi sincroni all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le telecamere event, come sensori visivi ispirati biologicamente, possiedono un meccanismo di attivazione asincrono che registra indipendentemente i cambiamenti di intensità luminosa a livello di pixel. Questo meccanismo speciale conferisce alle telecamere event vantaggi significativi rispetto alle telecamere tradizionali: basso consumo energetico, bassa latenza, ampio intervallo dinamico e alta risoluzione temporale. Tuttavia, l'asincronia delle telecamere event presenta sfide enormi agli algoritmi di fusione tradizionali.

Limitazioni dei Metodi Esistenti

  1. Schemi discreti a frame: accumulano gli eventi in finestre temporali fisse, perdendo la diversità temporale degli eventi, causando sfocatura di movimento e richiedendo operazioni di desfocatura aggiuntive
  2. Preintegrazione IMU tradizionale: applicata all'interno di framework a tempo discreto, scartando numerose misurazioni temporali interframe e perdendo informazioni di movimento a grana fine
  3. Efficienza computazionale: i metodi GP esistenti utilizzano tipicamente backend di smoothing completo, con costi computazionali elevati

Motivazione della Ricerca

Per sfruttare pienamente le caratteristiche di alta risoluzione temporale delle telecamere event, è urgente introdurre nuovi metodi per fondere osservazioni event-inerziali asincrone e ad alta risoluzione temporale. Questo articolo si concentra sulla questione della modalità di fusione delle misurazioni asincrone, proponendo una soluzione basata su un framework GP unificato.

Contributi Principali

  1. Framework GP Unificato: propone un framework unificato di regressione gaussiana che può gestire naturalmente la fusione dell'associazione di caratteristiche event asincrone e delle misurazioni inerziali
  2. Modello di Variabili Latenti GP: introduce un modello di variabili latenti nel framework di regressione GP per integrare analiticamente le misurazioni inerziali e indurre implicitamente un GP guidato dai dati
  3. Progettazione Dual-System: implementa due modalità di fusione comparative:
    • CT-IMU: priore GP sparso + preintegrazione IMU
    • GP-IMU: preintegrazione regressione GP
  4. Finestra Scorrevole Efficiente: adotta l'ottimizzazione di grafi fattoriali con finestra scorrevole, mantenendo l'efficienza computazionale attraverso strategie di marginalizzazione
  5. Elaborazione Completamente Asincrona: utilizza EKLT per rilevamento e tracciamento di caratteristiche guidati dagli eventi, preservando la caratteristica di alta risoluzione temporale della telecamera event

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: flusso di eventi asincrono e dati di misurazione IMU Output: stima della traiettoria SE(3) (inclusi posizione, orientamento e velocità) Vincoli: gestire l'associazione di dati asincroni, mantenere l'efficienza computazionale

Architettura del Modello

1. Priore GP Sparso

Adotta un priore di movimento con accelerazione rumore bianco (WNOA) per modellare SE(3):

Ṫwb(t) = Twb(t)ϖbwb(t)∧
ϖ̇bwb(t) = w(t), w(t) ∼ GP(0,Qcδ(t-t'))

dove ϖbwb(t) è la velocità nel sistema di coordinate del corpo e w(t) è il vettore di accelerazione generalizzata modellato come GP di rumore bianco a media zero.

2. Preintegrazione Regressione GP

Modella l'accelerazione relativa e la velocità del vettore di rotazione come GP indipendenti:

ṙbkb(t) ∼ GP(0,kr(t,t'))
abbk(t) ∼ GP(0,ka(t,t'))

Ottiene osservazioni rumorose del GP attraverso stati latenti ρ̂ e α̂, quindi utilizza la capacità di inferenza del GP per calcolare velocità preintegrata, posizione e incrementi di rotazione.

3. Architettura del Sistema

L'intero sistema contiene due thread paralleli:

  • Frontend di tracciamento caratteristiche asincrono: utilizza EKLT per rilevamento e tracciamento di caratteristiche guidati dagli eventi
  • Backend con finestra scorrevole basato su GP: gestisce la gestione delle caratteristiche, la triangolazione e l'ottimizzazione del grafo fattoriale

Punti di Innovazione Tecnica

1. Progettazione del Framework Unificato

Entrambi i metodi funzionano all'interno dello stesso framework GP, ma gestiscono i dati IMU in modo diverso:

  • CT-IMU: interroga gli stati sulla traiettoria a tempo continuo, fonde separatamente le misurazioni IMU
  • GP-IMU: dipende dalle misurazioni IMU per l'inferenza dello stato, riducendo i vincoli del priore di traiettoria

2. Fattore di Proiezione Interpolata

Ottiene la posa Twbτ al momento della misurazione tτ attraverso interpolazione GP, con l'errore residuo visivo definito come:

rV(Twbτ, li, ẑi) = ẑi - (1/di)K(TwbτTbτcτ)T li

3. Ottimizzazione con Finestra Scorrevole

Adotta una strategia di marginalizzazione dinamica, dando priorità alla marginalizzazione degli stati più recenti e dei punti di riferimento correlati, mantenendo la struttura sparsa della matrice Hessiana.

Configurazione Sperimentale

Dataset

  • Dataset DAVIS: utilizza dati di movimento aggressivo registrati con DAVIS240C (240×180) in più scene
  • Dataset MVSEC: utilizza dati della telecamera event sinistra (DAVIS 346B, 346×260)

Metriche di Valutazione

  • RMS RTE: errore relativo di traiettoria quadratico medio, per valutare la precisione
  • Tempo di calcolo: consumo di tempo medio di ciascun modulo
  • Scala del grafo fattoriale: indicatore di complessità del problema di ottimizzazione

Metodi Comparativi

  • Vidal et al. 3 (configurazione E+I)
  • Metodo event-inerziale di Guan & Lu 4
  • Confronto interno tra i due metodi proposti

Dettagli di Implementazione

  • Condizione di disparità: 8 pixel
  • Traccia di caratteristiche minima: 4
  • Numero di stati latenti GP-IMU: 400
  • Dimensione minima finestra scorrevole: 40
  • Intervallo temporale tra stati: 0,05 secondi

Risultati Sperimentali

Risultati Principali

SequenzaCT-IMUGP-IMURif.4Rif.3
dynamic translation0.0300.0600.0560.037
dynamic 6dof0.0760.0560.0730.040
poster translation0.0870.0820.2420.087
poster 6dof0.1560.0840.2100.197
boxes 6dof0.3470.1510.0730.078
shapes 6dof0.1080.244---0.163

Analisi delle Prestazioni

  1. Prestazioni di Precisione: entrambi i metodi mostrano precisione paragonabile ai metodi di ottimizzazione discreta sulla maggior parte delle sequenze, con prestazioni superiori su alcune sequenze
  2. Efficienza Computazionale: GP-IMU, avendo meno variabili, generalmente ha costi computazionali inferiori
  3. Robustezza: GP-IMU è più sensibile al rumore IMU, poiché dipende dal GP guidato da IMU per costruire i residui visivi

Analisi del Consumo di Tempo

MetodoFrontendOttimizzazioneMarginalizzazionePreintegrazione IMUAltro
CT-IMU(s)1273.97247.8343.9510.1770.743
GP-IMU(s)1274.51182.0544.9144.7130.693

Il tracker EKLT occupa circa l'80% del tempo totale, rappresentando la parte più dispendiosa. GP-IMU è più veloce nell'ottimizzazione del grafo, ma leggermente più lento nella preintegrazione IMU.

Lavori Correlati

Classificazione dell'Odometria Event-Inerziale

  1. Schemi discreti a frame: ereditano algoritmi di telecamere frame tradizionali, eseguendo associazione di dati su accumuli di eventi
  2. Metodi event-driven a tempo continuo: elaborano direttamente il flusso di eventi, adottando backend a tempo continuo

Applicazioni dei Processi Gaussiani in Robotica

I metodi di rappresentazione a tempo continuo con GP sono stati utilizzati inizialmente per l'inferenza di traiettorie di movimento da scanner laser e sensori non sincroni. Ricerche recenti hanno applicato i GP ai sistemi di odometria visiva monoculare event, ma presentano problemi di costi computazionali elevati.

Conclusioni e Discussione

Conclusioni Principali

  1. Entrambi i metodi GP proposti possono gestire efficacemente il problema di fusione event-inerziale asincrona
  2. GP-IMU ha maggiore precisione sulla maggior parte delle sequenze, ma è più sensibile al rumore IMU
  3. La strategia di finestra scorrevole controlla efficacemente la complessità computazionale
  4. Il metodo mostra prestazioni competitive in scenari di movimento complesso

Limitazioni

  1. Problema di Tempo Reale: poiché il sistema conserva tutte le misurazioni asincrone del frontend per l'ottimizzazione, attualmente non può funzionare in tempo reale
  2. Robustezza Insufficiente: mancano meccanismi di esclusione di outlier o compensazione di movimento
  3. Dipendenza dalla Qualità IMU: il metodo GP-IMU richiede alta qualità dei dati IMU
  4. Limitazione di Movimento Aggressivo: entrambi i metodi potrebbero essere influenzati da cambiamenti di accelerazione drastici

Direzioni Future

  1. Strategie di sparsificazione del grafo basate sulla teoria dell'informazione per prestazioni in tempo reale
  2. Miglioramento del frontend per aumentare la robustezza del sistema
  3. Ottimizzazione dell'algoritmo per IMU di bassa qualità
  4. Estensione a modalità di movimento più complesse

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: il framework GP unificato risolve elegantemente il problema della fusione asincrona, con fondamenti teorici solidi
  2. Ricerca Sistematica: la progettazione dual-system fornisce un'analisi comparativa completa
  3. Esperimenti Completi: valutazione dettagliata su più dataset pubblici
  4. Implementazione Ingegneristica: l'implementazione basata su GTSAM garantisce la riproducibilità del metodo

Insufficienze

  1. Limitazione di Tempo Reale: attualmente non può soddisfare i requisiti di applicazioni in tempo reale, limitando il valore pratico
  2. Dipendenza dal Frontend: eccessiva dipendenza dal frontend EKLT, mancanza di gestione di casi anomali
  3. Ambito di Applicabilità: presenta limitazioni sulla qualità IMU e sui tipi di movimento
  4. Analisi Teorica Insufficiente: manca un'analisi approfondita delle differenze teoriche tra i due metodi

Impatto

  1. Valore Accademico: fornisce un nuovo framework teorico per la fusione di telecamere event e inerziale
  2. Potenziale Pratico: dopo la risoluzione dei problemi di tempo reale, promette applicazioni in navigazione robotica e campi correlati
  3. Scalabilità: il framework ha buona estensibilità, adattabile a scenari di fusione di altri sensori

Scenari Applicabili

  1. Ambienti ad Alta Dinamica: adatto a scenari di movimento ad alta velocità difficili da gestire per telecamere tradizionali
  2. Risorse Computazionali Sufficienti: adatto ad applicazioni con elevati requisiti di precisione e risorse computazionali relativamente abbondanti
  3. Piattaforme di Ricerca: fornisce un metodo di riferimento prezioso per la ricerca su telecamere event

Riferimenti Bibliografici

L'articolo cita 26 articoli correlati, coprendo in modo completo e autorevole lavori importanti in aree chiave come rassegne su telecamere event, preintegrazione IMU, stima a tempo continuo e regressione gaussiana.


Valutazione Complessiva: questo è un lavoro innovativo nel campo dell'odometria event-inerziale, il cui framework GP unificato proposto fornisce nuove prospettive per affrontare la fusione di sensori asincroni. Sebbene presenti limitazioni come i problemi di tempo reale, i contributi teorici sono significativi e la valutazione sperimentale è completa, fornendo una base solida per la ricerca successiva in questo campo.