2025-11-14T06:07:11.042630

Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework

Li, Wang, Liu et al.

Recent works have combined monocular event camera and inertial measurement unit to estimate the $SE(3)$ trajectory. However, the asynchronicity of event cameras brings a great challenge to conventional fusion algorithms. In this paper, we present an asynchronous event-inertial odometry under a unified Gaussian Process (GP) regression framework to naturally fuse asynchronous data associations and inertial measurements. A GP latent variable model is leveraged to build data-driven motion prior and acquire the analytical integration capacity. Then, asynchronous event-based feature associations and integral pseudo measurements are tightly coupled using the same GP framework. Subsequently, this fusion estimation problem is solved by underlying factor graph in a sliding-window manner. With consideration of sparsity, those historical states are marginalized orderly. A twin system is also designed for comparison, where the traditional inertial preintegration scheme is embedded in the GP-based framework to replace the GP latent variable model. Evaluations on public event-inertial datasets demonstrate the validity of both systems. Comparison experiments show competitive precision compared to the state-of-the-art synchronous scheme.

academic

Odometria Asincrona Event-Inerziale Utilizzando un Framework Unificato di Regressione Gaussiana

Informazioni Fondamentali

ID Articolo: 2412.03136
Titolo: Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework
Autori: Xudong Li, Zhixiang Wang, Zihao Liu, Yizhai Zhang, Fan Zhang, Xiuming Yao, Panfeng Huang
Classificazione: cs.RO (Robotica)
Data di Pubblicazione: 4 dicembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2412.03136

Riassunto

Questo articolo propone un metodo di odometria event-inerziale asincrona basato su un framework unificato di regressione gaussiana (GP) per fondere naturalmente le associazioni di dati asincrone e le misurazioni inerziali. Il metodo utilizza un modello di variabili latenti GP per costruire priori di movimento guidati dai dati e ottenere capacità di integrazione analitica, quindi accoppia strettamente l'associazione di caratteristiche event asincrone e le pseudo-misurazioni integrate all'interno dello stesso framework GP. Il problema di stima fusionato viene risolto attraverso l'ottimizzazione di grafi fattoriali con finestra scorrevole, considerando la sparsità per la marginalizzazione ordinata degli stati storici. Gli autori hanno inoltre progettato un sistema comparativo che incorpora lo schema tradizionale di preintegrazione inerziale nel framework GP. La valutazione su dataset pubblici event-inerziali dimostra l'efficacia di entrambi i sistemi, con esperimenti comparativi che mostrano precisione paragonabile ai metodi sincroni all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le telecamere event, come sensori visivi ispirati biologicamente, possiedono un meccanismo di attivazione asincrono che registra indipendentemente i cambiamenti di intensità luminosa a livello di pixel. Questo meccanismo speciale conferisce alle telecamere event vantaggi significativi rispetto alle telecamere tradizionali: basso consumo energetico, bassa latenza, ampio intervallo dinamico e alta risoluzione temporale. Tuttavia, l'asincronia delle telecamere event presenta sfide enormi agli algoritmi di fusione tradizionali.

Limitazioni dei Metodi Esistenti

Schemi discreti a frame: accumulano gli eventi in finestre temporali fisse, perdendo la diversità temporale degli eventi, causando sfocatura di movimento e richiedendo operazioni di desfocatura aggiuntive
Preintegrazione IMU tradizionale: applicata all'interno di framework a tempo discreto, scartando numerose misurazioni temporali interframe e perdendo informazioni di movimento a grana fine
Efficienza computazionale: i metodi GP esistenti utilizzano tipicamente backend di smoothing completo, con costi computazionali elevati

Motivazione della Ricerca

Per sfruttare pienamente le caratteristiche di alta risoluzione temporale delle telecamere event, è urgente introdurre nuovi metodi per fondere osservazioni event-inerziali asincrone e ad alta risoluzione temporale. Questo articolo si concentra sulla questione della modalità di fusione delle misurazioni asincrone, proponendo una soluzione basata su un framework GP unificato.

Contributi Principali

Framework GP Unificato: propone un framework unificato di regressione gaussiana che può gestire naturalmente la fusione dell'associazione di caratteristiche event asincrone e delle misurazioni inerziali
Modello di Variabili Latenti GP: introduce un modello di variabili latenti nel framework di regressione GP per integrare analiticamente le misurazioni inerziali e indurre implicitamente un GP guidato dai dati
Progettazione Dual-System: implementa due modalità di fusione comparative:
- CT-IMU: priore GP sparso + preintegrazione IMU
- GP-IMU: preintegrazione regressione GP
Finestra Scorrevole Efficiente: adotta l'ottimizzazione di grafi fattoriali con finestra scorrevole, mantenendo l'efficienza computazionale attraverso strategie di marginalizzazione
Elaborazione Completamente Asincrona: utilizza EKLT per rilevamento e tracciamento di caratteristiche guidati dagli eventi, preservando la caratteristica di alta risoluzione temporale della telecamera event

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: flusso di eventi asincrono e dati di misurazione IMU Output: stima della traiettoria SE(3) (inclusi posizione, orientamento e velocità) Vincoli: gestire l'associazione di dati asincroni, mantenere l'efficienza computazionale

Architettura del Modello

1. Priore GP Sparso

Adotta un priore di movimento con accelerazione rumore bianco (WNOA) per modellare SE(3):

Ṫwb(t) = Twb(t)ϖbwb(t)∧
ϖ̇bwb(t) = w(t), w(t) ∼ GP(0,Qcδ(t-t'))

dove ϖbwb(t) è la velocità nel sistema di coordinate del corpo e w(t) è il vettore di accelerazione generalizzata modellato come GP di rumore bianco a media zero.

2. Preintegrazione Regressione GP

Modella l'accelerazione relativa e la velocità del vettore di rotazione come GP indipendenti:

ṙbkb(t) ∼ GP(0,kr(t,t'))
abbk(t) ∼ GP(0,ka(t,t'))

Ottiene osservazioni rumorose del GP attraverso stati latenti ρ̂ e α̂, quindi utilizza la capacità di inferenza del GP per calcolare velocità preintegrata, posizione e incrementi di rotazione.

3. Architettura del Sistema

L'intero sistema contiene due thread paralleli:

Frontend di tracciamento caratteristiche asincrono: utilizza EKLT per rilevamento e tracciamento di caratteristiche guidati dagli eventi
Backend con finestra scorrevole basato su GP: gestisce la gestione delle caratteristiche, la triangolazione e l'ottimizzazione del grafo fattoriale

Punti di Innovazione Tecnica

1. Progettazione del Framework Unificato

Entrambi i metodi funzionano all'interno dello stesso framework GP, ma gestiscono i dati IMU in modo diverso:

CT-IMU: interroga gli stati sulla traiettoria a tempo continuo, fonde separatamente le misurazioni IMU
GP-IMU: dipende dalle misurazioni IMU per l'inferenza dello stato, riducendo i vincoli del priore di traiettoria

2. Fattore di Proiezione Interpolata

Ottiene la posa Twbτ al momento della misurazione tτ attraverso interpolazione GP, con l'errore residuo visivo definito come:

rV(Twbτ, li, ẑi) = ẑi - (1/di)K(TwbτTbτcτ)T li

3. Ottimizzazione con Finestra Scorrevole

Adotta una strategia di marginalizzazione dinamica, dando priorità alla marginalizzazione degli stati più recenti e dei punti di riferimento correlati, mantenendo la struttura sparsa della matrice Hessiana.

Configurazione Sperimentale

Dataset

Dataset DAVIS: utilizza dati di movimento aggressivo registrati con DAVIS240C (240×180) in più scene
Dataset MVSEC: utilizza dati della telecamera event sinistra (DAVIS 346B, 346×260)

Metriche di Valutazione

RMS RTE: errore relativo di traiettoria quadratico medio, per valutare la precisione
Tempo di calcolo: consumo di tempo medio di ciascun modulo
Scala del grafo fattoriale: indicatore di complessità del problema di ottimizzazione

Metodi Comparativi

Vidal et al. 3 (configurazione E+I)
Metodo event-inerziale di Guan & Lu 4
Confronto interno tra i due metodi proposti

Dettagli di Implementazione

Condizione di disparità: 8 pixel
Traccia di caratteristiche minima: 4
Numero di stati latenti GP-IMU: 400
Dimensione minima finestra scorrevole: 40
Intervallo temporale tra stati: 0,05 secondi

Risultati Sperimentali

Risultati Principali

Sequenza	CT-IMU	GP-IMU	Rif.4	Rif.3
dynamic translation	0.030	0.060	0.056	0.037
dynamic 6dof	0.076	0.056	0.073	0.040
poster translation	0.087	0.082	0.242	0.087
poster 6dof	0.156	0.084	0.210	0.197
boxes 6dof	0.347	0.151	0.073	0.078
shapes 6dof	0.108	0.244	---	0.163

Analisi delle Prestazioni

Prestazioni di Precisione: entrambi i metodi mostrano precisione paragonabile ai metodi di ottimizzazione discreta sulla maggior parte delle sequenze, con prestazioni superiori su alcune sequenze
Efficienza Computazionale: GP-IMU, avendo meno variabili, generalmente ha costi computazionali inferiori
Robustezza: GP-IMU è più sensibile al rumore IMU, poiché dipende dal GP guidato da IMU per costruire i residui visivi

Analisi del Consumo di Tempo

Metodo	Frontend	Ottimizzazione	Marginalizzazione	Preintegrazione IMU	Altro
CT-IMU(s)	1273.97	247.834	3.951	0.177	0.743
GP-IMU(s)	1274.51	182.054	4.914	4.713	0.693

Il tracker EKLT occupa circa l'80% del tempo totale, rappresentando la parte più dispendiosa. GP-IMU è più veloce nell'ottimizzazione del grafo, ma leggermente più lento nella preintegrazione IMU.

Lavori Correlati

Classificazione dell'Odometria Event-Inerziale

Schemi discreti a frame: ereditano algoritmi di telecamere frame tradizionali, eseguendo associazione di dati su accumuli di eventi
Metodi event-driven a tempo continuo: elaborano direttamente il flusso di eventi, adottando backend a tempo continuo

Applicazioni dei Processi Gaussiani in Robotica

I metodi di rappresentazione a tempo continuo con GP sono stati utilizzati inizialmente per l'inferenza di traiettorie di movimento da scanner laser e sensori non sincroni. Ricerche recenti hanno applicato i GP ai sistemi di odometria visiva monoculare event, ma presentano problemi di costi computazionali elevati.

Conclusioni e Discussione

Conclusioni Principali

Entrambi i metodi GP proposti possono gestire efficacemente il problema di fusione event-inerziale asincrona
GP-IMU ha maggiore precisione sulla maggior parte delle sequenze, ma è più sensibile al rumore IMU
La strategia di finestra scorrevole controlla efficacemente la complessità computazionale
Il metodo mostra prestazioni competitive in scenari di movimento complesso

Limitazioni

Problema di Tempo Reale: poiché il sistema conserva tutte le misurazioni asincrone del frontend per l'ottimizzazione, attualmente non può funzionare in tempo reale
Robustezza Insufficiente: mancano meccanismi di esclusione di outlier o compensazione di movimento
Dipendenza dalla Qualità IMU: il metodo GP-IMU richiede alta qualità dei dati IMU
Limitazione di Movimento Aggressivo: entrambi i metodi potrebbero essere influenzati da cambiamenti di accelerazione drastici

Direzioni Future

Strategie di sparsificazione del grafo basate sulla teoria dell'informazione per prestazioni in tempo reale
Miglioramento del frontend per aumentare la robustezza del sistema
Ottimizzazione dell'algoritmo per IMU di bassa qualità
Estensione a modalità di movimento più complesse

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: il framework GP unificato risolve elegantemente il problema della fusione asincrona, con fondamenti teorici solidi
Ricerca Sistematica: la progettazione dual-system fornisce un'analisi comparativa completa
Esperimenti Completi: valutazione dettagliata su più dataset pubblici
Implementazione Ingegneristica: l'implementazione basata su GTSAM garantisce la riproducibilità del metodo

Insufficienze

Limitazione di Tempo Reale: attualmente non può soddisfare i requisiti di applicazioni in tempo reale, limitando il valore pratico
Dipendenza dal Frontend: eccessiva dipendenza dal frontend EKLT, mancanza di gestione di casi anomali
Ambito di Applicabilità: presenta limitazioni sulla qualità IMU e sui tipi di movimento
Analisi Teorica Insufficiente: manca un'analisi approfondita delle differenze teoriche tra i due metodi

Impatto

Valore Accademico: fornisce un nuovo framework teorico per la fusione di telecamere event e inerziale
Potenziale Pratico: dopo la risoluzione dei problemi di tempo reale, promette applicazioni in navigazione robotica e campi correlati
Scalabilità: il framework ha buona estensibilità, adattabile a scenari di fusione di altri sensori

Scenari Applicabili

Ambienti ad Alta Dinamica: adatto a scenari di movimento ad alta velocità difficili da gestire per telecamere tradizionali
Risorse Computazionali Sufficienti: adatto ad applicazioni con elevati requisiti di precisione e risorse computazionali relativamente abbondanti
Piattaforme di Ricerca: fornisce un metodo di riferimento prezioso per la ricerca su telecamere event

Riferimenti Bibliografici

L'articolo cita 26 articoli correlati, coprendo in modo completo e autorevole lavori importanti in aree chiave come rassegne su telecamere event, preintegrazione IMU, stima a tempo continuo e regressione gaussiana.

Valutazione Complessiva: questo è un lavoro innovativo nel campo dell'odometria event-inerziale, il cui framework GP unificato proposto fornisce nuove prospettive per affrontare la fusione di sensori asincroni. Sebbene presenti limitazioni come i problemi di tempo reale, i contributi teorici sono significativi e la valutazione sperimentale è completa, fornendo una base solida per la ricerca successiva in questo campo.