2025-11-14T06:07:11.042630

Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework

Li, Wang, Liu et al.

Recent works have combined monocular event camera and inertial measurement unit to estimate the $SE(3)$ trajectory. However, the asynchronicity of event cameras brings a great challenge to conventional fusion algorithms. In this paper, we present an asynchronous event-inertial odometry under a unified Gaussian Process (GP) regression framework to naturally fuse asynchronous data associations and inertial measurements. A GP latent variable model is leveraged to build data-driven motion prior and acquire the analytical integration capacity. Then, asynchronous event-based feature associations and integral pseudo measurements are tightly coupled using the same GP framework. Subsequently, this fusion estimation problem is solved by underlying factor graph in a sliding-window manner. With consideration of sparsity, those historical states are marginalized orderly. A twin system is also designed for comparison, where the traditional inertial preintegration scheme is embedded in the GP-based framework to replace the GP latent variable model. Evaluations on public event-inertial datasets demonstrate the validity of both systems. Comparison experiments show competitive precision compared to the state-of-the-art synchronous scheme.

academic

Odomètrie Asynchrone Événement-Inertielle utilisant un Cadre Unifié de Régression par Processus Gaussien

Informations Fondamentales

ID de l'article : 2412.03136
Titre : Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework
Auteurs : Xudong Li, Zhixiang Wang, Zihao Liu, Yizhai Zhang, Fan Zhang, Xiuming Yao, Panfeng Huang
Classification : cs.RO (Robotique)
Date de publication : 4 décembre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2412.03136

Résumé

Cet article propose une méthode d'odomètrie asynchrone événement-inertielle basée sur un cadre unifié de régression par processus gaussien (PG), permettant une fusion naturelle de l'association de données asynchrones et des mesures inertielles. La méthode utilise un modèle de variable latente PG pour construire un a priori de mouvement piloté par les données et obtenir des capacités d'intégration analytique, puis couple étroitement l'association de caractéristiques événementielles asynchrones et les pseudo-mesures intégrées dans le même cadre PG. Le problème d'estimation fusionnée est résolu via un graphe de facteurs à fenêtre glissante, avec marginalisation ordonnée des états historiques en tenant compte de la parcimonie. Les auteurs conçoivent également un système de comparaison intégrant le schéma traditionnel de préintégration inertielle dans le cadre PG. L'évaluation sur des ensembles de données événement-inertiel publics démontre l'efficacité des deux systèmes, les expériences comparatives montrant une précision comparable aux approches synchrones de pointe.

Contexte de Recherche et Motivation

Définition du Problème

Les caméras événementielles, en tant que capteurs visuels inspirés biologiquement, possèdent un mécanisme de déclenchement asynchrone, enregistrant indépendamment les changements d'intensité lumineuse au niveau de chaque pixel. Ce mécanisme particulier confère aux caméras événementielles des avantages significatifs par rapport aux caméras traditionnelles : faible consommation d'énergie, faible latence, plage dynamique élevée et résolution temporelle élevée. Cependant, l'asynchronicité des caméras événementielles pose des défis considérables aux algorithmes de fusion traditionnels.

Limitations des Méthodes Existantes

Schémas discrets en temps discrétisé : accumulent les événements dans des fenêtres temporelles fixes, perdant la diversité temporelle des événements, entraînant un flou de mouvement et nécessitant des opérations de défloutage supplémentaires
Préintégration IMU traditionnelle : appliquée dans un cadre temporel discret, de nombreuses mesures temporelles inter-images sont perdues, entraînant une perte d'informations de mouvement à grain fin
Efficacité computationnelle : les méthodes PG existantes utilisent généralement un lisseur complet coûteux en calcul

Motivation de la Recherche

Pour exploiter pleinement les caractéristiques de résolution temporelle élevée des caméras événementielles, il est impératif d'introduire de nouvelles méthodes pour fusionner les observations événement-inertielle asynchrones et à haute résolution temporelle. Cet article se concentre sur la question de la fusion de mesures asynchrones, proposant une solution basée sur un cadre PG unifié.

Contributions Principales

Cadre PG Unifié : propose un cadre unifié de régression par processus gaussien capable de traiter naturellement la fusion de l'association de caractéristiques événementielles asynchrones et des mesures inertielles
Modèle de Variable Latente PG : introduit un modèle de variable latente dans le cadre de régression PG pour intégrer analytiquement les mesures inertielles et induire implicitement un PG piloté par les données
Conception Duale : implémente deux approches de fusion comparatives :
- CT-IMU : a priori PG clairsemé + préintégration IMU
- GP-IMU : préintégration par régression PG
Fenêtre Glissante Efficace : adopte l'optimisation par graphe de facteurs à fenêtre glissante, maintenant l'efficacité computationnelle via des stratégies de marginalisation
Traitement Entièrement Asynchrone : utilise EKLT pour la détection et le suivi de caractéristiques pilotés par événements, préservant la résolution temporelle élevée de la caméra événementielle

Détails de la Méthode

Définition de la Tâche

Entrée : flux d'événements asynchrones et données de mesure IMU Sortie : estimation de trajectoire SE(3) (incluant position, orientation et vitesse) Contraintes : traiter l'association de données asynchrones, maintenir l'efficacité computationnelle

Architecture du Modèle

1. A Priori PG Clairsemé

Adopte un a priori de mouvement d'accélération bruit blanc (WNOA) pour modéliser SE(3) :

Ṫwb(t) = Twb(t)ϖbwb(t)∧
ϖ̇bwb(t) = w(t), w(t) ∼ PG(0,Qcδ(t-t'))

où ϖbwb(t) est la vitesse en coordonnées du corps, et w(t) est le vecteur d'accélération généralisée modélisé comme un PG de bruit blanc de moyenne nulle.

2. Préintégration par Régression PG

Modélise l'accélération relative et la vitesse du vecteur de rotation comme des PG indépendants :

ṙbkb(t) ∼ PG(0,kr(t,t'))
abbk(t) ∼ PG(0,ka(t,t'))

Obtient les observations bruitées du PG via les états latents ρ̂ et α̂, puis utilise les capacités d'inférence du PG pour calculer la vitesse préintégrée, la position et les incréments de rotation.

3. Architecture du Système

Le système complet contient deux threads parallèles :

Frontend de suivi de caractéristiques asynchrone : utilise EKLT pour la détection et le suivi de caractéristiques pilotés par événements
Backend à fenêtre glissante basé sur PG : traite la gestion des caractéristiques, la triangulation et l'optimisation du graphe de facteurs

Points d'Innovation Technique

1. Conception du Cadre Unifié

Les deux méthodes fonctionnent dans le même cadre PG, mais traitent les données IMU différemment :

CT-IMU : interroge les états sur la trajectoire en temps continu, fusionne séparément les mesures IMU
GP-IMU : dépend des mesures IMU pour l'inférence d'état, réduisant les contraintes d'a priori de trajectoire

2. Facteur de Projection Interpolée

Obtient la pose Twbτ au moment de mesure tτ via interpolation PG, l'erreur résiduelle visuelle étant définie comme :

rV(Twbτ, li, ẑi) = ẑi - (1/di)K(TwbτTbτcτ)T li

3. Optimisation à Fenêtre Glissante

Adopte une stratégie de marginalisation dynamique, marginalisant en priorité les états les plus récents et les points de repère associés, maintenant la structure creuse de la matrice Hessienne.

Configuration Expérimentale

Ensembles de Données

Ensemble de données DAVIS : utilise les données de mouvement agressif enregistrées par DAVIS240C (240×180) dans plusieurs scènes
Ensemble de données MVSEC : utilise les données de la caméra événementielle gauche (DAVIS 346B, 346×260)

Métriques d'Évaluation

RMS RTE : erreur de trajectoire relative quadratique moyenne, pour évaluer la précision
Temps de calcul : consommation de temps moyenne des modules
Taille du graphe de facteurs : indicateur de complexité du problème d'optimisation

Méthodes de Comparaison

Vidal et al. 3 (configuration E+I)
Méthode événement-inertielle de Guan & Lu 4
Comparaison interne des deux méthodes proposées

Détails d'Implémentation

Condition de disparité : 8 pixels
Longueur minimale de trajectoire de caractéristique : 4
Nombre d'états latents GP-IMU : 400
Taille minimale de fenêtre glissante : 40
Intervalle de temps entre états : 0,05 seconde

Résultats Expérimentaux

Résultats Principaux

Séquence	CT-IMU	GP-IMU	Réf.4	Réf.3
dynamic translation	0.030	0.060	0.056	0.037
dynamic 6dof	0.076	0.056	0.073	0.040
poster translation	0.087	0.082	0.242	0.087
poster 6dof	0.156	0.084	0.210	0.197
boxes 6dof	0.347	0.151	0.073	0.078
shapes 6dof	0.108	0.244	---	0.163

Analyse de Performance

Performance de Précision : les deux méthodes démontrent une précision comparable aux méthodes d'optimisation discrètes sur la plupart des séquences, surpassant certaines séquences
Efficacité Computationnelle : GP-IMU possède généralement un coût computationnel inférieur en raison de moins de variables
Robustesse : GP-IMU est plus sensible au bruit IMU, car il dépend du PG piloté par IMU pour construire les résidus visuels

Analyse de la Consommation de Temps

Méthode	Frontend	Optimisation	Marginalisation	Préintégration IMU	Autres
CT-IMU(s)	1273.97	247.834	3.951	0.177	0.743
GP-IMU(s)	1274.51	182.054	4.914	4.713	0.693

Le suivi EKLT consomme environ 80% du temps total, constituant la partie la plus coûteuse. GP-IMU est plus rapide en optimisation graphique, mais la préintégration IMU est légèrement plus lente.

Travaux Connexes

Classification de l'Odomètrie Événement-Inertielle

Schémas discrets en temps discrétisé : héritent des algorithmes de caméra à images traditionnels, effectuant l'association de données sur l'accumulation d'événements
Méthodes événement-pilotées en temps continu : traitent directement le flux d'événements, adoptant un backend en temps continu

Applications du Processus Gaussien en Robotique

Les représentations en temps continu par PG ont été utilisées précocement pour l'inférence de trajectoire de mouvement avec LIDAR de balayage et capteurs non synchronisés. Les recherches récentes appliquent le PG aux systèmes d'odomètrie visuelle événementielle monoculaire, mais rencontrent des problèmes de coût computationnel élevé.

Conclusions et Discussion

Conclusions Principales

Les deux méthodes PG proposées traitent efficacement le problème de fusion événement-inertielle asynchrone
GP-IMU atteint une précision supérieure sur la plupart des séquences, mais est plus sensible au bruit IMU
La stratégie de fenêtre glissante contrôle efficacement la complexité computationnelle
La méthode démontre des performances compétitives dans les scènes de mouvement complexe

Limitations

Problème de Temps Réel : en raison de la conservation de toutes les mesures asynchrones du frontend pour l'optimisation, le système ne peut actuellement pas fonctionner en temps réel
Robustesse Insuffisante : manque de mécanismes d'exclusion des valeurs aberrantes ou de compensation de mouvement
Dépendance à la Qualité IMU : la méthode GP-IMU exige une qualité de données IMU élevée
Limitation de Mouvement Agressif : les deux méthodes peuvent être affectées lors de changements d'accélération abruptes

Directions Futures

Stratégies d'élagage de graphe basées sur la théorie de l'information pour réaliser les performances en temps réel
Amélioration du frontend pour augmenter la robustesse du système
Optimisation d'algorithme pour les IMU de faible qualité
Extension à des modes de mouvement plus complexes

Évaluation Approfondie

Avantages

Innovation Théorique : le cadre PG unifié résout élégamment le problème de fusion asynchrone avec une base théorique solide
Recherche Systématique : la conception duale fournit une analyse comparative complète
Expérimentation Complète : évaluation détaillée sur plusieurs ensembles de données publics
Implémentation Ingénierie : l'implémentation basée sur GTSAM assure la reproductibilité de la méthode

Insuffisances

Limitation de Temps Réel : incapacité actuelle à satisfaire les exigences d'application en temps réel, limitant la valeur pratique
Dépendance du Frontend : dépendance excessive du frontend EKLT, manque de traitement des cas exceptionnels
Portée d'Application : certaines limitations concernant la qualité IMU et les types de mouvement
Analyse Théorique Insuffisante : manque d'analyse approfondie des différences théoriques entre les deux méthodes

Impact

Valeur Académique : fournit un nouveau cadre théorique pour la fusion de caméra événementielle et inertielle
Potentiel Pratique : après résolution des problèmes de temps réel, prometteur pour les applications en navigation robotique
Extensibilité : le cadre possède une bonne extensibilité, adaptable à d'autres scénarios de fusion de capteurs

Scénarios d'Application

Environnements Hautement Dynamiques : adapté aux scènes de mouvement rapide difficiles à traiter par les caméras traditionnelles
Ressources Computationnelles Suffisantes : adapté aux applications exigeant une haute précision avec ressources computationnelles relativement abondantes
Plateforme de Recherche : fournit une méthode de référence précieuse pour la recherche sur les caméras événementielles

Références

Cet article cite 27 travaux connexes, couvrant des domaines clés incluant les synthèses sur les caméras événementielles, la préintégration IMU, l'estimation en temps continu, la régression par processus gaussien, etc. Les citations sont complètes et faisant autorité.

Évaluation Globale : Il s'agit d'un travail innovant dans le domaine de l'odomètrie événement-inertielle, proposant un cadre PG unifié offrant une nouvelle perspective pour traiter la fusion de capteurs asynchrones. Bien que présentant des limitations telles que les problèmes de temps réel, les contributions théoriques sont significatives, l'évaluation expérimentale est complète, et le travail établit une base solide pour les recherches futures dans ce domaine.