2025-11-14T06:07:11.042630

Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework

Li, Wang, Liu et al.
Recent works have combined monocular event camera and inertial measurement unit to estimate the $SE(3)$ trajectory. However, the asynchronicity of event cameras brings a great challenge to conventional fusion algorithms. In this paper, we present an asynchronous event-inertial odometry under a unified Gaussian Process (GP) regression framework to naturally fuse asynchronous data associations and inertial measurements. A GP latent variable model is leveraged to build data-driven motion prior and acquire the analytical integration capacity. Then, asynchronous event-based feature associations and integral pseudo measurements are tightly coupled using the same GP framework. Subsequently, this fusion estimation problem is solved by underlying factor graph in a sliding-window manner. With consideration of sparsity, those historical states are marginalized orderly. A twin system is also designed for comparison, where the traditional inertial preintegration scheme is embedded in the GP-based framework to replace the GP latent variable model. Evaluations on public event-inertial datasets demonstrate the validity of both systems. Comparison experiments show competitive precision compared to the state-of-the-art synchronous scheme.
academic

Odomètrie Asynchrone Événement-Inertielle utilisant un Cadre Unifié de Régression par Processus Gaussien

Informations Fondamentales

  • ID de l'article : 2412.03136
  • Titre : Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework
  • Auteurs : Xudong Li, Zhixiang Wang, Zihao Liu, Yizhai Zhang, Fan Zhang, Xiuming Yao, Panfeng Huang
  • Classification : cs.RO (Robotique)
  • Date de publication : 4 décembre 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2412.03136

Résumé

Cet article propose une méthode d'odomètrie asynchrone événement-inertielle basée sur un cadre unifié de régression par processus gaussien (PG), permettant une fusion naturelle de l'association de données asynchrones et des mesures inertielles. La méthode utilise un modèle de variable latente PG pour construire un a priori de mouvement piloté par les données et obtenir des capacités d'intégration analytique, puis couple étroitement l'association de caractéristiques événementielles asynchrones et les pseudo-mesures intégrées dans le même cadre PG. Le problème d'estimation fusionnée est résolu via un graphe de facteurs à fenêtre glissante, avec marginalisation ordonnée des états historiques en tenant compte de la parcimonie. Les auteurs conçoivent également un système de comparaison intégrant le schéma traditionnel de préintégration inertielle dans le cadre PG. L'évaluation sur des ensembles de données événement-inertiel publics démontre l'efficacité des deux systèmes, les expériences comparatives montrant une précision comparable aux approches synchrones de pointe.

Contexte de Recherche et Motivation

Définition du Problème

Les caméras événementielles, en tant que capteurs visuels inspirés biologiquement, possèdent un mécanisme de déclenchement asynchrone, enregistrant indépendamment les changements d'intensité lumineuse au niveau de chaque pixel. Ce mécanisme particulier confère aux caméras événementielles des avantages significatifs par rapport aux caméras traditionnelles : faible consommation d'énergie, faible latence, plage dynamique élevée et résolution temporelle élevée. Cependant, l'asynchronicité des caméras événementielles pose des défis considérables aux algorithmes de fusion traditionnels.

Limitations des Méthodes Existantes

  1. Schémas discrets en temps discrétisé : accumulent les événements dans des fenêtres temporelles fixes, perdant la diversité temporelle des événements, entraînant un flou de mouvement et nécessitant des opérations de défloutage supplémentaires
  2. Préintégration IMU traditionnelle : appliquée dans un cadre temporel discret, de nombreuses mesures temporelles inter-images sont perdues, entraînant une perte d'informations de mouvement à grain fin
  3. Efficacité computationnelle : les méthodes PG existantes utilisent généralement un lisseur complet coûteux en calcul

Motivation de la Recherche

Pour exploiter pleinement les caractéristiques de résolution temporelle élevée des caméras événementielles, il est impératif d'introduire de nouvelles méthodes pour fusionner les observations événement-inertielle asynchrones et à haute résolution temporelle. Cet article se concentre sur la question de la fusion de mesures asynchrones, proposant une solution basée sur un cadre PG unifié.

Contributions Principales

  1. Cadre PG Unifié : propose un cadre unifié de régression par processus gaussien capable de traiter naturellement la fusion de l'association de caractéristiques événementielles asynchrones et des mesures inertielles
  2. Modèle de Variable Latente PG : introduit un modèle de variable latente dans le cadre de régression PG pour intégrer analytiquement les mesures inertielles et induire implicitement un PG piloté par les données
  3. Conception Duale : implémente deux approches de fusion comparatives :
    • CT-IMU : a priori PG clairsemé + préintégration IMU
    • GP-IMU : préintégration par régression PG
  4. Fenêtre Glissante Efficace : adopte l'optimisation par graphe de facteurs à fenêtre glissante, maintenant l'efficacité computationnelle via des stratégies de marginalisation
  5. Traitement Entièrement Asynchrone : utilise EKLT pour la détection et le suivi de caractéristiques pilotés par événements, préservant la résolution temporelle élevée de la caméra événementielle

Détails de la Méthode

Définition de la Tâche

Entrée : flux d'événements asynchrones et données de mesure IMU Sortie : estimation de trajectoire SE(3) (incluant position, orientation et vitesse) Contraintes : traiter l'association de données asynchrones, maintenir l'efficacité computationnelle

Architecture du Modèle

1. A Priori PG Clairsemé

Adopte un a priori de mouvement d'accélération bruit blanc (WNOA) pour modéliser SE(3) :

Ṫwb(t) = Twb(t)ϖbwb(t)∧
ϖ̇bwb(t) = w(t), w(t) ∼ PG(0,Qcδ(t-t'))

où ϖbwb(t) est la vitesse en coordonnées du corps, et w(t) est le vecteur d'accélération généralisée modélisé comme un PG de bruit blanc de moyenne nulle.

2. Préintégration par Régression PG

Modélise l'accélération relative et la vitesse du vecteur de rotation comme des PG indépendants :

ṙbkb(t) ∼ PG(0,kr(t,t'))
abbk(t) ∼ PG(0,ka(t,t'))

Obtient les observations bruitées du PG via les états latents ρ̂ et α̂, puis utilise les capacités d'inférence du PG pour calculer la vitesse préintégrée, la position et les incréments de rotation.

3. Architecture du Système

Le système complet contient deux threads parallèles :

  • Frontend de suivi de caractéristiques asynchrone : utilise EKLT pour la détection et le suivi de caractéristiques pilotés par événements
  • Backend à fenêtre glissante basé sur PG : traite la gestion des caractéristiques, la triangulation et l'optimisation du graphe de facteurs

Points d'Innovation Technique

1. Conception du Cadre Unifié

Les deux méthodes fonctionnent dans le même cadre PG, mais traitent les données IMU différemment :

  • CT-IMU : interroge les états sur la trajectoire en temps continu, fusionne séparément les mesures IMU
  • GP-IMU : dépend des mesures IMU pour l'inférence d'état, réduisant les contraintes d'a priori de trajectoire

2. Facteur de Projection Interpolée

Obtient la pose Twbτ au moment de mesure tτ via interpolation PG, l'erreur résiduelle visuelle étant définie comme :

rV(Twbτ, li, ẑi) = ẑi - (1/di)K(TwbτTbτcτ)T li

3. Optimisation à Fenêtre Glissante

Adopte une stratégie de marginalisation dynamique, marginalisant en priorité les états les plus récents et les points de repère associés, maintenant la structure creuse de la matrice Hessienne.

Configuration Expérimentale

Ensembles de Données

  • Ensemble de données DAVIS : utilise les données de mouvement agressif enregistrées par DAVIS240C (240×180) dans plusieurs scènes
  • Ensemble de données MVSEC : utilise les données de la caméra événementielle gauche (DAVIS 346B, 346×260)

Métriques d'Évaluation

  • RMS RTE : erreur de trajectoire relative quadratique moyenne, pour évaluer la précision
  • Temps de calcul : consommation de temps moyenne des modules
  • Taille du graphe de facteurs : indicateur de complexité du problème d'optimisation

Méthodes de Comparaison

  • Vidal et al. 3 (configuration E+I)
  • Méthode événement-inertielle de Guan & Lu 4
  • Comparaison interne des deux méthodes proposées

Détails d'Implémentation

  • Condition de disparité : 8 pixels
  • Longueur minimale de trajectoire de caractéristique : 4
  • Nombre d'états latents GP-IMU : 400
  • Taille minimale de fenêtre glissante : 40
  • Intervalle de temps entre états : 0,05 seconde

Résultats Expérimentaux

Résultats Principaux

SéquenceCT-IMUGP-IMURéf.4Réf.3
dynamic translation0.0300.0600.0560.037
dynamic 6dof0.0760.0560.0730.040
poster translation0.0870.0820.2420.087
poster 6dof0.1560.0840.2100.197
boxes 6dof0.3470.1510.0730.078
shapes 6dof0.1080.244---0.163

Analyse de Performance

  1. Performance de Précision : les deux méthodes démontrent une précision comparable aux méthodes d'optimisation discrètes sur la plupart des séquences, surpassant certaines séquences
  2. Efficacité Computationnelle : GP-IMU possède généralement un coût computationnel inférieur en raison de moins de variables
  3. Robustesse : GP-IMU est plus sensible au bruit IMU, car il dépend du PG piloté par IMU pour construire les résidus visuels

Analyse de la Consommation de Temps

MéthodeFrontendOptimisationMarginalisationPréintégration IMUAutres
CT-IMU(s)1273.97247.8343.9510.1770.743
GP-IMU(s)1274.51182.0544.9144.7130.693

Le suivi EKLT consomme environ 80% du temps total, constituant la partie la plus coûteuse. GP-IMU est plus rapide en optimisation graphique, mais la préintégration IMU est légèrement plus lente.

Travaux Connexes

Classification de l'Odomètrie Événement-Inertielle

  1. Schémas discrets en temps discrétisé : héritent des algorithmes de caméra à images traditionnels, effectuant l'association de données sur l'accumulation d'événements
  2. Méthodes événement-pilotées en temps continu : traitent directement le flux d'événements, adoptant un backend en temps continu

Applications du Processus Gaussien en Robotique

Les représentations en temps continu par PG ont été utilisées précocement pour l'inférence de trajectoire de mouvement avec LIDAR de balayage et capteurs non synchronisés. Les recherches récentes appliquent le PG aux systèmes d'odomètrie visuelle événementielle monoculaire, mais rencontrent des problèmes de coût computationnel élevé.

Conclusions et Discussion

Conclusions Principales

  1. Les deux méthodes PG proposées traitent efficacement le problème de fusion événement-inertielle asynchrone
  2. GP-IMU atteint une précision supérieure sur la plupart des séquences, mais est plus sensible au bruit IMU
  3. La stratégie de fenêtre glissante contrôle efficacement la complexité computationnelle
  4. La méthode démontre des performances compétitives dans les scènes de mouvement complexe

Limitations

  1. Problème de Temps Réel : en raison de la conservation de toutes les mesures asynchrones du frontend pour l'optimisation, le système ne peut actuellement pas fonctionner en temps réel
  2. Robustesse Insuffisante : manque de mécanismes d'exclusion des valeurs aberrantes ou de compensation de mouvement
  3. Dépendance à la Qualité IMU : la méthode GP-IMU exige une qualité de données IMU élevée
  4. Limitation de Mouvement Agressif : les deux méthodes peuvent être affectées lors de changements d'accélération abruptes

Directions Futures

  1. Stratégies d'élagage de graphe basées sur la théorie de l'information pour réaliser les performances en temps réel
  2. Amélioration du frontend pour augmenter la robustesse du système
  3. Optimisation d'algorithme pour les IMU de faible qualité
  4. Extension à des modes de mouvement plus complexes

Évaluation Approfondie

Avantages

  1. Innovation Théorique : le cadre PG unifié résout élégamment le problème de fusion asynchrone avec une base théorique solide
  2. Recherche Systématique : la conception duale fournit une analyse comparative complète
  3. Expérimentation Complète : évaluation détaillée sur plusieurs ensembles de données publics
  4. Implémentation Ingénierie : l'implémentation basée sur GTSAM assure la reproductibilité de la méthode

Insuffisances

  1. Limitation de Temps Réel : incapacité actuelle à satisfaire les exigences d'application en temps réel, limitant la valeur pratique
  2. Dépendance du Frontend : dépendance excessive du frontend EKLT, manque de traitement des cas exceptionnels
  3. Portée d'Application : certaines limitations concernant la qualité IMU et les types de mouvement
  4. Analyse Théorique Insuffisante : manque d'analyse approfondie des différences théoriques entre les deux méthodes

Impact

  1. Valeur Académique : fournit un nouveau cadre théorique pour la fusion de caméra événementielle et inertielle
  2. Potentiel Pratique : après résolution des problèmes de temps réel, prometteur pour les applications en navigation robotique
  3. Extensibilité : le cadre possède une bonne extensibilité, adaptable à d'autres scénarios de fusion de capteurs

Scénarios d'Application

  1. Environnements Hautement Dynamiques : adapté aux scènes de mouvement rapide difficiles à traiter par les caméras traditionnelles
  2. Ressources Computationnelles Suffisantes : adapté aux applications exigeant une haute précision avec ressources computationnelles relativement abondantes
  3. Plateforme de Recherche : fournit une méthode de référence précieuse pour la recherche sur les caméras événementielles

Références

Cet article cite 27 travaux connexes, couvrant des domaines clés incluant les synthèses sur les caméras événementielles, la préintégration IMU, l'estimation en temps continu, la régression par processus gaussien, etc. Les citations sont complètes et faisant autorité.


Évaluation Globale : Il s'agit d'un travail innovant dans le domaine de l'odomètrie événement-inertielle, proposant un cadre PG unifié offrant une nouvelle perspective pour traiter la fusion de capteurs asynchrones. Bien que présentant des limitations telles que les problèmes de temps réel, les contributions théoriques sont significatives, l'évaluation expérimentale est complète, et le travail établit une base solide pour les recherches futures dans ce domaine.