2025-11-14T06:07:11.042630

Asynchronous Event-Inertial Odometry using a Unified Gaussian Process Regression Framework

Li, Wang, Liu et al.
Recent works have combined monocular event camera and inertial measurement unit to estimate the $SE(3)$ trajectory. However, the asynchronicity of event cameras brings a great challenge to conventional fusion algorithms. In this paper, we present an asynchronous event-inertial odometry under a unified Gaussian Process (GP) regression framework to naturally fuse asynchronous data associations and inertial measurements. A GP latent variable model is leveraged to build data-driven motion prior and acquire the analytical integration capacity. Then, asynchronous event-based feature associations and integral pseudo measurements are tightly coupled using the same GP framework. Subsequently, this fusion estimation problem is solved by underlying factor graph in a sliding-window manner. With consideration of sparsity, those historical states are marginalized orderly. A twin system is also designed for comparison, where the traditional inertial preintegration scheme is embedded in the GP-based framework to replace the GP latent variable model. Evaluations on public event-inertial datasets demonstrate the validity of both systems. Comparison experiments show competitive precision compared to the state-of-the-art synchronous scheme.
academic

Asynchrone ereignisgesteuerte Trägheits-Odometrie unter Verwendung eines einheitlichen Gaußschen Prozess-Regressions-Rahmens

Grundlegende Informationen

  • Paper-ID: 2412.03136
  • Titel: Asynchrone ereignisgesteuerte Trägheits-Odometrie unter Verwendung eines einheitlichen Gaußschen Prozess-Regressions-Rahmens
  • Autoren: Xudong Li, Zhixiang Wang, Zihao Liu, Yizhai Zhang, Fan Zhang, Xiuming Yao, Panfeng Huang
  • Klassifizierung: cs.RO (Robotik)
  • Veröffentlichungsdatum: 4. Dezember 2024 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2412.03136

Zusammenfassung

Dieses Paper präsentiert eine asynchrone ereignisgesteuerte Trägheits-Odometrie-Methode basierend auf einem einheitlichen Gaußschen Prozess (GP) Regressions-Rahmen zur natürlichen Fusion asynchroner Datenzuordnung und Trägheitsmessungen. Die Methode nutzt GP-Latent-Variable-Modelle zur Konstruktion datengestützter Bewegungspriors und zur Erlangung analytischer Integrationsfähigkeiten. Anschließend werden asynchrone Merkmalszuordnungen und integrierte Pseudo-Messungen im gleichen GP-Rahmen eng gekoppelt. Das Fusionsschätzproblem wird durch ein Schiebefenster-Faktorgraph gelöst, wobei Sparsität durch geordnete Marginalisierung historischer Zustände berücksichtigt wird. Die Autoren entwerfen auch ein Vergleichssystem, das traditionelle Trägheits-Präintegrations-Schemata in den GP-Rahmen einbettet. Die Bewertung auf öffentlichen ereignisgesteuerten Trägheits-Datensätzen demonstriert die Wirksamkeit beider Systeme, wobei Vergleichsexperimente eine mit modernen synchronen Methoden vergleichbare Genauigkeit zeigen.

Forschungshintergrund und Motivation

Problemdefinition

Ereigniskameras sind bionik-inspirierte Bildsensoren mit asynchronem Auslösemechanismus, die auf Pixel-Ebene unabhängig Änderungen der Lichtstärke erfassen. Dieser spezielle Mechanismus verleiht Ereigniskameras erhebliche Vorteile gegenüber herkömmlichen Kameras: niedriger Stromverbrauch, niedrige Latenz, hoher Dynamikbereich und hohe zeitliche Auflösung. Die Asynchronität von Ereigniskameras stellt jedoch traditionelle Fusionsalgorithmen vor enorme Herausforderungen.

Einschränkungen bestehender Methoden

  1. Rahmen-basierte diskrete Zeitschemata: Akkumulieren Ereignisse in Ereignisrahmen mit festen Zeitfenstern, verlieren die zeitliche Vielfalt der Ereignisse, führen zu Bewegungsunschärfe und erfordern zusätzliche Entschärfungsoperationen
  2. Traditionelle IMU-Präintegration: Anwendung im diskreten Zeitrahmen, viele Messungen zwischen Rahmen gehen verloren, feinkörnige Bewegungsinformationen werden verloren
  3. Rechnerische Effizienz: Bestehende GP-Methoden verwenden typischerweise vollständige Glättungs-Backends mit hohen Rechenkosten

Forschungsmotivation

Um die hohe zeitliche Auflösung von Ereigniskameras vollständig zu nutzen, besteht ein dringender Bedarf an neuen Methoden zur Fusion asynchroner und hochauflösender ereignisgesteuerter Trägheitsmessungen. Dieses Paper konzentriert sich auf die Frage der asynchronen Messfusion und schlägt eine Lösung basierend auf einem einheitlichen GP-Rahmen vor.

Kernbeiträge

  1. Einheitlicher GP-Rahmen: Präsentation eines einheitlichen Gaußschen Prozess-Regressions-Rahmens, der natürlich asynchrone ereignisgesteuerte Merkmalszuordnungen und Trägheitsmessungsfusion verarbeitet
  2. GP-Latent-Variable-Modell: Einführung eines Latent-Variable-Modells in den GP-Regressions-Rahmen zur analytischen Integration von Trägheitsmessungen und impliziten Induktion datengestützter GPs
  3. Duales Systemdesign: Implementierung zweier Fusionsmethoden zum Vergleich:
    • CT-IMU: Sparsamer GP-Prior + IMU-Präintegration
    • GP-IMU: GP-Regressions-Präintegration
  4. Effizientes Schiebefenster: Schiebefenster-Faktorgraph-Optimierung mit Marginalisierungsstrategie zur Aufrechterhaltung der Recheneffizienz
  5. Vollständig asynchrone Verarbeitung: Verwendung von EKLT für ereignisgesteuerte Merkmalserkennung und -verfolgung unter Beibehaltung der hohen zeitlichen Auflösung der Ereigniskamera

Methodische Details

Aufgabendefinition

Eingabe: Asynchrone Ereignisströme und IMU-Messdaten Ausgabe: SE(3)-Trajektorienabschätzung (einschließlich Position, Orientierung und Geschwindigkeit) Einschränkungen: Verarbeitung asynchroner Datenzuordnung, Aufrechterhaltung der Recheneffizienz

Modellarchitektur

1. Sparsamer GP-Prior

Modellierung von SE(3) mit Weißrausch-Beschleunigung (WNOA) Bewegungsprior:

Ṫwb(t) = Twb(t)ϖbwb(t)∧
ϖ̇bwb(t) = w(t), w(t) ∼ GP(0,Qcδ(t-t'))

wobei ϖbwb(t) die Geschwindigkeit im Körperkoordinatensystem ist und w(t) ein als Nullmittel-Weißrausch-GP modellierter verallgemeinerter Beschleunigungsvektor ist.

2. GP-Regressions-Präintegration

Modellierung relativer Beschleunigung und Rotationsvektorgeschwindigkeit als unabhängige GPs:

ṙbkb(t) ∼ GP(0,kr(t,t'))
abbk(t) ∼ GP(0,ka(t,t'))

Durch Latent-Zustände ρ̂ und α̂ werden verrauschte Beobachtungen des GP erhalten, dann werden die Inferenzfähigkeiten des GP zur Berechnung präintegrierter Geschwindigkeit, Position und Rotationsinkremente genutzt.

3. Systemarchitektur

Das gesamte System enthält zwei parallele Threads:

  • Asynchrones Merkmalsverfolgung-Frontend: Verwendung von EKLT für ereignisgesteuerte Merkmalserkennung und -verfolgung
  • GP-basiertes Schiebefenster-Backend: Verarbeitung von Merkmalsverwaltung, Triangulation und Faktorgraph-Optimierung

Technische Innovationen

1. Einheitliches Rahmen-Design

Beide Methoden arbeiten im gleichen GP-Rahmen, verarbeiten IMU-Daten jedoch unterschiedlich:

  • CT-IMU: Abfrage von Zuständen auf kontinuierlicher Zeittrajektorie, separate Fusion von IMU-Messungen
  • GP-IMU: Abhängigkeit von IMU-Messungen für Zustandsinferenz, Reduktion von Trajektorie-Prior-Einschränkungen

2. Interpolations-Projektions-Faktor

Durch GP-Interpolation wird die Pose Twbτ zum Messzeitpunkt tτ erhalten, der visueller Residuumfehler wird definiert als:

rV(Twbτ, li, ẑi) = ẑi - (1/di)K(TwbτTbτcτ)T li

3. Schiebefenster-Optimierung

Verwendung einer dynamischen Marginalisierungsstrategie mit Priorisierung der Marginalisierung neuester Zustände und zugehöriger Landmarkenpunkte zur Aufrechterhaltung der Sparsität der Hessian-Matrix.

Experimentelle Einrichtung

Datensätze

  • DAVIS-Datensatz: Verwendung von DAVIS240C (240×180) mit aggressiven Bewegungsdaten in mehreren Szenen
  • MVSEC-Datensatz: Verwendung von linken Ereigniskamera-Daten (DAVIS 346B, 346×260)

Bewertungsmetriken

  • RMS RTE: Wurzelmittelquadrat relative Trajektorienfehler zur Genauigkeitsbewertung
  • Rechenzeit: Durchschnittliche Zeitausgaben verschiedener Module
  • Faktorgraph-Größe: Komplexitätsindikator des Optimierungsproblems

Vergleichsmethoden

  • Vidal et al. 3 (E+I-Konfiguration)
  • Ereignisgesteuerte Trägheitsmethode von Guan & Lu 4
  • Interne Vergleiche der zwei vorgeschlagenen Methoden

Implementierungsdetails

  • Disparitätsbedingung: 8 Pixel
  • Minimale Merkmalstrajektorie: 4
  • GP-IMU Latent-Zustände: 400
  • Minimale Schiebefenstergröße: 40
  • Zeitintervall zwischen Zuständen: 0,05 Sekunden

Experimentelle Ergebnisse

Hauptergebnisse

SequenzCT-IMUGP-IMURef.4Ref.3
dynamic translation0.0300.0600.0560.037
dynamic 6dof0.0760.0560.0730.040
poster translation0.0870.0820.2420.087
poster 6dof0.1560.0840.2100.197
boxes 6dof0.3470.1510.0730.078
shapes 6dof0.1080.244---0.163

Leistungsanalyse

  1. Genauigkeitsleistung: Beide Methoden zeigen in den meisten Sequenzen mit diskreten Optimierungsmethoden vergleichbare Genauigkeit, in einigen Sequenzen sogar bessere Leistung
  2. Recheneffizienz: GP-IMU hat aufgrund weniger Variablen typischerweise niedrigere Rechenkosten
  3. Robustheit: GP-IMU ist empfindlicher gegenüber IMU-Rauschen, da es auf IMU-gesteuerte GP-Konstruktion für visuelle Residuen angewiesen ist

Zeitausgaben-Analyse

MethodeFrontendOptimierungMarginalisierungIMU-PräintegrationSonstiges
CT-IMU(s)1273.97247.8343.9510.1770.743
GP-IMU(s)1274.51182.0544.9144.7130.693

Der EKLT-Tracker verbraucht etwa 80% der Gesamtzeit und ist der zeitaufwändigste Teil. GP-IMU ist bei der Graphoptimierung schneller, aber die IMU-Präintegration ist etwas langsamer.

Verwandte Arbeiten

Klassifizierung ereignisgesteuerter Trägheits-Odometrie

  1. Rahmen-basierte diskrete Zeitschemata: Erben traditionelle Rahmenkamera-Algorithmen, führen Datenzuordnung auf ereignisakkumulierten Daten durch
  2. Ereignisgesteuerte kontinuierliche Zeitmethoden: Direkte Verarbeitung von Ereignisströmen mit kontinuierlichem Zeit-Backend

Anwendung Gaußscher Prozesse in der Robotik

Kontinuierliche Zeitdarstellungsmethoden mit GP wurden früh für Bewegungstrajektoren-Inferenz bei Scan-Lidar und nicht-synchronen Sensoren verwendet. Neuere Forschungen wenden GP auf monokulare ereignisgesteuerte visuellen Odometrie-Systeme an, weisen aber hohe Rechenkosten auf.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Beide vorgeschlagenen GP-Methoden können ereignisgesteuerte Trägheitsfusionsprobleme effektiv verarbeiten
  2. GP-IMU zeigt in den meisten Sequenzen höhere Genauigkeit, ist aber empfindlicher gegenüber IMU-Rauschen
  3. Die Schiebefenster-Strategie kontrolliert die Rechenkomplexität effektiv
  4. Die Methode zeigt wettbewerbsfähige Leistung in komplexen Bewegungsszenen

Einschränkungen

  1. Echtzeitprobleme: Da alle asynchronen Frontend-Messungen zur Optimierung beibehalten werden, kann das System derzeit nicht in Echtzeit ausgeführt werden
  2. Unzureichende Robustheit: Fehlende Ausreißer-Ausschlussmechanismen oder Bewegungskompensation
  3. IMU-Qualitätsabhängigkeit: Die GP-IMU-Methode erfordert hohe IMU-Datenqualität
  4. Einschränkungen bei aggressiven Bewegungen: Beide Methoden können bei starken Beschleunigungsänderungen beeinträchtigt werden

Zukünftige Richtungen

  1. Informationstheoretische Graph-Sparsifizierungsstrategien für Echtzeitleistung
  2. Verbessertes Frontend zur Erhöhung der Systemrobustheit
  3. Algorithmus-Optimierung für niedrig-qualitative IMUs
  4. Erweiterung auf komplexere Bewegungsmuster

Tiefgehende Bewertung

Stärken

  1. Theoretische Innovation: Der einheitliche GP-Rahmen löst das asynchrone Fusionsproblem elegant mit solider theoretischer Grundlage
  2. Systematische Forschung: Das duale Systemdesign bietet umfassende Vergleichsanalysen
  3. Umfangreiche Experimente: Detaillierte Bewertung auf mehreren öffentlichen Datensätzen
  4. Technische Implementierung: GTSAM-basierte Implementierung gewährleistet Reproduzierbarkeit

Schwächen

  1. Echtzeitbeschränkung: Kann derzeit Echtzeitanforderungen nicht erfüllen, was den praktischen Wert einschränkt
  2. Frontend-Abhängigkeit: Übermäßige Abhängigkeit vom EKLT-Frontend, mangelnde Behandlung von Ausnahmefällen
  3. Begrenzte Anwendbarkeit: Gewisse Einschränkungen bezüglich IMU-Qualität und Bewegungstypen
  4. Unzureichende theoretische Analyse: Fehlende tiefgehende Analyse theoretischer Unterschiede zwischen den beiden Methoden

Einflussfähigkeit

  1. Akademischer Wert: Bietet neuen theoretischen Rahmen für Ereigniskamera- und Trägheitsfusion
  2. Praktisches Potenzial: Nach Lösung von Echtzeitproblemen vielversprechend für Anwendungen in Roboternavigation
  3. Erweiterbarkeit: Der Rahmen hat gute Erweiterungsfähigkeit für andere Sensorfusionsszenarien

Anwendungsszenarien

  1. Hochdynamische Umgebungen: Geeignet für Hochgeschwindigkeitsbewegungsszenen, die traditionelle Kameras schwer verarbeiten können
  2. Ausreichende Rechenressourcen: Geeignet für Anwendungen mit hohen Genauigkeitsanforderungen und relativ ausreichenden Rechenressourcen
  3. Forschungsplattformen: Bietet wertvollen Benchmark für Ereigniskamera-Forschung

Literaturverzeichnis

Das Paper zitiert 26 relevante Arbeiten, die wichtige Werke in Schlüsselbereichen wie Ereigniskamera-Überblick, IMU-Präintegration, kontinuierliche Zeitsschätzung und Gaußsche Prozess-Regression abdecken. Die Literaturzitate sind umfassend und autoritativ.


Gesamtbewertung: Dies ist eine innovative Arbeit im Bereich der ereignisgesteuerten Trägheits-Odometrie, die einen neuen Ansatz für die Verarbeitung asynchroner Sensorfusion durch den einheitlichen GP-Rahmen bietet. Obwohl es Einschränkungen wie Echtzeitprobleme gibt, sind die theoretischen Beiträge erheblich und die experimentelle Bewertung umfassend, was eine solide Grundlage für nachfolgende Forschung in diesem Bereich schafft.