2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.
Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.
academic

Robuste visuell gestützte Teach-and-Repeat-Navigation mit flexibler topometrischer Graphen-Kartendarstellung

Grundinformationen

  • Paper-ID: 2510.09089
  • Titel: Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
  • Autoren: Jikai Wang, Yunqi Cheng, Kezhi Wang und Zonghai Chen (Universität für Wissenschaft und Technologie Chinas)
  • Klassifizierung: cs.RO (Robotik)
  • Veröffentlichungsdatum: 10. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09089

Zusammenfassung

In diesem Artikel wird ein neuartiges visuelles Teach-and-Repeat-Navigationssystem vorgestellt, das durch flexible Kartendarstellung, robuste Kartenabgleichung und kartenlose lokale Navigationsmodule die Herausforderungen durch Umgebungsveränderungen und dynamische Objekte bewältigt. Das System nutzt eine topometrische Graphenstruktur zur Speicherung von Schlüsselbildern und unterstützt die Knotenerweiterung zur Speicherung neuer Beobachtungen. Durch Schlüsselbildclustering und Frame-zu-Lokalkarten-Abgleichstrategien wird die Leistung der Ortsidentifikation verbessert, und ein Langzeit-Zielmanagement-Algorithmus wird konstruiert, um zu verhindern, dass der Roboter aufgrund von Umgebungsveränderungen oder Objektverdeckung verloren geht.

Forschungshintergrund und Motivation

Problemdefinition

Die visuelle Teach-and-Repeat (VTR) Navigation ist eine direkte Lösung für die Bereitstellung von Mobilrobotern in unbekannten Umgebungen. Die Realisierung einer robusten Trajektorienwiederhol-Navigation unter Bedingungen von Umgebungsveränderungen und dynamischen Objekten bleibt jedoch eine Herausforderung.

Bedeutung

  1. Praktischer Wert: VTR-Navigation vermeidet die vollständige Kartenerstellung der Aufgabenumgebung und ermöglicht eine effizientere Roboterbereitstellung
  2. Anwendungsbedarf: Breite Nachfrage in Szenarien mit festgelegten Navigationswegen (z. B. Navigation zwischen Fabrikstandorten)
  3. Technische Herausforderungen: Erfordernis, die Navigationsrobustheit unter Bedingungen von Umgebungsveränderungen, dynamischen Objekten und Pfadabweichungen zu bewahren

Einschränkungen bestehender Methoden

  1. Kartendarstellungsprobleme: Traditionelle Methoden beruhen auf global konsistenter Kartenerstellung mit hohen Anforderungen an die Lokalisierungsgenauigkeit
  2. Fragile Ortsidentifikation: Frame-zu-Frame-Abgleichung ist bei Sichtpunktwechsel und Verdeckung nicht ausreichend robust
  3. Abhängigkeit von Navigationsmodulen: Bestehende Systeme sind zu stark von präziser Ortsidentifikation abhängig und versagen leicht bei Abgleichfehlern
  4. Schlechte Umgebungsadaptivität: Schwierigkeiten bei der Verarbeitung von Umgebungsveränderungen und dynamischen Hindernissen

Kernbeiträge

  1. Vorschlag einer flexiblen Kartendarstellungsmethode: Entwurf einer topometrischen Graphenstruktur, die sich an Umgebungsveränderungen und Odometrie-Driftfehler anpasst
  2. Konstruktion eines robusten VTR-Navigationssystems: Fähigkeit zur Anpassung an Umgebungsveränderungen, dynamische Objekte und Sichtpunktverdeckung; Navigationsmodul kann in andere VTR-Systeme integriert werden
  3. Implementierung eines benutzerfreundlichen Systems: Einfache Anpassung an neue Aufgabenumgebungen mit guter Praktikabilität
  4. Validierung der Systemeffektivität: Umfangreiche Experimente auf mobilen Plattformen demonstrieren die Überlegenheit gegenüber Baseline-Methoden

Methodische Details

Aufgabendefinition

Die VTR-Navigation umfasst zwei Phasen:

  • Lehrphase: Manuelle Steuerung des Roboters entlang der Aufgabenroute mit Echtzeitaufzeichnung von Visualframes als Karte
  • Wiederholungsphase: Der Roboter versucht, aktuelle Visualframes mit der Karte abzugleichen und das nächste Ziel zu aktualisieren, wenn der Abgleich erfolgreich ist

Systemarchitektur

1. Fehleranalyse der Kartendarstellung

Die traditionelle SLAM-Kartendarstellung wird ausgedrückt als:

M̂ = {[Ki, T̂WI], i = 1, ···, N}

wobei die geschätzten globalen Posen kumulative Driftfehler aufweisen. Die in diesem Artikel vorgeschlagene Darstellung ist:

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

Jedes Schlüsselbild speichert nur zuverlässige relative Posentransformationen zu benachbarten Schlüsselbildern.

2. Topometrische Schlüsselbild-Karte

Das Schlüsselbild wird definiert als:

Ki = {Ti-1i, Ui, Pi, Ii}

enthält relative Transformation, 2D-Merkmalspunkte, 3D-Position und Bildinformation. Bei Schleifenerkennung wird es erweitert zu:

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Kartenverschlankung

Durch Schlüsselbildclustering werden ähnliche Frames zusammengefasst:

  • Berechnung der DBoW-Ähnlichkeit, Stopp unterhalb des Schwellwerts
  • Transformation der 3D-Merkmalspunkte ähnlicher Schlüsselbilder in das Koordinatensystem des beibehaltenen Frames
  • Entfernung redundanter Schlüsselbilder unter Beibehaltung der Listenstruktur

Visuelle Wiederholungsphase

1. Frame-zu-Schlüsselbild-Abgleichung

Verwendung einer eingeschränkten Suchstrategie:

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

Suche nach entsprechenden Merkmalen in einem kreisförmigen Bereich, Lösung der relativen Pose durch PnP.

2. Kartenerweiterung

Wenn der Roboter von der Lehrroute abweicht, werden neue Beobachtungen zur Karte hinzugefügt:

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Ziellistenverwaltung

Konstruktion einer Zielliste statt eines einzelnen Ziels:

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

Die Zielliste Lg = {tg0, tg1, ···, tgM} wird bei erfolgreichem Abgleich aktualisiert.

4. Lokale Bewegungsplanung

Implementierung von Multi-Ziel-Verfolgung durch Trajektorienkandidaten-Bewertung:

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

Bewertung unter Berücksichtigung der ersten drei Ziele, Auswahl der optimalen Trajektorie.

Experimentelle Einrichtung

Konfiguration der mobilen Plattform

  • Hardware: Differentialantriebsplattform mit eingebetteter IMU-Kamera (MYNTEYE-SC) und Lidar (Livox Mid-360)
  • Lokalisierungssystem: Verwendung von OpenVINS für visuelle Odometrie, iG-LIO zur Trajektorienaufzeichnung für Bewertung

Bewertungsmetriken

  • Endpunktabstand: Abstand zwischen tatsächlichem Endpunkt und vordefiniertem Lehrrouten-Endpunkt
  • Erfolgsquote: Fähigkeit des Roboters, vom Start- zum Endpunkt zu navigieren (keine strikte Routenverfolgung erforderlich)

Datensätze

  • Umgebung: Büro- und Flurszenen
  • Routentypen: Gerade und gekrümmte Pfade
  • Testbedingungen: Normalbetrieb, Objektverdeckung, Umgebungsveränderungen

Vergleichsmethoden

  • BVTR: Klassische bioinspirierte VTR-Methode
  • Ablationsstudien: Varianten ohne Schlüsselbildclustering, Single-Target-Verfolgung usw.

Experimentelle Ergebnisse

Hauptergebnisse

1. Navigation unter normalen Bedingungen

  • Büroszenario: Endpunktabstand der vorgeschlagenen Methode 0,08 m, BVTR 0,10 m
  • Beide Methoden können die Navigation erfolgreich abschließen mit leichten Abweichungen in Kurven

2. Objektverdeckungstests

  • Vorgeschlagene Methode: Endpunktabstand 0,08 m, erfolgreiche Hindernisvermeidung und Rückkehr zur Lehrroute
  • BVTR: Endpunktabstand 5,58 m, stoppt vor dem Hindernis und kann nicht fortfahren
  • Single-Target-Version: Endpunktabstand 5,20 m, validiert die Wichtigkeit der Multi-Target-Strategie

3. Navigation auf gekrümmtem Pfad (Flurszenario)

  • Vorgeschlagene Methode: Endpunktabstand 0,37 m, erfolgreiche Verfolgung der gesamten Route
  • BVTR: Endpunktabstand 11,44 m, stoppt nach Erreichen einer unbekannten Position
  • Ohne Schlüsselbildclustering: Endpunktabstand 10,49 m, demonstriert die kritische Rolle der Clustering-Strategie

4. Validierung des Schlüsselbildclustering

Das Schlüsselbildclustering erhöht die Schleifenerkennungsdichte erheblich, besonders in Kurven, und bietet zeitnahere Rückmeldung für das Bewegungsplanungsmodul.

5. Validierung der Kartenerweiterung

Das System kann während der Wiederholungsphase neue Umgebungsinformationen hinzufügen; erweiterte Schlüsselbilder behalten die Verbindung zur ursprünglichen Karte und beeinträchtigen die topologische Struktur nicht.

Experimentelle Erkenntnisse

  1. Langzeit-Zielmanagement: Die Multi-Target-Strategie erhöht die Systemrobustheit gegenüber Schleifenerkennungsfehlern erheblich
  2. Schlüsselbildclustering: Kritisch für robuste Abgleichung in texturarmen Umgebungen
  3. Kartenerweiterung: Effektive Verarbeitung von Umgebungsveränderungen und Unterstützung von Langzeit-Navigationstasks

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Bioinspirierte Methoden: Direkter Bildvergleich und Mustererkennung
  2. Visuelle Geometriemethoden: Merkmalsbasierte Bildabgleichung und PnP-Lösung
  3. Deep-Learning-Methoden: End-to-End-Lernen und neuronale Netzwerk-Abgleichung
  4. Topometrische Fusion: Navigation, die topologische und metrische Informationen kombiniert

Vorteile dieses Artikels

  • Gegenüber bioinspirierten Methoden: Robusterer Merkmalsabgleich
  • Gegenüber Deep-Learning-Methoden: Höhere Recheneffizienz und bessere Interpretierbarkeit
  • Gegenüber traditionellen geometrischen Methoden: Keine globale Konsistenzanforderung, höhere Adaptivität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Flexible Kartendarstellung: Topometrische Graphen lindern effektiv die Anforderungen an globale Kartenerstellung
  2. Robustes Navigationssystem: Multi-Target-Management und Schlüsselbildclustering verbessern die Systemrobustheit erheblich
  3. Praktische Validierung: Systemeffektivität in verschiedenen herausfordernden Szenarien validiert

Einschränkungen

  1. Abhängigkeit von relativer Pose: Systemleistung hängt von der Genauigkeit der relativen Pose zwischen Schlüsselbildern ab
  2. Langzeit-Drift: Wenn über längere Zeit keine Kartabgleichung möglich ist, kann Odometrie-Drift zu Divergenz führen
  3. Umgebungsannahmen: Annahme ausreichend genauer Relativposenschätzung, möglicherweise nicht in allen Umgebungen gültig

Zukünftige Richtungen

Entwicklung eines auf Deep Learning basierenden End-to-End-Modells für visuelle Navigation, um sich weiter von der Abhängigkeit von präziser globaler Posenverfolgung und Umgebungskartenerstellung zu befreien.

Tiefgehende Bewertung

Stärken

  1. Technische Innovation: Neuartige topometrische Kartendarstellung, die Einschränkungen traditioneller Methoden effektiv überwindet
  2. Systemvollständigkeit: Umfassende Lösung von Kartenerstellung bis Navigationsausführung
  3. Umfangreiche Experimente: Umfassende Validierung in verschiedenen Szenarien und Bedingungen
  4. Praktischer Wert: Systemdesign berücksichtigt praktische Bereitstellungsanforderungen mit benutzerfreundlicher Gestaltung

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Systemkonvergenz und Stabilität
  2. Rechenkomplexität: Keine detaillierte Analyse der Rechenkomplexität von Schlüsselbildclustering und Multi-Target-Management
  3. Umgebungsbeschränkungen: Hauptsächlich in strukturierten Innenumgebungen getestet; Adaptivität in komplexen Außenumgebungen unbekannt
  4. Begrenzte Vergleichsbaselines: Hauptsächlich Vergleich mit klassischer BVTR-Methode; Vergleich mit neuesten Deep-Learning-Methoden fehlt

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue technische Wege für VTR-Navigation mit gewissem theoretischen Wert
  2. Praktischer Wert: Methode kann direkt auf Industrie- und Haushaltsroboter-Navigation angewendet werden
  3. Reproduzierbarkeit: Technische Details sind ausreichend beschrieben für Reproduktion und Verbesserung

Anwendungsszenarien

  1. Navigation auf festgelegten Routen: Navigation zwischen Fabrikstandorten, Lagerverwaltungsroboter-Pfadverfolgung
  2. Szenarien mit Umgebungsveränderungen: Langzeit-Navigationstasks, die sich an leichte Umgebungsveränderungen anpassen müssen
  3. Begrenzte Rechenressourcen: Im Vergleich zu Deep-Learning-Methoden geringere Hardwareanforderungen

Literaturverzeichnis

Der Artikel enthält 31 Referenzen, die wichtige Arbeiten in den Bereichen visuelles SLAM, Roboternavigation und Ortsidentifikation abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dieser Artikel präsentiert eine praktische VTR-Navigationslösung mit gewisser technischer Innovation und ausreichender experimenteller Validierung. Obwohl Raum für Verbesserungen in theoretischer Analyse und Umgebungsadaptivität besteht, leistet er einen wertvollen technischen Beitrag zum Bereich der Mobilroboter-Navigation.