2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.

Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.

academic

Robuste visuell gestützte Teach-and-Repeat-Navigation mit flexibler topometrischer Graphen-Kartendarstellung

Grundinformationen

Paper-ID: 2510.09089
Titel: Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
Autoren: Jikai Wang, Yunqi Cheng, Kezhi Wang und Zonghai Chen (Universität für Wissenschaft und Technologie Chinas)
Klassifizierung: cs.RO (Robotik)
Veröffentlichungsdatum: 10. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.09089

Zusammenfassung

In diesem Artikel wird ein neuartiges visuelles Teach-and-Repeat-Navigationssystem vorgestellt, das durch flexible Kartendarstellung, robuste Kartenabgleichung und kartenlose lokale Navigationsmodule die Herausforderungen durch Umgebungsveränderungen und dynamische Objekte bewältigt. Das System nutzt eine topometrische Graphenstruktur zur Speicherung von Schlüsselbildern und unterstützt die Knotenerweiterung zur Speicherung neuer Beobachtungen. Durch Schlüsselbildclustering und Frame-zu-Lokalkarten-Abgleichstrategien wird die Leistung der Ortsidentifikation verbessert, und ein Langzeit-Zielmanagement-Algorithmus wird konstruiert, um zu verhindern, dass der Roboter aufgrund von Umgebungsveränderungen oder Objektverdeckung verloren geht.

Forschungshintergrund und Motivation

Problemdefinition

Die visuelle Teach-and-Repeat (VTR) Navigation ist eine direkte Lösung für die Bereitstellung von Mobilrobotern in unbekannten Umgebungen. Die Realisierung einer robusten Trajektorienwiederhol-Navigation unter Bedingungen von Umgebungsveränderungen und dynamischen Objekten bleibt jedoch eine Herausforderung.

Bedeutung

Praktischer Wert: VTR-Navigation vermeidet die vollständige Kartenerstellung der Aufgabenumgebung und ermöglicht eine effizientere Roboterbereitstellung
Anwendungsbedarf: Breite Nachfrage in Szenarien mit festgelegten Navigationswegen (z. B. Navigation zwischen Fabrikstandorten)
Technische Herausforderungen: Erfordernis, die Navigationsrobustheit unter Bedingungen von Umgebungsveränderungen, dynamischen Objekten und Pfadabweichungen zu bewahren

Einschränkungen bestehender Methoden

Kartendarstellungsprobleme: Traditionelle Methoden beruhen auf global konsistenter Kartenerstellung mit hohen Anforderungen an die Lokalisierungsgenauigkeit
Fragile Ortsidentifikation: Frame-zu-Frame-Abgleichung ist bei Sichtpunktwechsel und Verdeckung nicht ausreichend robust
Abhängigkeit von Navigationsmodulen: Bestehende Systeme sind zu stark von präziser Ortsidentifikation abhängig und versagen leicht bei Abgleichfehlern
Schlechte Umgebungsadaptivität: Schwierigkeiten bei der Verarbeitung von Umgebungsveränderungen und dynamischen Hindernissen

Kernbeiträge

Vorschlag einer flexiblen Kartendarstellungsmethode: Entwurf einer topometrischen Graphenstruktur, die sich an Umgebungsveränderungen und Odometrie-Driftfehler anpasst
Konstruktion eines robusten VTR-Navigationssystems: Fähigkeit zur Anpassung an Umgebungsveränderungen, dynamische Objekte und Sichtpunktverdeckung; Navigationsmodul kann in andere VTR-Systeme integriert werden
Implementierung eines benutzerfreundlichen Systems: Einfache Anpassung an neue Aufgabenumgebungen mit guter Praktikabilität
Validierung der Systemeffektivität: Umfangreiche Experimente auf mobilen Plattformen demonstrieren die Überlegenheit gegenüber Baseline-Methoden

Methodische Details

Aufgabendefinition

Die VTR-Navigation umfasst zwei Phasen:

Lehrphase: Manuelle Steuerung des Roboters entlang der Aufgabenroute mit Echtzeitaufzeichnung von Visualframes als Karte
Wiederholungsphase: Der Roboter versucht, aktuelle Visualframes mit der Karte abzugleichen und das nächste Ziel zu aktualisieren, wenn der Abgleich erfolgreich ist

Systemarchitektur

1. Fehleranalyse der Kartendarstellung

Die traditionelle SLAM-Kartendarstellung wird ausgedrückt als:

M̂ = {[Ki, T̂WI], i = 1, ···, N}

wobei die geschätzten globalen Posen kumulative Driftfehler aufweisen. Die in diesem Artikel vorgeschlagene Darstellung ist:

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

Jedes Schlüsselbild speichert nur zuverlässige relative Posentransformationen zu benachbarten Schlüsselbildern.

2. Topometrische Schlüsselbild-Karte

Das Schlüsselbild wird definiert als:

Ki = {Ti-1i, Ui, Pi, Ii}

enthält relative Transformation, 2D-Merkmalspunkte, 3D-Position und Bildinformation. Bei Schleifenerkennung wird es erweitert zu:

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Kartenverschlankung

Durch Schlüsselbildclustering werden ähnliche Frames zusammengefasst:

Berechnung der DBoW-Ähnlichkeit, Stopp unterhalb des Schwellwerts
Transformation der 3D-Merkmalspunkte ähnlicher Schlüsselbilder in das Koordinatensystem des beibehaltenen Frames
Entfernung redundanter Schlüsselbilder unter Beibehaltung der Listenstruktur

Visuelle Wiederholungsphase

1. Frame-zu-Schlüsselbild-Abgleichung

Verwendung einer eingeschränkten Suchstrategie:

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

Suche nach entsprechenden Merkmalen in einem kreisförmigen Bereich, Lösung der relativen Pose durch PnP.

2. Kartenerweiterung

Wenn der Roboter von der Lehrroute abweicht, werden neue Beobachtungen zur Karte hinzugefügt:

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Ziellistenverwaltung

Konstruktion einer Zielliste statt eines einzelnen Ziels:

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

Die Zielliste Lg = {tg0, tg1, ···, tgM} wird bei erfolgreichem Abgleich aktualisiert.

4. Lokale Bewegungsplanung

Implementierung von Multi-Ziel-Verfolgung durch Trajektorienkandidaten-Bewertung:

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

Bewertung unter Berücksichtigung der ersten drei Ziele, Auswahl der optimalen Trajektorie.

Experimentelle Einrichtung

Konfiguration der mobilen Plattform

Hardware: Differentialantriebsplattform mit eingebetteter IMU-Kamera (MYNTEYE-SC) und Lidar (Livox Mid-360)
Lokalisierungssystem: Verwendung von OpenVINS für visuelle Odometrie, iG-LIO zur Trajektorienaufzeichnung für Bewertung

Bewertungsmetriken

Endpunktabstand: Abstand zwischen tatsächlichem Endpunkt und vordefiniertem Lehrrouten-Endpunkt
Erfolgsquote: Fähigkeit des Roboters, vom Start- zum Endpunkt zu navigieren (keine strikte Routenverfolgung erforderlich)

Datensätze

Umgebung: Büro- und Flurszenen
Routentypen: Gerade und gekrümmte Pfade
Testbedingungen: Normalbetrieb, Objektverdeckung, Umgebungsveränderungen

Vergleichsmethoden

BVTR: Klassische bioinspirierte VTR-Methode
Ablationsstudien: Varianten ohne Schlüsselbildclustering, Single-Target-Verfolgung usw.

Experimentelle Ergebnisse

Hauptergebnisse

1. Navigation unter normalen Bedingungen

Büroszenario: Endpunktabstand der vorgeschlagenen Methode 0,08 m, BVTR 0,10 m
Beide Methoden können die Navigation erfolgreich abschließen mit leichten Abweichungen in Kurven

2. Objektverdeckungstests

Vorgeschlagene Methode: Endpunktabstand 0,08 m, erfolgreiche Hindernisvermeidung und Rückkehr zur Lehrroute
BVTR: Endpunktabstand 5,58 m, stoppt vor dem Hindernis und kann nicht fortfahren
Single-Target-Version: Endpunktabstand 5,20 m, validiert die Wichtigkeit der Multi-Target-Strategie

3. Navigation auf gekrümmtem Pfad (Flurszenario)

Vorgeschlagene Methode: Endpunktabstand 0,37 m, erfolgreiche Verfolgung der gesamten Route
BVTR: Endpunktabstand 11,44 m, stoppt nach Erreichen einer unbekannten Position
Ohne Schlüsselbildclustering: Endpunktabstand 10,49 m, demonstriert die kritische Rolle der Clustering-Strategie

4. Validierung des Schlüsselbildclustering

Das Schlüsselbildclustering erhöht die Schleifenerkennungsdichte erheblich, besonders in Kurven, und bietet zeitnahere Rückmeldung für das Bewegungsplanungsmodul.

5. Validierung der Kartenerweiterung

Das System kann während der Wiederholungsphase neue Umgebungsinformationen hinzufügen; erweiterte Schlüsselbilder behalten die Verbindung zur ursprünglichen Karte und beeinträchtigen die topologische Struktur nicht.

Experimentelle Erkenntnisse

Langzeit-Zielmanagement: Die Multi-Target-Strategie erhöht die Systemrobustheit gegenüber Schleifenerkennungsfehlern erheblich
Schlüsselbildclustering: Kritisch für robuste Abgleichung in texturarmen Umgebungen
Kartenerweiterung: Effektive Verarbeitung von Umgebungsveränderungen und Unterstützung von Langzeit-Navigationstasks

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Flexible Kartendarstellung: Topometrische Graphen lindern effektiv die Anforderungen an globale Kartenerstellung
Robustes Navigationssystem: Multi-Target-Management und Schlüsselbildclustering verbessern die Systemrobustheit erheblich
Praktische Validierung: Systemeffektivität in verschiedenen herausfordernden Szenarien validiert

Einschränkungen

Abhängigkeit von relativer Pose: Systemleistung hängt von der Genauigkeit der relativen Pose zwischen Schlüsselbildern ab
Langzeit-Drift: Wenn über längere Zeit keine Kartabgleichung möglich ist, kann Odometrie-Drift zu Divergenz führen
Umgebungsannahmen: Annahme ausreichend genauer Relativposenschätzung, möglicherweise nicht in allen Umgebungen gültig

Zukünftige Richtungen

Entwicklung eines auf Deep Learning basierenden End-to-End-Modells für visuelle Navigation, um sich weiter von der Abhängigkeit von präziser globaler Posenverfolgung und Umgebungskartenerstellung zu befreien.

Tiefgehende Bewertung

Stärken

Technische Innovation: Neuartige topometrische Kartendarstellung, die Einschränkungen traditioneller Methoden effektiv überwindet
Systemvollständigkeit: Umfassende Lösung von Kartenerstellung bis Navigationsausführung
Umfangreiche Experimente: Umfassende Validierung in verschiedenen Szenarien und Bedingungen
Praktischer Wert: Systemdesign berücksichtigt praktische Bereitstellungsanforderungen mit benutzerfreundlicher Gestaltung

Mängel

Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Systemkonvergenz und Stabilität
Rechenkomplexität: Keine detaillierte Analyse der Rechenkomplexität von Schlüsselbildclustering und Multi-Target-Management
Umgebungsbeschränkungen: Hauptsächlich in strukturierten Innenumgebungen getestet; Adaptivität in komplexen Außenumgebungen unbekannt
Begrenzte Vergleichsbaselines: Hauptsächlich Vergleich mit klassischer BVTR-Methode; Vergleich mit neuesten Deep-Learning-Methoden fehlt

Einflussfähigkeit

Akademischer Beitrag: Bietet neue technische Wege für VTR-Navigation mit gewissem theoretischen Wert
Praktischer Wert: Methode kann direkt auf Industrie- und Haushaltsroboter-Navigation angewendet werden
Reproduzierbarkeit: Technische Details sind ausreichend beschrieben für Reproduktion und Verbesserung

Anwendungsszenarien

Navigation auf festgelegten Routen: Navigation zwischen Fabrikstandorten, Lagerverwaltungsroboter-Pfadverfolgung
Szenarien mit Umgebungsveränderungen: Langzeit-Navigationstasks, die sich an leichte Umgebungsveränderungen anpassen müssen
Begrenzte Rechenressourcen: Im Vergleich zu Deep-Learning-Methoden geringere Hardwareanforderungen

Literaturverzeichnis

Der Artikel enthält 31 Referenzen, die wichtige Arbeiten in den Bereichen visuelles SLAM, Roboternavigation und Ortsidentifikation abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dieser Artikel präsentiert eine praktische VTR-Navigationslösung mit gewisser technischer Innovation und ausreichender experimenteller Validierung. Obwohl Raum für Verbesserungen in theoretischer Analyse und Umgebungsadaptivität besteht, leistet er einen wertvollen technischen Beitrag zum Bereich der Mobilroboter-Navigation.