2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.
Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.
academic

Navigazione Visiva Robusta di Insegnamento-Ripetizione con Rappresentazione Flessibile di Mappe Grafo Topometrico

Informazioni Fondamentali

  • ID Articolo: 2510.09089
  • Titolo: Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
  • Autori: Jikai Wang, Yunqi Cheng, Kezhi Wang, e Zonghai Chen (Università di Scienza e Tecnologia della Cina)
  • Classificazione: cs.RO (Robotica)
  • Data di Pubblicazione: 10 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09089

Riassunto

Questo articolo propone un innovativo sistema di navigazione visiva di insegnamento-ripetizione che affronta le sfide poste dai cambiamenti ambientali e dagli oggetti dinamici attraverso una rappresentazione flessibile della mappa, un robusto abbinamento della mappa e un modulo di navigazione locale senza mappa. Il sistema impiega una struttura di grafo topometrico per memorizzare fotogrammi chiave, supportando l'espansione dei nodi per preservare nuove osservazioni. Attraverso strategie di clustering di fotogrammi chiave e abbinamento da fotogramma a mappa locale, migliora le prestazioni di riconoscimento della posizione e costruisce un algoritmo di gestione degli obiettivi a lungo termine per evitare che il robot si perda a causa di cambiamenti ambientali o occlusioni da ostacoli.

Contesto di Ricerca e Motivazione

Definizione del Problema

La navigazione visiva di insegnamento-ripetizione (VTR) rappresenta una soluzione diretta per il dispiegamento di robot mobili in ambienti sconosciuti, tuttavia la realizzazione di una navigazione di ripetizione della traiettoria robusta in presenza di cambiamenti ambientali e oggetti dinamici rimane una sfida significativa.

Importanza

  1. Valore Pratico: La navigazione VTR evita la mappatura completa dell'ambiente di lavoro, rendendo il dispiegamento dei robot più efficiente
  2. Esigenze Applicative: Ampia domanda in scenari di navigazione su percorsi fissi (come la navigazione tra stazioni in ambienti industriali)
  3. Sfide Tecniche: Necessità di mantenere la robustezza della navigazione in condizioni di cambiamento ambientale, oggetti dinamici e deviazioni dal percorso

Limitazioni dei Metodi Esistenti

  1. Problemi di Rappresentazione della Mappa: I metodi tradizionali dipendono dalla mappatura con coerenza globale, richiedendo elevata precisione di localizzazione
  2. Fragilità del Riconoscimento della Posizione: L'abbinamento da fotogramma a fotogramma non è sufficientemente robusto in caso di variazioni di punto di vista e occlusioni
  3. Dipendenza dal Modulo di Navigazione: I sistemi esistenti dipendono eccessivamente da un riconoscimento della posizione accurato, fallendo facilmente quando l'abbinamento non riesce
  4. Scarsa Adattabilità Ambientale: Difficoltà nel gestire cambiamenti ambientali e ostacoli dinamici

Contributi Fondamentali

  1. Proposta di un Metodo di Rappresentazione Flessibile della Mappa: Progettazione di una struttura di grafo topometrico adattabile ai cambiamenti ambientali e agli errori di deriva dell'odometria
  2. Costruzione di un Sistema VTR Robusto: Capacità di adattarsi ai cambiamenti ambientali, agli oggetti dinamici e alle occlusioni di punto di vista, con modulo di navigazione incorporabile in altri sistemi VTR
  3. Implementazione di un Sistema Intuitivo: Facile adattamento a nuovi ambienti di lavoro con buona praticità
  4. Verifica dell'Efficacia del Sistema: Ampi esperimenti su piattaforme mobili che dimostrano la superiorità rispetto ai metodi di base

Dettagli del Metodo

Definizione del Compito

La navigazione VTR comprende due fasi:

  • Fase di Insegnamento: Controllo manuale del robot lungo il percorso di lavoro, registrazione in tempo reale dei fotogrammi visivi come mappa
  • Fase di Ripetizione: Il robot tenta di abbinare i fotogrammi visivi attuali con la mappa e aggiorna il prossimo obiettivo quando l'abbinamento ha successo

Architettura del Sistema

1. Analisi degli Errori di Rappresentazione della Mappa

La rappresentazione tradizionale della mappa SLAM è:

M̂ = {[Ki, T̂WI], i = 1, ···, N}

dove la posa globale stimata contiene errori di deriva cumulativi. La rappresentazione proposta è:

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

ogni fotogramma chiave memorizza solo trasformazioni di posa relativa affidabili con fotogrammi chiave adiacenti.

2. Mappa di Fotogrammi Chiave Topometrica

Il fotogramma chiave è definito come:

Ki = {Ti-1i, Ui, Pi, Ii}

contenente trasformazione relativa, punti caratteristici 2D, posizione 3D e informazioni di immagine. Quando viene rilevato un ciclo, si espande a:

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Riduzione della Ridondanza della Mappa

Fusione di fotogrammi simili attraverso clustering di fotogrammi chiave:

  • Calcolo della similarità DBoW, arresto sotto soglia
  • Trasformazione dei punti caratteristici 3D di fotogrammi chiave simili nel sistema di coordinate del fotogramma conservato
  • Rimozione di fotogrammi chiave ridondanti, mantenimento della struttura di lista collegata

Fase di Ripetizione Visiva

1. Abbinamento da Fotogramma a Fotogramma Chiave

Adozione di una strategia di ricerca vincolata:

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

ricerca di caratteristiche corrispondenti all'interno di un'area circolare, risoluzione della posa relativa tramite PnP.

2. Espansione della Mappa

Quando il robot si allontana dal percorso di insegnamento, le nuove osservazioni vengono aggiunte alla mappa:

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Gestione della Lista degli Obiettivi

Costruzione di una lista di obiettivi piuttosto che un singolo obiettivo:

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

la lista degli obiettivi Lg = {tg0, tg1, ···, tgM} viene aggiornata quando l'abbinamento ha successo.

4. Pianificazione del Movimento Locale

Implementazione del tracciamento di più obiettivi attraverso la valutazione dei candidati di traiettoria:

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

valutazione considerando i primi tre obiettivi, selezione della traiettoria ottimale.

Configurazione Sperimentale

Configurazione della Piattaforma Mobile

  • Hardware: Piattaforma a trazione differenziale, equipaggiata con fotocamera embedded IMU (MYNTEYE-SC) e lidar (Livox Mid-360)
  • Sistema di Localizzazione: Utilizzo di OpenVINS per l'odometria visiva, iG-LIO per la registrazione della traiettoria per la valutazione

Metriche di Valutazione

  • Distanza dal Punto Finale: Distanza tra il punto finale effettivamente raggiunto e il punto finale predefinito del percorso di insegnamento
  • Tasso di Successo: Capacità del robot di navigare dal punto di partenza al punto finale (non richiede rigoroso seguimento del percorso)

Dataset

  • Ambienti: Scene di uffici e corridoi
  • Tipi di Percorso: Percorsi rettilinei e curvi
  • Condizioni di Test: Stato normale, occlusione da ostacoli, cambiamenti ambientali

Metodi di Confronto

  • BVTR: Metodo VTR classico ispirato biologicamente
  • Esperimenti di Ablazione: Varianti senza clustering di fotogrammi chiave, tracciamento a singolo obiettivo, ecc.

Risultati Sperimentali

Risultati Principali

1. Navigazione in Condizioni Normali

  • Scena di Ufficio: Distanza dal punto finale del metodo proposto 0,08 m, BVTR 0,10 m
  • Entrambi i metodi completano con successo la navigazione, con leggere deviazioni nelle curve

2. Test di Occlusione da Ostacoli

  • Metodo Proposto: Distanza dal punto finale 0,08 m, evitamento riuscito degli ostacoli e ritorno al percorso di insegnamento
  • BVTR: Distanza dal punto finale 5,58 m, arresto davanti all'ostacolo senza possibilità di continuare
  • Versione a Singolo Obiettivo: Distanza dal punto finale 5,20 m, verifica dell'importanza della strategia multi-obiettivo

3. Navigazione su Percorso Curvo (Scena di Corridoio)

  • Metodo Proposto: Distanza dal punto finale 0,37 m, seguimento riuscito dell'intero percorso
  • BVTR: Distanza dal punto finale 11,44 m, arresto dopo navigazione verso posizione sconosciuta
  • Senza Clustering di Fotogrammi Chiave: Distanza dal punto finale 10,49 m, dimostra il ruolo critico della strategia di clustering

4. Verifica del Clustering di Fotogrammi Chiave

Il clustering di fotogrammi chiave aumenta significativamente la densità di rilevamento dei cicli, in particolare nelle curve, fornendo feedback più tempestivo al modulo di pianificazione del movimento.

5. Verifica dell'Espansione della Mappa

Il sistema è in grado di aggiungere nuove informazioni ambientali durante la fase di ripetizione, mantenendo l'associazione tra fotogrammi chiave espansi e la mappa originale senza compromettere la struttura topologica.

Scoperte Sperimentali

  1. Gestione degli Obiettivi a Lungo Termine: La strategia multi-obiettivo migliora significativamente la robustezza del sistema ai fallimenti di rilevamento dei cicli
  2. Clustering di Fotogrammi Chiave: Critico per l'abbinamento robusto in ambienti con texture scarsa
  3. Espansione della Mappa: Gestione efficace dei cambiamenti ambientali, supporto per compiti di navigazione a lungo termine

Lavori Correlati

Principali Direzioni di Ricerca

  1. Metodi Ispirati Biologicamente: Confronto diretto di immagini e riconoscimento di pattern
  2. Metodi di Geometria Visiva: Abbinamento di immagini basato su caratteristiche e risoluzione PnP
  3. Metodi di Apprendimento Profondo: Apprendimento end-to-end e abbinamento di reti neurali
  4. Fusione Topometrica: Navigazione che combina informazioni topologiche e metriche

Vantaggi di Questo Articolo

  • Rispetto ai metodi ispirati biologicamente: Abbinamento di caratteristiche più robusto
  • Rispetto ai metodi di apprendimento profondo: Efficienza computazionale elevata, forte interpretabilità
  • Rispetto ai metodi geometrici tradizionali: Nessun requisito di coerenza globale, forte adattabilità

Conclusioni e Discussione

Conclusioni Principali

  1. Rappresentazione Flessibile della Mappa: Il grafo topometrico mitiga efficacemente i requisiti di mappatura globale
  2. Sistema di Navigazione Robusto: La gestione multi-obiettivo e il clustering di fotogrammi chiave migliorano significativamente la robustezza del sistema
  3. Verifica della Praticità: Efficacia del sistema verificata in molteplici scenari impegnativi

Limitazioni

  1. Dipendenza dalla Posa Relativa: Le prestazioni del sistema dipendono dall'accuratezza della posa relativa tra fotogrammi chiave
  2. Deriva a Lungo Termine: Se il robot non riesce ad abbinare la mappa per un lungo periodo, la deriva dell'odometria potrebbe causare divergenza
  3. Ipotesi Ambientali: Presuppone che la stima della posa relativa sia sufficientemente accurata, il che potrebbe non valere in alcuni ambienti

Direzioni Future

Costruzione di modelli di navigazione visiva end-to-end basati su apprendimento profondo, per liberarsi ulteriormente dalla necessità di tracciamento accurato della posa globale e dalla mappatura ambientale.

Valutazione Approfondita

Punti di Forza

  1. Innovazione Tecnica: Proposta di una nuova rappresentazione di grafo topometrico che risolve efficacemente le limitazioni dei metodi tradizionali
  2. Completezza del Sistema: Soluzione completa dalla costruzione della mappa all'esecuzione della navigazione
  3. Verifica Sperimentale Completa: Validazione comprensiva in molteplici scenari e condizioni
  4. Valore Pratico: Progettazione del sistema considerando i requisiti di dispiegamento reale, intuitiva per l'utente

Insufficienze

  1. Analisi Teorica Limitata: Mancanza di garanzie teoriche sulla convergenza e stabilità del sistema
  2. Complessità Computazionale: Analisi dettagliata del costo computazionale del clustering di fotogrammi chiave e della gestione multi-obiettivo non fornita
  3. Limitazioni Ambientali: Test principalmente in ambienti strutturati interni, adattabilità in ambienti esterni complessi sconosciuta
  4. Linee di Base di Confronto Limitate: Confronto principalmente con il metodo classico BVTR, mancanza di confronto con metodi recenti di apprendimento profondo

Impatto

  1. Contributo Accademico: Fornisce un nuovo percorso tecnico per la navigazione VTR, con valore teorico considerevole
  2. Valore Pratico: Il metodo può essere direttamente applicato alla navigazione di robot industriali e domestici
  3. Riproducibilità: Descrizione dettagliata dei tecnicismi, facilitando la riproduzione e il miglioramento

Scenari Applicabili

  1. Navigazione su Percorsi Fissi: Navigazione tra stazioni all'interno di fabbriche, tracciamento di percorsi di robot di magazzino
  2. Scenari di Cambiamento Ambientale: Compiti di navigazione a lungo termine che richiedono adattamento a leggeri cambiamenti ambientali
  3. Risorse Computazionali Limitate: Requisiti hardware inferiori rispetto ai metodi di apprendimento profondo

Bibliografia

L'articolo contiene 31 riferimenti bibliografici, che coprono importanti lavori nei campi della SLAM visiva, navigazione robotica, riconoscimento della posizione e altri ambiti correlati, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo articolo propone una soluzione pratica di navigazione VTR con una certa innovazione tecnica e verifica sperimentale completa. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'adattabilità ambientale, fornisce un contributo tecnico prezioso al campo della navigazione dei robot mobili.