2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.

Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.

academic

Navigation Visuelle Robuste d'Enseignement et de Répétition avec Représentation Flexible de Carte Topo-métrique

Informations Fondamentales

ID de l'article : 2510.09089
Titre : Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
Auteurs : Jikai Wang, Yunqi Cheng, Kezhi Wang, et Zonghai Chen (Université des Sciences et Technologies de Chine)
Classification : cs.RO (Robotique)
Date de publication : 10 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.09089

Résumé

Cet article propose un nouveau système de navigation visuelle d'enseignement-répétition qui résout les défis posés par les changements environnementaux et les objets dynamiques grâce à une représentation de carte flexible, une mise en correspondance robuste de cartes et un module de navigation locale sans carte. Le système adopte une structure de graphe topo-métrique pour stocker les images-clés, supportant l'expansion des nœuds pour préserver les nouvelles observations. Les performances de reconnaissance de localisation sont améliorées par le clustering d'images-clés et une stratégie d'appariement image-vers-carte locale, et un algorithme de gestion des objectifs à long terme est construit pour éviter que le robot ne se perde en raison de changements environnementaux ou d'occlusions d'obstacles.

Contexte de Recherche et Motivation

Définition du Problème

La navigation visuelle d'enseignement-répétition (VTR) est une solution directe pour le déploiement de robots mobiles dans des environnements inconnus, mais la réalisation d'une navigation de trajectoire robuste et répétée reste un défi en présence de changements environnementaux et d'objets dynamiques.

Importance

Valeur pratique : La navigation VTR évite la cartographie complète de l'environnement de tâche, rendant le déploiement des robots plus efficace
Besoins applicatifs : Largement demandée dans les scénarios de navigation à itinéraire fixe (tels que la navigation entre sites d'usines)
Défis techniques : Nécessite de maintenir la robustesse de la navigation dans les conditions de changements environnementaux, d'objets dynamiques et de déviation de trajectoire

Limitations des Méthodes Existantes

Problèmes de représentation de carte : Les méthodes traditionnelles dépendent de la cartographie avec cohérence globale, exigeant une haute précision de localisation
Fragilité de la reconnaissance de localisation : L'appariement image-vers-image n'est pas suffisamment robuste aux changements de point de vue et aux occlusions
Dépendance du module de navigation : Les systèmes existants dépendent excessivement d'une reconnaissance de localisation précise, échouant facilement lorsque l'appariement échoue
Faible adaptabilité environnementale : Difficultés à traiter les changements environnementaux et les obstacles dynamiques

Contributions Principales

Proposition d'une méthode de représentation de carte flexible : Conception d'une structure de graphe topo-métrique adaptable aux changements environnementaux et aux erreurs de dérive odomètrique
Construction d'un système VTR de navigation robuste : Capable de s'adapter aux changements environnementaux, aux objets dynamiques et aux occlusions de point de vue, avec un module de navigation pouvant être intégré dans d'autres systèmes VTR
Implémentation d'un système convivial : Facile à adapter à de nouveaux environnements de tâche, avec une bonne praticité
Vérification de l'efficacité du système : Expériences étendues menées sur des plates-formes mobiles, démontrant la supériorité par rapport aux méthodes de base

Détails de la Méthode

Définition de la Tâche

La navigation VTR comprend deux phases :

Phase d'enseignement : Opération manuelle du robot le long de l'itinéraire de tâche, enregistrement en temps réel des images visuelles comme carte
Phase de répétition : Le robot tente de mettre en correspondance les images visuelles actuelles avec la carte et met à jour l'objectif suivant lorsque l'appariement réussit

Architecture du Système

1. Analyse d'Erreur de Représentation de Carte

La représentation traditionnelle de la carte SLAM est :

M̂ = {[Ki, T̂WI], i = 1, ···, N}

où la pose globale estimée contient des erreurs de dérive cumulative. La représentation proposée dans cet article est :

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

chaque image-clé ne conserve que les transformations de pose relative fiables avec les images-clés voisines.

2. Carte d'Images-Clés Topo-métrique

L'image-clé est définie comme :

Ki = {Ti-1i, Ui, Pi, Ii}

contenant la transformation relative, les points caractéristiques 2D, la position 3D et les informations d'image. Lors de la détection d'une boucle fermée, elle s'étend à :

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Réduction de la Redondance de Carte

Fusion des images similaires par clustering d'images-clés :

Calcul de la similarité DBoW, arrêt en dessous du seuil
Transformation des points caractéristiques 3D des images-clés similaires vers le système de coordonnées de l'image conservée
Suppression des images-clés redondantes, maintien de la structure de liste chaînée

Phase de Répétition Visuelle

1. Appariement Image-vers-Image-Clé

Adoption d'une stratégie de recherche contrainte :

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

recherche de caractéristiques correspondantes dans une région circulaire, résolution de la pose relative par PnP.

2. Expansion de Carte

Lorsque le robot s'écarte de l'itinéraire d'enseignement, les nouvelles observations sont ajoutées à la carte :

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Gestion de la Liste d'Objectifs

Construction d'une liste d'objectifs plutôt qu'un objectif unique :

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

liste d'objectifs Lg = {tg0, tg1, ···, tgM} mise à jour lors du succès de l'appariement.

4. Planification de Mouvement Local

Implémentation du suivi multi-objectif par évaluation de candidats de trajectoire :

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

évaluation en considérant les trois premiers objectifs, sélection de la trajectoire optimale.

Configuration Expérimentale

Configuration de la Plate-forme Mobile

Matériel : Plate-forme à entraînement différentiel, équipée d'une caméra embarquée IMU (MYNTEYE-SC) et d'un lidar (Livox Mid-360)
Système de localisation : Utilisation d'OpenVINS pour l'odomètrie visuelle, iG-LIO pour l'enregistrement de trajectoires à des fins d'évaluation

Métriques d'Évaluation

Distance au point final : Distance entre le point final réellement atteint et le point final de l'itinéraire d'enseignement prédéfini
Taux de succès : Capacité du robot à naviguer du point de départ au point final (sans exigence de suivi strict de l'itinéraire)

Ensemble de Données

Environnements : Scènes de bureaux et de couloirs
Types d'itinéraires : Trajectoires rectilignes et courbes
Conditions de test : État normal, occlusion d'obstacles, changements environnementaux

Méthodes de Comparaison

BVTR : Méthode VTR classique inspirée par la biologie
Expériences d'ablation : Variantes sans clustering d'images-clés, suivi mono-objectif, etc.

Résultats Expérimentaux

Résultats Principaux

1. Navigation dans des Conditions Normales

Scène de bureau : Distance au point final de 0,08 m pour cette méthode, 0,10 m pour BVTR
Les deux méthodes complètent avec succès la navigation, avec des écarts légers aux virages

2. Test d'Occlusion d'Obstacles

Cette méthode : Distance au point final de 0,08 m, évitement d'obstacles réussi et retour à l'itinéraire d'enseignement
BVTR : Distance au point final de 5,58 m, arrêt devant l'obstacle sans possibilité de continuer
Version mono-objectif : Distance au point final de 5,20 m, validant l'importance de la stratégie multi-objectif

3. Navigation sur Trajectoire Courbe (Scène de Couloir)

Cette méthode : Distance au point final de 0,37 m, suivi réussi de l'ensemble de l'itinéraire
BVTR : Distance au point final de 11,44 m, arrêt après navigation vers une position inconnue
Sans clustering d'images-clés : Distance au point final de 10,49 m, démontrant le rôle crucial de la stratégie de clustering

4. Vérification du Clustering d'Images-Clés

Le clustering d'images-clés augmente significativement la densité de détection de boucles fermées, particulièrement aux virages, fournissant des retours plus opportuns au module de planification de mouvement.

5. Vérification de l'Expansion de Carte

Le système peut ajouter de nouvelles informations environnementales pendant la phase de répétition, les images-clés étendues maintenant l'association avec la carte originale sans compromettre la structure topologique.

Découvertes Expérimentales

Gestion des objectifs à long terme : La stratégie multi-objectif améliore significativement la robustesse du système aux défaillances de détection de boucles fermées
Clustering d'images-clés : Crucial pour l'appariement robuste dans les environnements pauvres en texture
Expansion de carte : Traite efficacement les changements environnementaux, supportant les tâches de navigation à long terme

Travaux Connexes

Principales Directions de Recherche

Méthodes inspirées par la biologie : Comparaison directe d'images et reconnaissance de motifs
Méthodes de géométrie visuelle : Appariement d'images basé sur les caractéristiques et résolution PnP
Méthodes d'apprentissage profond : Apprentissage bout-à-bout et appariement par réseaux de neurones
Fusion topo-métrique : Navigation combinant informations topologiques et métriques

Avantages de Cet Article

Par rapport aux méthodes inspirées par la biologie : Appariement de caractéristiques plus robuste
Par rapport aux méthodes d'apprentissage profond : Efficacité computationnelle élevée, forte interprétabilité
Par rapport aux méthodes géométriques traditionnelles : Pas de nécessité de cohérence globale, forte adaptabilité

Conclusions et Discussion

Conclusions Principales

Représentation de carte flexible : Le graphe topo-métrique atténue efficacement les exigences de cartographie globale
Système de navigation robuste : La gestion multi-objectif et le clustering d'images-clés améliorent significativement la robustesse du système
Vérification de la praticité : Efficacité du système validée dans plusieurs scénarios difficiles

Limitations

Dépendance à la pose relative : Les performances du système dépendent de la précision des poses relatives entre images-clés
Dérive à long terme : Si le robot ne peut pas mettre en correspondance la carte pendant une longue période, la dérive odomètrique peut causer une divergence
Hypothèses environnementales : Suppose que l'estimation de pose relative est suffisamment précise, ce qui peut ne pas être valide dans certains environnements

Directions Futures

Construction d'un modèle de navigation visuelle bout-à-bout basé sur l'apprentissage profond, se libérant davantage de la dépendance au suivi précis de pose globale et à la cartographie environnementale.

Évaluation Approfondie

Points Forts

Innovation technique : Proposition d'une nouvelle représentation de carte topo-métrique, résolvant efficacement les limitations des méthodes traditionnelles
Complétude du système : Solution complète de la construction de carte à l'exécution de navigation
Expériences suffisantes : Vérification complète dans plusieurs scènes et conditions
Valeur pratique : Conception du système considérant les besoins de déploiement réel, conviviale

Insuffisances

Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la stabilité du système
Complexité computationnelle : Analyse détaillée manquante de la charge computationnelle du clustering d'images-clés et de la gestion multi-objectif
Limitations environnementales : Tests principalement dans des environnements structurés intérieurs, adaptabilité en environnements extérieurs complexes inconnue
Bases de comparaison limitées : Comparaison principalement avec la méthode classique BVTR, manque de comparaison avec les méthodes récentes d'apprentissage profond

Impact

Contribution académique : Fournit une nouvelle voie technique pour la navigation VTR, possédant une certaine valeur théorique
Valeur pratique : La méthode peut être directement appliquée à la navigation de robots industriels et domestiques
Reproductibilité : Description détaillée des techniques, facilitant la reproduction et l'amélioration

Scénarios Applicables

Navigation à itinéraire fixe : Navigation entre sites d'usines, suivi de trajectoire de robots de stockage
Scénarios de changements environnementaux : Tâches de navigation à long terme nécessitant l'adaptation à des changements environnementaux légers
Ressources computationnelles limitées : Exigences matérielles plus faibles comparées aux méthodes d'apprentissage profond

Références

L'article contient 31 références bibliographiques couvrant les domaines pertinents du SLAM visuel, de la navigation robotique et de la reconnaissance de localisation, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Cet article propose une solution VTR de navigation pratique avec une certaine innovation technique et une vérification expérimentale suffisante. Bien qu'il y ait encore de l'espace pour l'amélioration dans l'analyse théorique et l'adaptabilité environnementale, il fournit une contribution technique précieuse au domaine de la navigation des robots mobiles.