2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.
Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.
academic

Navigation Visuelle Robuste d'Enseignement et de Répétition avec Représentation Flexible de Carte Topo-métrique

Informations Fondamentales

  • ID de l'article : 2510.09089
  • Titre : Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
  • Auteurs : Jikai Wang, Yunqi Cheng, Kezhi Wang, et Zonghai Chen (Université des Sciences et Technologies de Chine)
  • Classification : cs.RO (Robotique)
  • Date de publication : 10 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.09089

Résumé

Cet article propose un nouveau système de navigation visuelle d'enseignement-répétition qui résout les défis posés par les changements environnementaux et les objets dynamiques grâce à une représentation de carte flexible, une mise en correspondance robuste de cartes et un module de navigation locale sans carte. Le système adopte une structure de graphe topo-métrique pour stocker les images-clés, supportant l'expansion des nœuds pour préserver les nouvelles observations. Les performances de reconnaissance de localisation sont améliorées par le clustering d'images-clés et une stratégie d'appariement image-vers-carte locale, et un algorithme de gestion des objectifs à long terme est construit pour éviter que le robot ne se perde en raison de changements environnementaux ou d'occlusions d'obstacles.

Contexte de Recherche et Motivation

Définition du Problème

La navigation visuelle d'enseignement-répétition (VTR) est une solution directe pour le déploiement de robots mobiles dans des environnements inconnus, mais la réalisation d'une navigation de trajectoire robuste et répétée reste un défi en présence de changements environnementaux et d'objets dynamiques.

Importance

  1. Valeur pratique : La navigation VTR évite la cartographie complète de l'environnement de tâche, rendant le déploiement des robots plus efficace
  2. Besoins applicatifs : Largement demandée dans les scénarios de navigation à itinéraire fixe (tels que la navigation entre sites d'usines)
  3. Défis techniques : Nécessite de maintenir la robustesse de la navigation dans les conditions de changements environnementaux, d'objets dynamiques et de déviation de trajectoire

Limitations des Méthodes Existantes

  1. Problèmes de représentation de carte : Les méthodes traditionnelles dépendent de la cartographie avec cohérence globale, exigeant une haute précision de localisation
  2. Fragilité de la reconnaissance de localisation : L'appariement image-vers-image n'est pas suffisamment robuste aux changements de point de vue et aux occlusions
  3. Dépendance du module de navigation : Les systèmes existants dépendent excessivement d'une reconnaissance de localisation précise, échouant facilement lorsque l'appariement échoue
  4. Faible adaptabilité environnementale : Difficultés à traiter les changements environnementaux et les obstacles dynamiques

Contributions Principales

  1. Proposition d'une méthode de représentation de carte flexible : Conception d'une structure de graphe topo-métrique adaptable aux changements environnementaux et aux erreurs de dérive odomètrique
  2. Construction d'un système VTR de navigation robuste : Capable de s'adapter aux changements environnementaux, aux objets dynamiques et aux occlusions de point de vue, avec un module de navigation pouvant être intégré dans d'autres systèmes VTR
  3. Implémentation d'un système convivial : Facile à adapter à de nouveaux environnements de tâche, avec une bonne praticité
  4. Vérification de l'efficacité du système : Expériences étendues menées sur des plates-formes mobiles, démontrant la supériorité par rapport aux méthodes de base

Détails de la Méthode

Définition de la Tâche

La navigation VTR comprend deux phases :

  • Phase d'enseignement : Opération manuelle du robot le long de l'itinéraire de tâche, enregistrement en temps réel des images visuelles comme carte
  • Phase de répétition : Le robot tente de mettre en correspondance les images visuelles actuelles avec la carte et met à jour l'objectif suivant lorsque l'appariement réussit

Architecture du Système

1. Analyse d'Erreur de Représentation de Carte

La représentation traditionnelle de la carte SLAM est :

M̂ = {[Ki, T̂WI], i = 1, ···, N}

où la pose globale estimée contient des erreurs de dérive cumulative. La représentation proposée dans cet article est :

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

chaque image-clé ne conserve que les transformations de pose relative fiables avec les images-clés voisines.

2. Carte d'Images-Clés Topo-métrique

L'image-clé est définie comme :

Ki = {Ti-1i, Ui, Pi, Ii}

contenant la transformation relative, les points caractéristiques 2D, la position 3D et les informations d'image. Lors de la détection d'une boucle fermée, elle s'étend à :

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Réduction de la Redondance de Carte

Fusion des images similaires par clustering d'images-clés :

  • Calcul de la similarité DBoW, arrêt en dessous du seuil
  • Transformation des points caractéristiques 3D des images-clés similaires vers le système de coordonnées de l'image conservée
  • Suppression des images-clés redondantes, maintien de la structure de liste chaînée

Phase de Répétition Visuelle

1. Appariement Image-vers-Image-Clé

Adoption d'une stratégie de recherche contrainte :

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

recherche de caractéristiques correspondantes dans une région circulaire, résolution de la pose relative par PnP.

2. Expansion de Carte

Lorsque le robot s'écarte de l'itinéraire d'enseignement, les nouvelles observations sont ajoutées à la carte :

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Gestion de la Liste d'Objectifs

Construction d'une liste d'objectifs plutôt qu'un objectif unique :

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

liste d'objectifs Lg = {tg0, tg1, ···, tgM} mise à jour lors du succès de l'appariement.

4. Planification de Mouvement Local

Implémentation du suivi multi-objectif par évaluation de candidats de trajectoire :

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

évaluation en considérant les trois premiers objectifs, sélection de la trajectoire optimale.

Configuration Expérimentale

Configuration de la Plate-forme Mobile

  • Matériel : Plate-forme à entraînement différentiel, équipée d'une caméra embarquée IMU (MYNTEYE-SC) et d'un lidar (Livox Mid-360)
  • Système de localisation : Utilisation d'OpenVINS pour l'odomètrie visuelle, iG-LIO pour l'enregistrement de trajectoires à des fins d'évaluation

Métriques d'Évaluation

  • Distance au point final : Distance entre le point final réellement atteint et le point final de l'itinéraire d'enseignement prédéfini
  • Taux de succès : Capacité du robot à naviguer du point de départ au point final (sans exigence de suivi strict de l'itinéraire)

Ensemble de Données

  • Environnements : Scènes de bureaux et de couloirs
  • Types d'itinéraires : Trajectoires rectilignes et courbes
  • Conditions de test : État normal, occlusion d'obstacles, changements environnementaux

Méthodes de Comparaison

  • BVTR : Méthode VTR classique inspirée par la biologie
  • Expériences d'ablation : Variantes sans clustering d'images-clés, suivi mono-objectif, etc.

Résultats Expérimentaux

Résultats Principaux

1. Navigation dans des Conditions Normales

  • Scène de bureau : Distance au point final de 0,08 m pour cette méthode, 0,10 m pour BVTR
  • Les deux méthodes complètent avec succès la navigation, avec des écarts légers aux virages

2. Test d'Occlusion d'Obstacles

  • Cette méthode : Distance au point final de 0,08 m, évitement d'obstacles réussi et retour à l'itinéraire d'enseignement
  • BVTR : Distance au point final de 5,58 m, arrêt devant l'obstacle sans possibilité de continuer
  • Version mono-objectif : Distance au point final de 5,20 m, validant l'importance de la stratégie multi-objectif

3. Navigation sur Trajectoire Courbe (Scène de Couloir)

  • Cette méthode : Distance au point final de 0,37 m, suivi réussi de l'ensemble de l'itinéraire
  • BVTR : Distance au point final de 11,44 m, arrêt après navigation vers une position inconnue
  • Sans clustering d'images-clés : Distance au point final de 10,49 m, démontrant le rôle crucial de la stratégie de clustering

4. Vérification du Clustering d'Images-Clés

Le clustering d'images-clés augmente significativement la densité de détection de boucles fermées, particulièrement aux virages, fournissant des retours plus opportuns au module de planification de mouvement.

5. Vérification de l'Expansion de Carte

Le système peut ajouter de nouvelles informations environnementales pendant la phase de répétition, les images-clés étendues maintenant l'association avec la carte originale sans compromettre la structure topologique.

Découvertes Expérimentales

  1. Gestion des objectifs à long terme : La stratégie multi-objectif améliore significativement la robustesse du système aux défaillances de détection de boucles fermées
  2. Clustering d'images-clés : Crucial pour l'appariement robuste dans les environnements pauvres en texture
  3. Expansion de carte : Traite efficacement les changements environnementaux, supportant les tâches de navigation à long terme

Travaux Connexes

Principales Directions de Recherche

  1. Méthodes inspirées par la biologie : Comparaison directe d'images et reconnaissance de motifs
  2. Méthodes de géométrie visuelle : Appariement d'images basé sur les caractéristiques et résolution PnP
  3. Méthodes d'apprentissage profond : Apprentissage bout-à-bout et appariement par réseaux de neurones
  4. Fusion topo-métrique : Navigation combinant informations topologiques et métriques

Avantages de Cet Article

  • Par rapport aux méthodes inspirées par la biologie : Appariement de caractéristiques plus robuste
  • Par rapport aux méthodes d'apprentissage profond : Efficacité computationnelle élevée, forte interprétabilité
  • Par rapport aux méthodes géométriques traditionnelles : Pas de nécessité de cohérence globale, forte adaptabilité

Conclusions et Discussion

Conclusions Principales

  1. Représentation de carte flexible : Le graphe topo-métrique atténue efficacement les exigences de cartographie globale
  2. Système de navigation robuste : La gestion multi-objectif et le clustering d'images-clés améliorent significativement la robustesse du système
  3. Vérification de la praticité : Efficacité du système validée dans plusieurs scénarios difficiles

Limitations

  1. Dépendance à la pose relative : Les performances du système dépendent de la précision des poses relatives entre images-clés
  2. Dérive à long terme : Si le robot ne peut pas mettre en correspondance la carte pendant une longue période, la dérive odomètrique peut causer une divergence
  3. Hypothèses environnementales : Suppose que l'estimation de pose relative est suffisamment précise, ce qui peut ne pas être valide dans certains environnements

Directions Futures

Construction d'un modèle de navigation visuelle bout-à-bout basé sur l'apprentissage profond, se libérant davantage de la dépendance au suivi précis de pose globale et à la cartographie environnementale.

Évaluation Approfondie

Points Forts

  1. Innovation technique : Proposition d'une nouvelle représentation de carte topo-métrique, résolvant efficacement les limitations des méthodes traditionnelles
  2. Complétude du système : Solution complète de la construction de carte à l'exécution de navigation
  3. Expériences suffisantes : Vérification complète dans plusieurs scènes et conditions
  4. Valeur pratique : Conception du système considérant les besoins de déploiement réel, conviviale

Insuffisances

  1. Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la stabilité du système
  2. Complexité computationnelle : Analyse détaillée manquante de la charge computationnelle du clustering d'images-clés et de la gestion multi-objectif
  3. Limitations environnementales : Tests principalement dans des environnements structurés intérieurs, adaptabilité en environnements extérieurs complexes inconnue
  4. Bases de comparaison limitées : Comparaison principalement avec la méthode classique BVTR, manque de comparaison avec les méthodes récentes d'apprentissage profond

Impact

  1. Contribution académique : Fournit une nouvelle voie technique pour la navigation VTR, possédant une certaine valeur théorique
  2. Valeur pratique : La méthode peut être directement appliquée à la navigation de robots industriels et domestiques
  3. Reproductibilité : Description détaillée des techniques, facilitant la reproduction et l'amélioration

Scénarios Applicables

  1. Navigation à itinéraire fixe : Navigation entre sites d'usines, suivi de trajectoire de robots de stockage
  2. Scénarios de changements environnementaux : Tâches de navigation à long terme nécessitant l'adaptation à des changements environnementaux légers
  3. Ressources computationnelles limitées : Exigences matérielles plus faibles comparées aux méthodes d'apprentissage profond

Références

L'article contient 31 références bibliographiques couvrant les domaines pertinents du SLAM visuel, de la navigation robotique et de la reconnaissance de localisation, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Cet article propose une solution VTR de navigation pratique avec une certaine innovation technique et une vérification expérimentale suffisante. Bien qu'il y ait encore de l'espace pour l'amélioration dans l'analyse théorique et l'adaptabilité environnementale, il fournit une contribution technique précieuse au domaine de la navigation des robots mobiles.