2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.

Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.

academic

Navegación Visual Robusta de Enseñanza-Repetición con Representación de Mapa Gráfico Topo-métrico Flexible

Información Básica

ID del Artículo: 2510.09089
Título: Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
Autores: Jikai Wang, Yunqi Cheng, Kezhi Wang, and Zonghai Chen (Universidad de Ciencia y Tecnología de China)
Clasificación: cs.RO (Robótica)
Fecha de Publicación: 10 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09089

Resumen

Este artículo propone un novedoso sistema de navegación visual de enseñanza-repetición que aborda los desafíos derivados de cambios ambientales y objetos dinámicos mediante una representación de mapa flexible, coincidencia de mapa robusta y un módulo de navegación local sin mapa. El sistema adopta una estructura de gráfico topo-métrico para almacenar fotogramas clave, permitiendo la expansión de nodos para preservar nuevas observaciones. Se mejora el rendimiento del reconocimiento de posición mediante estrategias de agrupamiento de fotogramas clave y coincidencia de fotograma a mapa local, y se construye un algoritmo de gestión de objetivos a largo plazo para evitar que el robot se pierda debido a cambios ambientales u oclusión de obstáculos.

Antecedentes de Investigación y Motivación

Definición del Problema

La navegación visual de enseñanza-repetición (VTR) es una solución directa para el despliegue de robots móviles en entornos desconocidos, pero lograr una navegación de trayectoria repetida robusta en presencia de cambios ambientales y objetos dinámicos sigue siendo un desafío.

Importancia

Valor Práctico: La navegación VTR evita la cartografía completa del entorno de tareas, haciendo el despliegue de robots más eficiente
Demanda de Aplicación: Ampliamente requerida en escenarios de navegación de ruta fija (como navegación entre sitios de fábricas)
Desafíos Técnicos: Requiere mantener robustez de navegación bajo cambios ambientales, objetos dinámicos y desviaciones de ruta

Limitaciones de Métodos Existentes

Problema de Representación de Mapa: Los métodos tradicionales dependen de cartografía con consistencia global, requiriendo alta precisión de localización
Reconocimiento de Posición Frágil: La coincidencia fotograma a fotograma no es suficientemente robusta ante cambios de punto de vista y oclusión
Dependencia del Módulo de Navegación: Los sistemas existentes dependen excesivamente del reconocimiento de posición preciso, fallando fácilmente cuando la coincidencia fracasa
Pobre Adaptabilidad Ambiental: Dificultad para manejar cambios ambientales y obstáculos dinámicos

Contribuciones Principales

Propone un Método de Representación de Mapa Flexible: Diseña una estructura de gráfico topo-métrico que se adapta a cambios ambientales y errores de deriva de odometría
Construye un Sistema VTR Robusto: Capaz de adaptarse a cambios ambientales, objetos dinámicos y oclusión de punto de vista, con módulo de navegación que puede integrarse en otros sistemas VTR
Implementa un Sistema Amigable con el Usuario: Fácil de adaptar a nuevos entornos de tareas, con buena practicidad
Verifica la Efectividad del Sistema: Realiza extensos experimentos en plataformas móviles, demostrando superioridad sobre métodos de referencia

Explicación Detallada del Método

Definición de Tarea

La navegación VTR comprende dos fases:

Fase de Enseñanza: Operación manual del robot a lo largo de la ruta de tarea, grabando fotogramas visuales en tiempo real como mapa
Fase de Repetición: El robot intenta coincidir fotogramas visuales actuales con el mapa, actualizando el siguiente objetivo cuando la coincidencia es exitosa

Arquitectura del Sistema

1. Análisis de Error de Representación de Mapa

La representación tradicional de mapa SLAM se expresa como:

M̂ = {[Ki, T̂WI], i = 1, ···, N}

donde la pose global estimada contiene errores de deriva acumulada. La representación propuesta es:

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

donde cada fotograma clave solo preserva transformaciones de pose relativa confiables con fotogramas clave vecinos.

2. Mapa de Fotogramas Clave Topo-métrico

El fotograma clave se define como:

Ki = {Ti-1i, Ui, Pi, Ii}

que contiene transformación relativa, puntos de características 2D, posición 3D e información de imagen. Se expande cuando se detecta un bucle como:

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. Reducción de Redundancia de Mapa

Se fusionan fotogramas similares mediante agrupamiento de fotogramas clave:

Se calcula similitud DBoW, deteniendo cuando está por debajo del umbral
Se transforman puntos de características 3D de fotogramas clave similares al sistema de coordenadas del fotograma retenido
Se eliminan fotogramas clave redundantes, manteniendo estructura de lista enlazada

Fase de Repetición Visual

1. Coincidencia de Fotograma a Fotograma Clave

Se adopta estrategia de búsqueda restringida:

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

Se buscan características correspondientes dentro de área circular, resolviendo pose relativa mediante PnP.

2. Expansión de Mapa

Cuando el robot se desvía de la ruta de enseñanza, se añaden nuevas observaciones al mapa:

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. Gestión de Lista de Objetivos

Se construye lista de objetivos en lugar de objetivo único:

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

La lista de objetivos Lg = {tg0, tg1, ···, tgM} se actualiza cuando la coincidencia es exitosa.

4. Planificación de Movimiento Local

Se implementa seguimiento de múltiples objetivos mediante puntuación de candidatos de trayectoria:

si = (1/3) Σ(m=0 a 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

Se consideran los tres primeros objetivos para puntuación, seleccionando la trayectoria óptima.

Configuración Experimental

Configuración de Plataforma Móvil

Hardware: Plataforma de tracción diferencial equipada con cámara incrustada IMU (MYNTEYE-SC) y LiDAR (Livox Mid-360)
Sistema de Localización: Se utiliza OpenVINS para odometría visual, iG-LIO para registrar trayectoria de evaluación

Métricas de Evaluación

Distancia al Punto Final: Distancia entre punto final real alcanzado y punto final de ruta de enseñanza predefinida
Tasa de Éxito: Capacidad del robot de navegar desde punto inicial a punto final (sin requerir seguimiento estricto de ruta)

Conjunto de Datos

Entorno: Escenas de oficina y pasillos
Tipos de Ruta: Trayectos rectos y curvos
Condiciones de Prueba: Estado normal, oclusión de obstáculos, cambios ambientales

Métodos de Comparación

BVTR: Método VTR clásico inspirado en biología
Experimentos de Ablación: Variantes sin agrupamiento de fotogramas clave, seguimiento de objetivo único, etc.

Resultados Experimentales

Resultados Principales

1. Navegación en Condiciones Normales

Escena de Oficina: Distancia al punto final del método propuesto 0.08m, BVTR 0.10m
Ambos métodos completan exitosamente la navegación, con ligera desviación en giros

2. Prueba de Oclusión de Obstáculos

Método Propuesto: Distancia al punto final 0.08m, evita exitosamente obstáculos y regresa a ruta de enseñanza
BVTR: Distancia al punto final 5.58m, se detiene ante obstáculo sin poder continuar
Versión de Objetivo Único: Distancia al punto final 5.20m, validando importancia de estrategia de múltiples objetivos

3. Navegación de Ruta Curva (Escena de Pasillo)

Método Propuesto: Distancia al punto final 0.37m, sigue exitosamente toda la ruta
BVTR: Distancia al punto final 11.44m, se detiene después de navegar a ubicación desconocida
Sin Agrupamiento de Fotogramas Clave: Distancia al punto final 10.49m, demostrando papel crítico de estrategia de agrupamiento

4. Verificación de Agrupamiento de Fotogramas Clave

El agrupamiento de fotogramas clave aumenta significativamente la densidad de detección de bucles, especialmente en giros, proporcionando retroalimentación más oportuna al módulo de planificación de movimiento.

5. Verificación de Expansión de Mapa

El sistema puede añadir nueva información ambiental durante la fase de repetición, manteniendo fotogramas clave expandidos asociados con mapa original sin romper estructura topológica.

Hallazgos Experimentales

Gestión de Objetivos a Largo Plazo: La estrategia de múltiples objetivos mejora significativamente robustez del sistema ante fallos de detección de bucles
Agrupamiento de Fotogramas Clave: Crítico para coincidencia robusta en entornos con textura deficiente
Expansión de Mapa: Maneja efectivamente cambios ambientales, soportando tareas de navegación a largo plazo

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos Inspirados en Biología: Comparación directa de imágenes y reconocimiento de patrones
Métodos de Geometría Visual: Coincidencia de imágenes basada en características y resolución PnP
Métodos de Aprendizaje Profundo: Aprendizaje de extremo a extremo y coincidencia de redes neuronales
Fusión Topo-métrica: Navegación combinando información topológica y métrica

Ventajas de Este Trabajo

Comparado con métodos inspirados en biología: Coincidencia de características más robusta
Comparado con métodos de aprendizaje profundo: Mayor eficiencia computacional, mayor interpretabilidad
Comparado con métodos geométricos tradicionales: Sin necesidad de consistencia global, mayor adaptabilidad

Conclusiones y Discusión

Conclusiones Principales

Representación de Mapa Flexible: El gráfico topo-métrico mitiga efectivamente requisitos de cartografía global
Sistema de Navegación Robusto: La gestión de múltiples objetivos y agrupamiento de fotogramas clave mejoran significativamente robustez del sistema
Verificación de Practicidad: Se verifica efectividad del sistema en múltiples escenarios desafiantes

Limitaciones

Dependencia de Pose Relativa: El rendimiento del sistema depende de precisión de pose relativa entre fotogramas clave
Deriva a Largo Plazo: Si el robot no puede coincidir con el mapa durante largo tiempo, la deriva de odometría puede causar divergencia
Suposiciones Ambientales: Asume que estimación de pose relativa es suficientemente precisa, lo que puede no cumplirse en ciertos entornos

Direcciones Futuras

Construir modelo de navegación visual de extremo a extremo basado en aprendizaje profundo, liberándose aún más de requisitos de seguimiento de pose global preciso y cartografía ambiental.

Evaluación Profunda

Fortalezas

Innovación Técnica: Propone novedosa representación de mapa topo-métrico, resolviendo efectivamente limitaciones de métodos tradicionales
Sistema Completo: Solución integral desde construcción de mapa hasta ejecución de navegación
Experimentación Exhaustiva: Verificación integral en múltiples escenas y condiciones
Valor Práctico: Diseño de sistema considerando requisitos de despliegue real, amigable con usuario

Deficiencias

Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia y estabilidad del sistema
Complejidad Computacional: No analiza detalladamente carga computacional de agrupamiento de fotogramas clave y gestión de múltiples objetivos
Limitaciones Ambientales: Principalmente probado en entornos estructurados interiores, adaptabilidad en entornos exteriores complejos desconocida
Líneas Base de Comparación Limitadas: Principalmente comparado con método clásico BVTR, carece de comparación con métodos recientes de aprendizaje profundo

Impacto

Contribución Académica: Proporciona nueva ruta técnica para navegación VTR, con cierto valor teórico
Valor Práctico: El método puede aplicarse directamente a navegación de robots industriales y domésticos
Reproducibilidad: Descripción detallada de técnicas facilita reproducción y mejora

Escenarios Aplicables

Navegación de Ruta Fija: Navegación entre sitios dentro de fábricas, seguimiento de ruta de robots de almacenamiento
Escenarios de Cambio Ambiental: Tareas de navegación a largo plazo que requieren adaptación a cambios ambientales leves
Recursos Computacionales Limitados: Comparado con métodos de aprendizaje profundo, menores requisitos de hardware

Referencias

El artículo incluye 31 referencias bibliográficas, abarcando trabajos importantes en SLAM visual, navegación robótica, reconocimiento de posición y campos relacionados, proporcionando base teórica sólida para la investigación.

Evaluación General: Este artículo propone una solución VTR práctica de navegación, con cierta innovación técnica y verificación experimental suficiente. Aunque hay espacio para mejora en análisis teórico y adaptabilidad ambiental, proporciona contribución técnica valiosa al campo de navegación de robots móviles.