Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
HANDO: Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra
- ID del Artículo: 2510.09221
- Título: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
- Autores: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
- Clasificación: cs.RO (Robótica)
- Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09221
- Demostración en Video: https://youtu.be/YD0qx3vRsfc
Este artículo presenta HANDO (Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra), un marco de dos capas diseñado para robots cuadrúpedos equipados con brazos robóticos destinado a ejecutar tareas de manipulación móvil centradas en el ser humano. La primera capa emplea una estrategia de exploración autónoma condicionada por objetivos que guía al robot hacia destinos especificados semánticamente; la segunda capa utiliza una estrategia unificada de manipulación móvil de cuerpo completo que coordina el brazo robótico y las patas para realizar tareas de interacción precisa. Los autores han completado el despliegue preliminar del módulo de navegación y continuarán avanzando en el despliegue refinado de la manipulación móvil de cuerpo completo.
Esta investigación aborda el problema de la manipulación móvil sin interrupciones en entornos no estructurados, particularmente los desafíos de interacción humano-máquina en escenarios de entrega de última milla. Los métodos tradicionales de entrega dependen de mapas preconstruidos y localización precisa, lo que resulta costoso y tiene escalabilidad limitada en entornos dinámicos o personalizados.
La entrega de última milla es una aplicación crítica para robots de servicio, requiriendo que los robots no solo atraviesen entornos complejos sino que también realicen interacción física con humanos. Las plataformas de robots cuadrúpedos equipadas con brazos robóticos combinan capacidades de movimiento ágil con funcionalidad de manipulación, proporcionando una plataforma de implementación ideal para escenarios de entrega complejos.
- Aspecto de Navegación: La mayoría de estrategias de entrega aún dependen de mapas, con desempeño deficiente en entornos que cambian frecuentemente o requieren despliegue rápido
- Aspecto de Manipulación: Carencia de control de coordinación de cuerpo completo efectivo, dificultad para realizar interacción humano-máquina compleja
- Desafíos de Integración: Existen brechas de percepción, cambios de terreno y restricciones de hardware en el despliegue del mundo real desde simulación
Desarrollar un marco jerárquico e integrado que unifique navegación sin mapas con manipulación móvil de cuerpo completo en un sistema desplegable, logrando autonomía integral que permita navegar espacios desconocidos y ejecutar acciones de manipulación diestra.
- Propone un módulo novedoso de navegación sin mapas: Utiliza modelos de visión-lenguaje para razonamiento entre escenas y coincidencia de grafos, impulsando una estrategia de exploración de tres etapas que logra navegación de costo cero
- Diseña una estrategia de manipulación móvil: Integra locomoción cuadrúpeda y control de brazo robótico, realizando comportamientos de interacción de cuerpo completo mediante guía de trayectoria del efector final
- Integración del Sistema y Validación: Integra y valida el sistema en una plataforma real de robot cuadrúpedo con brazo, demostrando entrega de última milla de extremo a extremo que combina navegación semántica e interacción de cuerpo completo
El marco HANDO tiene como objetivo permitir que robots cuadrúpedos equipados con brazos robóticos ejecuten tareas de entrega completas en entornos no estructurados, incluyendo:
- Entrada: Descripción de objetivo semántico (como "silla de oficina negra"), datos de percepción ambiental, trayectoria de mano humana
- Salida: Comandos de control de movimiento del robot, comandos de articulación del brazo robótico
- Restricciones: Sin mapas preconstruidos, requisitos de tiempo real, restricciones de seguridad
Proceso de Exploración de Tres Etapas:
- Etapa de Exploración Inicial: Cuando la puntuación de coincidencia st<σ1, el sistema descompone el grafo de objetivo semántico Gg en subobjetivos, empleando estrategia de exploración basada en límites
- Etapa de Proyección y Alineación de Coordenadas: Cuando σ1≤st<σ2, alinea el grafo de objetivo Gg y el grafo de escena actual Gt
- Etapa de Verificación de Objetivo: Cuando st≥σ2, ejecuta verificación de objetivo y corrección del grafo de escena
Generación de Acciones: El decodificador de acciones basado en VLM selecciona acciones discretas at∈{avanzar, girar izquierda, girar derecha, detener}, mapeadas a comandos de velocidad continua:
(0.1ms−1,π/12rad s−1,−π/12rad s−1,0)
Generador de Trayectoria de Mano:
- Detecta la mano del operador, selecciona fotogramas clave mediante valles de velocidad de mano
- Redirecciona la posición/orientación de la mano al punto central de herramienta (TCP) del gripper del robot:
xttcp=SE(3)(Tcam→world)⋅SE(3)(ht)⋅tcpThand
Estrategia de Manipulación Móvil de Cuerpo Completo:
- Espacio de Estados: Incluye acción anterior, estado de patas, estado de brazo robótico, estado de base y trayectoria del efector final
- Espacio de Acciones: Utiliza control PD de posición, posición objetivo qt∗=qdefault+Δqt
- Función de Recompensa:
- Recompensa de seguimiento TCP: rtrack=exp(−σp∥pttcp−pttar∥)⋅exp(−σo∠(Rttcp(Rttar)T))
- Recompensa de Regularización: rreg=−λτ∥τt∥2−λΔq∥at−at−1∥2−λq¨∥q¨t∥2
- Comprensión de Escena Multimodal: Combina modelos de visión-lenguaje para lograr mapeo directo de objetivos semánticos a comportamientos de navegación
- Arquitectura de Control Jerárquico: Separa efectivamente el razonamiento semántico de alto nivel del control de movimiento de bajo nivel
- Integración de Seguimiento de Mano en Tiempo Real: Guía el efector final del robot mediante trayectoria de mano humana, mejorando la naturalidad de la interacción humano-máquina
- Control de Cuerpo Completo Unificado: Coordina movimiento de patas y operación de brazo robótico dentro de un marco de política único
- Plataforma Robótica: Robot cuadrúpedo Unitree Go1 EDU + Brazo robótico ligero AGILEX PIPER
- Dispositivo de Computación: GPU NVIDIA RTX 4090
- Frecuencia de Control: Tanto la estrategia de movimiento como la estrategia de manipulación móvil de cuerpo completo se ejecutan a 50Hz
- Método de Comunicación: Conexión Ethernet cableada, soportando despliegue confiable de baja latencia
Evaluación en mundo real realizada en una cafetería, con características ambientales:
- Disposición no estructurada, mesas, sillas y objetos diversos dispuestos irregularmente
- Observabilidad parcial: el robot no tiene conocimiento previo de la ubicación del objetivo
- Depende únicamente de entrada visual e instrucciones semánticas
- Tasa de éxito de navegación
- Suavidad y continuidad de trayectoria
- Precisión de localización de objetivo
- Estabilidad y robustez del sistema
La capa de navegación sin mapas orientada a objetivos demuestra un desempeño excelente en entornos reales:
- Exploración exitosa del entorno y aproximación al objetivo
- Trayectorias de base registradas suave y continuas
- Mantenimiento de desempeño de navegación estable y robusto a pesar de la disposición irregular
- Validación del Módulo de Navegación: Completó exitosamente el despliegue preliminar, demostrando la viabilidad de la navegación sin mapas
- Integración del Sistema: Control multihilo logró operación en tiempo real
- Adaptabilidad Ambiental: Demuestra buena capacidad de adaptación en entornos dinámicos y no estructurados
- Métodos Tradicionales: Enfoques basados en mapas con SLAM y planificación de grafos, efectivos en entornos estáticos estructurados pero costosos
- Métodos sin Mapas: Marcos como UniGoal y NaviLa aprovechan pistas de lenguaje y visión para guiar navegación, reduciendo significativamente costos de despliegue
- ACT: Emplea red troncal Transformer y codificador de imagen
- Diffusion Policy: Introduce proceso de difusión generativa para modelar distribuciones de acciones multimodales
- RISE: Utiliza codificador de nube de puntos dispersa para control continuo
- Métodos Tempranos: Planificación de pasos basada en optimización y generación de trayectoria de cuerpo completo, con alto costo computacional
- Métodos de Aprendizaje por Refuerzo: Control de extremo a extremo para múltiples tareas de manipulación móvil
- MLM: Combina biblioteca de trayectorias e inferencia basada en política de difusión
El marco HANDO logra exitosamente el puente entre comprensión de tareas semánticas y control físico de bajo nivel, proporcionando una solución efectiva para tareas complejas de entrega de última milla en entornos no estructurados y con presencia humana.
- Módulo de Manipulación Incompleto: El control de manipulación móvil de cuerpo completo aún está en desarrollo
- Alcance Experimental Limitado: Principalmente valida funcionalidad de navegación, requiriendo pruebas adicionales de funcionalidad de manipulación
- Complejidad Ambiental: La capacidad de adaptación a entornos dinámicos extremos requiere verificación adicional
- Refinamiento de Manipulación Móvil de Cuerpo Completo: Perfeccionar control coordinado de agarre e intercambio
- Integración de Seguimiento de Mano en Tiempo Real: Mejorar seguridad, robustez y naturalidad de la interacción humano-máquina
- Expansión de Escenarios de Aplicación: Validar desempeño en entornos reales más complejos
- Diseño Sistemático: Propone un marco jerárquico completo que separa efectivamente razonamiento de alto nivel y control de bajo nivel
- Fuerte Practicidad: Diseñado para escenarios de aplicación real (entrega de última milla)
- Innovación Técnica: Combinación orgánica de navegación sin mapas y control de cuerpo completo
- Validación en Mundo Real: Verificación preliminar en plataforma de hardware real
- Completitud Insuficiente: El módulo de manipulación aún está en fase de diseño, careciendo de demostración completa del sistema
- Profundidad Experimental Limitada: Principalmente demuestra funcionalidad de navegación, careciendo de análisis de desempeño cuantitativos
- Ausencia de Experimentos Comparativos: Falta comparación detallada con métodos existentes
- Análisis de Robustez Insuficiente: Análisis limitado de casos de fallo y condiciones límite
- Valor Académico: Proporciona nuevas ideas de arquitectura de sistema para robots de manipulación móvil
- Valor Práctico: Tiene potencial de aplicación en robots de servicio y robots de entrega
- Reproducibilidad: Proporciona descripción técnica detallada, aunque carece de código de código abierto
- Servicios de entrega de última milla
- Aplicaciones de robots de servicio en interiores
- Tareas de colaboración humano-máquina
- Tareas de manipulación móvil en entornos no estructurados
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
- UniGoal 5: Navegación orientada a objetivos de cero disparos universal
- NaviLa 3: Modelo de navegación visión-lenguaje-acción para robots con patas
- MLM 7: Aprendizaje de control de cuerpo completo para manipulación móvil multitarea
- Diffusion Policy 8: Aprendizaje de política visión-movimiento basado en difusión
Evaluación General: Este es un trabajo sistemático con valor práctico que propone un diseño de marco completo para robots de manipulación móvil. Aunque el módulo de manipulación aún está en desarrollo, el despliegue exitoso del módulo de navegación demuestra la viabilidad del método. Las principales contribuciones del artículo radican en el diseño de arquitectura de sistema y la verificación preliminar en mundo real, sentando las bases para desarrollo futuro en este campo.