2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.

Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.

academic

HANDO: Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra

Información Básica

ID del Artículo: 2510.09221
Título: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
Autores: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
Clasificación: cs.RO (Robótica)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09221
Demostración en Video: https://youtu.be/YD0qx3vRsfc

Resumen

Este artículo presenta HANDO (Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra), un marco de dos capas diseñado para robots cuadrúpedos equipados con brazos robóticos destinado a ejecutar tareas de manipulación móvil centradas en el ser humano. La primera capa emplea una estrategia de exploración autónoma condicionada por objetivos que guía al robot hacia destinos especificados semánticamente; la segunda capa utiliza una estrategia unificada de manipulación móvil de cuerpo completo que coordina el brazo robótico y las patas para realizar tareas de interacción precisa. Los autores han completado el despliegue preliminar del módulo de navegación y continuarán avanzando en el despliegue refinado de la manipulación móvil de cuerpo completo.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación aborda el problema de la manipulación móvil sin interrupciones en entornos no estructurados, particularmente los desafíos de interacción humano-máquina en escenarios de entrega de última milla. Los métodos tradicionales de entrega dependen de mapas preconstruidos y localización precisa, lo que resulta costoso y tiene escalabilidad limitada en entornos dinámicos o personalizados.

Importancia

La entrega de última milla es una aplicación crítica para robots de servicio, requiriendo que los robots no solo atraviesen entornos complejos sino que también realicen interacción física con humanos. Las plataformas de robots cuadrúpedos equipadas con brazos robóticos combinan capacidades de movimiento ágil con funcionalidad de manipulación, proporcionando una plataforma de implementación ideal para escenarios de entrega complejos.

Limitaciones de Métodos Existentes

Aspecto de Navegación: La mayoría de estrategias de entrega aún dependen de mapas, con desempeño deficiente en entornos que cambian frecuentemente o requieren despliegue rápido
Aspecto de Manipulación: Carencia de control de coordinación de cuerpo completo efectivo, dificultad para realizar interacción humano-máquina compleja
Desafíos de Integración: Existen brechas de percepción, cambios de terreno y restricciones de hardware en el despliegue del mundo real desde simulación

Motivación de la Investigación

Desarrollar un marco jerárquico e integrado que unifique navegación sin mapas con manipulación móvil de cuerpo completo en un sistema desplegable, logrando autonomía integral que permita navegar espacios desconocidos y ejecutar acciones de manipulación diestra.

Contribuciones Principales

Propone un módulo novedoso de navegación sin mapas: Utiliza modelos de visión-lenguaje para razonamiento entre escenas y coincidencia de grafos, impulsando una estrategia de exploración de tres etapas que logra navegación de costo cero
Diseña una estrategia de manipulación móvil: Integra locomoción cuadrúpeda y control de brazo robótico, realizando comportamientos de interacción de cuerpo completo mediante guía de trayectoria del efector final
Integración del Sistema y Validación: Integra y valida el sistema en una plataforma real de robot cuadrúpedo con brazo, demostrando entrega de última milla de extremo a extremo que combina navegación semántica e interacción de cuerpo completo

Explicación Detallada del Método

Definición de Tarea

El marco HANDO tiene como objetivo permitir que robots cuadrúpedos equipados con brazos robóticos ejecuten tareas de entrega completas en entornos no estructurados, incluyendo:

Entrada: Descripción de objetivo semántico (como "silla de oficina negra"), datos de percepción ambiental, trayectoria de mano humana
Salida: Comandos de control de movimiento del robot, comandos de articulación del brazo robótico
Restricciones: Sin mapas preconstruidos, requisitos de tiempo real, restricciones de seguridad

Arquitectura del Modelo

Primera Capa: Navegación sin Mapas Orientada a Objetivos

Proceso de Exploración de Tres Etapas:

Etapa de Exploración Inicial: Cuando la puntuación de coincidencia $s_t < \sigma_1$ , el sistema descompone el grafo de objetivo semántico $G_g$ en subobjetivos, empleando estrategia de exploración basada en límites
Etapa de Proyección y Alineación de Coordenadas: Cuando $\sigma_1 \leq s_t < \sigma_2$ , alinea el grafo de objetivo $G_g$ y el grafo de escena actual $G_t$
Etapa de Verificación de Objetivo: Cuando $s_t \geq \sigma_2$ , ejecuta verificación de objetivo y corrección del grafo de escena

Generación de Acciones: El decodificador de acciones basado en VLM selecciona acciones discretas $a_t \in \{\text{avanzar, girar izquierda, girar derecha, detener}\}$ , mapeadas a comandos de velocidad continua: $(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)$

Segunda Capa: Estrategia de Manipulación Móvil de Cuerpo Completo

Generador de Trayectoria de Mano:

Detecta la mano del operador, selecciona fotogramas clave mediante valles de velocidad de mano
Redirecciona la posición/orientación de la mano al punto central de herramienta (TCP) del gripper del robot: $x^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}$

Estrategia de Manipulación Móvil de Cuerpo Completo:

Espacio de Estados: Incluye acción anterior, estado de patas, estado de brazo robótico, estado de base y trayectoria del efector final
Espacio de Acciones: Utiliza control PD de posición, posición objetivo $q^*_t = q_{default} + \Delta q_t$
Función de Recompensa:
- Recompensa de seguimiento TCP: $r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)$
- Recompensa de Regularización: $r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2$

Puntos de Innovación Técnica

Comprensión de Escena Multimodal: Combina modelos de visión-lenguaje para lograr mapeo directo de objetivos semánticos a comportamientos de navegación
Arquitectura de Control Jerárquico: Separa efectivamente el razonamiento semántico de alto nivel del control de movimiento de bajo nivel
Integración de Seguimiento de Mano en Tiempo Real: Guía el efector final del robot mediante trayectoria de mano humana, mejorando la naturalidad de la interacción humano-máquina
Control de Cuerpo Completo Unificado: Coordina movimiento de patas y operación de brazo robótico dentro de un marco de política único

Configuración Experimental

Plataforma de Hardware

Plataforma Robótica: Robot cuadrúpedo Unitree Go1 EDU + Brazo robótico ligero AGILEX PIPER
Dispositivo de Computación: GPU NVIDIA RTX 4090
Frecuencia de Control: Tanto la estrategia de movimiento como la estrategia de manipulación móvil de cuerpo completo se ejecutan a 50Hz
Método de Comunicación: Conexión Ethernet cableada, soportando despliegue confiable de baja latencia

Entorno Experimental

Evaluación en mundo real realizada en una cafetería, con características ambientales:

Disposición no estructurada, mesas, sillas y objetos diversos dispuestos irregularmente
Observabilidad parcial: el robot no tiene conocimiento previo de la ubicación del objetivo
Depende únicamente de entrada visual e instrucciones semánticas

Métricas de Evaluación

Tasa de éxito de navegación
Suavidad y continuidad de trayectoria
Precisión de localización de objetivo
Estabilidad y robustez del sistema

Resultados Experimentales

Resultados Principales

La capa de navegación sin mapas orientada a objetivos demuestra un desempeño excelente en entornos reales:

Exploración exitosa del entorno y aproximación al objetivo
Trayectorias de base registradas suave y continuas
Mantenimiento de desempeño de navegación estable y robusto a pesar de la disposición irregular

Hallazgos Experimentales

Validación del Módulo de Navegación: Completó exitosamente el despliegue preliminar, demostrando la viabilidad de la navegación sin mapas
Integración del Sistema: Control multihilo logró operación en tiempo real
Adaptabilidad Ambiental: Demuestra buena capacidad de adaptación en entornos dinámicos y no estructurados

Trabajo Relacionado

Navegación Autónoma

Métodos Tradicionales: Enfoques basados en mapas con SLAM y planificación de grafos, efectivos en entornos estáticos estructurados pero costosos
Métodos sin Mapas: Marcos como UniGoal y NaviLa aprovechan pistas de lenguaje y visión para guiar navegación, reduciendo significativamente costos de despliegue

Aprendizaje por Imitación de Extremo a Extremo

ACT: Emplea red troncal Transformer y codificador de imagen
Diffusion Policy: Introduce proceso de difusión generativa para modelar distribuciones de acciones multimodales
RISE: Utiliza codificador de nube de puntos dispersa para control continuo

Manipulación Móvil

Métodos Tempranos: Planificación de pasos basada en optimización y generación de trayectoria de cuerpo completo, con alto costo computacional
Métodos de Aprendizaje por Refuerzo: Control de extremo a extremo para múltiples tareas de manipulación móvil
MLM: Combina biblioteca de trayectorias e inferencia basada en política de difusión

Conclusiones y Discusión

Conclusiones Principales

El marco HANDO logra exitosamente el puente entre comprensión de tareas semánticas y control físico de bajo nivel, proporcionando una solución efectiva para tareas complejas de entrega de última milla en entornos no estructurados y con presencia humana.

Limitaciones

Módulo de Manipulación Incompleto: El control de manipulación móvil de cuerpo completo aún está en desarrollo
Alcance Experimental Limitado: Principalmente valida funcionalidad de navegación, requiriendo pruebas adicionales de funcionalidad de manipulación
Complejidad Ambiental: La capacidad de adaptación a entornos dinámicos extremos requiere verificación adicional

Direcciones Futuras

Refinamiento de Manipulación Móvil de Cuerpo Completo: Perfeccionar control coordinado de agarre e intercambio
Integración de Seguimiento de Mano en Tiempo Real: Mejorar seguridad, robustez y naturalidad de la interacción humano-máquina
Expansión de Escenarios de Aplicación: Validar desempeño en entornos reales más complejos

Evaluación Profunda

Fortalezas

Diseño Sistemático: Propone un marco jerárquico completo que separa efectivamente razonamiento de alto nivel y control de bajo nivel
Fuerte Practicidad: Diseñado para escenarios de aplicación real (entrega de última milla)
Innovación Técnica: Combinación orgánica de navegación sin mapas y control de cuerpo completo
Validación en Mundo Real: Verificación preliminar en plataforma de hardware real

Deficiencias

Completitud Insuficiente: El módulo de manipulación aún está en fase de diseño, careciendo de demostración completa del sistema
Profundidad Experimental Limitada: Principalmente demuestra funcionalidad de navegación, careciendo de análisis de desempeño cuantitativos
Ausencia de Experimentos Comparativos: Falta comparación detallada con métodos existentes
Análisis de Robustez Insuficiente: Análisis limitado de casos de fallo y condiciones límite

Impacto

Valor Académico: Proporciona nuevas ideas de arquitectura de sistema para robots de manipulación móvil
Valor Práctico: Tiene potencial de aplicación en robots de servicio y robots de entrega
Reproducibilidad: Proporciona descripción técnica detallada, aunque carece de código de código abierto

Escenarios Aplicables

Servicios de entrega de última milla
Aplicaciones de robots de servicio en interiores
Tareas de colaboración humano-máquina
Tareas de manipulación móvil en entornos no estructurados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

UniGoal 5: Navegación orientada a objetivos de cero disparos universal
NaviLa 3: Modelo de navegación visión-lenguaje-acción para robots con patas
MLM 7: Aprendizaje de control de cuerpo completo para manipulación móvil multitarea
Diffusion Policy 8: Aprendizaje de política visión-movimiento basado en difusión

Evaluación General: Este es un trabajo sistemático con valor práctico que propone un diseño de marco completo para robots de manipulación móvil. Aunque el módulo de manipulación aún está en desarrollo, el despliegue exitoso del módulo de navegación demuestra la viabilidad del método. Las principales contribuciones del artículo radican en el diseño de arquitectura de sistema y la verificación preliminar en mundo real, sentando las bases para desarrollo futuro en este campo.