2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra

Información Básica

  • ID del Artículo: 2510.09221
  • Título: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • Autores: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • Clasificación: cs.RO (Robótica)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09221
  • Demostración en Video: https://youtu.be/YD0qx3vRsfc

Resumen

Este artículo presenta HANDO (Navegación Autónoma Jerárquica y Manipulación Omni-loco-motriz Diestra), un marco de dos capas diseñado para robots cuadrúpedos equipados con brazos robóticos destinado a ejecutar tareas de manipulación móvil centradas en el ser humano. La primera capa emplea una estrategia de exploración autónoma condicionada por objetivos que guía al robot hacia destinos especificados semánticamente; la segunda capa utiliza una estrategia unificada de manipulación móvil de cuerpo completo que coordina el brazo robótico y las patas para realizar tareas de interacción precisa. Los autores han completado el despliegue preliminar del módulo de navegación y continuarán avanzando en el despliegue refinado de la manipulación móvil de cuerpo completo.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación aborda el problema de la manipulación móvil sin interrupciones en entornos no estructurados, particularmente los desafíos de interacción humano-máquina en escenarios de entrega de última milla. Los métodos tradicionales de entrega dependen de mapas preconstruidos y localización precisa, lo que resulta costoso y tiene escalabilidad limitada en entornos dinámicos o personalizados.

Importancia

La entrega de última milla es una aplicación crítica para robots de servicio, requiriendo que los robots no solo atraviesen entornos complejos sino que también realicen interacción física con humanos. Las plataformas de robots cuadrúpedos equipadas con brazos robóticos combinan capacidades de movimiento ágil con funcionalidad de manipulación, proporcionando una plataforma de implementación ideal para escenarios de entrega complejos.

Limitaciones de Métodos Existentes

  1. Aspecto de Navegación: La mayoría de estrategias de entrega aún dependen de mapas, con desempeño deficiente en entornos que cambian frecuentemente o requieren despliegue rápido
  2. Aspecto de Manipulación: Carencia de control de coordinación de cuerpo completo efectivo, dificultad para realizar interacción humano-máquina compleja
  3. Desafíos de Integración: Existen brechas de percepción, cambios de terreno y restricciones de hardware en el despliegue del mundo real desde simulación

Motivación de la Investigación

Desarrollar un marco jerárquico e integrado que unifique navegación sin mapas con manipulación móvil de cuerpo completo en un sistema desplegable, logrando autonomía integral que permita navegar espacios desconocidos y ejecutar acciones de manipulación diestra.

Contribuciones Principales

  1. Propone un módulo novedoso de navegación sin mapas: Utiliza modelos de visión-lenguaje para razonamiento entre escenas y coincidencia de grafos, impulsando una estrategia de exploración de tres etapas que logra navegación de costo cero
  2. Diseña una estrategia de manipulación móvil: Integra locomoción cuadrúpeda y control de brazo robótico, realizando comportamientos de interacción de cuerpo completo mediante guía de trayectoria del efector final
  3. Integración del Sistema y Validación: Integra y valida el sistema en una plataforma real de robot cuadrúpedo con brazo, demostrando entrega de última milla de extremo a extremo que combina navegación semántica e interacción de cuerpo completo

Explicación Detallada del Método

Definición de Tarea

El marco HANDO tiene como objetivo permitir que robots cuadrúpedos equipados con brazos robóticos ejecuten tareas de entrega completas en entornos no estructurados, incluyendo:

  • Entrada: Descripción de objetivo semántico (como "silla de oficina negra"), datos de percepción ambiental, trayectoria de mano humana
  • Salida: Comandos de control de movimiento del robot, comandos de articulación del brazo robótico
  • Restricciones: Sin mapas preconstruidos, requisitos de tiempo real, restricciones de seguridad

Arquitectura del Modelo

Primera Capa: Navegación sin Mapas Orientada a Objetivos

Proceso de Exploración de Tres Etapas:

  1. Etapa de Exploración Inicial: Cuando la puntuación de coincidencia st<σ1s_t < \sigma_1, el sistema descompone el grafo de objetivo semántico GgG_g en subobjetivos, empleando estrategia de exploración basada en límites
  2. Etapa de Proyección y Alineación de Coordenadas: Cuando σ1st<σ2\sigma_1 \leq s_t < \sigma_2, alinea el grafo de objetivo GgG_g y el grafo de escena actual GtG_t
  3. Etapa de Verificación de Objetivo: Cuando stσ2s_t \geq \sigma_2, ejecuta verificación de objetivo y corrección del grafo de escena

Generación de Acciones: El decodificador de acciones basado en VLM selecciona acciones discretas at{avanzar, girar izquierda, girar derecha, detener}a_t \in \{\text{avanzar, girar izquierda, girar derecha, detener}\}, mapeadas a comandos de velocidad continua: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

Segunda Capa: Estrategia de Manipulación Móvil de Cuerpo Completo

Generador de Trayectoria de Mano:

  • Detecta la mano del operador, selecciona fotogramas clave mediante valles de velocidad de mano
  • Redirecciona la posición/orientación de la mano al punto central de herramienta (TCP) del gripper del robot: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

Estrategia de Manipulación Móvil de Cuerpo Completo:

  • Espacio de Estados: Incluye acción anterior, estado de patas, estado de brazo robótico, estado de base y trayectoria del efector final
  • Espacio de Acciones: Utiliza control PD de posición, posición objetivo qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • Función de Recompensa:
    • Recompensa de seguimiento TCP: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • Recompensa de Regularización: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

Puntos de Innovación Técnica

  1. Comprensión de Escena Multimodal: Combina modelos de visión-lenguaje para lograr mapeo directo de objetivos semánticos a comportamientos de navegación
  2. Arquitectura de Control Jerárquico: Separa efectivamente el razonamiento semántico de alto nivel del control de movimiento de bajo nivel
  3. Integración de Seguimiento de Mano en Tiempo Real: Guía el efector final del robot mediante trayectoria de mano humana, mejorando la naturalidad de la interacción humano-máquina
  4. Control de Cuerpo Completo Unificado: Coordina movimiento de patas y operación de brazo robótico dentro de un marco de política único

Configuración Experimental

Plataforma de Hardware

  • Plataforma Robótica: Robot cuadrúpedo Unitree Go1 EDU + Brazo robótico ligero AGILEX PIPER
  • Dispositivo de Computación: GPU NVIDIA RTX 4090
  • Frecuencia de Control: Tanto la estrategia de movimiento como la estrategia de manipulación móvil de cuerpo completo se ejecutan a 50Hz
  • Método de Comunicación: Conexión Ethernet cableada, soportando despliegue confiable de baja latencia

Entorno Experimental

Evaluación en mundo real realizada en una cafetería, con características ambientales:

  • Disposición no estructurada, mesas, sillas y objetos diversos dispuestos irregularmente
  • Observabilidad parcial: el robot no tiene conocimiento previo de la ubicación del objetivo
  • Depende únicamente de entrada visual e instrucciones semánticas

Métricas de Evaluación

  • Tasa de éxito de navegación
  • Suavidad y continuidad de trayectoria
  • Precisión de localización de objetivo
  • Estabilidad y robustez del sistema

Resultados Experimentales

Resultados Principales

La capa de navegación sin mapas orientada a objetivos demuestra un desempeño excelente en entornos reales:

  • Exploración exitosa del entorno y aproximación al objetivo
  • Trayectorias de base registradas suave y continuas
  • Mantenimiento de desempeño de navegación estable y robusto a pesar de la disposición irregular

Hallazgos Experimentales

  1. Validación del Módulo de Navegación: Completó exitosamente el despliegue preliminar, demostrando la viabilidad de la navegación sin mapas
  2. Integración del Sistema: Control multihilo logró operación en tiempo real
  3. Adaptabilidad Ambiental: Demuestra buena capacidad de adaptación en entornos dinámicos y no estructurados

Trabajo Relacionado

  • Métodos Tradicionales: Enfoques basados en mapas con SLAM y planificación de grafos, efectivos en entornos estáticos estructurados pero costosos
  • Métodos sin Mapas: Marcos como UniGoal y NaviLa aprovechan pistas de lenguaje y visión para guiar navegación, reduciendo significativamente costos de despliegue

Aprendizaje por Imitación de Extremo a Extremo

  • ACT: Emplea red troncal Transformer y codificador de imagen
  • Diffusion Policy: Introduce proceso de difusión generativa para modelar distribuciones de acciones multimodales
  • RISE: Utiliza codificador de nube de puntos dispersa para control continuo

Manipulación Móvil

  • Métodos Tempranos: Planificación de pasos basada en optimización y generación de trayectoria de cuerpo completo, con alto costo computacional
  • Métodos de Aprendizaje por Refuerzo: Control de extremo a extremo para múltiples tareas de manipulación móvil
  • MLM: Combina biblioteca de trayectorias e inferencia basada en política de difusión

Conclusiones y Discusión

Conclusiones Principales

El marco HANDO logra exitosamente el puente entre comprensión de tareas semánticas y control físico de bajo nivel, proporcionando una solución efectiva para tareas complejas de entrega de última milla en entornos no estructurados y con presencia humana.

Limitaciones

  1. Módulo de Manipulación Incompleto: El control de manipulación móvil de cuerpo completo aún está en desarrollo
  2. Alcance Experimental Limitado: Principalmente valida funcionalidad de navegación, requiriendo pruebas adicionales de funcionalidad de manipulación
  3. Complejidad Ambiental: La capacidad de adaptación a entornos dinámicos extremos requiere verificación adicional

Direcciones Futuras

  1. Refinamiento de Manipulación Móvil de Cuerpo Completo: Perfeccionar control coordinado de agarre e intercambio
  2. Integración de Seguimiento de Mano en Tiempo Real: Mejorar seguridad, robustez y naturalidad de la interacción humano-máquina
  3. Expansión de Escenarios de Aplicación: Validar desempeño en entornos reales más complejos

Evaluación Profunda

Fortalezas

  1. Diseño Sistemático: Propone un marco jerárquico completo que separa efectivamente razonamiento de alto nivel y control de bajo nivel
  2. Fuerte Practicidad: Diseñado para escenarios de aplicación real (entrega de última milla)
  3. Innovación Técnica: Combinación orgánica de navegación sin mapas y control de cuerpo completo
  4. Validación en Mundo Real: Verificación preliminar en plataforma de hardware real

Deficiencias

  1. Completitud Insuficiente: El módulo de manipulación aún está en fase de diseño, careciendo de demostración completa del sistema
  2. Profundidad Experimental Limitada: Principalmente demuestra funcionalidad de navegación, careciendo de análisis de desempeño cuantitativos
  3. Ausencia de Experimentos Comparativos: Falta comparación detallada con métodos existentes
  4. Análisis de Robustez Insuficiente: Análisis limitado de casos de fallo y condiciones límite

Impacto

  1. Valor Académico: Proporciona nuevas ideas de arquitectura de sistema para robots de manipulación móvil
  2. Valor Práctico: Tiene potencial de aplicación en robots de servicio y robots de entrega
  3. Reproducibilidad: Proporciona descripción técnica detallada, aunque carece de código de código abierto

Escenarios Aplicables

  • Servicios de entrega de última milla
  • Aplicaciones de robots de servicio en interiores
  • Tareas de colaboración humano-máquina
  • Tareas de manipulación móvil en entornos no estructurados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • UniGoal 5: Navegación orientada a objetivos de cero disparos universal
  • NaviLa 3: Modelo de navegación visión-lenguaje-acción para robots con patas
  • MLM 7: Aprendizaje de control de cuerpo completo para manipulación móvil multitarea
  • Diffusion Policy 8: Aprendizaje de política visión-movimiento basado en difusión

Evaluación General: Este es un trabajo sistemático con valor práctico que propone un diseño de marco completo para robots de manipulación móvil. Aunque el módulo de manipulación aún está en desarrollo, el despliegue exitoso del módulo de navegación demuestra la viabilidad del método. Las principales contribuciones del artículo radican en el diseño de arquitectura de sistema y la verificación preliminar en mundo real, sentando las bases para desarrollo futuro en este campo.