2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.

Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.

academic

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

基本信息

论文ID: 2510.09221
标题: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
作者: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
分类: cs.RO (Robotics)
发表时间: 2025年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09221
视频演示: https://youtu.be/YD0qx3vRsfc

摘要

本文提出了HANDO（分层自主导航与灵巧全向移动操作），这是一个为配备机械臂的足式机器人设计的两层框架，用于执行以人为中心的移动操作任务。第一层采用目标条件自主探索策略，引导机器人到达语义指定的目标；第二层使用统一的全身移动操作策略，协调机械臂和腿部进行精确交互任务。作者已完成导航模块的初步部署，并将继续推进全身移动操作的精细化部署。

研究背景与动机

问题定义

该研究旨在解决无结构环境中的无缝移动操作问题，特别是最后一公里配送场景中的人机交互挑战。传统的配送方法依赖预构建地图和精确定位，在动态或定制化环境中成本高昂且可扩展性有限。

重要性

最后一公里配送是服务机器人的关键应用，要求机器人不仅能够穿越复杂环境，还能与人类进行物理交互。四足机器人配备机械臂的平台结合了敏捷运动能力和操作功能，为复杂配送场景提供了理想的实现平台。

现有方法局限性

导航方面：大多数配送策略仍依赖地图，在频繁变化或快速部署的环境中表现不佳
操作方面：缺乏有效的全身协调控制，难以实现复杂的人机交互
集成挑战：从仿真到真实世界的部署存在感知差距、地形变化和硬件约束等问题

研究动机

开发一个分层且集成的框架，将无地图导航与全身移动操作统一在可部署的系统中，实现自主导航未知空间并执行灵巧操作动作的综合自主性。

核心贡献

提出了新颖的无地图导航模块：采用视觉-语言模型进行跨场景推理和图匹配，驱动三阶段探索策略，实现零成本导航
设计了移动操作策略：融合四足运动和机械臂控制，通过末端执行器轨迹引导实现全身交互行为
系统集成与验证：在真实四足机械臂平台上集成并验证系统，展示了结合语义导航和全身交互的端到端最后一公里配送

方法详解

任务定义

HANDO框架旨在使配备机械臂的四足机器人能够在无结构环境中执行完整的配送任务，包括：

输入：语义目标描述（如"黑色办公椅"）、环境感知数据、人体手部轨迹
输出：机器人运动控制指令、机械臂关节指令
约束：无预构建地图、实时性要求、安全性约束

模型架构

第一层：目标导向无地图导航

三阶段探索过程：

初始探索阶段：当匹配分数 $s_t < \sigma_1$ 时，系统将语义目标图 $G_g$ 分解为子目标，采用基于边界的探索策略
坐标投影与对齐阶段：当 $\sigma_1 \leq s_t < \sigma_2$ 时，对齐目标图 $G_g$ 和当前场景图 $G_t$
目标验证阶段：当 $s_t \geq \sigma_2$ 时，执行目标验证和场景图修正

动作生成：VLM基础的动作解码器选择离散动作 $a_t \in \{\text{move forward, turn left, turn right, stop}\}$ ，映射为连续速度指令： $(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)$

第二层：全身移动操作策略

手部轨迹生成器：

检测操作员手部，通过手部速度低谷选择关键帧
将手部位置/姿态重定向到机器人夹持器的工具中心点(TCP)： $x^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}$

全身移动操作策略：

状态空间：包括上一动作、腿部状态、机械臂状态、基座状态和末端执行器轨迹
动作空间：使用位置PD控制，目标位置 $q^*_t = q_{default} + \Delta q_t$
奖励函数：
- TCP跟踪奖励： $r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)$
- 正则化奖励： $r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2$