2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

基本信息

  • 论文ID: 2510.09221
  • 标题: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • 作者: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • 分类: cs.RO (Robotics)
  • 发表时间: 2025年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09221
  • 视频演示: https://youtu.be/YD0qx3vRsfc

摘要

本文提出了HANDO(分层自主导航与灵巧全向移动操作),这是一个为配备机械臂的足式机器人设计的两层框架,用于执行以人为中心的移动操作任务。第一层采用目标条件自主探索策略,引导机器人到达语义指定的目标;第二层使用统一的全身移动操作策略,协调机械臂和腿部进行精确交互任务。作者已完成导航模块的初步部署,并将继续推进全身移动操作的精细化部署。

研究背景与动机

问题定义

该研究旨在解决无结构环境中的无缝移动操作问题,特别是最后一公里配送场景中的人机交互挑战。传统的配送方法依赖预构建地图和精确定位,在动态或定制化环境中成本高昂且可扩展性有限。

重要性

最后一公里配送是服务机器人的关键应用,要求机器人不仅能够穿越复杂环境,还能与人类进行物理交互。四足机器人配备机械臂的平台结合了敏捷运动能力和操作功能,为复杂配送场景提供了理想的实现平台。

现有方法局限性

  1. 导航方面:大多数配送策略仍依赖地图,在频繁变化或快速部署的环境中表现不佳
  2. 操作方面:缺乏有效的全身协调控制,难以实现复杂的人机交互
  3. 集成挑战:从仿真到真实世界的部署存在感知差距、地形变化和硬件约束等问题

研究动机

开发一个分层且集成的框架,将无地图导航与全身移动操作统一在可部署的系统中,实现自主导航未知空间并执行灵巧操作动作的综合自主性。

核心贡献

  1. 提出了新颖的无地图导航模块:采用视觉-语言模型进行跨场景推理和图匹配,驱动三阶段探索策略,实现零成本导航
  2. 设计了移动操作策略:融合四足运动和机械臂控制,通过末端执行器轨迹引导实现全身交互行为
  3. 系统集成与验证:在真实四足机械臂平台上集成并验证系统,展示了结合语义导航和全身交互的端到端最后一公里配送

方法详解

任务定义

HANDO框架旨在使配备机械臂的四足机器人能够在无结构环境中执行完整的配送任务,包括:

  • 输入:语义目标描述(如"黑色办公椅")、环境感知数据、人体手部轨迹
  • 输出:机器人运动控制指令、机械臂关节指令
  • 约束:无预构建地图、实时性要求、安全性约束

模型架构

第一层:目标导向无地图导航

三阶段探索过程

  1. 初始探索阶段:当匹配分数 st<σ1s_t < \sigma_1 时,系统将语义目标图 GgG_g 分解为子目标,采用基于边界的探索策略
  2. 坐标投影与对齐阶段:当 σ1st<σ2\sigma_1 \leq s_t < \sigma_2 时,对齐目标图 GgG_g 和当前场景图 GtG_t
  3. 目标验证阶段:当 stσ2s_t \geq \sigma_2 时,执行目标验证和场景图修正

动作生成:VLM基础的动作解码器选择离散动作 at{move forward, turn left, turn right, stop}a_t \in \{\text{move forward, turn left, turn right, stop}\},映射为连续速度指令: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

第二层:全身移动操作策略

手部轨迹生成器

  • 检测操作员手部,通过手部速度低谷选择关键帧
  • 将手部位置/姿态重定向到机器人夹持器的工具中心点(TCP): xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

全身移动操作策略

  • 状态空间:包括上一动作、腿部状态、机械臂状态、基座状态和末端执行器轨迹
  • 动作空间:使用位置PD控制,目标位置 qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • 奖励函数
    • TCP跟踪奖励:rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • 正则化奖励:rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

技术创新点

  1. 跨模态场景理解:结合视觉-语言模型实现语义目标到导航行为的直接映射
  2. 分层控制架构:将高级语义推理与低级运动控制有效分离
  3. 实时手部跟踪集成:通过人体手部轨迹引导机器人末端执行器,提升人机交互的自然性
  4. 统一全身控制:在单一策略框架内协调腿部运动和机械臂操作

实验设置

硬件平台

  • 机器人平台:Unitree Go1 EDU四足机器人 + AGILEX PIPER轻量化机械臂
  • 计算设备:NVIDIA RTX 4090 GPU
  • 控制频率:运动策略和全身移动操作策略均运行在50Hz
  • 通信方式:有线以太网连接,支持低延迟可靠部署

实验环境

在咖啡厅进行真实世界评估,环境特点:

  • 无结构布局,桌椅和杂物不规则排列
  • 部分可观察性:机器人无目标位置先验知识
  • 仅依赖视觉输入和语义指令

评价指标

  • 导航成功率
  • 轨迹平滑性和连续性
  • 目标定位精度
  • 系统稳定性和鲁棒性

实验结果

主要结果

目标导向无地图导航层在真实环境中表现出色:

  • 成功探索环境并接近目标
  • 记录的基座轨迹平滑连续
  • 尽管布局不规则,仍保持稳定鲁棒的导航性能

实验发现

  1. 导航模块验证:成功完成初步部署,证明了无地图导航的可行性
  2. 系统集成:多线程控制实现了实时操作
  3. 环境适应性:在动态、无结构环境中展现良好适应能力

相关工作

自主导航

  • 传统方法:基于SLAM和图规划的地图方法,在静态结构化环境中有效但成本高昂
  • 无地图方法:UniGoal、NaviLa等框架利用语言和视觉线索引导导航,显著降低部署成本

端到端模仿学习

  • ACT:采用Transformer骨干网络和图像编码器
  • Diffusion Policy:引入生成扩散过程建模多模态动作分布
  • RISE:利用稀疏点云编码器进行连续控制

移动操作

  • 早期方法:基于优化的足步规划和全身轨迹生成,计算成本高
  • 强化学习方法:端到端控制多个移动操作任务
  • MLM:结合轨迹库和基于扩散策略的推理

结论与讨论

主要结论

HANDO框架成功实现了语义任务理解与低级物理控制的桥接,为无结构和人类环境中的复杂最后一公里配送任务提供了有效解决方案。

局限性

  1. 操作模块未完全实现:全身移动操作控制仍在开发中
  2. 实验范围有限:主要验证了导航功能,操作功能需进一步测试
  3. 环境复杂性:对极端动态环境的适应能力有待验证

未来方向

  1. 精细化全身移动操作:完善抓取和交接的协调控制
  2. 实时手部跟踪集成:提升人机交互的安全性、鲁棒性和自然性
  3. 扩展应用场景:验证在更复杂真实环境中的性能

深度评价

优点

  1. 系统性设计:提出了完整的分层框架,有效分离高级推理和低级控制
  2. 实用性强:针对实际应用场景(最后一公里配送)设计
  3. 技术创新:无地图导航与全身控制的有机结合
  4. 真实验证:在真实硬件平台上进行了初步验证

不足

  1. 完整性不足:操作模块仍为设计阶段,缺乏完整的系统演示
  2. 实验深度有限:主要展示导航功能,缺乏定量性能分析
  3. 对比实验缺失:未与现有方法进行详细比较
  4. 鲁棒性分析不足:对失败案例和边界条件的分析有限

影响力

  1. 学术价值:为移动操作机器人提供了新的系统架构思路
  2. 实用价值:在服务机器人和配送机器人领域具有应用潜力
  3. 可复现性:提供了详细的技术描述,但缺乏开源代码

适用场景

  • 最后一公里配送服务
  • 室内服务机器人应用
  • 人机协作任务
  • 无结构环境中的移动操作任务

参考文献

论文引用了多个重要的相关工作,包括:

  • UniGoal 5: 通用零样本目标导向导航
  • NaviLa 3: 腿式机器人视觉-语言-动作导航模型
  • MLM 7: 多任务移动操作全身控制学习
  • Diffusion Policy 8: 基于扩散的视觉运动策略学习

总体评价:这是一篇具有实用价值的系统性工作,提出了移动操作机器人的完整框架设计。尽管操作模块仍在开发中,但导航模块的成功部署证明了方法的可行性。论文的主要贡献在于系统架构设计和初步的真实世界验证,为该领域的进一步发展奠定了基础。