2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: 階層的自律ナビゲーションと器用な全方向移動操作

基本情報

  • 論文ID: 2510.09221
  • タイトル: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • 著者: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • 分類: cs.RO(ロボティクス)
  • 発表日: 2025年10月10日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.09221
  • ビデオデモ: https://youtu.be/YD0qx3vRsfc

概要

本論文は、機械腕を装備した脚式ロボット向けに設計された2層フレームワークであるHANDO(階層的自律ナビゲーションと器用な全方向移動操作)を提案しています。このフレームワークは、人間中心の移動操作タスクを実行するために設計されています。第1層は目標条件付き自律探索戦略を採用し、ロボットをセマンティックに指定されたターゲットへ導きます。第2層は統一された全身移動操作戦略を使用し、機械腕と脚部を協調させて精密な相互作用タスクを実行します。著者らはナビゲーションモジュールの初期段階の展開を完了し、全身移動操作の精密化展開を継続する予定です。

研究背景と動機

問題定義

本研究は、非構造化環境における継ぎ目のない移動操作の問題、特にラストマイル配送シナリオにおける人間とロボットの相互作用の課題を解決することを目的としています。従来の配送方法は事前構築地図と正確な位置特定に依存しており、動的または カスタマイズ環境では費用がかかり、スケーラビリティが限定的です。

重要性

ラストマイル配送はサービスロボットの重要なアプリケーションであり、ロボットが複雑な環境を移動するだけでなく、人間と物理的に相互作用することが求められます。機械腕を装備した四足ロボットプラットフォームは、敏捷な移動能力と操作機能を組み合わせており、複雑な配送シナリオの理想的な実装プラットフォームを提供します。

既存方法の限界

  1. ナビゲーション面: ほとんどの配送戦略は依然として地図に依存しており、頻繁に変化する環境や迅速な展開が必要な環境では性能が低下します
  2. 操作面: 効果的な全身協調制御が不足しており、複雑な人間とロボットの相互作用の実現が困難です
  3. 統合の課題: シミュレーションから現実世界への展開には、知覚ギャップ、地形変化、ハードウェア制約などの問題が存在します

研究動機

地図を使わないナビゲーションと全身移動操作を統一した、展開可能なシステムに統合された階層的フレームワークを開発し、未知空間の自律ナビゲーションと器用な操作動作の実行を実現する包括的な自律性を達成することです。

主要な貢献

  1. 革新的な地図不要ナビゲーションモジュールの提案: ビジョン言語モデルを活用したクロスシーン推論とグラフマッチングを採用し、3段階探索戦略を駆動して、ゼロコストナビゲーションを実現します
  2. 移動操作戦略の設計: 四足運動と機械腕制御を融合し、エンドエフェクタ軌跡ガイダンスを通じて全身相互作用行動を実現します
  3. システム統合と検証: 実際の四足機械腕プラットフォームにシステムを統合・検証し、セマンティックナビゲーションと全身相互作用を組み合わせたエンドツーエンドのラストマイル配送を実証します

方法の詳細

タスク定義

HANDOフレームワークは、機械腕を装備した四足ロボットが非構造化環境で完全な配送タスクを実行できるようにすることを目的としており、以下を含みます:

  • 入力: セマンティックターゲット記述(例:「黒いオフィスチェア」)、環境知覚データ、人間の手部軌跡
  • 出力: ロボット運動制御指令、機械腕関節指令
  • 制約: 事前構築地図なし、リアルタイム要件、安全制約

モデルアーキテクチャ

第1層:ターゲット指向地図不要ナビゲーション

3段階探索プロセス:

  1. 初期探索段階: マッチングスコア st<σ1s_t < \sigma_1 の場合、システムはセマンティックターゲットグラフ GgG_g をサブターゲットに分解し、境界ベースの探索戦略を採用します
  2. 座標投影と整列段階: σ1st<σ2\sigma_1 \leq s_t < \sigma_2 の場合、ターゲットグラフ GgG_g と現在のシーングラフ GtG_t を整列させます
  3. ターゲット検証段階: stσ2s_t \geq \sigma_2 の場合、ターゲット検証とシーングラフ修正を実行します

動作生成: VLMベースの動作デコーダは離散動作 at{前進、左回転、右回転、停止}a_t \in \{\text{前進、左回転、右回転、停止}\} を選択し、連続速度指令にマッピングします: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

第2層:全身移動操作戦略

手部軌跡生成器:

  • オペレータの手部を検出し、手部速度の谷を通じてキーフレームを選択します
  • 手部位置/姿勢をロボットグリッパーのツールセンターポイント(TCP)にリターゲットします: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

全身移動操作戦略:

  • 状態空間: 前の動作、脚部状態、機械腕状態、ベース状態、エンドエフェクタ軌跡を含みます
  • 動作空間: 位置PD制御を使用し、目標位置 qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • 報酬関数:
    • TCP追跡報酬:rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • 正則化報酬:rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

技術的革新点

  1. クロスモーダルシーン理解: ビジョン言語モデルを組み合わせて、セマンティックターゲットからナビゲーション行動への直接マッピングを実現します
  2. 階層的制御アーキテクチャ: 高レベルのセマンティック推論と低レベルの運動制御を効果的に分離します
  3. リアルタイム手部追跡統合: 人間の手部軌跡を通じてロボットのエンドエフェクタをガイドし、人間とロボットの相互作用の自然性を向上させます
  4. 統一された全身制御: 単一の戦略フレームワーク内で脚部運動と機械腕操作を協調させます

実験設定

ハードウェアプラットフォーム

  • ロボットプラットフォーム: Unitree Go1 EDU四足ロボット + AGILEX PIPER軽量機械腕
  • 計算デバイス: NVIDIA RTX 4090 GPU
  • 制御周波数: 運動戦略と全身移動操作戦略の両方が50Hzで実行されます
  • 通信方式: 有線イーサネット接続、低遅延の信頼性の高い展開をサポート

実験環境

カフェで実施された現実世界の評価、環境の特徴:

  • 非構造化レイアウト、テーブルと椅子および雑多な物体が不規則に配置されています
  • 部分的な観察可能性:ロボットはターゲット位置の事前知識がありません
  • ビジョン入力とセマンティック指令のみに依存します

評価指標

  • ナビゲーション成功率
  • 軌跡の滑らかさと連続性
  • ターゲット位置特定精度
  • システムの安定性とロバスト性

実験結果

主要な結果

ターゲット指向地図不要ナビゲーション層は現実環境で優れた性能を示しました:

  • 環境の探索に成功し、ターゲットに接近しました
  • 記録されたベース軌跡は滑らかで連続的です
  • 不規則なレイアウトにもかかわらず、安定したロバストなナビゲーション性能を維持しました

実験の知見

  1. ナビゲーションモジュール検証: 初期段階の展開を成功裏に完了し、地図不要ナビゲーションの実現可能性を証明しました
  2. システム統合: マルチスレッド制御がリアルタイム操作を実現しました
  3. 環境適応性: 動的で非構造化された環境で優れた適応能力を示しました

関連研究

自律ナビゲーション

  • 従来の方法: SLAMとグラフプランニングに基づく地図方法は、静的構造化環境では有効ですが、費用がかかります
  • 地図不要方法: UniGoal、NaviLaなどのフレームワークは言語とビジュアル手がかりを活用してナビゲーションをガイドし、展開コストを大幅に削減します

エンドツーエンド模倣学習

  • ACT: Transformerバックボーンネットワークと画像エンコーダを採用
  • Diffusion Policy: 生成拡散プロセスを導入してマルチモーダル動作分布をモデル化
  • RISE: スパース点群エンコーダを活用して連続制御を実現

移動操作

  • 初期方法: 最適化ベースの足ステップ計画と全身軌跡生成、計算コストが高い
  • 強化学習方法: 複数の移動操作タスクのエンドツーエンド制御
  • MLM: 軌跡ライブラリと拡散ポリシーベースの推論を組み合わせます

結論と考察

主要な結論

HANDOフレームワークは、セマンティックタスク理解と低レベルの物理制御の橋渡しを成功させ、非構造化および人間環境における複雑なラストマイル配送タスクに対する効果的なソリューションを提供します。

限界

  1. 操作モジュールの未完成: 全身移動操作制御はまだ開発中です
  2. 実験範囲の限定: 主にナビゲーション機能を検証しており、操作機能はさらなるテストが必要です
  3. 環境の複雑性: 極端に動的な環境への適応能力の検証が必要です

今後の方向性

  1. 全身移動操作の精密化: 把握と受け渡しの協調制御を改善します
  2. リアルタイム手部追跡統合: 人間とロボットの相互作用の安全性、ロバスト性、自然性を向上させます
  3. 応用シナリオの拡張: より複雑な現実環境での性能を検証します

深い評価

利点

  1. システム的設計: 高レベルの推論と低レベルの制御を効果的に分離する完全な階層的フレームワークを提案しています
  2. 実用性が高い: 実際のアプリケーションシナリオ(ラストマイル配送)に対応して設計されています
  3. 技術的革新: 地図不要ナビゲーションと全身制御の有機的な組み合わせ
  4. 現実検証: 実際のハードウェアプラットフォームで初期検証を実施しました

不足点

  1. 完全性の不足: 操作モジュールはまだ設計段階であり、完全なシステムデモンストレーションが不足しています
  2. 実験の深さが限定的: 主にナビゲーション機能を示しており、定量的性能分析が不足しています
  3. 比較実験の欠落: 既存方法との詳細な比較がありません
  4. ロバスト性分析の不足: 失敗ケースと境界条件の分析が限定的です

影響力

  1. 学術的価値: 移動操作ロボットに新しいシステムアーキテクチャの視点を提供します
  2. 実用的価値: サービスロボットと配送ロボット分野での応用可能性があります
  3. 再現性: 詳細な技術説明を提供していますが、オープンソースコードが不足しています

適用シナリオ

  • ラストマイル配送サービス
  • 室内サービスロボットアプリケーション
  • 人間とロボットの協働タスク
  • 非構造化環境における移動操作タスク

参考文献

論文は複数の重要な関連研究を引用しており、以下を含みます:

  • UniGoal 5: ユニバーサルゼロショットターゲット指向ナビゲーション
  • NaviLa 3: 脚式ロボット用ビジョン言語動作ナビゲーションモデル
  • MLM 7: マルチタスク移動操作全身制御学習
  • Diffusion Policy 8: 拡散ベースのビジョン運動ポリシー学習

総合評価: これは実用的価値を持つシステム的な研究であり、移動操作ロボットの完全なフレームワーク設計を提案しています。操作モジュールはまだ開発中ですが、ナビゲーションモジュールの成功した展開は方法の実現可能性を証明しています。論文の主な貢献はシステムアーキテクチャ設計と初期の現実世界検証にあり、この分野のさらなる発展の基礎を築いています。