2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: 계층적 자율 네비게이션 및 기민한 전방향 이동 조작

기본 정보

  • 논문 ID: 2510.09221
  • 제목: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • 저자: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • 분류: cs.RO (로봇공학)
  • 발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.09221
  • 비디오 시연: https://youtu.be/YD0qx3vRsfc

초록

본 논문은 기계팔을 장착한 다리형 로봇을 위해 설계된 이층 프레임워크인 HANDO(계층적 자율 네비게이션 및 기민한 전방향 이동 조작)를 제안합니다. 첫 번째 층은 목표 조건부 자율 탐색 전략을 채택하여 로봇을 의미론적으로 지정된 목표로 유도하고, 두 번째 층은 통합된 전신 이동 조작 전략을 사용하여 기계팔과 다리를 조정하여 정밀한 상호작용 작업을 수행합니다. 저자들은 네비게이션 모듈의 초기 배포를 완료했으며, 전신 이동 조작의 정교한 배포를 계속 진행할 예정입니다.

연구 배경 및 동기

문제 정의

본 연구는 비정형 환경에서의 원활한 이동 조작 문제, 특히 마지막 마일 배송 시나리오에서의 인간-로봇 상호작용 과제를 해결하는 것을 목표로 합니다. 전통적인 배송 방법은 사전 구축된 지도와 정확한 위치 파악에 의존하므로, 동적이거나 맞춤형 환경에서 비용이 많이 들고 확장성이 제한적입니다.

중요성

마지막 마일 배송은 서비스 로봇의 핵심 응용 분야로, 로봇이 복잡한 환경을 통과할 수 있을 뿐만 아니라 인간과 물리적 상호작용을 수행할 수 있어야 합니다. 기계팔을 장착한 사족 로봇 플랫폼은 민첩한 운동 능력과 조작 기능을 결합하여 복잡한 배송 시나리오를 위한 이상적인 구현 플랫폼을 제공합니다.

기존 방법의 한계

  1. 네비게이션 측면: 대부분의 배송 전략은 여전히 지도에 의존하며, 빈번하게 변화하거나 빠르게 배포되는 환경에서 성능이 저하됩니다.
  2. 조작 측면: 효과적인 전신 조정 제어가 부족하여 복잡한 인간-로봇 상호작용을 구현하기 어렵습니다.
  3. 통합 과제: 시뮬레이션에서 실제 세계로의 배포 시 지각 차이, 지형 변화, 하드웨어 제약 등의 문제가 존재합니다.

연구 동기

지도 없는 네비게이션과 전신 이동 조작을 배포 가능한 시스템에 통합한 계층적이고 통합된 프레임워크를 개발하여, 미지의 공간을 자율적으로 네비게이션하고 기민한 조작 동작을 수행할 수 있는 종합적인 자율성을 실현합니다.

핵심 기여

  1. 새로운 지도 없는 네비게이션 모듈 제안: 시각-언어 모델을 활용한 교차 장면 추론 및 그래프 매칭을 통해 3단계 탐색 전략을 구동하여 무비용 네비게이션을 실현합니다.
  2. 이동 조작 전략 설계: 사족 운동과 기계팔 제어를 융합하여 말단 집행기 궤적 유도를 통해 전신 상호작용 행동을 구현합니다.
  3. 시스템 통합 및 검증: 실제 사족 기계팔 플랫폼에 시스템을 통합하고 검증하여 의미론적 네비게이션과 전신 상호작용을 결합한 종단간 마지막 마일 배송을 시연합니다.

방법 상세 설명

작업 정의

HANDO 프레임워크는 기계팔을 장착한 사족 로봇이 비정형 환경에서 완전한 배송 작업을 수행할 수 있도록 하며, 다음을 포함합니다:

  • 입력: 의미론적 목표 설명(예: "검은색 사무용 의자"), 환경 감지 데이터, 인체 손 궤적
  • 출력: 로봇 운동 제어 명령, 기계팔 관절 명령
  • 제약: 사전 구축된 지도 없음, 실시간 요구사항, 안전 제약

모델 아키텍처

첫 번째 층: 목표 지향 지도 없는 네비게이션

3단계 탐색 프로세스:

  1. 초기 탐색 단계: 매칭 점수 st<σ1s_t < \sigma_1일 때, 시스템은 의미론적 목표 그래프 GgG_g를 부분 목표로 분해하고 경계 기반 탐색 전략을 채택합니다.
  2. 좌표 투영 및 정렬 단계: σ1st<σ2\sigma_1 \leq s_t < \sigma_2일 때, 목표 그래프 GgG_g와 현재 장면 그래프 GtG_t를 정렬합니다.
  3. 목표 검증 단계: stσ2s_t \geq \sigma_2일 때, 목표 검증 및 장면 그래프 수정을 수행합니다.

동작 생성: VLM 기반 동작 디코더는 이산 동작 at{move forward, turn left, turn right, stop}a_t \in \{\text{move forward, turn left, turn right, stop}\}를 선택하여 연속 속도 명령으로 매핑합니다: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

두 번째 층: 전신 이동 조작 전략

손 궤적 생성기:

  • 조작자의 손을 감지하고 손 속도 저점을 통해 핵심 프레임을 선택합니다.
  • 손 위치/자세를 로봇 그리퍼의 도구 중심점(TCP)으로 재지향합니다: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

전신 이동 조작 전략:

  • 상태 공간: 이전 동작, 다리 상태, 기계팔 상태, 기저 상태 및 말단 집행기 궤적 포함
  • 동작 공간: 위치 PD 제어 사용, 목표 위치 qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • 보상 함수:
    • TCP 추적 보상: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • 정규화 보상: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

기술 혁신점

  1. 교차 모달 장면 이해: 시각-언어 모델을 결합하여 의미론적 목표에서 네비게이션 행동으로의 직접 매핑을 실현합니다.
  2. 계층적 제어 아키텍처: 고수준 의미론적 추론과 저수준 운동 제어를 효과적으로 분리합니다.
  3. 실시간 손 추적 통합: 인체 손 궤적을 통해 로봇 말단 집행기를 유도하여 인간-로봇 상호작용의 자연성을 향상시킵니다.
  4. 통합 전신 제어: 단일 정책 프레임워크 내에서 다리 운동과 기계팔 조작을 조정합니다.

실험 설정

하드웨어 플랫폼

  • 로봇 플랫폼: Unitree Go1 EDU 사족 로봇 + AGILEX PIPER 경량 기계팔
  • 컴퓨팅 장치: NVIDIA RTX 4090 GPU
  • 제어 주파수: 운동 전략 및 전신 이동 조작 전략 모두 50Hz에서 실행
  • 통신 방식: 유선 이더넷 연결, 저지연 신뢰성 배포 지원

실험 환경

카페에서 실시한 실제 세계 평가, 환경 특성:

  • 비정형 레이아웃, 테이블과 의자 및 잡동사니가 불규칙하게 배치
  • 부분 관찰 가능성: 로봇은 목표 위치에 대한 사전 지식이 없음
  • 시각 입력 및 의미론적 지시에만 의존

평가 지표

  • 네비게이션 성공률
  • 궤적 평활성 및 연속성
  • 목표 위치 결정 정확도
  • 시스템 안정성 및 견고성

실험 결과

주요 결과

목표 지향 지도 없는 네비게이션 층이 실제 환경에서 우수한 성능을 발휘했습니다:

  • 환경을 성공적으로 탐색하고 목표에 접근
  • 기록된 기저 궤적이 평활하고 연속적
  • 불규칙한 레이아웃에도 불구하고 안정적이고 견고한 네비게이션 성능 유지

실험 발견

  1. 네비게이션 모듈 검증: 초기 배포를 성공적으로 완료하여 지도 없는 네비게이션의 타당성을 입증했습니다.
  2. 시스템 통합: 다중 스레드 제어로 실시간 작동을 구현했습니다.
  3. 환경 적응성: 동적이고 비정형인 환경에서 우수한 적응 능력을 시연했습니다.

관련 연구

자율 네비게이션

  • 전통적 방법: SLAM 및 그래프 계획 기반 지도 방법, 정적 구조화된 환경에서 효과적이지만 비용이 많이 듭니다.
  • 지도 없는 방법: UniGoal, NaviLa 등의 프레임워크는 언어 및 시각 단서를 활용하여 네비게이션을 유도하며, 배포 비용을 크게 줄입니다.

종단간 모방 학습

  • ACT: Transformer 백본 네트워크 및 이미지 인코더 채택
  • Diffusion Policy: 생성 확산 프로세스를 도입하여 다중 모달 동작 분포를 모델링합니다.
  • RISE: 희소 포인트 클라우드 인코더를 활용한 연속 제어

이동 조작

  • 초기 방법: 최적화 기반 발걸음 계획 및 전신 궤적 생성, 계산 비용이 높습니다.
  • 강화학습 방법: 여러 이동 조작 작업에 대한 종단간 제어
  • MLM: 궤적 라이브러리와 확산 정책 기반 추론 결합

결론 및 논의

주요 결론

HANDO 프레임워크는 의미론적 작업 이해와 저수준 물리 제어 간의 다리 역할을 성공적으로 수행하여, 비정형 및 인간 환경에서의 복잡한 마지막 마일 배송 작업을 위한 효과적인 솔루션을 제공합니다.

한계

  1. 조작 모듈 미완성: 전신 이동 조작 제어는 여전히 개발 중입니다.
  2. 실험 범위 제한: 주로 네비게이션 기능을 검증했으며, 조작 기능은 추가 테스트가 필요합니다.
  3. 환경 복잡성: 극도로 동적인 환경에 대한 적응 능력은 검증이 필요합니다.

향후 방향

  1. 정교한 전신 이동 조작: 파지 및 인수도의 조정 제어 개선
  2. 실시간 손 추적 통합: 인간-로봇 상호작용의 안전성, 견고성 및 자연성 향상
  3. 응용 시나리오 확장: 더 복잡한 실제 환경에서의 성능 검증

심층 평가

장점

  1. 체계적 설계: 고수준 추론과 저수준 제어를 효과적으로 분리하는 완전한 계층적 프레임워크를 제안했습니다.
  2. 실용성 강함: 실제 응용 시나리오(마지막 마일 배송)를 위해 설계되었습니다.
  3. 기술 혁신: 지도 없는 네비게이션과 전신 제어의 유기적 결합
  4. 실제 검증: 실제 하드웨어 플랫폼에서 초기 검증을 수행했습니다.

부족한 점

  1. 완전성 부족: 조작 모듈은 여전히 설계 단계이며, 완전한 시스템 시연이 부족합니다.
  2. 실험 깊이 제한: 주로 네비게이션 기능을 시연했으며, 정량적 성능 분석이 부족합니다.
  3. 비교 실험 부재: 기존 방법과의 상세한 비교가 없습니다.
  4. 견고성 분석 부족: 실패 사례 및 경계 조건에 대한 분석이 제한적입니다.

영향력

  1. 학술적 가치: 이동 조작 로봇에 새로운 시스템 아키텍처 사고를 제공합니다.
  2. 실용적 가치: 서비스 로봇 및 배송 로봇 분야에서 응용 잠재력이 있습니다.
  3. 재현성: 상세한 기술 설명을 제공하지만, 오픈소스 코드가 부족합니다.

적용 시나리오

  • 마지막 마일 배송 서비스
  • 실내 서비스 로봇 응용
  • 인간-로봇 협업 작업
  • 비정형 환경에서의 이동 조작 작업

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용했습니다:

  • UniGoal 5: 범용 영점 샷 목표 지향 네비게이션
  • NaviLa 3: 다리형 로봇 시각-언어-동작 네비게이션 모델
  • MLM 7: 다중 작업 이동 조작 전신 제어 학습
  • Diffusion Policy 8: 확산 기반 시각 운동 정책 학습

종합 평가: 이것은 이동 조작 로봇의 완전한 프레임워크 설계를 제안하는 실용적 가치가 있는 체계적 연구입니다. 조작 모듈이 여전히 개발 중이지만, 네비게이션 모듈의 성공적인 배포는 방법의 타당성을 입증합니다. 논문의 주요 기여는 시스템 아키텍처 설계와 초기 실제 세계 검증에 있으며, 이는 해당 분야의 추가 발전을 위한 기초를 마련합니다.