2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

다리 로봇의 파지 최적화: 로코-조작을 위한 딥러닝 접근법

기본 정보

논문 ID: 2508.17466
제목: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
저자: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
분류: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
발표 시간: 2025년 10월 11일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2508.17466v2
지원 기관: Petróleo Brasileiro S/A - Petrobras

초록

본 논문은 기계팔을 장착한 사족 로봇의 파지 능력을 향상시키기 위한 딥러닝 프레임워크를 제안하며, 정확도와 적응성 개선에 중점을 두고 있습니다. 이 방법은 시뮬레이션-현실(sim-to-real) 방법론을 채택하여 물리적 데이터 수집에 대한 의존성을 최소화합니다. 저자들은 Genesis 시뮬레이션 환경에서 일반적인 물체 파지 시도의 합성 데이터셋을 생성하는 파이프라인을 개발했습니다. 다양한 시각에서 수천 번의 상호작용을 시뮬레이션하여 픽셀 수준의 주석이 달린 파지 품질 히트맵을 모델의 기준값으로 생성했습니다. 이 데이터셋은 U-Net 유사 아키텍처를 가진 맞춤형 CNN을 훈련하는 데 사용되며, 탑재된 RGB 및 깊이 카메라의 다중 모달 입력(RGB 이미지, 깊이 맵, 분할 마스크 및 표면 법선 벡터 맵)을 처리합니다. 훈련된 모델은 최적 파지점을 식별하기 위해 파지 품질 히트맵을 출력합니다. 저자들은 사족 로봇에서 완전한 프레임워크를 검증했으며, 시스템은 완전한 이동 조작 작업을 성공적으로 실행했습니다: 자율 주행으로 목표 물체에 도달, 센서로 물체 감지, 모델을 사용하여 최적 파지 자세 예측 및 정확한 파지 실행.

연구 배경 및 동기

문제 정의

복잡한 비정형 환경에서 사족 로봇의 정확하고 적응적인 파지는 여전히 중대한 과제이며, 전통적 방법은 일반적으로 대량의 현실 세계 보정과 사전 프로그래밍된 파지 구성을 필요로 하여 유연성을 제한합니다.

중요성

응용 가치: 기계팔을 장착한 사족 로봇은 로코-조작(loco-manipulation)을 실현할 수 있으며, 산업 자동화, 수색 및 구조 작업, 보조 기술 등의 분야에서 중요한 응용 가치를 가집니다
기술적 과제: 동적 장면에서 견고한 물체 인식, 정확한 파지 계획 및 운동 시스템과의 원활한 통합 필요
환경 적응성: 예측 불가능한 비정형 환경에서 효과적으로 작동할 수 있는 능력

기존 방법의 한계

사전 정의된 구성에 대한 의존성: 전통적 방법은 사전 정의된 파지 구성 또는 밀집된 수동 보정에 의존
일반화 능력 부족: 기존 솔루션은 일반적으로 특정 맥락과 관련이 있으며 장면 간 적응성 부족
데이터 수집 비용: 대량의 현실 세계 데이터 수집 필요로 비용이 높고 시간 소모적

연구 동기

저자들은 로봇 파지 분야에서 딥러닝의 최근 성공적 응용에 영감을 받아 사족 로봇을 위해 특별히 설계된 딥러닝 프레임워크를 제안하며, 시뮬레이션 훈련을 통해 전통적 방법의 한계를 극복합니다.

핵심 기여

Genesis 시뮬레이터 기반 훈련 파이프라인 개발, 현실 데이터 없이 대규모 병렬 데이터 수집 실현
고급 감지 방법 통합(D2NT 등), 깊이 기반 파지 정확도 향상 및 ML 실행의 계산 비용 감소
유연한 프레임워크 개발, 고급 제어 API 및 저수준 접근이 제한된 상용 로봇과의 통합 가능
물리 로봇에서 방법의 유효성 검증, 실제 환경에서의 효과성 입증

방법 상세 설명

작업 정의

입력: RGB-D 카메라 데이터(RGB 이미지, 깊이 맵, 분할 마스크, 표면 법선 벡터 맵) 출력: 최적 파지점의 3D 좌표 및 방향을 식별하는 파지 품질 히트맵 제약 조건: 사족 로봇 이동 조작 시나리오에서 정확한 파지 실현

데이터셋 생성

시뮬레이션 환경 설정

Genesis 프레임워크를 물리 시뮬레이션에 사용
물 병 3D 모델을 파지 목표로 선택
물체 이미지 추출을 위한 가상 RGB-D 카메라 구성

카메라 위치 샘플링

2D 격자에서 1000개의 서로 다른 위치 샘플링
X축 및 Z축 각각 100개 및 10개 포인트(범위 -0.5m ~ 0.5m)
Y축은 y=0.5m에 고정
각 위치에 무작위 섭동 추가(X,Y: ±0.03m, Z: 0-0.09m)

파지 주석 생성

각 픽셀에 대해 파지 시도 실행:

픽셀 좌표를 전역 좌표계로 변환
해당 표면 법선 벡터 계산
말단 집행기가 물체로부터 1.0m 거리에서 시작하여 표면으로부터 0.35m 거리에서 파지 시도
충돌 감지 기반 파지 성공(1) 또는 실패(0) 판정
물체 외부 영역을 불확실함(-1)으로 표시

모델 아키텍처

네트워크 설계

아키텍처: U-Net 기반 완전 합성곱 인코더-디코더 구조
인코더: MobileNetV2를 백본 네트워크로 사용
입력: 480×640×8 채널(RGB + 깊이 + 법선 벡터 맵 + 분할 마스크)
출력: 단일 채널 파지 품질 맵
매개변수: 약 544만 개의 훈련 가능 매개변수

주요 기술 세부사항

훈련 안정성 향상을 위해 GroupNorm 사용
인코더의 세밀한 특징 융합을 위한 스킵 연결
업샘플링을 위한 전치 합성곱
최종 출력 생성을 위한 1×1 합성곱

기술 혁신점

다중 모달 융합: RGB, 깊이, 법선 벡터 및 분할 정보의 효과적 결합
시뮬레이션-현실 전이: 완전히 시뮬레이션 데이터로 훈련되어 실제 로봇에 성공적으로 배포
엔드-투-엔드 파이프라인: 감지에서 실행까지의 완전 자동화 프로세스
표면 법선 벡터 통합: D2NT 알고리즘을 사용하여 깊이 맵에서 표면 법선 벡터 추정

실험 설정

데이터셋

시뮬레이션 데이터: Genesis 환경에서 1000개 시각의 합성 데이터 생성
해상도: 480×640 픽셀
주석 방식: 픽셀 수준 파지 품질 주석(성공/실패/불확실)
물체 유형: 물 병 모델(이후 보온병으로 확장)

평가 지표

파지 성공률
위치 결정 정확도
실시간 성능 표현

실험 플랫폼

로봇: Boston Dynamics Spot 사족 로봇
센서: 말단 집행기 RGB-D 카메라
제어: Boston Dynamics SDK
물체 감지: YOLOv11 사전 훈련 모델

구현 세부사항

카메라 내부 매개변수: fx, fy ≈ 554.26 픽셀, 주점(u0=320, v0=240)
최대 토크: 3.0 Nm
파지 거리: 물체 표면으로부터 0.35m
힘 제어: SDK 기반 힘 제한 제어

실험 결과

주요 결과

논문은 완전한 이동 조작 작업을 성공적으로 시연했습니다:

자율 주행: 로봇이 목표 물체를 성공적으로 식별하고 접근
감지 정확도: RGB-D 데이터가 성공적으로 획득 및 처리됨
파지 예측: CNN 모델이 최적 파지점을 정확하게 예측
실행 성공: 물리 로봇이 보온병을 성공적으로 파지

시스템 성능

실시간 처리: 480×640 해상도의 다중 모달 입력을 실시간으로 처리 가능
견고성: 실제 환경에서 우수한 적응성 시연
정확성: 정확한 힘 제어 파지 실현 성공

사례 분석

그림 8에서 볼 수 있듯이:

RGB 이미지가 목표 물체를 명확하게 포착
깊이 맵이 정확한 공간 정보 제공
YOLO-11이 정확한 분할 마스크 생성
D2NT 알고리즘이 표면 법선 벡터 맵을 성공적으로 생성
모델 출력 파지 히트맵이 최적 영역을 정확하게 식별

결론 및 토론

주요 결론

방법의 유효성: 시뮬레이션 기반 딥러닝 방법이 사족 로봇의 정확한 파지를 성공적으로 실현
기술 가능성: 다중 모달 감지와 CNN 예측의 결합이 기술 경로의 가능성 입증
실용적 가치: 완전한 이동 조작 파이프라인이 실제 응용을 위한 실행 가능한 솔루션 제공

한계

제한된 일반화 능력: 모델 일반화는 물체 기하학적 형태 및 텍스처 변화로 제한
센서 품질: 말단 집행기 깊이 센서 품질 저하로 깊이 맵 노이즈 발생
전처리 일관성: 분할 마스크 크기 조정이 전처리 일관성에 간헐적 영향
물체 다양성: 현재 특정 형태 물체(병 유형)에 주로 초점

향후 방향

데이터셋 확장: 더 다양한 물체 형태, 크기 및 텍스처 포함
센서 개선: 깊이 맵 노이즈 제거를 위한 평활 필터 또는 전용 ML 모델 구현
제어 전략: SDK 도구를 초월한 운동 및 조작 전략 탐색
복잡한 환경: 다중 물체 및 불규칙한 표면의 복잡한 환경에서 테스트

심층 평가

장점

높은 혁신성: 시뮬레이션-현실 방법을 사족 로봇 파지에 성공적으로 적용
시스템 완전성: 감지에서 실행까지의 엔드-투-엔드 솔루션
우수한 실용성: 실제 로봇에서 방법의 유효성 검증
고급 기술: 다중 모달 정보와 현대 딥러닝 기술의 효과적 융합

부족한 점

제한된 평가: 정량적 성공률 통계 및 다른 방법과의 비교 부족
단일 물체: 주로 병 모양 물체에 초점으로 일반화 능력 추가 검증 필요
단순한 환경: 실험 환경이 상대적으로 단순하여 복잡한 장면에서의 성능 미지수
이론적 분석: 방법의 이론적 기초 및 실패 사례에 대한 심층 분석 부족

영향력

학술 기여: 사족 로봇 이동 조작을 위한 새로운 기술 경로 제공
실용적 가치: 산업 응용 및 서비스 로봇 개발을 위한 참고 자료 제공
재현성: GitHub 저장소 제공으로 연구 재현 및 확장 지원
학제 간 영향: 로봇공학, 컴퓨터 비전 및 딥러닝 여러 분야 결합

적용 시나리오

산업 자동화: 복잡한 환경에서의 물료 운반 및 조작
수색 및 구조 작업: 재해 현장의 물체 식별 및 구조 조작
서비스 로봇: 가정 및 사무실 환경에서의 물체 조작
연구 플랫폼: 이동 조작 알고리즘의 개발 및 검증 플랫폼

참고문헌

논문은 이동 조작, 사족 로봇, 딥러닝 파지 등 핵심 분야의 중요한 연구를 포함한 14편의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이것은 기술 경로가 명확하고 구현이 완전한 응용형 연구 논문입니다. 이론적 혁신 및 포괄적 평가 측면에서 다소 부족하지만, 완전한 시스템 구현과 실제 로봇 검증은 사족 로봇 이동 조작 연구에 가치 있는 기여를 제공합니다. 이 연구는 후속 연구를 위한 견고한 기초를 마련하며, 특히 시뮬레이션-현실 전이 및 다중 모달 감지 융합 측면에서 그러합니다.