Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic
Phys2Real: VLM 사전정보와 대화형 온라인 적응의 융합을 통한 불확실성 인식 시뮬레이션-현실 조작
본 논문은 시각-언어 모델(VLM)의 물리 파라미터 추정과 대화형 온라인 적응을 결합한 현실-시뮬레이션-현실 강화학습 파이프라인인 Phys2Real을 제안한다. 이는 불확실성 인식 융합을 통해 로봇 조작에서의 시뮬레이션-현실 이전 문제를 해결한다. 본 방법은 세 가지 핵심 구성요소로 이루어진다: (1) 3D 가우시안 스플래팅 기반의 고충실도 기하학적 재구성, (2) VLM 추론의 물리 파라미터 사전분포, (3) 대화형 데이터 기반의 온라인 물리 파라미터 추정. T자형 블록과 망치의 평면 밀기 작업에서 Phys2Real은 도메인 무작위화 기준선 대비 현저한 개선을 달성했다: 하단 가중 T자형 블록 성공률 100% vs 79%, 상단 가중 T자형 블록 57% vs 23%, 망치 밀기 작업 평균 완료 시간 15% 단축.
로봇 조작 정책의 시뮬레이션에서 현실 세계로의 이전은 여전히 근본적인 도전 과제이며, 특히 정확한 동역학이 필요한 작업에서 그렇다. 전통적인 도메인 무작위화(Domain Randomization, DR) 방법은 견고성을 제공하지만 평균화된 동작을 기본값으로 채택하여 특정 물체의 물리적 속성 변화에 적응할 수 없다.
인간은 새로운 물체를 조작할 때 뛰어난 탐색 행동을 보여준다: 먼저 시각적 외형을 바탕으로 물체의 물리적 속성에 대한 초기 판단을 형성하고, 그 다음 대화를 통해 이러한 추정을 정제한다. 이에 영감을 받아 본 논문은 시각적 물리 추론과 대화형 학습을 결합하여 로봇에 유사한 능력을 제공하고 현실 환경에서의 조작 성능을 개선하는 것을 목표로 한다.
본 논문은 비파지형 조작 작업을 연구하며, 로봇은 밀기 등의 방식을 통해 서로 다른 물리적 속성(예: 질량 중심, 마찰 계수)을 가진 물체를 목표 위치 및 자세로 조작해야 한다. 입력은 물체 자세, 로봇 말단 집행기 위치 및 추정된 물리 파라미터를 포함하며, 출력은 말단 집행기 위치 변화이다.
1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
종합 평가: 이는 고품질의 로봇 학습 논문으로, 여러 첨단 기술을 창의적으로 결합하여 시뮬레이션-현실 이전 문제에 새롭고 효과적인 해결책을 제시한다. 몇 가지 한계가 있음에도 불구하고 기술적 기여와 실험 검증 모두 높은 수준을 달성했으며, 중요한 학술 가치와 응용 전망을 갖추고 있다.