2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real: VLM 사전정보와 대화형 온라인 적응의 융합을 통한 불확실성 인식 시뮬레이션-현실 조작

기본 정보

논문 ID: 2510.11689
제목: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
저자: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
소속: ¹Stanford University, ²Princeton University
분류: cs.RO (로봇공학), cs.AI (인공지능)
발표일: 2025년 10월 13일
논문 링크: https://arxiv.org/abs/2510.11689v1

초록

본 논문은 시각-언어 모델(VLM)의 물리 파라미터 추정과 대화형 온라인 적응을 결합한 현실-시뮬레이션-현실 강화학습 파이프라인인 Phys2Real을 제안한다. 이는 불확실성 인식 융합을 통해 로봇 조작에서의 시뮬레이션-현실 이전 문제를 해결한다. 본 방법은 세 가지 핵심 구성요소로 이루어진다: (1) 3D 가우시안 스플래팅 기반의 고충실도 기하학적 재구성, (2) VLM 추론의 물리 파라미터 사전분포, (3) 대화형 데이터 기반의 온라인 물리 파라미터 추정. T자형 블록과 망치의 평면 밀기 작업에서 Phys2Real은 도메인 무작위화 기준선 대비 현저한 개선을 달성했다: 하단 가중 T자형 블록 성공률 100% vs 79%, 상단 가중 T자형 블록 57% vs 23%, 망치 밀기 작업 평균 완료 시간 15% 단축.

연구 배경 및 동기

핵심 문제

로봇 조작 정책의 시뮬레이션에서 현실 세계로의 이전은 여전히 근본적인 도전 과제이며, 특히 정확한 동역학이 필요한 작업에서 그렇다. 전통적인 도메인 무작위화(Domain Randomization, DR) 방법은 견고성을 제공하지만 평균화된 동작을 기본값으로 채택하여 특정 물체의 물리적 속성 변화에 적응할 수 없다.

연구 동기

인간은 새로운 물체를 조작할 때 뛰어난 탐색 행동을 보여준다: 먼저 시각적 외형을 바탕으로 물체의 물리적 속성에 대한 초기 판단을 형성하고, 그 다음 대화를 통해 이러한 추정을 정제한다. 이에 영감을 받아 본 논문은 시각적 물리 추론과 대화형 학습을 결합하여 로봇에 유사한 능력을 제공하고 현실 환경에서의 조작 성능을 개선하는 것을 목표로 한다.

기존 방법의 한계

도메인 무작위화: 견고한 정책을 훈련하지만 성능을 희생하며, 물체 특정 변화에 적응할 수 없음
시스템 식별: 수동 파라미터 조정이 필요하며 정적 모델을 생성함
온라인 정책 적응: 간헐적 접촉 시나리오에서 어려움을 겪으며 외부 사전정보 부족
디지털 트윈: 시각적 충실도에 초점을 맞추고 물리적 속성을 무시함

핵심 기여

불확실성 인식 VLM 사전정보와 대화형 적응의 융합: VLM이 물리 파라미터 추정(예: 질량 중심)을 제공할 수 있으며, 이를 대화형 기반 파라미터 추정과 결합하여 실시간 저수준 폐루프 제어에 사용할 수 있음을 처음으로 입증
앙상블 기반 불확실성 정량화: 불확실성을 인식론적 불확실성과 우연적 불확실성으로 분해하고, 역분산 가중 융합을 통해 VLM 사전정보와 대화형 추정을 결합
물리 정보 디지털 트윈: 3D 가우시안 스플래팅 재구성과 온라인 물리 속성 추정을 결합하여 기하학적 및 물리적 정보를 포함하는 디지털 트윈 생성

방법론 상세

작업 정의

본 논문은 비파지형 조작 작업을 연구하며, 로봇은 밀기 등의 방식을 통해 서로 다른 물리적 속성(예: 질량 중심, 마찰 계수)을 가진 물체를 목표 위치 및 자세로 조작해야 한다. 입력은 물체 자세, 로봇 말단 집행기 위치 및 추정된 물리 파라미터를 포함하며, 출력은 말단 집행기 위치 변화이다.

모델 아키텍처

1. 현실-시뮬레이션 장면 재구성

SAM-2를 사용하여 목표 물체 분할
3D 가우시안 스플래팅(GSplat) 모델 훈련
SuGaR를 통해 표면 정렬 메시 추출
시뮬레이션 준비 완료 상태의 수밀 메시 자산 생성

2. 물리 파라미터 조건부 정책 학습

3단계 훈련 패러다임 채택:

Phase 1: 정책이 실제 물리 파라미터를 조건으로 훈련됨 Phase 1.5: 노이즈 물리 파라미터를 사용하여 정책을 미세조정하여 하류 노이즈 추정에 대한 견고성 구축 Phase 2: N=10개 적응 모델의 앙상블 훈련, 관찰-동작 이력에서 물리 파라미터 예측

3. 불확실성 정량화 및 융합

VLM 추정 (θ_vlm, σ_vlm):

GPT-5에 쿼리하여 작업 관련 물리 파라미터 추정
N개 이미지 각각에 대해 M번 쿼리하여 집계 평균 및 불확실성 계산

RMA 추정 (θ_rma, σ_rma):

인식론적 불확실성: σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
우연적 불확실성: σ²_aleatoric = (1/N)∑σᵢ²
총 RMA 불확실성: σ²_rma = σ²_epistemic + σ²_aleatoric

역분산 가중 융합:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

기술적 혁신점

해석 가능한 물리 파라미터: 학습된 잠재 변수가 아닌 물리 파라미터를 직접 조건으로 사용하여 VLM 추정을 직접 융합 가능
이중 소스 불확실성 융합: 대화형 이력 불확실성이 높을 때 VLM 추정에 더 의존하고, 그 반대도 마찬가지
앙상블 불확실성 분해: 모델 불확실성과 데이터 불확실성을 분리하여 더 정확한 불확실성 추정 제공

실험 설정

실험 작업

T자형 블록 밀기: 143그램 금속 추를 다양한 위치에 배치하여 질량 중심 변경, 두 가지 구성 테스트
- 추가 상단: 질량 중심 +6.1cm, 더 도전적
- 추가 하단: 질량 중심 -0.7cm, 상대적으로 간단
망치 밀기: 질량 중심이 망치 헤드 근처에 위치하여 복잡한 운동 동역학 생성

평가 지표

성공률: 위치 오차 <3cm 및 방향 오차 <20°
최종 위치 오차(cm)
최종 방향 오차(도)
작업 완료 시간(초)

비교 방법

Domain Randomization (DR): 표준 도메인 무작위화 기준선
Diffusion Policy: 강한 감독 학습 기준선
RMA-only: 적응 모델만 사용
Physics-conditioned VLM: VLM 추정만 사용
Physics-conditioned privileged: 실제 물리 파라미터를 사용하는 특권 기준선

구현 세부사항

6-DOF UFactory xArm 로봇 팔 사용
PPO 훈련, 4096개 병렬 환경
비대칭 액터-크리틱 아키텍처
모션 캡처 시스템으로 정확한 물체 자세 획득

실험 결과

주요 결과

T자형 블록 밀기(하단 가중):

Phys2Real: 100% 성공률, 1.76±0.54cm 위치 오차
DR 기준선: 79.17% 성공률, 7.14±11.34cm 위치 오차
특권 기준선: 95.83% 성공률, 1.92±0.50cm 위치 오차

T자형 블록 밀기(상단 가중, 더 도전적):

Phys2Real: 57.14% 성공률, 2.60±0.90cm 위치 오차
DR 기준선: 23.81% 성공률, 6.00±5.78cm 위치 오차
특권 기준선: 90.48% 성공률, 1.90±0.98cm 위치 오차

망치 밀기:

Phys2Real과 DR 모두 100% 성공률 달성
Phys2Real 평균 완료 시간 77.79±44.08초
DR 평균 완료 시간 90.65±42.03초, 14.2% 개선

절제 실험

VLM vs RMA 단독 사용:

VLM 추정만: 4.76% 성공률(상단 가중)
RMA만: 14.29% 성공률(상단 가중)
Phys2Real 융합: 57.14% 성공률

결과는 VLM과 대화형 정보의 결합이 성공에 필수적이며, 어느 하나만 사용해서는 좋은 성능을 달성할 수 없음을 보여준다.

사례 분석

그림 6은 전형적인 실행 과정에서 파라미터 추정의 진화를 보여준다:

초기 RMA 추정은 높은 불확실성을 가지며 실제값에서 벗어남
접촉이 계속되면서 불확실성이 감소하고 융합 추정이 실제값으로 수렴
접촉 종료 후 새로운 정보 부족으로 불확실성이 다시 증가

실험 발견

물리 파라미터 추정의 가치: 정확한 물리 파라미터 추정이 조작 성능을 현저히 개선
융합의 필요성: VLM과 대화형 정보가 필수적이며, 단독 사용 시 성능이 급격히 저하
불확실성 인식의 중요성: 불확실성 가중을 통해 효과적인 정보 융합 달성
견고성: 부정확한 VLM 추정에 대해 강한 견고성 표현

결론 및 논의

주요 결론

Phys2Real은 VLM 시각 추론과 대화형 적응의 결합 효과를 성공적으로 입증했으며, 여러 조작 작업에서 도메인 무작위화 기준선을 현저히 능가한다. 불확실성 인식 융합 메커니즘은 시스템이 각 정보 소스의 신뢰성에 따라 동적으로 가중치를 조정할 수 있게 한다.

한계

대칭성 가정: 재구성 파이프라인은 근사 대칭 물체에서 최적 성능을 보이며, 미러링이 비대칭 물체의 실제 형태를 왜곡할 수 있음
VLM 추정 편향: VLM은 기하학적 중심으로 향하는 경향이 있어 물리적으로 일관성 없는 추정을 생성할 수 있음
작업 복잡도: 현재 검증된 작업은 상대적으로 간단하며, 더 복잡한 조작의 일반화 가능성은 미검증
감각 의존성: 모션 캡처 시스템에 의존하며, 순수 시각 감각으로의 전환이 향후 방향

향후 방향

비대칭 물체의 재구성 전략 확장
모션 캡처를 감각 기반 추적으로 대체
더 복잡한 조작 작업에서의 성능 검증
마찰, 강성 등 다른 물리 파라미터 추정 탐색

심층 평가

장점

높은 혁신성: VLM 물리 추론과 RMA 적응을 유기적으로 융합한 최초 시도로 새로운 연구 방향 개척
합리적 기술 방안: 불확실성 분해 및 역분산 가중 융합은 이론적 기초를 가짐
충분한 실험: 다중 작업, 다중 구성의 포괄적 평가 및 절제 실험으로 각 구성요소의 기여도 규명
높은 실용 가치: 시뮬레이션-현실 이전을 위한 새로운 해결책 제시

부족한 점

제한된 작업 범위: 평면 밀기 작업만 검증되었으며 복잡한 조작의 일반화 가능성 미지수
VLM 의존성: VLM의 물리 추론 능력에 심각하게 의존하며 체계적 편향 가능성 존재
계산 오버헤드: 앙상블 방법과 VLM 쿼리가 추가 계산 비용 야기 가능
불충분한 이론 분석: 융합 전략의 이론적 수렴성 분석 부족

영향력

본 연구는 로봇 학습 분야에 중요한 기여를 제공하며 기초 모델의 저수준 제어 응용 가능성을 보여준다. 시각 추론과 대화형 학습을 결합한 더 많은 연구를 영감으로 주고 시뮬레이션-현실 이전 기술 발전을 촉진할 것으로 예상된다.

적용 시나리오

정확한 물리 모델링이 필요한 조작 작업
물체 물리적 속성이 미지수이거나 변하는 시나리오
간헐적 접촉의 비파지형 조작
새로운 물체에 대한 빠른 적응이 필요한 응용

참고문헌

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

종합 평가: 이는 고품질의 로봇 학습 논문으로, 여러 첨단 기술을 창의적으로 결합하여 시뮬레이션-현실 이전 문제에 새롭고 효과적인 해결책을 제시한다. 몇 가지 한계가 있음에도 불구하고 기술적 기여와 실험 검증 모두 높은 수준을 달성했으며, 중요한 학술 가치와 응용 전망을 갖추고 있다.