Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
๋
ผ๋ฌธ ID : 2510.11689์ ๋ชฉ : Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation์ ์ : Maggie Wangยน, Stephen Tianยน, Aiden Swannยน, Ola Shorinwaยฒ, Jiajun Wuยน, Mac Schwagerยน์์ : ยนStanford University, ยฒPrinceton University๋ถ๋ฅ : cs.RO (๋ก๋ด๊ณตํ), cs.AI (์ธ๊ณต์ง๋ฅ)๋ฐํ์ผ : 2025๋
10์ 13์ผ๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2510.11689v1 ๋ณธ ๋
ผ๋ฌธ์ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ๊ณผ ๋ํํ ์จ๋ผ์ธ ์ ์์ ๊ฒฐํฉํ ํ์ค-์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐํํ์ต ํ์ดํ๋ผ์ธ์ธ Phys2Real์ ์ ์ํ๋ค. ์ด๋ ๋ถํ์ค์ฑ ์ธ์ ์ตํฉ์ ํตํด ๋ก๋ด ์กฐ์์์์ ์๋ฎฌ๋ ์ด์
-ํ์ค ์ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ๋ณธ ๋ฐฉ๋ฒ์ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ์์๋ก ์ด๋ฃจ์ด์ง๋ค: (1) 3D ๊ฐ์ฐ์์ ์คํ๋ํ
๊ธฐ๋ฐ์ ๊ณ ์ถฉ์ค๋ ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ, (2) VLM ์ถ๋ก ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ฌ์ ๋ถํฌ, (3) ๋ํํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ์จ๋ผ์ธ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ . T์ํ ๋ธ๋ก๊ณผ ๋ง์น์ ํ๋ฉด ๋ฐ๊ธฐ ์์
์์ Phys2Real์ ๋๋ฉ์ธ ๋ฌด์์ํ ๊ธฐ์ค์ ๋๋น ํ์ ํ ๊ฐ์ ์ ๋ฌ์ฑํ๋ค: ํ๋จ ๊ฐ์ค T์ํ ๋ธ๋ก ์ฑ๊ณต๋ฅ 100% vs 79%, ์๋จ ๊ฐ์ค T์ํ ๋ธ๋ก 57% vs 23%, ๋ง์น ๋ฐ๊ธฐ ์์
ํ๊ท ์๋ฃ ์๊ฐ 15% ๋จ์ถ.
๋ก๋ด ์กฐ์ ์ ์ฑ
์ ์๋ฎฌ๋ ์ด์
์์ ํ์ค ์ธ๊ณ๋ก์ ์ด์ ์ ์ฌ์ ํ ๊ทผ๋ณธ์ ์ธ ๋์ ๊ณผ์ ์ด๋ฉฐ, ํนํ ์ ํํ ๋์ญํ์ด ํ์ํ ์์
์์ ๊ทธ๋ ๋ค. ์ ํต์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ(Domain Randomization, DR) ๋ฐฉ๋ฒ์ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํ์ง๋ง ํ๊ท ํ๋ ๋์์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ฑํํ์ฌ ํน์ ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ์ ์์ฑ ๋ณํ์ ์ ์ํ ์ ์๋ค.
์ธ๊ฐ์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ ๋ ๋ฐ์ด๋ ํ์ ํ๋์ ๋ณด์ฌ์ค๋ค: ๋จผ์ ์๊ฐ์ ์ธํ์ ๋ฐํ์ผ๋ก ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ์ ์์ฑ์ ๋ํ ์ด๊ธฐ ํ๋จ์ ํ์ฑํ๊ณ , ๊ทธ ๋ค์ ๋ํ๋ฅผ ํตํด ์ด๋ฌํ ์ถ์ ์ ์ ์ ํ๋ค. ์ด์ ์๊ฐ์ ๋ฐ์ ๋ณธ ๋
ผ๋ฌธ์ ์๊ฐ์ ๋ฌผ๋ฆฌ ์ถ๋ก ๊ณผ ๋ํํ ํ์ต์ ๊ฒฐํฉํ์ฌ ๋ก๋ด์ ์ ์ฌํ ๋ฅ๋ ฅ์ ์ ๊ณตํ๊ณ ํ์ค ํ๊ฒฝ์์์ ์กฐ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋๋ฉ์ธ ๋ฌด์์ํ : ๊ฒฌ๊ณ ํ ์ ์ฑ
์ ํ๋ จํ์ง๋ง ์ฑ๋ฅ์ ํฌ์ํ๋ฉฐ, ๋ฌผ์ฒด ํน์ ๋ณํ์ ์ ์ํ ์ ์์์์คํ
์๋ณ : ์๋ ํ๋ผ๋ฏธํฐ ์กฐ์ ์ด ํ์ํ๋ฉฐ ์ ์ ๋ชจ๋ธ์ ์์ฑํจ์จ๋ผ์ธ ์ ์ฑ
์ ์ : ๊ฐํ์ ์ ์ด ์๋๋ฆฌ์ค์์ ์ด๋ ค์์ ๊ฒช์ผ๋ฉฐ ์ธ๋ถ ์ฌ์ ์ ๋ณด ๋ถ์กฑ๋์งํธ ํธ์ : ์๊ฐ์ ์ถฉ์ค๋์ ์ด์ ์ ๋ง์ถ๊ณ ๋ฌผ๋ฆฌ์ ์์ฑ์ ๋ฌด์ํจ๋ถํ์ค์ฑ ์ธ์ VLM ์ฌ์ ์ ๋ณด์ ๋ํํ ์ ์์ ์ตํฉ : VLM์ด ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ (์: ์ง๋ ์ค์ฌ)์ ์ ๊ณตํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ๋ํํ ๊ธฐ๋ฐ ํ๋ผ๋ฏธํฐ ์ถ์ ๊ณผ ๊ฒฐํฉํ์ฌ ์ค์๊ฐ ์ ์์ค ํ๋ฃจํ ์ ์ด์ ์ฌ์ฉํ ์ ์์์ ์ฒ์์ผ๋ก ์
์ฆ์์๋ธ ๊ธฐ๋ฐ ๋ถํ์ค์ฑ ์ ๋ํ : ๋ถํ์ค์ฑ์ ์ธ์๋ก ์ ๋ถํ์ค์ฑ๊ณผ ์ฐ์ฐ์ ๋ถํ์ค์ฑ์ผ๋ก ๋ถํดํ๊ณ , ์ญ๋ถ์ฐ ๊ฐ์ค ์ตํฉ์ ํตํด VLM ์ฌ์ ์ ๋ณด์ ๋ํํ ์ถ์ ์ ๊ฒฐํฉ๋ฌผ๋ฆฌ ์ ๋ณด ๋์งํธ ํธ์ : 3D ๊ฐ์ฐ์์ ์คํ๋ํ
์ฌ๊ตฌ์ฑ๊ณผ ์จ๋ผ์ธ ๋ฌผ๋ฆฌ ์์ฑ ์ถ์ ์ ๊ฒฐํฉํ์ฌ ๊ธฐํํ์ ๋ฐ ๋ฌผ๋ฆฌ์ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋์งํธ ํธ์ ์์ฑ๋ณธ ๋
ผ๋ฌธ์ ๋นํ์งํ ์กฐ์ ์์
์ ์ฐ๊ตฌํ๋ฉฐ, ๋ก๋ด์ ๋ฐ๊ธฐ ๋ฑ์ ๋ฐฉ์์ ํตํด ์๋ก ๋ค๋ฅธ ๋ฌผ๋ฆฌ์ ์์ฑ(์: ์ง๋ ์ค์ฌ, ๋ง์ฐฐ ๊ณ์)์ ๊ฐ์ง ๋ฌผ์ฒด๋ฅผ ๋ชฉํ ์์น ๋ฐ ์์ธ๋ก ์กฐ์ํด์ผ ํ๋ค. ์
๋ ฅ์ ๋ฌผ์ฒด ์์ธ, ๋ก๋ด ๋ง๋จ ์งํ๊ธฐ ์์น ๋ฐ ์ถ์ ๋ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจํ๋ฉฐ, ์ถ๋ ฅ์ ๋ง๋จ ์งํ๊ธฐ ์์น ๋ณํ์ด๋ค.
SAM-2๋ฅผ ์ฌ์ฉํ์ฌ ๋ชฉํ ๋ฌผ์ฒด ๋ถํ 3D ๊ฐ์ฐ์์ ์คํ๋ํ
(GSplat) ๋ชจ๋ธ ํ๋ จ SuGaR๋ฅผ ํตํด ํ๋ฉด ์ ๋ ฌ ๋ฉ์ ์ถ์ถ ์๋ฎฌ๋ ์ด์
์ค๋น ์๋ฃ ์ํ์ ์๋ฐ ๋ฉ์ ์์ฐ ์์ฑ 3๋จ๊ณ ํ๋ จ ํจ๋ฌ๋ค์ ์ฑํ:
Phase 1 : ์ ์ฑ
์ด ์ค์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ จ๋จ
Phase 1.5 : ๋
ธ์ด์ฆ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ
์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ํ๋ฅ ๋
ธ์ด์ฆ ์ถ์ ์ ๋ํ ๊ฒฌ๊ณ ์ฑ ๊ตฌ์ถ
Phase 2 : N=10๊ฐ ์ ์ ๋ชจ๋ธ์ ์์๋ธ ํ๋ จ, ๊ด์ฐฐ-๋์ ์ด๋ ฅ์์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์์ธก
VLM ์ถ์ (ฮธ_vlm, ฯ_vlm):
GPT-5์ ์ฟผ๋ฆฌํ์ฌ ์์
๊ด๋ จ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ N๊ฐ ์ด๋ฏธ์ง ๊ฐ๊ฐ์ ๋ํด M๋ฒ ์ฟผ๋ฆฌํ์ฌ ์ง๊ณ ํ๊ท ๋ฐ ๋ถํ์ค์ฑ ๊ณ์ฐ RMA ์ถ์ (ฮธ_rma, ฯ_rma):
์ธ์๋ก ์ ๋ถํ์ค์ฑ: ฯยฒ_epistemic = (1/N)โ(ฮธแตข - ฮธ_rma)ยฒ ์ฐ์ฐ์ ๋ถํ์ค์ฑ: ฯยฒ_aleatoric = (1/N)โฯแตขยฒ ์ด RMA ๋ถํ์ค์ฑ: ฯยฒ_rma = ฯยฒ_epistemic + ฯยฒ_aleatoric ์ญ๋ถ์ฐ ๊ฐ์ค ์ตํฉ :
ฮธฬ = (ฮธ_vlm/ฯยฒ_vlm + ฮธ_rma/ฯยฒ_rma) / (1/ฯยฒ_vlm + 1/ฯยฒ_rma)
ํด์ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ : ํ์ต๋ ์ ์ฌ ๋ณ์๊ฐ ์๋ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง์ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ VLM ์ถ์ ์ ์ง์ ์ตํฉ ๊ฐ๋ฅ์ด์ค ์์ค ๋ถํ์ค์ฑ ์ตํฉ : ๋ํํ ์ด๋ ฅ ๋ถํ์ค์ฑ์ด ๋์ ๋ VLM ์ถ์ ์ ๋ ์์กดํ๊ณ , ๊ทธ ๋ฐ๋๋ ๋ง์ฐฌ๊ฐ์ง์์๋ธ ๋ถํ์ค์ฑ ๋ถํด : ๋ชจ๋ธ ๋ถํ์ค์ฑ๊ณผ ๋ฐ์ดํฐ ๋ถํ์ค์ฑ์ ๋ถ๋ฆฌํ์ฌ ๋ ์ ํํ ๋ถํ์ค์ฑ ์ถ์ ์ ๊ณตT์ํ ๋ธ๋ก ๋ฐ๊ธฐ : 143๊ทธ๋จ ๊ธ์ ์ถ๋ฅผ ๋ค์ํ ์์น์ ๋ฐฐ์นํ์ฌ ์ง๋ ์ค์ฌ ๋ณ๊ฒฝ, ๋ ๊ฐ์ง ๊ตฌ์ฑ ํ
์คํธ์ถ๊ฐ ์๋จ: ์ง๋ ์ค์ฌ +6.1cm, ๋ ๋์ ์ ์ถ๊ฐ ํ๋จ: ์ง๋ ์ค์ฌ -0.7cm, ์๋์ ์ผ๋ก ๊ฐ๋จ ๋ง์น ๋ฐ๊ธฐ : ์ง๋ ์ค์ฌ์ด ๋ง์น ํค๋ ๊ทผ์ฒ์ ์์นํ์ฌ ๋ณต์กํ ์ด๋ ๋์ญํ ์์ฑ์ฑ๊ณต๋ฅ : ์์น ์ค์ฐจ <3cm ๋ฐ ๋ฐฉํฅ ์ค์ฐจ <20ยฐ ์ต์ข
์์น ์ค์ฐจ(cm) ์ต์ข
๋ฐฉํฅ ์ค์ฐจ(๋) ์์
์๋ฃ ์๊ฐ(์ด) Domain Randomization (DR) : ํ์ค ๋๋ฉ์ธ ๋ฌด์์ํ ๊ธฐ์ค์ Diffusion Policy : ๊ฐํ ๊ฐ๋
ํ์ต ๊ธฐ์ค์ RMA-only : ์ ์ ๋ชจ๋ธ๋ง ์ฌ์ฉPhysics-conditioned VLM : VLM ์ถ์ ๋ง ์ฌ์ฉPhysics-conditioned privileged : ์ค์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ํน๊ถ ๊ธฐ์ค์ 6-DOF UFactory xArm ๋ก๋ด ํ ์ฌ์ฉ PPO ํ๋ จ, 4096๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ ๋น๋์นญ ์กํฐ-ํฌ๋ฆฌํฑ ์ํคํ
์ฒ ๋ชจ์
์บก์ฒ ์์คํ
์ผ๋ก ์ ํํ ๋ฌผ์ฒด ์์ธ ํ๋ T์ํ ๋ธ๋ก ๋ฐ๊ธฐ(ํ๋จ ๊ฐ์ค) :
Phys2Real: 100% ์ฑ๊ณต๋ฅ , 1.76ยฑ0.54cm ์์น ์ค์ฐจ DR ๊ธฐ์ค์ : 79.17% ์ฑ๊ณต๋ฅ , 7.14ยฑ11.34cm ์์น ์ค์ฐจ ํน๊ถ ๊ธฐ์ค์ : 95.83% ์ฑ๊ณต๋ฅ , 1.92ยฑ0.50cm ์์น ์ค์ฐจ T์ํ ๋ธ๋ก ๋ฐ๊ธฐ(์๋จ ๊ฐ์ค, ๋ ๋์ ์ ) :
Phys2Real: 57.14% ์ฑ๊ณต๋ฅ , 2.60ยฑ0.90cm ์์น ์ค์ฐจ DR ๊ธฐ์ค์ : 23.81% ์ฑ๊ณต๋ฅ , 6.00ยฑ5.78cm ์์น ์ค์ฐจ ํน๊ถ ๊ธฐ์ค์ : 90.48% ์ฑ๊ณต๋ฅ , 1.90ยฑ0.98cm ์์น ์ค์ฐจ ๋ง์น ๋ฐ๊ธฐ :
Phys2Real๊ณผ DR ๋ชจ๋ 100% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ Phys2Real ํ๊ท ์๋ฃ ์๊ฐ 77.79ยฑ44.08์ด DR ํ๊ท ์๋ฃ ์๊ฐ 90.65ยฑ42.03์ด, 14.2% ๊ฐ์ VLM vs RMA ๋จ๋
์ฌ์ฉ :
VLM ์ถ์ ๋ง: 4.76% ์ฑ๊ณต๋ฅ (์๋จ ๊ฐ์ค) RMA๋ง: 14.29% ์ฑ๊ณต๋ฅ (์๋จ ๊ฐ์ค) Phys2Real ์ตํฉ: 57.14% ์ฑ๊ณต๋ฅ ๊ฒฐ๊ณผ๋ VLM๊ณผ ๋ํํ ์ ๋ณด์ ๊ฒฐํฉ์ด ์ฑ๊ณต์ ํ์์ ์ด๋ฉฐ, ์ด๋ ํ๋๋ง ์ฌ์ฉํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
๊ทธ๋ฆผ 6์ ์ ํ์ ์ธ ์คํ ๊ณผ์ ์์ ํ๋ผ๋ฏธํฐ ์ถ์ ์ ์งํ๋ฅผ ๋ณด์ฌ์ค๋ค:
์ด๊ธฐ RMA ์ถ์ ์ ๋์ ๋ถํ์ค์ฑ์ ๊ฐ์ง๋ฉฐ ์ค์ ๊ฐ์์ ๋ฒ์ด๋จ ์ ์ด์ด ๊ณ์๋๋ฉด์ ๋ถํ์ค์ฑ์ด ๊ฐ์ํ๊ณ ์ตํฉ ์ถ์ ์ด ์ค์ ๊ฐ์ผ๋ก ์๋ ด ์ ์ด ์ข
๋ฃ ํ ์๋ก์ด ์ ๋ณด ๋ถ์กฑ์ผ๋ก ๋ถํ์ค์ฑ์ด ๋ค์ ์ฆ๊ฐ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ์ ๊ฐ์น : ์ ํํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ์ด ์กฐ์ ์ฑ๋ฅ์ ํ์ ํ ๊ฐ์ ์ตํฉ์ ํ์์ฑ : VLM๊ณผ ๋ํํ ์ ๋ณด๊ฐ ํ์์ ์ด๋ฉฐ, ๋จ๋
์ฌ์ฉ ์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋ถํ์ค์ฑ ์ธ์์ ์ค์์ฑ : ๋ถํ์ค์ฑ ๊ฐ์ค์ ํตํด ํจ๊ณผ์ ์ธ ์ ๋ณด ์ตํฉ ๋ฌ์ฑ๊ฒฌ๊ณ ์ฑ : ๋ถ์ ํํ VLM ์ถ์ ์ ๋ํด ๊ฐํ ๊ฒฌ๊ณ ์ฑ ํํ์ ํต์ ๋ฐฉ๋ฒ์ ์๋ฎฌ๋ ์ด์
๋์ญํ์ ๋ฌด์์ํํ์ฌ ๊ฒฌ๊ณ ํ ์ ์ฑ
์ ํ๋ จํ์ง๋ง ์ฑ๋ฅ์ ํฌ์ํ๋ ํ๊ท ํ๋ ๋์์ ์ฑํํ๋ ๊ฒฝํฅ์ด ์๋ค. ์์คํ
์๋ณ ๋ฐฉ๋ฒ์ ์๋ ํ๋ผ๋ฏธํฐ ์กฐ์ ์ด ํ์ํ๋ฉฐ ์ ์ ๋ชจ๋ธ์ ์์ฑํ๋ค.
RMA ๋ฑ์ ๋ฐฉ๋ฒ์ ์ด๋๊ณผ ๊ฐ์ ์ง์์ ์ ์ด ์๋๋ฆฌ์ค์์ ์ ์๋ํ์ง๋ง ์ผ๋ฐ ์กฐ์ ์์
์ ๊ฐํ์ ์ ์ด์์ ์ด๋ ค์์ ๊ฒช๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ VLM ์ฌ์ ์ ๋ณด์ ๋ถํ์ค์ฑ ์ธ์ ์ตํฉ์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
NeRF์ GSplat์ ๊ณ ์ถฉ์ค๋ 3D ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํ ์ ์์ง๋ง, ๊ธฐ์กด ๋์งํธ ํธ์์ ์๊ฐ์ ์ถฉ์ค๋์ ์ด์ ์ ๋ง์ถ๊ณ ๋ฌผ๋ฆฌ์ ์์ฑ์ ๋ฌด์ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋์งํธ ํธ์์ ์์ฑํ๋ค.
์ต๊ทผ ์ฐ๊ตฌ๋ VLM์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ง๋ง ์ฃผ๋ก ๊ณ ์์ค ๊ณํ์ ์ฌ์ฉ๋์๋ค. ๋ณธ ๋
ผ๋ฌธ์ VLM ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ์ ์ ์์ค ์ ์ด ์ ์ฑ
์ ์ง์ ํตํฉํ ์ต์ด์ ์๋์ด๋ค.
Phys2Real์ VLM ์๊ฐ ์ถ๋ก ๊ณผ ๋ํํ ์ ์์ ๊ฒฐํฉ ํจ๊ณผ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์
์ฆํ์ผ๋ฉฐ, ์ฌ๋ฌ ์กฐ์ ์์
์์ ๋๋ฉ์ธ ๋ฌด์์ํ ๊ธฐ์ค์ ์ ํ์ ํ ๋ฅ๊ฐํ๋ค. ๋ถํ์ค์ฑ ์ธ์ ์ตํฉ ๋ฉ์ปค๋์ฆ์ ์์คํ
์ด ๊ฐ ์ ๋ณด ์์ค์ ์ ๋ขฐ์ฑ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ ์ ์๊ฒ ํ๋ค.
๋์นญ์ฑ ๊ฐ์ : ์ฌ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ์ ๊ทผ์ฌ ๋์นญ ๋ฌผ์ฒด์์ ์ต์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ฏธ๋ฌ๋ง์ด ๋น๋์นญ ๋ฌผ์ฒด์ ์ค์ ํํ๋ฅผ ์๊ณกํ ์ ์์VLM ์ถ์ ํธํฅ : VLM์ ๊ธฐํํ์ ์ค์ฌ์ผ๋ก ํฅํ๋ ๊ฒฝํฅ์ด ์์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ์ถ์ ์ ์์ฑํ ์ ์์์์
๋ณต์ก๋ : ํ์ฌ ๊ฒ์ฆ๋ ์์
์ ์๋์ ์ผ๋ก ๊ฐ๋จํ๋ฉฐ, ๋ ๋ณต์กํ ์กฐ์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ฏธ๊ฒ์ฆ๊ฐ๊ฐ ์์กด์ฑ : ๋ชจ์
์บก์ฒ ์์คํ
์ ์์กดํ๋ฉฐ, ์์ ์๊ฐ ๊ฐ๊ฐ์ผ๋ก์ ์ ํ์ด ํฅํ ๋ฐฉํฅ๋น๋์นญ ๋ฌผ์ฒด์ ์ฌ๊ตฌ์ฑ ์ ๋ต ํ์ฅ ๋ชจ์
์บก์ฒ๋ฅผ ๊ฐ๊ฐ ๊ธฐ๋ฐ ์ถ์ ์ผ๋ก ๋์ฒด ๋ ๋ณต์กํ ์กฐ์ ์์
์์์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ง์ฐฐ, ๊ฐ์ฑ ๋ฑ ๋ค๋ฅธ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ํ์ ๋์ ํ์ ์ฑ : VLM ๋ฌผ๋ฆฌ ์ถ๋ก ๊ณผ RMA ์ ์์ ์ ๊ธฐ์ ์ผ๋ก ์ตํฉํ ์ต์ด ์๋๋ก ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ ๊ฐ์ฒํฉ๋ฆฌ์ ๊ธฐ์ ๋ฐฉ์ : ๋ถํ์ค์ฑ ๋ถํด ๋ฐ ์ญ๋ถ์ฐ ๊ฐ์ค ์ตํฉ์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ๊ฐ์ง์ถฉ๋ถํ ์คํ : ๋ค์ค ์์
, ๋ค์ค ๊ตฌ์ฑ์ ํฌ๊ด์ ํ๊ฐ ๋ฐ ์ ์ ์คํ์ผ๋ก ๊ฐ ๊ตฌ์ฑ์์์ ๊ธฐ์ฌ๋ ๊ท๋ช
๋์ ์ค์ฉ ๊ฐ์น : ์๋ฎฌ๋ ์ด์
-ํ์ค ์ด์ ์ ์ํ ์๋ก์ด ํด๊ฒฐ์ฑ
์ ์์ ํ๋ ์์
๋ฒ์ : ํ๋ฉด ๋ฐ๊ธฐ ์์
๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ ๋ณต์กํ ์กฐ์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ์ง์VLM ์์กด์ฑ : VLM์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฌ๊ฐํ๊ฒ ์์กดํ๋ฉฐ ์ฒด๊ณ์ ํธํฅ ๊ฐ๋ฅ์ฑ ์กด์ฌ๊ณ์ฐ ์ค๋ฒํค๋ : ์์๋ธ ๋ฐฉ๋ฒ๊ณผ VLM ์ฟผ๋ฆฌ๊ฐ ์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ ์ผ๊ธฐ ๊ฐ๋ฅ๋ถ์ถฉ๋ถํ ์ด๋ก ๋ถ์ : ์ตํฉ ์ ๋ต์ ์ด๋ก ์ ์๋ ด์ฑ ๋ถ์ ๋ถ์กฑ๋ณธ ์ฐ๊ตฌ๋ ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํ๋ฉฐ ๊ธฐ์ด ๋ชจ๋ธ์ ์ ์์ค ์ ์ด ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค. ์๊ฐ ์ถ๋ก ๊ณผ ๋ํํ ํ์ต์ ๊ฒฐํฉํ ๋ ๋ง์ ์ฐ๊ตฌ๋ฅผ ์๊ฐ์ผ๋ก ์ฃผ๊ณ ์๋ฎฌ๋ ์ด์
-ํ์ค ์ด์ ๊ธฐ์ ๋ฐ์ ์ ์ด์งํ ๊ฒ์ผ๋ก ์์๋๋ค.
์ ํํ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง์ด ํ์ํ ์กฐ์ ์์
๋ฌผ์ฒด ๋ฌผ๋ฆฌ์ ์์ฑ์ด ๋ฏธ์ง์์ด๊ฑฐ๋ ๋ณํ๋ ์๋๋ฆฌ์ค ๊ฐํ์ ์ ์ด์ ๋นํ์งํ ์กฐ์ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ๋น ๋ฅธ ์ ์์ด ํ์ํ ์์ฉ 1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021.
2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024.
3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.
์ข
ํฉ ํ๊ฐ : ์ด๋ ๊ณ ํ์ง์ ๋ก๋ด ํ์ต ๋
ผ๋ฌธ์ผ๋ก, ์ฌ๋ฌ ์ฒจ๋จ ๊ธฐ์ ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์๋ฎฌ๋ ์ด์
-ํ์ค ์ด์ ๋ฌธ์ ์ ์๋กญ๊ณ ํจ๊ณผ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. ๋ช ๊ฐ์ง ํ๊ณ๊ฐ ์์์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์ ์ ๊ธฐ์ฌ์ ์คํ ๊ฒ์ฆ ๋ชจ๋ ๋์ ์์ค์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ค์ํ ํ์ ๊ฐ์น์ ์์ฉ ์ ๋ง์ ๊ฐ์ถ๊ณ ์๋ค.