2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.

Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .

academic

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

基本信息

论文ID: 2510.11689
标题: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
作者: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
机构: ¹Stanford University, ²Princeton University
分类: cs.RO (Robotics), cs.AI (Artificial Intelligence)
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11689v1

摘要

本文提出Phys2Real，一个结合视觉语言模型(VLM)物理参数估计与交互式在线适应的real-to-sim-to-real强化学习管道，通过不确定性感知融合解决机器人操作中的sim-to-real迁移挑战。该方法包含三个核心组件：(1)基于3D高斯散射的高保真几何重建，(2)VLM推断的物理参数先验分布，(3)基于交互数据的在线物理参数估计。在T形块和锤子的平面推动任务中，Phys2Real相比域随机化基线取得显著提升：底部加权T形块成功率100% vs 79%，顶部加权T形块57% vs 23%，锤子推动任务平均完成时间快15%。

研究背景与动机

核心问题

机器人操作策略从仿真到真实世界的迁移仍然是一个根本性挑战，特别是对于需要精确动力学的任务。传统的域随机化(Domain Randomization, DR)方法虽然能提供鲁棒性，但往往默认采用平均化行为，无法适应特定对象的物理属性变化。

研究动机

人类在操作新物体时展现出卓越的探索行为：首先基于视觉外观形成对物体物理属性的初步判断，然后通过交互来细化这些估计。受此启发，本文旨在为机器人提供类似的能力，通过结合视觉物理推理与交互学习来改善真实环境中的操作性能。

现有方法局限性

域随机化：训练鲁棒策略但牺牲性能，无法适应对象特定的变化
系统辨识：需要手动参数调整，产生静态模型
在线策略适应：在间歇接触场景中面临挑战，缺乏外部先验信息
数字孪生：专注视觉保真度，忽略物理属性

核心贡献

不确定性感知的VLM先验与交互适应融合：首次展示VLMs可提供物理参数估计(如质心)，并与基于交互的参数估计结合，用于实时低级闭环控制
基于集成的不确定性量化：将不确定性分解为认知不确定性和偶然不确定性，通过逆方差加权融合VLM先验和交互估计
物理信息数字孪生：结合3D高斯散射重建与在线物理属性估计，创建包含几何和物理信息的数字孪生

方法详解

任务定义

本文研究非抓取式操作任务，机器人需要通过推动等方式操纵具有不同物理属性(如质心、摩擦系数)的物体到达目标位置和姿态。输入包括物体姿态、机器人末端执行器位置和估计的物理参数，输出为末端执行器位置变化。

模型架构

1. Real-to-Sim场景重建

使用SAM-2分割目标物体
训练3D高斯散射(GSplat)模型
通过SuGaR提取表面对齐的网格
生成仿真就绪的水密网格资产

2. 物理参数条件策略学习

采用三阶段训练范式：

Phase 1: 策略以真实物理参数为条件进行训练 Phase 1.5: 使用噪声物理参数微调策略，建立对下游噪声估计的鲁棒性 Phase 2: 训练N=10个适应模型的集成，从观测-动作历史预测物理参数

3. 不确定性量化与融合

VLM估计 (θ_vlm, σ_vlm):

查询GPT-5估计任务相关物理参数
对N张图像各查询M次，计算聚合均值和不确定性

RMA估计 (θ_rma, σ_rma):

认知不确定性：σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
偶然不确定性：σ²_aleatoric = (1/N)∑σᵢ²
总RMA不确定性：σ²_rma = σ²_epistemic + σ²_aleatoric

逆方差加权融合:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

技术创新点

可解释物理参数：直接以物理参数而非学习潜变量为条件，使得VLM估计可直接融合
双源不确定性融合：当交互历史不确定性高时更依赖VLM估计，反之亦然
集成不确定性分解：分离模型不确定性和数据不确定性，提供更精确的不确定性估计

实验设置

实验任务

T形块推动：通过在不同位置放置143克金属重物改变质心，测试两种配置
- 重物在顶部：质心+6.1cm，更具挑战性
- 重物在底部：质心-0.7cm，相对简单
锤子推动：质心靠近锤头，产生复杂运动动力学

评价指标

成功率：位置误差<3cm且方向误差<20°
最终位置误差(cm)
最终方向误差(度)
任务完成时间(秒)

对比方法

Domain Randomization (DR)：标准域随机化基线
Diffusion Policy：强监督学习基线
RMA-only：仅使用适应模型
Physics-conditioned VLM：仅使用VLM估计
Physics-conditioned privileged：使用真实物理参数的特权基线

实现细节

使用6-DOF UFactory xArm机械臂
PPO训练，4096并行环境
非对称actor-critic架构
运动捕捉系统获取精确物体姿态

实验结果

主要结果

T形块推动(重物在底部)：

Phys2Real：100%成功率，1.76±0.54cm位置误差
DR基线：79.17%成功率，7.14±11.34cm位置误差
特权基线：95.83%成功率，1.92±0.50cm位置误差

T形块推动(重物在顶部，更具挑战性)：

Phys2Real：57.14%成功率，2.60±0.90cm位置误差
DR基线：23.81%成功率，6.00±5.78cm位置误差
特权基线：90.48%成功率，1.90±0.98cm位置误差

锤子推动：

Phys2Real和DR均达到100%成功率
Phys2Real平均完成时间77.79±44.08秒
DR平均完成时间90.65±42.03秒，提升14.2%

消融实验

VLM vs RMA单独使用：

仅VLM估计：4.76%成功率(重物在顶部)
仅RMA：14.29%成功率(重物在顶部)
Phys2Real融合：57.14%成功率

结果表明VLM和交互信息的结合对成功至关重要，任一单独使用都无法取得良好性能。

案例分析

图6展示了典型执行过程中参数估计的演化：

初期RMA估计高度不确定且偏离真值
随着接触继续，不确定性降低，融合估计向真值收敛
接触结束后，由于缺乏新信息，不确定性再次上升

实验发现

物理参数估计的价值：准确的物理参数估计显著改善操作性能
融合的必要性：VLM和交互信息缺一不可，单独使用性能急剧下降
不确定性感知的重要性：通过不确定性加权实现了有效的信息融合
鲁棒性：对不准确的VLM估计表现出较强鲁棒性

结论与讨论

主要结论

Phys2Real成功展示了结合VLM视觉推理与交互适应的有效性，在多个操作任务中显著优于域随机化基线。不确定性感知融合机制使系统能够根据各信息源的可靠性动态调整权重。

局限性

对称性假设：重建管道对近似对称物体效果最佳，镜像可能扭曲非对称物体的真实形状
VLM估计偏差：VLM倾向于向几何中心偏移，可能产生物理不一致的估计
任务复杂度：当前验证任务相对简单，更复杂操作的泛化性有待验证
感知依赖：依赖运动捕捉系统，向纯视觉感知迁移是未来方向

未来方向

扩展到非对称物体的重建策略
替换运动捕捉为基于感知的跟踪
验证在更复杂操作任务中的性能
探索其他物理参数(如摩擦、刚度)的估计

深度评价

优点

创新性强：首次将VLM物理推理与RMA适应有机融合，开辟了新的研究方向
技术方案合理：不确定性分解和逆方差加权融合具有理论基础
实验充分：多任务、多配置的全面评估，消融实验揭示各组件贡献
实用价值高：为sim-to-real迁移提供了新的解决思路

不足

任务范围有限：仅验证了平面推动任务，复杂操作的泛化性未知
VLM依赖性：严重依赖VLM的物理推理能力，可能存在系统性偏差
计算开销：集成方法和VLM查询可能带来额外计算成本
理论分析不足：缺乏融合策略的理论收敛性分析

影响力

该工作为机器人学习领域提供了重要贡献，展示了基础模型在低级控制中的应用潜力。预期将启发更多结合视觉推理与交互学习的研究，推动sim-to-real迁移技术发展。

适用场景

需要精确物理建模的操作任务
物体物理属性未知或变化的场景
间歇接触的非抓取式操作
需要快速适应新物体的应用

参考文献

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.

总体评价：这是一篇高质量的机器人学习论文，创新性地结合了多个前沿技术，为sim-to-real迁移问题提供了新颖且有效的解决方案。尽管存在一些局限性，但其技术贡献和实验验证都达到了较高水准，具有重要的学术价值和应用前景。