2025-11-14T15:37:11.416295

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Wang, Tian, Swann et al.
Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
academic

Phys2Real: VLM事前分布と対話的オンライン適応の融合による不確実性認識型シム・ツー・リアル操作

基本情報

  • 論文ID: 2510.11689
  • タイトル: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
  • 著者: Maggie Wang¹, Stephen Tian¹, Aiden Swann¹, Ola Shorinwa², Jiajun Wu¹, Mac Schwager¹
  • 所属機関: ¹スタンフォード大学、²プリンストン大学
  • 分類: cs.RO(ロボティクス)、cs.AI(人工知能)
  • 発表日: 2025年10月13日
  • 論文リンク: https://arxiv.org/abs/2510.11689v1

概要

本論文はPhys2Realを提案する。これは視覚言語モデル(VLM)による物理パラメータ推定と対話的オンライン適応を組み合わせたリアル・ツー・シム・ツー・リアル強化学習パイプラインであり、不確実性認識融合を通じてロボット操作におけるシム・ツー・リアル移行の課題に対処する。本手法は3つの核心要素から構成される:(1)3D高斯スプラッティングに基づく高忠実度幾何再構成、(2)VLM推論による物理パラメータ事前分布、(3)対話データに基づくオンライン物理パラメータ推定。T字型ブロックとハンマーの平面押し込みタスクにおいて、Phys2Realはドメイン・ランダマイゼーション基線と比較して顕著な改善を達成した:底部加重T字型ブロック成功率100% vs 79%、上部加重T字型ブロック57% vs 23%、ハンマー押し込みタスク平均完了時間15%高速化。

研究背景と動機

核心的課題

ロボット操作戦略のシミュレーションから実世界への移行は依然として根本的な課題であり、特に正確な動力学を必要とするタスクにおいてそうである。従来のドメイン・ランダマイゼーション(Domain Randomization, DR)手法は堅牢性を提供できるが、しばしば平均化された振る舞いを採用し、特定物体の物理属性変化に適応できない。

研究動機

人間は新しい物体を操作する際に優れた探索行動を示す:まず視覚的外観に基づいて物体の物理属性に関する初期判断を形成し、その後対話を通じてこれらの推定を精緻化する。この知見に触発され、本論文は視覚物理推論と対話学習を組み合わせることで、ロボットに同様の能力を提供し、実環境における操作性能を改善することを目指す。

既存手法の限界

  1. ドメイン・ランダマイゼーション:堅牢な戦略を訓練するが性能を犠牲にし、物体固有の変化に適応できない
  2. システム同定:手動パラメータ調整が必要で、静的モデルを生成する
  3. オンライン戦略適応:間欠的接触シナリオで課題に直面し、外部事前情報が不足している
  4. デジタルツイン:視覚忠実度に焦点を当て、物理属性を無視する

核心的貢献

  1. 不確実性認識VLM事前分布と対話適応の融合:VLMが物理パラメータ推定(重心など)を提供でき、対話ベースのパラメータ推定と組み合わせて実時間低レベル閉ループ制御に使用できることを初めて実証
  2. アンサンブルベースの不確実性定量化:不確実性を認識的不確実性と偶然的不確実性に分解し、逆分散加重融合によってVLM事前分布と対話推定を融合
  3. 物理情報デジタルツイン:3D高斯スプラッティング再構成とオンライン物理属性推定を組み合わせ、幾何情報と物理情報を含むデジタルツインを作成

方法の詳細

タスク定義

本論文は非把持操作タスクを研究する。ロボットは押し込みなどの手段を通じて異なる物理属性(重心、摩擦係数など)を持つ物体を目標位置と姿勢に操作する必要がある。入力は物体姿勢、ロボット末端執行器位置、および推定物理パラメータを含み、出力は末端執行器位置変化である。

モデルアーキテクチャ

1. リアル・ツー・シム場景再構成

  • SAM-2を使用して対象物体をセグメント化
  • 3D高斯スプラッティング(GSplat)モデルを訓練
  • SuGaRを通じて表面整列メッシュを抽出
  • シミュレーション対応の水密メッシュアセットを生成

2. 物理パラメータ条件付き戦略学習

3段階の訓練パラダイムを採用:

フェーズ1:戦略は真の物理パラメータを条件として訓練される フェーズ1.5:ノイズ付き物理パラメータを使用して戦略を微調整し、下流ノイズ推定に対する堅牢性を確立 フェーズ2:N=10個の適応モデルアンサンブルを訓練し、観測・動作履歴から物理パラメータを予測

3. 不確実性定量化と融合

VLM推定 (θ_vlm, σ_vlm):

  • GPT-5にクエリして、タスク関連物理パラメータを推定
  • N枚の画像各々についてM回クエリし、集約平均と不確実性を計算

RMA推定 (θ_rma, σ_rma):

  • 認識的不確実性:σ²_epistemic = (1/N)∑(θᵢ - θ_rma)²
  • 偶然的不確実性:σ²_aleatoric = (1/N)∑σᵢ²
  • 総RMA不確実性:σ²_rma = σ²_epistemic + σ²_aleatoric

逆分散加重融合:

θ̂ = (θ_vlm/σ²_vlm + θ_rma/σ²_rma) / (1/σ²_vlm + 1/σ²_rma)

技術的革新点

  1. 解釈可能な物理パラメータ:学習潜在変数ではなく物理パラメータを直接条件として使用し、VLM推定を直接融合可能にする
  2. 二重情報源不確実性融合:対話履歴の不確実性が高い場合はVLM推定により依存し、その逆も同様
  3. アンサンブル不確実性分解:モデル不確実性とデータ不確実性を分離し、より正確な不確実性推定を提供

実験設定

実験タスク

  1. T字型ブロック押し込み:異なる位置に143グラムの金属重りを配置して重心を変更、2つの構成をテスト
    • 重りが上部:重心+6.1cm、より挑戦的
    • 重りが下部:重心-0.7cm、相対的に簡単
  2. ハンマー押し込み:重心がハンマーヘッド近くに位置し、複雑な運動動力学を生成

評価指標

  • 成功率:位置誤差<3cm且つ方向誤差<20°
  • 最終位置誤差(cm)
  • 最終方向誤差(度)
  • タスク完了時間(秒)

比較手法

  • ドメイン・ランダマイゼーション(DR):標準ドメイン・ランダマイゼーション基線
  • 拡散ポリシー:強い監督学習基線
  • RMA単独:適応モデルのみを使用
  • 物理条件付きVLM:VLM推定のみを使用
  • 物理条件付き特権:真の物理パラメータを使用する特権基線

実装詳細

  • 6-DOF UFactory xArm機械アーム使用
  • PPO訓練、4096並列環境
  • 非対称アクター・クリティック・アーキテクチャ
  • モーションキャプチャシステムで正確な物体姿勢を取得

実験結果

主要結果

T字型ブロック押し込み(下部加重)

  • Phys2Real:100%成功率、1.76±0.54cm位置誤差
  • DR基線:79.17%成功率、7.14±11.34cm位置誤差
  • 特権基線:95.83%成功率、1.92±0.50cm位置誤差

T字型ブロック押し込み(上部加重、より挑戦的)

  • Phys2Real:57.14%成功率、2.60±0.90cm位置誤差
  • DR基線:23.81%成功率、6.00±5.78cm位置誤差
  • 特権基線:90.48%成功率、1.90±0.98cm位置誤差

ハンマー押し込み

  • Phys2RealとDRともに100%成功率を達成
  • Phys2Real平均完了時間77.79±44.08秒
  • DR平均完了時間90.65±42.03秒、14.2%改善

アブレーション実験

VLM対RMA単独使用

  • VLM推定のみ:4.76%成功率(上部加重)
  • RMA単独:14.29%成功率(上部加重)
  • Phys2Real融合:57.14%成功率

結果はVLMと対話情報の組み合わせが成功に不可欠であり、いずれか単独では良好な性能を達成できないことを示している。

ケース分析

図6は典型的な実行中のパラメータ推定の進化を示す:

  • 初期段階ではRMA推定は高度に不確実で真値から乖離
  • 接触が継続するにつれて不確実性は低下し、融合推定は真値に収束
  • 接触終了後、新しい情報がないため不確実性は再び上昇

実験的知見

  1. 物理パラメータ推定の価値:正確な物理パラメータ推定は操作性能を著しく改善する
  2. 融合の必要性:VLMと対話情報は相互補完的であり、単独使用では性能が急激に低下
  3. 不確実性認識の重要性:不確実性加重を通じた効果的な情報融合を実現
  4. 堅牢性:不正確なVLM推定に対して強い堅牢性を示す

関連研究

ドメイン・ランダマイゼーションとシステム同定

従来の手法はシミュレーション動力学のランダマイゼーションを通じて堅牢な戦略を訓練するが、しばしば平均化された振る舞いを採用して性能を犠牲にする。システム同定手法は手動調整が必要で、静的モデルを生成する。

オンライン戦略適応

RMAなどの手法は継続的接触シナリオ(運動など)で良好に機能するが、一般的な操作タスクの間欠的接触では課題に直面する。本論文はVLM事前分布と不確実性認識融合を通じてこの問題を解決する。

デジタルツインとレンダリング

NeRFとGSplatは高忠実度3D場景を再構成できるが、既存のデジタルツインは視覚忠実度に焦点を当て、物理属性を無視する。本論文は物理情報を含むデジタルツインを作成する。

VLMの物理推論

最近の研究はVLMの物理推論能力を示しているが、主に高レベル計画に使用される。本論文は初めてVLM物理パラメータ推定を低レベル制御戦略に直接統合する。

結論と考察

主要な結論

Phys2RealはVLM視覚推論と対話適応の組み合わせの有効性を成功裏に実証し、複数の操作タスクでドメイン・ランダマイゼーション基線を著しく上回る。不確実性認識融合メカニズムにより、システムは各情報源の信頼性に基づいて動的に重みを調整できる。

限界

  1. 対称性仮定:再構成パイプラインはほぼ対称な物体で最適に機能し、ミラーリングは非対称物体の真の形状を歪める可能性がある
  2. VLM推定バイアス:VLMは幾何中心に向かう傾向があり、物理的に矛盾した推定を生成する可能性がある
  3. タスク複雑度:現在の検証タスクは相対的に単純であり、より複雑な操作への一般化は未検証
  4. 知覚依存性:モーションキャプチャシステムに依存し、純粋視覚知覚への移行は今後の方向

今後の方向

  1. 非対称物体の再構成戦略への拡張
  2. モーションキャプチャを知覚ベースの追跡に置き換え
  3. より複雑な操作タスクでの性能検証
  4. 摩擦、剛性などの他の物理パラメータ推定の探索

深い評価

強み

  1. 革新性が高い:VLM物理推論とRMA適応を初めて有機的に融合し、新しい研究方向を開拓
  2. 技術方案が合理的:不確実性分解と逆分散加重融合は理論的基礎を持つ
  3. 実験が充分:複数タスク、複数構成の包括的評価、アブレーション実験で各要素の貢献を明示
  4. 実用価値が高い:シム・ツー・リアル移行に新しい解決策を提供

不足

  1. タスク範囲が限定的:平面押し込みタスクのみで検証、複雑な操作への一般化は未知
  2. VLM依存性:VLMの物理推論能力に大きく依存し、系統的バイアスが存在する可能性
  3. 計算オーバーヘッド:アンサンブル手法とVLMクエリが追加計算コストをもたらす可能性
  4. 理論分析が不足:融合戦略の理論的収束性分析が欠落

影響力

本研究はロボット学習分野に重要な貢献を提供し、基礎モデルの低レベル制御への応用可能性を実証する。視覚推論と対話学習を組み合わせた研究をさらに触発し、シム・ツー・リアル移行技術の発展を推進することが予想される。

適用シナリオ

  • 正確な物理モデリングが必要な操作タスク
  • 物体の物理属性が未知または変化するシナリオ
  • 間欠的接触の非把持操作
  • 新しい物体への迅速な適応が必要なアプリケーション

参考文献

1 Kumar et al. "RMA: Rapid Motor Adaptation for Legged Robots." RSS 2021. 2 Chi et al. "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion." IJRR 2024. 3 Kerbl et al. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM TOG 2023.


総合評価:これは高品質なロボット学習論文であり、複数の最先端技術を創新的に組み合わせ、シム・ツー・リアル移行問題に新規で効果的な解決策を提供する。いくつかの限界が存在するが、その技術的貢献と実験検証は高い水準に達しており、重要な学術的価値と応用見通しを有する。