2025-11-21T22:52:15.782367

Physically Interpretable World Models via Weakly Supervised Representation Learning

Mao, Umasudhan, Ruchkin

Learning predictive models from high-dimensional sensory observations is fundamental for cyber-physical systems, yet the latent representations learned by standard world models lack physical interpretability. This limits their reliability, generalizability, and applicability to safety-critical tasks. We introduce Physically Interpretable World Models (PIWM), a framework that aligns latent representations with real-world physical quantities and constrains their evolution through partially known physical dynamics. Physical interpretability in PIWM is defined by two complementary properties: (i) the learned latent state corresponds to meaningful physical variables, and (ii) its temporal evolution follows physically consistent dynamics. To achieve this without requiring ground-truth physical annotations, PIWM employs weak distribution-based supervision that captures state uncertainty naturally arising from real-world sensing pipelines. The architecture integrates a VQ-based visual encoder, a transformer-based physical encoder, and a learnable dynamics model grounded in known physical equations. Across three case studies (Cart Pole, Lunar Lander, and Donkey Car), PIWM achieves accurate long-horizon prediction, recovers true system parameters, and significantly improves physical grounding over purely data-driven models. These results demonstrate the feasibility and advantages of learning physically interpretable world models directly from images under weak supervision.

academic

Physically Interpretable World Models via Weakly Supervised Representation Learning

基本信息

论文ID: 2412.12870
标题: Physically Interpretable World Models via Weakly Supervised Representation Learning
作者: Zhenjiang Mao, Mrinall Eashaan Umasudhan, Ivan Ruchkin (University of Florida)
分类: cs.LG (Machine Learning)
发表时间: 2025年11月 (arXiv v4)
论文链接: https://arxiv.org/abs/2412.12870v4

摘要

本文针对网络物理系统(CPS)中世界模型缺乏物理可解释性的问题，提出了物理可解释世界模型(PIWM)框架。该框架通过弱分布监督将潜在表示与真实物理量对齐，并通过部分已知的物理动力学约束其时间演化。PIWM定义了物理可解释性的两个互补属性：(i)学习到的潜在状态对应有意义的物理变量；(ii)其时间演化遵循物理一致的动力学。在Cart Pole、Lunar Lander和Donkey Car三个案例研究中，PIWM实现了准确的长时域预测、真实系统参数恢复，并显著改善了相对于纯数据驱动模型的物理基础性。

研究背景与动机

1. 核心问题

标准世界模型虽然在长时域预测任务中表现优异，但其学习到的潜在表示通常是"黑盒"，缺乏与系统底层物理状态的明确联系。这种物理不可解释性严重限制了模型在安全关键型CPS中的应用，如自动驾驶和家用机器人。

2. 问题重要性

安全性需求：在安全关键型应用中，需要对预测状态进行形式化验证和运行时监控
因果解释：物理有意义的潜在状态能够提供因果解释（如因遮挡而减速）
泛化能力：嵌入物理结构可通过约束预测为物理合理轨迹来改善泛化性

3. 现有方法局限

现有方法主要分为两类范式：

外在方法(Extrinsic)：先学习抽象视觉潜变量，再通过额外模型映射到物理量
内在方法(Intrinsic)：直接在图像编码器中编码物理结构

两者都存在关键局限：

通常需要精确的物理标签进行训练
依赖对象中心分解，难以从真实世界CPS中可靠获取
缺乏利用传感器自然产生的不确定性估计

4. 研究动机

真实CPS中的传感器（如GPS、雷达）通常产生分布形式或置信区间的不确定估计，而非精确测量。本文利用这种分布式弱监督来指导高维图像编码为物理有意义的潜在状态，结合部分已知的系统动力学，实现无需真实状态标注的物理一致多步预测。

核心贡献

统一的物理可解释性定义：形式化定义了生成式世界模型的物理可解释性为两个互补属性：(i)潜在表示对应有意义的物理量；(ii)时间演化服从物理有效的动力学
弱监督学习框架：提出了一种新颖架构和训练流程，使用基于分布的弱监督（而非精确物理标注）将基于图像的潜在状态与物理变量对齐，并利用结构化动力学和潜变量量化等物理先验
系统性实证研究：通过在Cart Pole、Lunar Lander和Donkey Car上的广泛实验，系统分析了内在vs外在架构、连续vs离散潜变量的设计选择，揭示了外在架构+量化潜变量能够实现最鲁棒和可解释的表示

方法详解

任务定义

自治CPS定义（Definition 1）：一个自治CPS $s = (X, I, Y, A, \phi_\theta, g, h)$ 包括：

状态集 $X$ ：有限维物理状态空间
初始集 $I \subset X$ ：可能的起始状态
观测集 $Y$ ：所有可能的观测（如图像）
动作集 $A$ ：可用控制动作
系统动力学 $\phi_\theta: X \times A \times \Theta \rightarrow X$ ：在物理参数 $\theta$ 下支配状态转移
观测函数 $g: X \rightarrow Y$ ：将状态映射到观测
固定控制器 $h: Y \rightarrow A$ ：基于观测选择动作

状态演化： $x_{t+1} = \phi(x_t, a_t, \theta^*)$ ，其中 $\theta^*$ 是真实（未知）物理参数。

世界模型定义（Definition 2）：世界模型 $\mathcal{W} = (\mathcal{E}, f, \mathcal{D})$ 包括：

编码器 $\mathcal{E}: Y \rightarrow Z$ ：压缩高维观测为潜在表示
预测器 $f: Z \times A \rightarrow Z$ ：基于动作预测未来潜变量
解码器 $\mathcal{D}: Z \rightarrow Y$ ：重构预测观测

模型架构

PIWM架构包含三个核心组件：

1. 物理可解释自编码器

外在架构（两阶段）：

阶段1：视觉自编码器 $(\mathcal{E}_v, \mathcal{D}_v)$ $(E_{v}, D_{v})$ 将观测 $y$ $y$ 映射到中间潜变量 $z = \mathcal{E}_v(y)$ $z = E_{v} (y)$
- 连续版本： $\beta$ -VAE，损失函数： $\mathcal{L}_{\text{vision-cont}} = \mathcal{L}_{\text{recon}}(y, \hat{y}) + \beta D_{KL}(q(z|y) \| \mathcal{N}(0, I))$
- 离散版本：VQ-VAE，损失函数： $\mathcal{L}_{\text{vision-disc}} = \mathcal{L}_{VQ}(y, \hat{y})$
阶段2：物理编码器 $\mathcal{E}_p$ $E_{p}$ 将 $z$ $z$ 映射到物理状态 $z^* = \mathcal{E}_p(z)$ $z^{*} = E_{p} (z)$
- 训练目标： $\mathcal{L}_{\text{physical}} = \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*, \Xi) + \lambda_{\text{latent}}\mathcal{L}_{\text{recon}}(z, \mathcal{D}_p(z^*))$

内在架构（单阶段）：直接编码 $z^* = \mathcal{E}(y)$ ，潜变量分区为 $z^* = [z^*_p, z^*_v]$ （物理部分和视觉部分）

连续版本损失： $\mathcal{L}_{\text{intrinsic-cont}} = \mathcal{L}_{\text{recon}}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi) + \beta D_{KL}(q(z^*_v|y) \| \mathcal{N}(0, I))$
离散版本：码本向量分区为 $e_k = [e^p_k, e^v_k]$ ，其中 $e^p_k$ 是固定的物理网格点 $\mathcal{L}_{\text{intrinsic-disc}} = \mathcal{L}_{VQ}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi)$

2. 可学习动力学模型

使用结构化的二阶动力学模型： $z^*_{t+2} = \phi_\theta(z^*_t, z^*_{t+1}, a_{t+1})$

其中 $\phi$ 的函数形式（如运动学方程）是已知的，只有参数 $\theta$ （如质量、摩擦系数）可学习。

动力学损失： $\mathcal{L}_{\text{dyn}}(\theta) = \|z^*_{t+H} - \mu_{\xi_{t+H}}\|^2_2$

其中 $\mu_{\xi_{t+H}} = \frac{1}{L}\sum_{l=1}^L \xi^{(l)}_{t+H}$ 是弱监督样本的经验均值。

3. 弱监督机制

可解释性损失： $\mathcal{L}_{\text{interp}}(z^*_p, \Xi) = \|z^*_p - \mu_\xi\|^2_2$

其中 $\Xi = \{\xi^{(l)}\}_{l=1}^L$ 是从未知分布 $p(x)$ 抽取的 $L$ 个代理样本。

噪声模型：假设真实值 $x_i$ 位于以分布均值为中心的相对宽度 $\delta$ 的区间内： $x_i \in [\mathbb{E}[p(x)] - \frac{1}{2}\delta|\mathcal{X}_i|, \mathbb{E}[p(x)] + \frac{1}{2}\delta|\mathcal{X}_i|]$

技术创新点

解耦设计：外在架构将视觉感知与物理状态推断解耦，允许独立优化
量化正则化：VQ-VAE的离散化作为强正则化器，抑制视觉噪声，稳定物理状态映射
结构化动力学：使用部分已知的物理方程而非黑盒序列模型，提高泛化性和可解释性
弱监督利用：不需要精确物理标签，仅需分布样本，更符合真实传感器特性
二阶初始化：使用连续两个状态 $(z^*_t, z^*_{t+1})$ 初始化，使模型能够内部计算速度等导数量

实验设置

数据集

三个环境：

Cart Pole：经典控制问题，平衡杆系统
Lunar Lander：OpenAI Gym环境，登月器控制
Donkey Car：自主赛车平台，真实视觉复杂场景

每个环境收集60,000条轨迹，每条至少50个时间步。轨迹通过随机动作和训练好的神经控制器生成，确保多样的状态空间覆盖。

弱监督生成

监督噪声 $\delta \in \{0\%, 5\%, 10\%\}$ ：

对每个状态分量 $x_i$ ，生成偏移中心 $\tilde{x}_i = x_i + \Delta_i$ ，其中 $\Delta_i \sim \text{Unif}[-\frac{1}{2}\delta|\mathcal{X}_i|, \frac{1}{2}\delta|\mathcal{X}_i|]$
监督分布： $p_i(x) = \text{Unif}[\tilde{x}_i - \frac{1}{2}\delta|\mathcal{X}_i|, \tilde{x}_i + \frac{1}{2}\delta|\mathcal{X}_i|]$
每个时间步抽取 $L=50$ 个样本形成代理监督集 $\Xi$

评价指标

预测准确性：30步预测的均方根误差(RMSE)
静态编码质量：潜在状态 $z^*_p$ 与弱监督样本均值的MSE和KL散度
参数恢复：学习到的物理参数 $\theta$ 与真实值 $\theta^*$ 的相对误差
定性评估：长时域轨迹rollout的视觉质量
控制器性能：重构观测上的动作RMSE/准确率

对比方法

内在方法基线：

Vid2Para：从视频学习物理参数
GokuNet：使用ODE约束的生成模型

外在方法基线：

DVBF (Deep Variational Bayes Filters)：深度变分贝叶斯滤波器
SindyC：稀疏动力学识别（在本文编码器的潜变量上操作）

数据驱动基线：

LSTM：长短期记忆网络
Transformer：标准Transformer序列模型

实现细节

视觉编码器：2层CNN，64维潜变量
离散变体：512条目码本，commitment loss权重 $\beta=0.25$
物理编码器：2层Transformer（4头，512前馈维度），均值池化+线性投影
优化器：Adam，批大小32
学习率：连续变体 $10^{-4}$ ，离散变体 $10^{-3}$
学习率调度：余弦衰减，5个预热epoch
训练：最多200 epoch，早停耐心20 epoch
梯度裁剪：1.0
评估：5折交叉验证

实验结果

主要结果

长时域预测性能（图3、图4）：

在Donkey Car环境中：

外在离散PIWM（紫线）：在所有噪声水平下实现最低且最稳定的预测误差
外在连续PIWM（红线）：第二优性能
显著优于所有基线（DVBF、SindyC、LSTM、Transformer）

在Cart Pole和Lunar Lander中：

PIWM变体在 $\delta=0\%$ 时RMSE约为1.5-2.0
$\delta=10\%$ 时RMSE增至2.5-3.5
基线方法误差快速累积，30步时达到3.5-4.0

内在vs外在对比：

内在连续模型在某些场景下与外在模型竞争力相当
内在离散模型稳定性较差，表明在单一编码器中对齐离散码本的优化挑战
外在架构解耦视觉感知和物理解释是实现鲁棒长期预测的关键设计

连续vs离散对比：

内在架构：连续潜变量表现更好（柔性梯度适应联合视觉-物理目标）
外在架构：离散潜变量表现更优（量化抑制视觉噪声，稳定物理状态映射）

静态编码质量（表1）

在所有环境和噪声水平下：

外在离散：最低MSE（Donkey Car $\delta=0\%$ : 0.03±0.02）
内在连续：次优（Donkey Car $\delta=0\%$ : 0.13±0.05）
KL散度趋势一致，外在离散模型最低（0.19±0.03）

噪声影响：

$\delta$ 从0%增至10%，MSE增加约50-100%
外在离散模型对噪声最鲁棒

物理参数恢复（图5）

Cart Pole：

杆质量：学习值与真实值（黄线）高度吻合
杆长度：在所有噪声水平下准确恢复
小车长度和施加力：相对误差<10%

Lunar Lander：

主引擎功率：准确恢复（相对误差<5%）
侧引擎功率：略有偏差但在合理范围内

Donkey Car：

使用近似自行车模型，真实参数未知
学习的轴距在不同噪声水平下保持一致

定性分析（图6、图8）

30步轨迹rollout对比：

PIWM：生成的图像在整个预测时域内保持视觉清晰度和物理一致性
基线：在H=15后出现明显模糊和物理不合理的配置
Cart Pole：PIWM准确预测杆的摆动和平衡状态
Lunar Lander：PIWM正确捕捉着陆器的姿态和位置变化

控制器性能（表2）

在重构观测上评估原始控制器：

Donkey Car（动作RMSE，越低越好）：

外在离散： $\delta=0\%$ 时0.15±0.04， $\delta=10\%$ 时0.19±0.05
内在连续： $\delta=0\%$ 时0.12±0.04， $\delta=10\%$ 时0.15±0.05

Lunar Lander（动作准确率，越高越好）：

外在离散： $\delta=0\%$ 时91.5%±2.1%， $\delta=10\%$ 时84.5%±2.5%
内在连续： $\delta=0\%$ 时93.0%±1.8%， $\delta=10\%$ 时87.1%±2.2%

Cart Pole（动作准确率）：

外在离散： $\delta=0\%$ 时97.2%±1.1%， $\delta=10\%$ 时92.5%±1.8%
内在连续： $\delta=0\%$ 时98.0%±1.0%， $\delta=10\%$ 时94.0%±1.5%

关键发现：物理可解释性的显著提升仅以最小的下游控制性能损失为代价。

实验发现

架构选择至关重要：外在架构+离散潜变量是最优组合
弱监督有效性：即使在 $\delta=10\%$ 噪声下，PIWM仍能恢复物理参数
长时域稳定性：结构化动力学显著改善30步以上的预测稳定性
物理基础性：学习到的表示不仅相关，而且在物理上有根据
泛化能力：量化正则化改善了对未见状态的泛化

结论与讨论

主要结论

外在+离散是最优配置：在预测准确性、物理基础性和鲁棒性上表现最佳
弱监督充分性：分布式弱监督足以学习物理有意义的表示
物理可解释性可验证：通过参数恢复提供直接证据
实用性：在最小控制性能损失下实现显著可解释性提升

局限性

马尔可夫假设：当前实验聚焦于马尔可夫动力系统，扩展到非马尔可夫或延迟效应系统需要额外记忆机制
简单动力学：实验使用相对简单的物理模型（4-10个参数），复杂系统的可扩展性有待验证
弱监督质量：性能依赖于监督分布的质量，极端噪声可能导致失败
计算开销：两阶段训练（外在架构）增加训练时间
环境限制：主要在模拟环境中验证，真实世界部署需要进一步研究

未来方向

复杂世界表示：从预测简单状态向量扩展到结构化世界表示（如动态3D占用网格）
时序监督利用：使用滤波或序列建模技术处理弱监督信号序列，产生更精细的时序一致学习目标
非马尔可夫系统：扩展到时序依赖跨多步的系统
开放世界场景：应用于自动驾驶等复杂开放世界场景，处理多智能体
在线适应：开发在线更新物理参数的机制，适应环境变化

深度评价

优点

问题定义清晰：形式化定义了物理可解释性的两个互补维度，填补了理论空白
方法创新性强：
- 弱监督机制新颖，更贴近真实传感器特性
- 系统探索了内在/外在×连续/离散的设计空间
- 结构化动力学与学习表示的结合优雅
实验设计严谨：
- 三个不同复杂度的环境验证泛化性
- 5折交叉验证确保统计可靠性
- 多维度评估（预测、编码、参数恢复、控制器性能）
结果令人信服：
- 定量和定性结果一致支持主要论点
- 参数恢复提供了物理可解释性的直接证据
- 消融研究（连续vs离散，内在vs外在）揭示了深刻洞察
写作清晰：论文结构合理，数学表述严谨，图表信息丰富

不足

理论分析不足：
- 缺乏弱监督下收敛性的理论保证
- 未分析噪声水平 $\delta$ 的理论上界
- 量化正则化效果缺乏理论解释
实验局限：
- 仅在模拟环境中验证，真实世界传感器噪声更复杂
- 物理模型相对简单（二阶动力学），复杂系统（如软体机器人）未涉及
- 未与最新的基于Transformer的世界模型（如IRIS、Genie）对比
可扩展性问题：
- 两阶段训练增加计算成本
- 高维物理状态空间的处理不明确
- 码本大小（512）对更复杂环境可能不足
方法限制：
- 需要部分已知的动力学方程，限制了应用范围
- 弱监督样本数（L=50）的敏感性未充分研究
- 控制器固定，未探索与策略学习的联合优化
分析深度：
- 为何外在离散优于内在连续的机制解释不够深入
- 不同物理参数的可恢复性差异未详细讨论
- 失败案例分析缺失

影响力

学术贡献：
- 为物理可解释世界模型提供了统一框架和评估基准
- 弱监督范式可能启发其他需要物理对齐的学习任务
- 设计空间的系统探索为后续研究提供了指导
实用价值：
- 直接应用于安全关键CPS的预测和监控
- 降低了对精确物理标注的依赖，降低数据收集成本
- 可解释性支持形式化验证和运行时保障
可复现性：
- 详细的架构和超参数描述（附录）
- 使用标准环境（OpenAI Gym）
- 但代码未公开，可能影响复现
潜在影响：
- 可能推动世界模型从纯预测性能向可解释性和可信性转变
- 为机器人学习、自动驾驶等领域提供了新工具
- 弱监督思想可迁移到其他物理嵌入学习任务

适用场景

适合的场景：

安全关键系统：需要可解释预测的自动驾驶、航空航天
部分可观测环境：传感器提供不确定估计的机器人系统
已知动力学结构：物理方程形式已知但参数未知的系统
长时域预测：需要物理一致性的多步预测任务
资源受限标注：难以获取精确物理标签的应用

不适合的场景：

完全未知动力学：无法提供任何物理先验的黑盒系统
高度非马尔可夫系统：状态转移依赖长历史的任务
极端噪声环境：弱监督质量极差（ $\delta > 20\%$ ）的情况
实时要求严格：两阶段训练和Transformer推理可能过慢
纯视觉任务：不需要物理解释的图像生成任务

参考文献（关键引用）

Ha & Schmidhuber (2018): World Models - 经典世界模型框架
Hafner et al. (2020, 2023): Dreamer系列 - SOTA世界模型基线
Karl et al. (2016): DVBF - 深度变分贝叶斯滤波器
Asenov et al. (2019): Vid2Param - 从视频学习物理参数
Linial et al. (2021): GokuNet - 使用ODE的生成模型
Van Den Oord et al. (2017): VQ-VAE - 向量量化变分自编码器
Brunton et al. (2016): SINDYc - 稀疏非线性动力学识别

总体评价：这是一篇高质量的研究论文，在物理可解释世界模型领域做出了重要贡献。其核心创新在于巧妙利用弱监督和结构化设计实现了物理可解释性，而无需精确标注。系统的实验设计和令人信服的结果支持了其主要论点。虽然存在理论分析不足和真实世界验证缺失等局限，但其方法论和发现为未来研究奠定了坚实基础，具有重要的学术和实用价值。