2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.

Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.

academic

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

基本信息

论文ID: 2510.12088
标题: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
作者: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
分类: cs.AI, cs.CL, cs.LG
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.12088

摘要

符号世界建模需要推断并表示环境的转换动力学作为可执行程序。先前工作主要关注具有丰富交互数据、简单机制和人类指导的确定性环境。本文解决了一个更现实且具有挑战性的设置：在复杂随机环境中学习，智能体只有"一次生命"来探索敌对环境且没有人类指导。本文提出OneLife框架，通过概率编程框架中的条件激活程序化法则来建模世界动力学。每个法则通过前提条件-效果结构运作，在相关世界状态中激活。这创建了一个动态计算图，仅通过相关法则路由推理和优化，避免了所有法则都对复杂分层状态进行预测时的扩展挑战，并使得即使在稀疏规则激活情况下也能学习随机动力学。

研究背景与动机

问题定义

传统的符号世界建模方法面临以下关键挑战：

数据限制：现实世界中智能体往往只能进行有限的交互，特别是在危险环境中
随机性处理：真实环境具有不可约随机性，如NPC的不可预测行为
无外部指导：缺乏环境特定的奖励或人类提供的目标
复杂性扩展：当环境包含众多交互机制时，现有方法难以扩展

研究重要性

符号世界建模对人工智能至关重要，因为它能够：

提供环境底层动力学的功能理解
支持无需实际交互的行动结果预测
构建可解释、可编辑、可验证的表示

现有方法局限性

先前研究主要假设：

可发现机制数量有限且随机性较低
可访问大量交互数据
有人类提供的环境特定指导（目标/奖励）

这些假设在复杂开放世界环境（如MineCraft、RuneScape）中往往不成立。

研究动机

本文的核心研究问题是：智能体如何在有限交互预算和无环境特定人类指导的情况下，逆向工程出复杂、危险随机世界的法则？

核心贡献

OneLife框架：提出了一个概率符号世界模型，能够从随机敌对环境中以最少交互学习，无需访问人类定义的奖励
Crafter-OO环境：重新实现了Crafter环境，暴露结构化的面向对象符号状态和纯转换函数
评估协议：引入了新的世界建模评估套件，包含30+可执行场景和状态保真度/状态排序指标
性能提升：在16/23个测试场景中优于强基线方法，并展示了规划能力

方法详解

任务定义

给定环境的纯转换函数 T: S × A → Δ(S)，其中：

S：状态空间
A：动作空间
Δ(S)：状态空间上的概率分布

目标是从单次无指导探索轨迹中学习符号世界模型，该模型能够预测状态转换的概率分布。

模型架构

1. 世界模型表示

OneLife将环境建模为程序化法则的混合：

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

其中每个可观测量o的概率为：

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. 法则结构

每个法则L_i由前提条件-效果对(c_i, e_i)定义：

前提条件 c_i(s,a) → {true, false}：确定法则是否适用
效果 e_i(s,a) → s'：通过修改状态副本进行预测

3. 动态计算图

对于给定转换，仅激活满足前提条件的法则集合I(s,a) = {i | c_i(s,a) is true}，创建稀疏的参数更新机制。

核心组件

1. 探索策略

使用大语言模型驱动的探索策略：

目标：发现尽可能多的底层机制
策略：将探索视为逆向工程任务
优势：相比随机策略，生存时间从100步提升到400步

2. 法则合成器

采用通用方法而非手工设计的合成器：

提出大量简单原子法则解释每个观察到的转换
原子法则：描述最少状态属性变化的规则
支持细粒度的信用分配

3. 参数推理

基于梯度的优化算法：

最大化观察转换的对数似然
仅更新对观察变量有影响的法则权重
使用L-BFGS进行优化

技术创新点

条件激活机制：通过前提条件结构实现法则的选择性激活，避免不相关法则的干扰
稀疏参数更新：仅对预测观察变化的激活法则进行梯度更新，提供精确的信用分配
原子法则分解：将复杂事件分解为多个简单法则，提高学习精度
概率编程框架：支持随机动力学的建模和推理

实验设置

数据集

Crafter-OO环境：

基于Crafter环境重新实现
暴露结构化的面向对象状态表示
包含显著随机性和多样化机制
支持程序化状态修改

评价指标

状态排序指标

Rank@1：真实下一状态是否被排在最高概率
Mean Reciprocal Rank (MRR)：真实状态排名的倒数平均值

状态保真度指标

Raw Edit Distance：预测状态与真实状态间的JSON补丁操作数
Normalized Edit Distance：原始编辑距离除以状态表示中的总元素数

对比方法

Random World Model：对所有候选状态分配均匀概率
PoE-World：最先进的符号世界模型，使用本文的探索策略和法则合成器进行公平比较

实现细节

评估场景：40+个场景覆盖所有核心游戏机制
干扰状态生成：8个变异器产生非法状态转换
优化算法：L-BFGS
探索预算：单次轨迹，平均400步

实验结果

主要结果

方法	Rank@1	MRR	Raw Edit Dist.	Norm. Edit Dist.
Random	8.5%	0.322	121.538	0.809
PoE-World	10.8%	0.351	10.634	0.071
OneLife	18.7%	0.479	8.764	0.058

OneLife在判别准确性方面显著优于基线：

Rank@1提升7.9个百分点
MRR提升0.128
在16/23个场景中优于PoE-World基线

细粒度评估

按游戏机制分类的性能分析显示OneLife在多数机制上表现优异：

资源收集：木材、石头、煤炭等收集任务
工具制作：各种镐子和剑的制作
战斗系统：与僵尸、骷髅的战斗
世界操作：物品放置和环境修改

规划能力验证

通过前向仿真测试规划能力，在3个场景中验证：

场景	计划描述	平均步数	真实环境偏好	OneLife偏好
僵尸战士	制作剑后战斗 vs 立即战斗	33 vs 17	✓制作剑	✓制作剑
石头矿工	制作镐后挖矿 vs 直接挖矿	31 vs 13	✓制作镐	✓制作镐
剑匠	重用工作台 vs 每次新建	5 vs 10	✓重用	✓重用