2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

基本信息

  • 论文ID: 2510.12088
  • 标题: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
  • 作者: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
  • 分类: cs.AI, cs.CL, cs.LG
  • 发表时间: 2025年10月14日
  • 论文链接: https://arxiv.org/abs/2510.12088

摘要

符号世界建模需要推断并表示环境的转换动力学作为可执行程序。先前工作主要关注具有丰富交互数据、简单机制和人类指导的确定性环境。本文解决了一个更现实且具有挑战性的设置:在复杂随机环境中学习,智能体只有"一次生命"来探索敌对环境且没有人类指导。本文提出OneLife框架,通过概率编程框架中的条件激活程序化法则来建模世界动力学。每个法则通过前提条件-效果结构运作,在相关世界状态中激活。这创建了一个动态计算图,仅通过相关法则路由推理和优化,避免了所有法则都对复杂分层状态进行预测时的扩展挑战,并使得即使在稀疏规则激活情况下也能学习随机动力学。

研究背景与动机

问题定义

传统的符号世界建模方法面临以下关键挑战:

  1. 数据限制:现实世界中智能体往往只能进行有限的交互,特别是在危险环境中
  2. 随机性处理:真实环境具有不可约随机性,如NPC的不可预测行为
  3. 无外部指导:缺乏环境特定的奖励或人类提供的目标
  4. 复杂性扩展:当环境包含众多交互机制时,现有方法难以扩展

研究重要性

符号世界建模对人工智能至关重要,因为它能够:

  • 提供环境底层动力学的功能理解
  • 支持无需实际交互的行动结果预测
  • 构建可解释、可编辑、可验证的表示

现有方法局限性

先前研究主要假设:

  • 可发现机制数量有限且随机性较低
  • 可访问大量交互数据
  • 有人类提供的环境特定指导(目标/奖励)

这些假设在复杂开放世界环境(如MineCraft、RuneScape)中往往不成立。

研究动机

本文的核心研究问题是:智能体如何在有限交互预算和无环境特定人类指导的情况下,逆向工程出复杂、危险随机世界的法则?

核心贡献

  1. OneLife框架:提出了一个概率符号世界模型,能够从随机敌对环境中以最少交互学习,无需访问人类定义的奖励
  2. Crafter-OO环境:重新实现了Crafter环境,暴露结构化的面向对象符号状态和纯转换函数
  3. 评估协议:引入了新的世界建模评估套件,包含30+可执行场景和状态保真度/状态排序指标
  4. 性能提升:在16/23个测试场景中优于强基线方法,并展示了规划能力

方法详解

任务定义

给定环境的纯转换函数 T: S × A → Δ(S),其中:

  • S:状态空间
  • A:动作空间
  • Δ(S):状态空间上的概率分布

目标是从单次无指导探索轨迹中学习符号世界模型,该模型能够预测状态转换的概率分布。

模型架构

1. 世界模型表示

OneLife将环境建模为程序化法则的混合:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

其中每个可观测量o的概率为:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. 法则结构

每个法则L_i由前提条件-效果对(c_i, e_i)定义:

  • 前提条件 c_i(s,a) → {true, false}:确定法则是否适用
  • 效果 e_i(s,a) → s':通过修改状态副本进行预测

3. 动态计算图

对于给定转换,仅激活满足前提条件的法则集合I(s,a) = {i | c_i(s,a) is true},创建稀疏的参数更新机制。

核心组件

1. 探索策略

使用大语言模型驱动的探索策略:

  • 目标:发现尽可能多的底层机制
  • 策略:将探索视为逆向工程任务
  • 优势:相比随机策略,生存时间从100步提升到400步

2. 法则合成器

采用通用方法而非手工设计的合成器:

  • 提出大量简单原子法则解释每个观察到的转换
  • 原子法则:描述最少状态属性变化的规则
  • 支持细粒度的信用分配

3. 参数推理

基于梯度的优化算法:

  • 最大化观察转换的对数似然
  • 仅更新对观察变量有影响的法则权重
  • 使用L-BFGS进行优化

技术创新点

  1. 条件激活机制:通过前提条件结构实现法则的选择性激活,避免不相关法则的干扰
  2. 稀疏参数更新:仅对预测观察变化的激活法则进行梯度更新,提供精确的信用分配
  3. 原子法则分解:将复杂事件分解为多个简单法则,提高学习精度
  4. 概率编程框架:支持随机动力学的建模和推理

实验设置

数据集

Crafter-OO环境

  • 基于Crafter环境重新实现
  • 暴露结构化的面向对象状态表示
  • 包含显著随机性和多样化机制
  • 支持程序化状态修改

评价指标

状态排序指标

  • Rank@1:真实下一状态是否被排在最高概率
  • Mean Reciprocal Rank (MRR):真实状态排名的倒数平均值

状态保真度指标

  • Raw Edit Distance:预测状态与真实状态间的JSON补丁操作数
  • Normalized Edit Distance:原始编辑距离除以状态表示中的总元素数

对比方法

  • Random World Model:对所有候选状态分配均匀概率
  • PoE-World:最先进的符号世界模型,使用本文的探索策略和法则合成器进行公平比较

实现细节

  • 评估场景:40+个场景覆盖所有核心游戏机制
  • 干扰状态生成:8个变异器产生非法状态转换
  • 优化算法:L-BFGS
  • 探索预算:单次轨迹,平均400步

实验结果

主要结果

方法Rank@1MRRRaw Edit Dist.Norm. Edit Dist.
Random8.5%0.322121.5380.809
PoE-World10.8%0.35110.6340.071
OneLife18.7%0.4798.7640.058

OneLife在判别准确性方面显著优于基线:

  • Rank@1提升7.9个百分点
  • MRR提升0.128
  • 在16/23个场景中优于PoE-World基线

细粒度评估

按游戏机制分类的性能分析显示OneLife在多数机制上表现优异:

  • 资源收集:木材、石头、煤炭等收集任务
  • 工具制作:各种镐子和剑的制作
  • 战斗系统:与僵尸、骷髅的战斗
  • 世界操作:物品放置和环境修改

规划能力验证

通过前向仿真测试规划能力,在3个场景中验证:

场景计划描述平均步数真实环境偏好OneLife偏好
僵尸战士制作剑后战斗 vs 立即战斗33 vs 17✓制作剑✓制作剑
石头矿工制作镐后挖矿 vs 直接挖矿31 vs 13✓制作镐✓制作镐
剑匠重用工作台 vs 每次新建5 vs 10✓重用✓重用

OneLife学习的世界模型在所有场景中都正确识别了更有效的策略。

消融实验

对比不同推理方法:

  • OneLife (完整):18.7% Rank@1, 0.479 MRR
  • 无参数推理:13.0% Rank@1, 0.429 MRR
  • PoE-World推理:10.8% Rank@1, 0.351 MRR

结果表明OneLife的推理算法对性能提升至关重要。

相关工作

符号世界模型

  • 单体程序方法:Tang et al. (2024), Dainese et al. (2024)使用LLM合成单一程序
  • 组合方法:Piriyakulkij et al. (2025)提出专家乘积模型
  • 形式规划表示:构建PDDL等符号规划表示

程序化决策制定表示

  • 程序化策略:提供更好的可解释性和泛化能力
  • 程序化奖励:从自然语言指令生成奖励函数
  • 技能库:构建可组合的时间扩展技能

开放式探索的世界建模

  • 隐式世界模型:通过内在动机驱动探索
  • 自动科学发现:自主形成假设并进行实验
  • 快速归纳评估:评估智能体在新环境中快速归纳世界模型的能力

结论与讨论

主要结论

  1. OneLife成功解决了在复杂随机环境中从有限无指导交互学习符号世界模型的挑战
  2. 条件激活的程序化法则和稀疏参数更新机制是关键创新
  3. 学习的世界模型支持有效的规划和决策制定

局限性

  1. 探索瓶颈:LLM驱动的探索策略仍难以完全发现复杂的技术树
  2. 记忆问题:探索智能体容易忘记之前学到的信息
  3. 环境特定性:当前实现主要针对Crafter-OO环境
  4. 计算复杂性:法则合成和参数推理的计算开销较大

未来方向

  1. 改进探索策略:开发更有效的无指导探索方法
  2. 扩展到其他环境:验证框架在不同复杂环境中的泛化能力
  3. 在线学习:支持持续学习和适应
  4. 多模态集成:结合视觉和文本信息进行世界建模

深度评价

优点

  1. 问题重要性:解决了符号世界建模中的核心挑战——有限数据下的复杂随机环境学习
  2. 技术创新:条件激活机制和稀疏更新策略具有显著创新性
  3. 实验充分:全面的评估协议和多角度的实验验证
  4. 实用价值:展示了规划应用的实际效果
  5. 环境贡献:Crafter-OO为符号世界建模提供了有价值的测试平台

不足

  1. 探索依赖:仍然依赖相对强大的LLM进行探索,可能限制了方法的通用性
  2. 评估范围:主要在单一环境类型上验证,泛化能力有待验证
  3. 理论分析:缺乏对方法收敛性和样本复杂度的理论保证
  4. 计算效率:法则合成过程的计算开销分析不足

影响力

  1. 学术贡献:为符号世界建模领域提供了新的研究范式
  2. 实用前景:在游戏AI、机器人学等领域有潜在应用价值
  3. 开源价值:Crafter-OO环境和评估框架可供社区使用
  4. 方法启发:条件激活和稀疏更新思想可应用于其他学习任务

适用场景

  1. 游戏AI:复杂策略游戏的规则学习和策略规划
  2. 机器人学:未知环境中的动力学建模和任务规划
  3. 科学发现:自动化的科学假设生成和验证
  4. 教育应用:智能教学系统中的学习者建模

参考文献

论文引用了符号世界建模、程序合成、强化学习等多个领域的重要工作,为相关研究提供了全面的文献基础。关键参考文献包括Crafter环境、PoE-World方法、以及各种程序化表示学习的相关工作。


总体评价:这是一篇高质量的研究论文,在符号世界建模这一重要但具有挑战性的领域做出了显著贡献。OneLife框架通过巧妙的技术设计解决了实际问题,实验验证充分,具有重要的学术价值和实用潜力。尽管存在一些局限性,但为未来研究指明了明确方向。