2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic

一生で学ぶ:無指導探索から確率環境の記号的世界モデルを推論する

基本情報

  • 論文ID: 2510.12088
  • タイトル: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
  • 著者: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
  • 分類: cs.AI, cs.CL, cs.LG
  • 発表日: 2025年10月14日
  • 論文リンク: https://arxiv.org/abs/2510.12088

要約

記号的世界モデリングは、環境の遷移ダイナミクスを実行可能なプログラムとして推論し表現することを必要とします。先行研究は主に、豊富な相互作用データ、単純なメカニズム、および人間の指導を備えた決定論的環境に焦点を当ててきました。本論文は、より現実的で挑戦的な設定に対処しています。すなわち、複雑な確率環境での学習であり、エージェントは敵対的環境を探索するための「一度の人生」しかなく、人間の指導もありません。本論文はOneLifeフレームワークを提案し、確率プログラミングフレームワーク内の条件付き活性化プログラム化ルールを通じて世界ダイナミクスをモデル化します。各ルールは前提条件-効果構造を通じて動作し、関連する世界状態で活性化されます。これにより、動的計算グラフが作成され、関連するルールのみを通じて推論と最適化がルーティングされ、複雑な階層状態に対するすべてのルールの予測時のスケーリング課題を回避し、スパースなルール活性化の場合でも確率的ダイナミクスの学習を可能にします。

研究背景と動機

問題定義

従来の記号的世界モデリング手法は、以下の主要な課題に直面しています:

  1. データ制限:現実世界ではエージェントは限定的な相互作用のみが可能であり、特に危険な環境では顕著です
  2. 確率性の処理:真の環境は既約確率性を持ちます。例えば、NPCの予測不可能な行動など
  3. 外部指導の欠如:環境固有の報酬または人間が提供する目標がありません
  4. 複雑性スケーリング:環境が多くの相互作用メカニズムを含む場合、既存の方法はスケーリングが困難です

研究の重要性

記号的世界モデリングはAIにとって重要です。なぜなら:

  • 環境の基礎的ダイナミクスの機能的理解を提供します
  • 実際の相互作用なしに行動結果の予測をサポートします
  • 解釈可能で編集可能で検証可能な表現を構築します

既存手法の限界

先行研究は主に以下を仮定しています:

  • 発見可能なメカニズムの数が限定的で確率性が低い
  • 大量の相互作用データへのアクセス
  • 人間が提供する環境固有の指導(目標/報酬)

これらの仮定は、Minecraft、RuneScapeなどの複雑なオープンワールド環境では成立しないことが多いです。

研究動機

本論文の核心的な研究問題は:限定的な相互作用予算と環境固有の人間指導がない場合、エージェントはどのようにして複雑で危険な確率的世界のルールをリバースエンジニアリングできるのか?

核心的貢献

  1. OneLifeフレームワーク:確率的記号的世界モデルを提案し、確率的敵対環境から最小限の相互作用で学習でき、人間定義の報酬へのアクセスは不要です
  2. Crafter-OO環境:Crafter環境を再実装し、構造化されたオブジェクト指向記号状態と純粋な遷移関数を公開します
  3. 評価プロトコル:30以上の実行可能なシナリオと状態忠実度/状態ランキング指標を含む新しい世界モデリング評価スイートを導入します
  4. 性能向上:23個のテストシナリオ中16個で強いベースライン手法を上回り、計画能力を実証します

方法の詳細

タスク定義

環境の純粋な遷移関数 T: S × A → Δ(S) が与えられた場合、ここで:

  • S:状態空間
  • A:行動空間
  • Δ(S):状態空間上の確率分布

目標は、単一の無指導探索軌跡から記号的世界モデルを学習することであり、このモデルは状態遷移の確率分布を予測できます。

モデルアーキテクチャ

1. 世界モデル表現

OneLifeは環境をプログラム化ルールの混合としてモデル化します:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

ここで各観測量oの確率は:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. ルール構造

各ルールL_iは前提条件-効果ペア(c_i, e_i)で定義されます:

  • 前提条件 c_i(s,a) → {true, false}:ルールが適用可能かどうかを決定します
  • 効果 e_i(s,a) → s':状態コピーの修正を通じて予測します

3. 動的計算グラフ

与えられた遷移に対して、前提条件を満たすルールのセットI(s,a) = {i | c_i(s,a) is true}のみが活性化され、スパースなパラメータ更新メカニズムが作成されます。

コアコンポーネント

1. 探索戦略

大規模言語モデル駆動の探索戦略を使用:

  • 目標:可能な限り多くの基礎的メカニズムを発見
  • 戦略:探索をリバースエンジニアリングタスクとして扱う
  • 利点:ランダム戦略と比較して、生存時間が100ステップから400ステップに向上

2. ルール合成器

手作りの合成器ではなく汎用的なアプローチを採用:

  • 各観測された遷移を説明するために多数の単純な原子ルールを提案
  • 原子ルール:最小限の状態属性変化を説明するルール
  • きめ細かい信用割り当てをサポート

3. パラメータ推論

勾配ベースの最適化アルゴリズム:

  • 観測された遷移の対数尤度を最大化
  • 観測変数に影響を与えるルールの重みのみを更新
  • L-BFGSを最適化に使用

技術的革新点

  1. 条件付き活性化メカニズム:前提条件構造を通じてルールの選択的活性化を実現し、無関係なルールの干渉を回避
  2. スパースパラメータ更新:観測変化を予測する活性化ルールのみに勾配更新を適用し、正確な信用割り当てを提供
  3. 原子ルール分解:複雑なイベントを複数の単純なルールに分解し、学習精度を向上
  4. 確率プログラミングフレームワーク:確率的ダイナミクスのモデリングと推論をサポート

実験設定

データセット

Crafter-OO環境

  • Crafter環境の再実装
  • 構造化されたオブジェクト指向状態表現を公開
  • 顕著な確率性と多様なメカニズムを含む
  • プログラム的な状態修正をサポート

評価指標

状態ランキング指標

  • Rank@1:真の次状態が最高確率でランク付けされているかどうか
  • Mean Reciprocal Rank (MRR):真の状態ランキングの逆数の平均値

状態忠実度指標

  • Raw Edit Distance:予測状態と真の状態間のJSONパッチ操作の数
  • Normalized Edit Distance:状態表現の総要素数で割った元の編集距離

比較手法

  • Random World Model:すべての候補状態に均一確率を割り当て
  • PoE-World:最先端の記号的世界モデル。本論文の探索戦略とルール合成器を使用した公正な比較

実装詳細

  • 評価シナリオ:すべてのコアゲームメカニズムをカバーする40以上のシナリオ
  • 干渉状態生成:8つの変異器が違法な状態遷移を生成
  • 最適化アルゴリズム:L-BFGS
  • 探索予算:単一軌跡、平均400ステップ

実験結果

主要な結果

手法Rank@1MRRRaw Edit Dist.Norm. Edit Dist.
Random8.5%0.322121.5380.809
PoE-World10.8%0.35110.6340.071
OneLife18.7%0.4798.7640.058

OneLifeは判別精度においてベースラインを大幅に上回ります:

  • Rank@1が7.9パーセントポイント向上
  • MRRが0.128向上
  • 23個のシナリオ中16個でPoE-Worldベースラインを上回る

細粒度評価

ゲームメカニズム別に分類された性能分析は、OneLifeが多くのメカニズムで優れた性能を示すことを示しています:

  • リソース収集:木材、石、石炭などの収集タスク
  • ツール製作:様々なつるはしと剣の製作
  • 戦闘システム:ゾンビ、スケルトンとの戦闘
  • 世界操作:アイテム配置と環境修正

計画能力の検証

前方シミュレーションテストを通じて計画能力を検証し、3つのシナリオで検証:

シナリオ計画説明平均ステップ数真の環境選好OneLife選好
ゾンビ戦士剣製作後の戦闘 vs 即座の戦闘33 vs 17✓剣製作✓剣製作
石鉱夫つるはし製作後の採掘 vs 直接採掘31 vs 13✓つるはし製作✓つるはし製作
剣職人作業台の再利用 vs 毎回新規作成5 vs 10✓再利用✓再利用

OneLifeが学習した世界モデルは、すべてのシナリオで正しくより効率的な戦略を識別しました。

アブレーション実験

異なる推論方法の比較:

  • OneLife (完全):18.7% Rank@1, 0.479 MRR
  • パラメータ推論なし:13.0% Rank@1, 0.429 MRR
  • PoE-World推論:10.8% Rank@1, 0.351 MRR

結果は、OneLifeの推論アルゴリズムが性能向上に不可欠であることを示しています。

関連研究

記号的世界モデル

  • 単体プログラムアプローチ:Tang et al. (2024), Dainese et al. (2024)はLLMを使用した単一プログラム合成を使用
  • 組合せアプローチ:Piriyakulkij et al. (2025)は専門家乗積モデルを提案
  • 形式計画表現:PDDLなどの記号計画表現を構築

プログラム化意思決定表現

  • プログラム化ポリシー:より良い解釈可能性と一般化能力を提供
  • プログラム化報酬:自然言語指示から報酬関数を生成
  • スキルライブラリ:構成可能な時間拡張スキルを構築

オープンエンド探索の世界モデリング

  • 暗黙的世界モデル:内在的動機によって駆動される探索
  • 自動科学発見:自律的に仮説を形成し実験を実施
  • 迅速な帰納評価:新しい環境でエージェントが世界モデルを迅速に帰納できる能力を評価

結論と議論

主要な結論

  1. OneLifeは複雑な確率環境から限定的な無指導相互作用で記号的世界モデルを学習するという課題を成功裏に解決しました
  2. 条件付き活性化プログラム化ルールとスパースパラメータ更新メカニズムは重要な革新です
  3. 学習された世界モデルは効果的な計画と意思決定をサポートします

限界

  1. 探索ボトルネック:LLM駆動の探索戦略は複雑なテクノロジーツリーの完全な発見が依然困難です
  2. 記憶問題:探索エージェントは以前学習した情報を忘れやすい傾向があります
  3. 環境特異性:現在の実装は主にCrafter-OO環境を対象としています
  4. 計算複雑性:ルール合成とパラメータ推論の計算オーバーヘッドが大きい

今後の方向性

  1. 探索戦略の改善:より効果的な無指導探索方法の開発
  2. 他の環境への拡張:異なる複雑な環境でのフレームワークの一般化能力を検証
  3. オンライン学習:継続的な学習と適応をサポート
  4. マルチモーダル統合:世界モデリングのための視覚と文本情報の統合

深い評価

利点

  1. 問題の重要性:記号的世界モデリングの中核的課題である限定データ下での複雑な確率環境学習に対処
  2. 技術的革新:条件付き活性化メカニズムとスパース更新戦略は顕著な革新性を持つ
  3. 実験の充実:包括的な評価プロトコルと多角的な実験検証
  4. 実用的価値:計画応用の実際の効果を実証
  5. 環境への貢献:Crafter-OOは記号的世界モデリングの価値あるテストプラットフォームを提供

不足点

  1. 探索への依存:比較的強力なLLMによる探索に依然依存しており、方法の汎用性を制限する可能性
  2. 評価範囲:主に単一の環境タイプで検証され、一般化能力は検証待ち
  3. 理論分析:方法の収束性とサンプル複雑度に関する理論的保証が不足
  4. 計算効率:ルール合成プロセスの計算オーバーヘッド分析が不十分

影響力

  1. 学術的貢献:記号的世界モデリング分野に新しい研究パラダイムを提供
  2. 実用的見通し:ゲームAI、ロボット工学などの分野で潜在的な応用価値
  3. オープンソース価値:Crafter-OO環境と評価フレームワークはコミュニティで使用可能
  4. 方法的啓発:条件付き活性化とスパース更新の考え方は他の学習タスクに適用可能

適用シナリオ

  1. ゲームAI:複雑な戦略ゲームのルール学習と戦略計画
  2. ロボット工学:未知環境でのダイナミクスモデリングとタスク計画
  3. 科学発見:自動化された科学仮説生成と検証
  4. 教育応用:インテリジェント教育システムにおける学習者モデリング

参考文献

本論文は記号的世界モデリング、プログラム合成、強化学習など複数の分野の重要な研究を引用し、関連研究に対する包括的な文献基盤を提供しています。主要な参考文献にはCrafter環境、PoE-World手法、および様々なプログラム化表現学習の関連研究が含まれます。


総合評価:これは記号的世界モデリングという重要かつ挑戦的な分野で顕著な貢献をした高品質の研究論文です。OneLifeフレームワークは巧妙な技術設計を通じて実際の問題を解決し、実験検証が充分であり、重要な学術的価値と実用的可能性を持っています。いくつかの限界がありますが、将来の研究に明確な方向性を示しています。