2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic

Une Vie pour Apprendre : Inférence de Modèles Mondiaux Symboliques pour Environnements Stochastiques à partir d'Exploration Non Guidée

Informations Fondamentales

  • ID de l'article : 2510.12088
  • Titre : One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
  • Auteurs : Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
  • Classification : cs.AI, cs.CL, cs.LG
  • Date de publication : 14 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.12088

Résumé

La modélisation symbolique du monde nécessite d'inférer et de représenter la dynamique de transition d'un environnement sous forme de programmes exécutables. Les travaux antérieurs se sont principalement concentrés sur des environnements déterministes disposant de données d'interaction abondantes, de mécanismes simples et d'une guidance humaine. Cet article aborde un cadre plus réaliste et plus difficile : l'apprentissage dans des environnements stochastiques complexes, où l'agent ne dispose que d'« une seule vie » pour explorer un environnement hostile sans guidance humaine. Cet article propose le cadre OneLife, qui modélise la dynamique du monde par le biais de règles programmatiques conditionnellement activées dans un cadre de programmation probabiliste. Chaque règle fonctionne selon une structure prémisse-effet, s'activant dans les états mondiaux pertinents. Cela crée un graphe de calcul dynamique qui achemine le raisonnement et l'optimisation uniquement par les règles pertinentes, évitant les défis d'extensibilité lorsque toutes les règles prédisent sur des états hiérarchiques complexes, et permettant l'apprentissage de dynamiques stochastiques même avec une activation de règles clairsemée.

Contexte et Motivation de la Recherche

Définition du Problème

Les approches traditionnelles de modélisation symbolique du monde font face aux défis clés suivants :

  1. Limitation des données : Dans le monde réel, les agents ne peuvent souvent effectuer que des interactions limitées, particulièrement dans les environnements dangereux
  2. Gestion de la stochasticité : Les environnements réels possèdent une stochasticité irréductible, comme le comportement imprévisible des PNJ
  3. Absence de guidance externe : Manque de récompenses spécifiques à l'environnement ou d'objectifs fournis par l'humain
  4. Complexité d'extensibilité : Les méthodes existantes peinent à s'adapter lorsque l'environnement contient de nombreux mécanismes d'interaction

Importance de la Recherche

La modélisation symbolique du monde est cruciale pour l'intelligence artificielle car elle permet :

  • Une compréhension fonctionnelle de la dynamique sous-jacente de l'environnement
  • La prédiction des résultats d'actions sans interaction réelle
  • La construction de représentations interprétables, modifiables et vérifiables

Limitations des Approches Existantes

Les recherches antérieures supposent principalement :

  • Un nombre limité de mécanismes découvrables avec une stochasticité faible
  • L'accès à de grandes quantités de données d'interaction
  • Une guidance humaine spécifique à l'environnement (objectifs/récompenses)

Ces hypothèses ne tiennent souvent pas dans les environnements ouverts complexes (comme Minecraft, RuneScape).

Motivation de la Recherche

La question centrale de cette recherche est : Comment un agent peut-il rétro-ingénier les règles de mondes stochastiques complexes et hostiles avec un budget d'interaction limité et sans guidance humaine spécifique à l'environnement ?

Contributions Principales

  1. Cadre OneLife : Propose un modèle probabiliste symbolique du monde capable d'apprendre à partir d'environnements stochastiques hostiles avec une interaction minimale, sans accès à des récompenses définies par l'humain
  2. Environnement Crafter-OO : Réimplémentation de l'environnement Crafter exposant un état symbolique structuré orienté objet et des fonctions de transition pures
  3. Protocole d'Évaluation : Introduit une nouvelle suite d'évaluation de modélisation du monde contenant plus de 30 scénarios exécutables et des métriques de fidélité d'état/classement d'état
  4. Amélioration des Performances : Surpasse les méthodes de base fortes dans 16/23 scénarios de test et démontre des capacités de planification

Détails de la Méthode

Définition de la Tâche

Étant donné la fonction de transition pure d'un environnement T: S × A → Δ(S), où :

  • S : espace d'état
  • A : espace d'action
  • Δ(S) : distribution de probabilité sur l'espace d'état

L'objectif est d'apprendre un modèle symbolique du monde à partir d'une seule trajectoire d'exploration non guidée, capable de prédire la distribution de probabilité des transitions d'état.

Architecture du Modèle

1. Représentation du Modèle du Monde

OneLife modélise l'environnement comme un mélange de règles programmatiques :

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

où la probabilité de chaque observable o est :

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Structure des Règles

Chaque règle L_i est définie par une paire prémisse-effet (c_i, e_i) :

  • Prémisse c_i(s,a) → {true, false} : détermine si la règle s'applique
  • Effet e_i(s,a) → s' : effectue une prédiction en modifiant une copie d'état

3. Graphe de Calcul Dynamique

Pour une transition donnée, seul l'ensemble des règles satisfaisant les prémisses I(s,a) = {i | c_i(s,a) is true} est activé, créant un mécanisme de mise à jour des paramètres clairsemé.

Composants Principaux

1. Stratégie d'Exploration

Utilise une stratégie d'exploration pilotée par modèle de langage de grande taille :

  • Objectif : découvrir autant de mécanismes sous-jacents que possible
  • Stratégie : traiter l'exploration comme une tâche de rétro-ingénierie
  • Avantage : par rapport aux stratégies aléatoires, le temps de survie passe de 100 à 400 étapes

2. Synthétiseur de Règles

Adopte une approche générale plutôt que des synthétiseurs conçus manuellement :

  • Propose un grand nombre de règles atomiques simples pour expliquer chaque transition observée
  • Règles atomiques : décrivent les changements minimaux d'attributs d'état
  • Soutiennent l'attribution de crédit à grain fin

3. Inférence des Paramètres

Algorithme d'optimisation basé sur les gradients :

  • Maximise la vraisemblance logarithmique des transitions observées
  • Met à jour uniquement les poids des règles activées affectant les variables observées
  • Utilise L-BFGS pour l'optimisation

Points d'Innovation Technique

  1. Mécanisme d'Activation Conditionnelle : Réalise l'activation sélective des règles par le biais de structures de prémisse, évitant l'interférence des règles non pertinentes
  2. Mise à Jour des Paramètres Clairsemée : Effectue les mises à jour de gradient uniquement sur les règles activées prédisant les changements observés, fournissant une attribution de crédit précise
  3. Décomposition en Règles Atomiques : Décompose les événements complexes en plusieurs règles simples, améliorant la précision d'apprentissage
  4. Cadre de Programmation Probabiliste : Soutient la modélisation et le raisonnement sur la dynamique stochastique

Configuration Expérimentale

Ensemble de Données

Environnement Crafter-OO :

  • Réimplémentation basée sur l'environnement Crafter
  • Expose une représentation d'état structurée orientée objet
  • Contient une stochasticité significative et des mécanismes diversifiés
  • Soutient la modification d'état programmatique

Métriques d'Évaluation

Métriques de Classement d'État

  • Rank@1 : Si l'état suivant réel est classé à la probabilité la plus élevée
  • Mean Reciprocal Rank (MRR) : Moyenne réciproque du classement de l'état réel

Métriques de Fidélité d'État

  • Raw Edit Distance : Nombre d'opérations de correctif JSON entre l'état prédit et l'état réel
  • Normalized Edit Distance : Distance d'édition brute divisée par le nombre total d'éléments dans la représentation d'état

Méthodes de Comparaison

  • Random World Model : Attribue une probabilité uniforme à tous les états candidats
  • PoE-World : Modèle de monde symbolique de pointe, utilisant la stratégie d'exploration et le synthétiseur de règles de cet article pour une comparaison équitable

Détails d'Implémentation

  • Scénarios d'évaluation : 40+ scénarios couvrant tous les mécanismes de jeu principaux
  • Génération d'états perturbés : 8 mutateurs produisant des transitions d'état illégales
  • Algorithme d'optimisation : L-BFGS
  • Budget d'exploration : trajectoire unique, moyenne de 400 étapes

Résultats Expérimentaux

Résultats Principaux

MéthodeRank@1MRRDistance d'Édition BruteDistance d'Édition Normalisée
Aléatoire8,5%0,322121,5380,809
PoE-World10,8%0,35110,6340,071
OneLife18,7%0,4798,7640,058

OneLife surpasse significativement les méthodes de base en termes de précision discriminante :

  • Amélioration de Rank@1 de 7,9 points de pourcentage
  • Amélioration de MRR de 0,128
  • Surpasse la méthode de base PoE-World dans 16/23 scénarios

Évaluation à Grain Fin

L'analyse des performances classées par mécanisme de jeu montre que OneLife excelle dans la plupart des mécanismes :

  • Collecte de Ressources : Tâches de collecte de bois, pierre, charbon, etc.
  • Fabrication d'Outils : Fabrication de diverses pioches et épées
  • Système de Combat : Combat contre les zombies, squelettes
  • Manipulation du Monde : Placement d'objets et modification de l'environnement

Vérification des Capacités de Planification

Test des capacités de planification par simulation avant, vérifiée dans 3 scénarios :

ScénarioDescription du PlanÉtapes MoyennesPréférence Environnement RéelPréférence OneLife
Guerrier ZombieFabriquer épée puis combattre vs combattre immédiatement33 vs 17✓Fabriquer épée✓Fabriquer épée
Mineur de PierreFabriquer pioche puis miner vs miner directement31 vs 13✓Fabriquer pioche✓Fabriquer pioche
ForgeronRéutiliser établi vs construire nouveau à chaque fois5 vs 10✓Réutiliser✓Réutiliser

Le modèle du monde appris par OneLife identifie correctement la stratégie la plus efficace dans tous les scénarios.

Études d'Ablation

Comparaison de différentes méthodes d'inférence :

  • OneLife (Complet) : 18,7% Rank@1, 0,479 MRR
  • Sans Inférence des Paramètres : 13,0% Rank@1, 0,429 MRR
  • Inférence PoE-World : 10,8% Rank@1, 0,351 MRR

Les résultats montrent que l'algorithme d'inférence de OneLife est crucial pour l'amélioration des performances.

Travaux Connexes

Modèles Symboliques du Monde

  • Approches Monolithiques : Tang et al. (2024), Dainese et al. (2024) utilisent la synthèse de programme unique par LLM
  • Approches Compositionnelles : Piriyakulkij et al. (2025) proposent un modèle de produit d'experts
  • Représentations de Planification Formelle : Construction de représentations de planification symbolique comme PDDL

Représentations de Prise de Décision Programmatique

  • Politiques Programmatiques : Offrent une meilleure interprétabilité et capacité de généralisation
  • Récompenses Programmatiques : Génération de fonctions de récompense à partir d'instructions en langage naturel
  • Bibliothèques de Compétences : Construction de compétences temporellement étendues composables

Modélisation du Monde pour Exploration Ouverte

  • Modèles Mondiaux Implicites : Exploration pilotée par motivation intrinsèque
  • Découverte Scientifique Automatisée : Formation autonome d'hypothèses et expérimentation
  • Évaluation d'Induction Rapide : Évaluation de la capacité des agents à induire rapidement des modèles mondiaux dans de nouveaux environnements

Conclusion et Discussion

Conclusions Principales

  1. OneLife résout avec succès le défi d'apprendre des modèles symboliques du monde à partir d'interactions limitées et non guidées dans des environnements stochastiques complexes
  2. Le mécanisme d'activation conditionnelle des règles programmatiques et la stratégie de mise à jour des paramètres clairsemée sont des innovations clés
  3. Le modèle du monde appris soutient une planification et une prise de décision efficaces

Limitations

  1. Goulot d'Étranglement de l'Exploration : La stratégie d'exploration pilotée par LLM peine toujours à découvrir complètement les arbres technologiques complexes
  2. Problèmes de Mémoire : L'agent d'exploration oublie facilement les informations apprises précédemment
  3. Spécificité à l'Environnement : L'implémentation actuelle cible principalement l'environnement Crafter-OO
  4. Complexité Computationnelle : Les frais généraux computationnels de la synthèse de règles et de l'inférence des paramètres sont importants

Directions Futures

  1. Amélioration des Stratégies d'Exploration : Développer des méthodes d'exploration non guidée plus efficaces
  2. Extension à d'Autres Environnements : Vérifier la capacité de généralisation du cadre dans différents environnements complexes
  3. Apprentissage En Ligne : Soutenir l'apprentissage continu et l'adaptation
  4. Intégration Multimodale : Combiner les informations visuelles et textuelles pour la modélisation du monde

Évaluation Approfondie

Points Forts

  1. Importance du Problème : Résout les défis centraux de la modélisation symbolique du monde — apprentissage dans des environnements stochastiques complexes avec données limitées
  2. Innovation Technique : Le mécanisme d'activation conditionnelle et la stratégie de mise à jour clairsemée présentent une innovation significative
  3. Expérimentation Complète : Protocole d'évaluation complet et vérification expérimentale multifacette
  4. Valeur Pratique : Démontre l'efficacité réelle des applications de planification
  5. Contribution Environnementale : Crafter-OO fournit une plateforme de test précieuse pour la modélisation symbolique du monde

Insuffisances

  1. Dépendance à l'Exploration : Dépend toujours d'une exploration relativement puissante pilotée par LLM, ce qui peut limiter la généralité de la méthode
  2. Portée d'Évaluation : Vérification principalement sur un seul type d'environnement, la capacité de généralisation reste à vérifier
  3. Analyse Théorique : Manque de garanties théoriques sur la convergence et la complexité d'échantillonnage de la méthode
  4. Efficacité Computationnelle : Analyse insuffisante des frais généraux computationnels du processus de synthèse de règles

Influence

  1. Contribution Académique : Fournit un nouveau paradigme de recherche pour le domaine de la modélisation symbolique du monde
  2. Perspectives Pratiques : Possède une valeur d'application potentielle dans l'IA de jeu, la robotique et d'autres domaines
  3. Valeur Open Source : L'environnement Crafter-OO et le cadre d'évaluation peuvent être utilisés par la communauté
  4. Inspiration Méthodologique : Les idées d'activation conditionnelle et de mise à jour clairsemée peuvent s'appliquer à d'autres tâches d'apprentissage

Scénarios Applicables

  1. IA de Jeu : Apprentissage des règles et planification de stratégies dans les jeux complexes
  2. Robotique : Modélisation de dynamique et planification de tâches dans des environnements inconnus
  3. Découverte Scientifique : Génération et vérification automatisées d'hypothèses scientifiques
  4. Applications Éducatives : Modélisation d'apprenants dans les systèmes d'enseignement intelligent

Références

L'article cite des travaux importants dans plusieurs domaines : modélisation symbolique du monde, synthèse de programmes, apprentissage par renforcement, fournissant une base bibliographique complète pour les recherches connexes. Les références clés incluent l'environnement Crafter, la méthode PoE-World, et divers travaux connexes sur l'apprentissage de représentations programmatiques.


Évaluation Générale : Ceci est un article de recherche de haute qualité qui apporte des contributions significatives dans le domaine important mais difficile de la modélisation symbolique du monde. Le cadre OneLife résout les problèmes pratiques par une conception technique ingénieuse, la vérification expérimentale est complète, et il possède une valeur académique et un potentiel pratique importants. Malgré certaines limitations, il indique clairement les directions pour les recherches futures.