2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.

Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.

academic

Une Vie pour Apprendre : Inférence de Modèles Mondiaux Symboliques pour Environnements Stochastiques à partir d'Exploration Non Guidée

Informations Fondamentales

ID de l'article : 2510.12088
Titre : One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
Auteurs : Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
Classification : cs.AI, cs.CL, cs.LG
Date de publication : 14 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.12088

Résumé

La modélisation symbolique du monde nécessite d'inférer et de représenter la dynamique de transition d'un environnement sous forme de programmes exécutables. Les travaux antérieurs se sont principalement concentrés sur des environnements déterministes disposant de données d'interaction abondantes, de mécanismes simples et d'une guidance humaine. Cet article aborde un cadre plus réaliste et plus difficile : l'apprentissage dans des environnements stochastiques complexes, où l'agent ne dispose que d'« une seule vie » pour explorer un environnement hostile sans guidance humaine. Cet article propose le cadre OneLife, qui modélise la dynamique du monde par le biais de règles programmatiques conditionnellement activées dans un cadre de programmation probabiliste. Chaque règle fonctionne selon une structure prémisse-effet, s'activant dans les états mondiaux pertinents. Cela crée un graphe de calcul dynamique qui achemine le raisonnement et l'optimisation uniquement par les règles pertinentes, évitant les défis d'extensibilité lorsque toutes les règles prédisent sur des états hiérarchiques complexes, et permettant l'apprentissage de dynamiques stochastiques même avec une activation de règles clairsemée.

Contexte et Motivation de la Recherche

Définition du Problème

Les approches traditionnelles de modélisation symbolique du monde font face aux défis clés suivants :

Limitation des données : Dans le monde réel, les agents ne peuvent souvent effectuer que des interactions limitées, particulièrement dans les environnements dangereux
Gestion de la stochasticité : Les environnements réels possèdent une stochasticité irréductible, comme le comportement imprévisible des PNJ
Absence de guidance externe : Manque de récompenses spécifiques à l'environnement ou d'objectifs fournis par l'humain
Complexité d'extensibilité : Les méthodes existantes peinent à s'adapter lorsque l'environnement contient de nombreux mécanismes d'interaction

Importance de la Recherche

La modélisation symbolique du monde est cruciale pour l'intelligence artificielle car elle permet :

Une compréhension fonctionnelle de la dynamique sous-jacente de l'environnement
La prédiction des résultats d'actions sans interaction réelle
La construction de représentations interprétables, modifiables et vérifiables

Limitations des Approches Existantes

Les recherches antérieures supposent principalement :

Un nombre limité de mécanismes découvrables avec une stochasticité faible
L'accès à de grandes quantités de données d'interaction
Une guidance humaine spécifique à l'environnement (objectifs/récompenses)

Ces hypothèses ne tiennent souvent pas dans les environnements ouverts complexes (comme Minecraft, RuneScape).

Motivation de la Recherche

La question centrale de cette recherche est : Comment un agent peut-il rétro-ingénier les règles de mondes stochastiques complexes et hostiles avec un budget d'interaction limité et sans guidance humaine spécifique à l'environnement ?

Contributions Principales

Cadre OneLife : Propose un modèle probabiliste symbolique du monde capable d'apprendre à partir d'environnements stochastiques hostiles avec une interaction minimale, sans accès à des récompenses définies par l'humain
Environnement Crafter-OO : Réimplémentation de l'environnement Crafter exposant un état symbolique structuré orienté objet et des fonctions de transition pures
Protocole d'Évaluation : Introduit une nouvelle suite d'évaluation de modélisation du monde contenant plus de 30 scénarios exécutables et des métriques de fidélité d'état/classement d'état
Amélioration des Performances : Surpasse les méthodes de base fortes dans 16/23 scénarios de test et démontre des capacités de planification

Détails de la Méthode

Définition de la Tâche

Étant donné la fonction de transition pure d'un environnement T: S × A → Δ(S), où :

S : espace d'état
A : espace d'action
Δ(S) : distribution de probabilité sur l'espace d'état

L'objectif est d'apprendre un modèle symbolique du monde à partir d'une seule trajectoire d'exploration non guidée, capable de prédire la distribution de probabilité des transitions d'état.

Architecture du Modèle

1. Représentation du Modèle du Monde

OneLife modélise l'environnement comme un mélange de règles programmatiques :

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

où la probabilité de chaque observable o est :

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Structure des Règles

Chaque règle L_i est définie par une paire prémisse-effet (c_i, e_i) :

Prémisse c_i(s,a) → {true, false} : détermine si la règle s'applique
Effet e_i(s,a) → s' : effectue une prédiction en modifiant une copie d'état

3. Graphe de Calcul Dynamique

Pour une transition donnée, seul l'ensemble des règles satisfaisant les prémisses I(s,a) = {i | c_i(s,a) is true} est activé, créant un mécanisme de mise à jour des paramètres clairsemé.

Composants Principaux

1. Stratégie d'Exploration

Utilise une stratégie d'exploration pilotée par modèle de langage de grande taille :

Objectif : découvrir autant de mécanismes sous-jacents que possible
Stratégie : traiter l'exploration comme une tâche de rétro-ingénierie
Avantage : par rapport aux stratégies aléatoires, le temps de survie passe de 100 à 400 étapes

2. Synthétiseur de Règles

Adopte une approche générale plutôt que des synthétiseurs conçus manuellement :

Propose un grand nombre de règles atomiques simples pour expliquer chaque transition observée
Règles atomiques : décrivent les changements minimaux d'attributs d'état
Soutiennent l'attribution de crédit à grain fin

3. Inférence des Paramètres

Algorithme d'optimisation basé sur les gradients :

Maximise la vraisemblance logarithmique des transitions observées
Met à jour uniquement les poids des règles activées affectant les variables observées
Utilise L-BFGS pour l'optimisation

Points d'Innovation Technique

Mécanisme d'Activation Conditionnelle : Réalise l'activation sélective des règles par le biais de structures de prémisse, évitant l'interférence des règles non pertinentes
Mise à Jour des Paramètres Clairsemée : Effectue les mises à jour de gradient uniquement sur les règles activées prédisant les changements observés, fournissant une attribution de crédit précise
Décomposition en Règles Atomiques : Décompose les événements complexes en plusieurs règles simples, améliorant la précision d'apprentissage
Cadre de Programmation Probabiliste : Soutient la modélisation et le raisonnement sur la dynamique stochastique

Configuration Expérimentale

Ensemble de Données

Environnement Crafter-OO :

Réimplémentation basée sur l'environnement Crafter
Expose une représentation d'état structurée orientée objet
Contient une stochasticité significative et des mécanismes diversifiés
Soutient la modification d'état programmatique

Métriques d'Évaluation

Métriques de Classement d'État

Rank@1 : Si l'état suivant réel est classé à la probabilité la plus élevée
Mean Reciprocal Rank (MRR) : Moyenne réciproque du classement de l'état réel

Métriques de Fidélité d'État

Raw Edit Distance : Nombre d'opérations de correctif JSON entre l'état prédit et l'état réel
Normalized Edit Distance : Distance d'édition brute divisée par le nombre total d'éléments dans la représentation d'état

Méthodes de Comparaison

Random World Model : Attribue une probabilité uniforme à tous les états candidats
PoE-World : Modèle de monde symbolique de pointe, utilisant la stratégie d'exploration et le synthétiseur de règles de cet article pour une comparaison équitable

Détails d'Implémentation

Scénarios d'évaluation : 40+ scénarios couvrant tous les mécanismes de jeu principaux
Génération d'états perturbés : 8 mutateurs produisant des transitions d'état illégales
Algorithme d'optimisation : L-BFGS
Budget d'exploration : trajectoire unique, moyenne de 400 étapes

Résultats Expérimentaux

Résultats Principaux

Méthode	Rank@1	MRR	Distance d'Édition Brute	Distance d'Édition Normalisée
Aléatoire	8,5%	0,322	121,538	0,809
PoE-World	10,8%	0,351	10,634	0,071
OneLife	18,7%	0,479	8,764	0,058

OneLife surpasse significativement les méthodes de base en termes de précision discriminante :

Amélioration de Rank@1 de 7,9 points de pourcentage
Amélioration de MRR de 0,128
Surpasse la méthode de base PoE-World dans 16/23 scénarios

Évaluation à Grain Fin

L'analyse des performances classées par mécanisme de jeu montre que OneLife excelle dans la plupart des mécanismes :

Collecte de Ressources : Tâches de collecte de bois, pierre, charbon, etc.
Fabrication d'Outils : Fabrication de diverses pioches et épées
Système de Combat : Combat contre les zombies, squelettes
Manipulation du Monde : Placement d'objets et modification de l'environnement

Vérification des Capacités de Planification

Test des capacités de planification par simulation avant, vérifiée dans 3 scénarios :

Scénario	Description du Plan	Étapes Moyennes	Préférence Environnement Réel	Préférence OneLife
Guerrier Zombie	Fabriquer épée puis combattre vs combattre immédiatement	33 vs 17	✓Fabriquer épée	✓Fabriquer épée
Mineur de Pierre	Fabriquer pioche puis miner vs miner directement	31 vs 13	✓Fabriquer pioche	✓Fabriquer pioche
Forgeron	Réutiliser établi vs construire nouveau à chaque fois	5 vs 10	✓Réutiliser	✓Réutiliser

Le modèle du monde appris par OneLife identifie correctement la stratégie la plus efficace dans tous les scénarios.

Études d'Ablation

Comparaison de différentes méthodes d'inférence :

OneLife (Complet) : 18,7% Rank@1, 0,479 MRR
Sans Inférence des Paramètres : 13,0% Rank@1, 0,429 MRR
Inférence PoE-World : 10,8% Rank@1, 0,351 MRR

Les résultats montrent que l'algorithme d'inférence de OneLife est crucial pour l'amélioration des performances.

Travaux Connexes

Modèles Symboliques du Monde

Approches Monolithiques : Tang et al. (2024), Dainese et al. (2024) utilisent la synthèse de programme unique par LLM
Approches Compositionnelles : Piriyakulkij et al. (2025) proposent un modèle de produit d'experts
Représentations de Planification Formelle : Construction de représentations de planification symbolique comme PDDL

Représentations de Prise de Décision Programmatique

Politiques Programmatiques : Offrent une meilleure interprétabilité et capacité de généralisation
Récompenses Programmatiques : Génération de fonctions de récompense à partir d'instructions en langage naturel
Bibliothèques de Compétences : Construction de compétences temporellement étendues composables

Modélisation du Monde pour Exploration Ouverte

Modèles Mondiaux Implicites : Exploration pilotée par motivation intrinsèque
Découverte Scientifique Automatisée : Formation autonome d'hypothèses et expérimentation
Évaluation d'Induction Rapide : Évaluation de la capacité des agents à induire rapidement des modèles mondiaux dans de nouveaux environnements

Conclusion et Discussion

Conclusions Principales

OneLife résout avec succès le défi d'apprendre des modèles symboliques du monde à partir d'interactions limitées et non guidées dans des environnements stochastiques complexes
Le mécanisme d'activation conditionnelle des règles programmatiques et la stratégie de mise à jour des paramètres clairsemée sont des innovations clés
Le modèle du monde appris soutient une planification et une prise de décision efficaces

Limitations

Goulot d'Étranglement de l'Exploration : La stratégie d'exploration pilotée par LLM peine toujours à découvrir complètement les arbres technologiques complexes
Problèmes de Mémoire : L'agent d'exploration oublie facilement les informations apprises précédemment
Spécificité à l'Environnement : L'implémentation actuelle cible principalement l'environnement Crafter-OO
Complexité Computationnelle : Les frais généraux computationnels de la synthèse de règles et de l'inférence des paramètres sont importants

Directions Futures

Amélioration des Stratégies d'Exploration : Développer des méthodes d'exploration non guidée plus efficaces
Extension à d'Autres Environnements : Vérifier la capacité de généralisation du cadre dans différents environnements complexes
Apprentissage En Ligne : Soutenir l'apprentissage continu et l'adaptation
Intégration Multimodale : Combiner les informations visuelles et textuelles pour la modélisation du monde

Évaluation Approfondie

Points Forts

Importance du Problème : Résout les défis centraux de la modélisation symbolique du monde — apprentissage dans des environnements stochastiques complexes avec données limitées
Innovation Technique : Le mécanisme d'activation conditionnelle et la stratégie de mise à jour clairsemée présentent une innovation significative
Expérimentation Complète : Protocole d'évaluation complet et vérification expérimentale multifacette
Valeur Pratique : Démontre l'efficacité réelle des applications de planification
Contribution Environnementale : Crafter-OO fournit une plateforme de test précieuse pour la modélisation symbolique du monde

Insuffisances

Dépendance à l'Exploration : Dépend toujours d'une exploration relativement puissante pilotée par LLM, ce qui peut limiter la généralité de la méthode
Portée d'Évaluation : Vérification principalement sur un seul type d'environnement, la capacité de généralisation reste à vérifier
Analyse Théorique : Manque de garanties théoriques sur la convergence et la complexité d'échantillonnage de la méthode
Efficacité Computationnelle : Analyse insuffisante des frais généraux computationnels du processus de synthèse de règles

Influence

Contribution Académique : Fournit un nouveau paradigme de recherche pour le domaine de la modélisation symbolique du monde
Perspectives Pratiques : Possède une valeur d'application potentielle dans l'IA de jeu, la robotique et d'autres domaines
Valeur Open Source : L'environnement Crafter-OO et le cadre d'évaluation peuvent être utilisés par la communauté
Inspiration Méthodologique : Les idées d'activation conditionnelle et de mise à jour clairsemée peuvent s'appliquer à d'autres tâches d'apprentissage

Scénarios Applicables

IA de Jeu : Apprentissage des règles et planification de stratégies dans les jeux complexes
Robotique : Modélisation de dynamique et planification de tâches dans des environnements inconnus
Découverte Scientifique : Génération et vérification automatisées d'hypothèses scientifiques
Applications Éducatives : Modélisation d'apprenants dans les systèmes d'enseignement intelligent

Références

L'article cite des travaux importants dans plusieurs domaines : modélisation symbolique du monde, synthèse de programmes, apprentissage par renforcement, fournissant une base bibliographique complète pour les recherches connexes. Les références clés incluent l'environnement Crafter, la méthode PoE-World, et divers travaux connexes sur l'apprentissage de représentations programmatiques.

Évaluation Générale : Ceci est un article de recherche de haute qualité qui apporte des contributions significatives dans le domaine important mais difficile de la modélisation symbolique du monde. Le cadre OneLife résout les problèmes pratiques par une conception technique ingénieuse, la vérification expérimentale est complète, et il possède une valeur académique et un potentiel pratique importants. Malgré certaines limitations, il indique clairement les directions pour les recherches futures.