One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic
Una Vida para Aprender: Inferencia de Modelos Mundiales Simbólicos para Entornos Estocásticos a partir de Exploración No Guiada
La modelación simbólica del mundo requiere inferir y representar la dinámica de transición del entorno como programas ejecutables. Los trabajos previos se han enfocado principalmente en entornos deterministas con datos de interacción abundantes, mecanismos simples y guía humana. Este artículo aborda un escenario más realista y desafiante: aprender en entornos complejos estocásticos donde el agente tiene "una sola vida" para explorar un entorno adversarial sin guía humana. El artículo propone el marco OneLife, que modela la dinámica del mundo mediante reglas programáticas activadas condicionalmente dentro de un marco de programación probabilística. Cada regla opera a través de una estructura premisa-efecto, activándose en estados mundiales relevantes. Esto crea un grafo de cálculo dinámico que enruta la inferencia y optimización solo a través de reglas relevantes, evitando los desafíos de escalabilidad cuando todas las reglas predicen sobre estados jerárquicos complejos, y permitiendo aprender dinámicas estocásticas incluso con activación de reglas dispersa.
La pregunta central de investigación es: ¿Cómo puede un agente invertir la ingeniería de las reglas de mundos aleatorios complejos y peligrosos con un presupuesto de interacción limitado y sin guía humana específica del entorno?
Marco OneLife: Propone un modelo simbólico probabilístico del mundo que puede aprender de entornos estocásticos adversariales con interacción mínima, sin acceso a recompensas definidas por humanos
Entorno Crafter-OO: Reimplementa el entorno Crafter, exponiendo estado simbólico estructurado orientado a objetos y funciones de transición puras
Protocolo de Evaluación: Introduce un nuevo conjunto de evaluación de modelación del mundo que contiene 30+ escenarios ejecutables e indicadores de fidelidad de estado/clasificación de estado
Mejora de Rendimiento: Supera métodos de línea base fuerte en 16/23 escenarios de prueba y demuestra capacidades de planificación
Dada una función de transición pura del entorno T: S × A → Δ(S), donde:
S: espacio de estados
A: espacio de acciones
Δ(S): distribución de probabilidad sobre el espacio de estados
El objetivo es aprender un modelo simbólico del mundo a partir de una única trayectoria de exploración no guiada que pueda predecir la distribución de probabilidad de transiciones de estado.
Para una transición dada, solo se activan las reglas que satisfacen la premisa I(s,a) = {i | c_i(s,a) es verdadero}, creando un mecanismo de actualización de parámetros disperso.
Mecanismo de Activación Condicional: Implementa activación selectiva de reglas mediante estructura de premisa, evitando interferencia de reglas irrelevantes
Actualización de Parámetros Dispersa: Realiza actualizaciones de gradiente solo en reglas activadas que predicen cambios observados, proporcionando asignación de crédito precisa
Descomposición de Reglas Atómicas: Descompone eventos complejos en múltiples reglas simples, mejorando precisión de aprendizaje
Marco de Programación Probabilística: Respalda modelación e inferencia de dinámicas estocásticas
Random World Model: Asigna probabilidad uniforme a todos los estados candidatos
PoE-World: Modelo simbólico del mundo de última generación, utiliza la estrategia de exploración y sintetizador de reglas del artículo para comparación justa
OneLife resuelve exitosamente el desafío de aprender modelos simbólicos del mundo a partir de interacciones limitadas no guiadas en entornos complejos estocásticos
El mecanismo de activación condicional de reglas programáticas y la actualización de parámetros dispersa son innovaciones clave
El modelo del mundo aprendido respalda planificación y toma de decisiones efectiva
Cuello de Botella de Exploración: La estrategia de exploración impulsada por LLM aún tiene dificultades para descubrir completamente árboles de tecnología complejos
Problemas de Memoria: El agente de exploración tiende a olvidar información aprendida previamente
Especificidad del Entorno: La implementación actual se enfoca principalmente en el entorno Crafter-OO
Complejidad Computacional: La síntesis de reglas y la inferencia de parámetros tienen sobrecarga computacional considerable
El artículo cita trabajos importantes de múltiples campos incluyendo modelación simbólica del mundo, síntesis de programas, y aprendizaje por refuerzo, proporcionando base de literatura completa para investigación relacionada. Las referencias clave incluyen el entorno Crafter, método PoE-World, y trabajos relacionados sobre aprendizaje de representación programática.
Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones significativas en el campo importante pero desafiante de la modelación simbólica del mundo. El marco OneLife resuelve problemas prácticos mediante diseño técnico ingenioso, verificación experimental completa, y posee valor académico importante y potencial práctico significativo. Aunque existen algunas limitaciones, proporciona dirección clara para investigación futura.