2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.

Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.

academic

Una Vida para Aprender: Inferencia de Modelos Mundiales Simbólicos para Entornos Estocásticos a partir de Exploración No Guiada

Información Básica

ID del Artículo: 2510.12088
Título: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
Autores: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
Clasificación: cs.AI, cs.CL, cs.LG
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12088

Resumen

La modelación simbólica del mundo requiere inferir y representar la dinámica de transición del entorno como programas ejecutables. Los trabajos previos se han enfocado principalmente en entornos deterministas con datos de interacción abundantes, mecanismos simples y guía humana. Este artículo aborda un escenario más realista y desafiante: aprender en entornos complejos estocásticos donde el agente tiene "una sola vida" para explorar un entorno adversarial sin guía humana. El artículo propone el marco OneLife, que modela la dinámica del mundo mediante reglas programáticas activadas condicionalmente dentro de un marco de programación probabilística. Cada regla opera a través de una estructura premisa-efecto, activándose en estados mundiales relevantes. Esto crea un grafo de cálculo dinámico que enruta la inferencia y optimización solo a través de reglas relevantes, evitando los desafíos de escalabilidad cuando todas las reglas predicen sobre estados jerárquicos complejos, y permitiendo aprender dinámicas estocásticas incluso con activación de reglas dispersa.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de modelación simbólica del mundo enfrentan los siguientes desafíos clave:

Limitaciones de Datos: Los agentes en el mundo real frecuentemente pueden realizar solo interacciones limitadas, especialmente en entornos peligrosos
Manejo de Estocasticidad: Los entornos reales poseen estocasticidad irreducible, como el comportamiento impredecible de NPCs
Ausencia de Guía Externa: Falta de recompensas específicas del entorno u objetivos proporcionados por humanos
Escalabilidad de Complejidad: Los métodos existentes tienen dificultades para escalar cuando el entorno contiene numerosos mecanismos de interacción

Importancia de la Investigación

La modelación simbólica del mundo es crucial para la inteligencia artificial porque permite:

Proporcionar una comprensión funcional de la dinámica subyacente del entorno
Respaldar la predicción de resultados de acciones sin interacción real
Construir representaciones interpretables, editables y verificables

Limitaciones de Métodos Existentes

La investigación previa asume principalmente:

Un número limitado de mecanismos detectables y baja estocasticidad
Acceso a grandes cantidades de datos de interacción
Guía humana específica del entorno (objetivos/recompensas)

Estos supuestos frecuentemente no se cumplen en entornos complejos de mundo abierto (como MineCraft, RuneScape).

Motivación de la Investigación

La pregunta central de investigación es: ¿Cómo puede un agente invertir la ingeniería de las reglas de mundos aleatorios complejos y peligrosos con un presupuesto de interacción limitado y sin guía humana específica del entorno?

Contribuciones Principales

Marco OneLife: Propone un modelo simbólico probabilístico del mundo que puede aprender de entornos estocásticos adversariales con interacción mínima, sin acceso a recompensas definidas por humanos
Entorno Crafter-OO: Reimplementa el entorno Crafter, exponiendo estado simbólico estructurado orientado a objetos y funciones de transición puras
Protocolo de Evaluación: Introduce un nuevo conjunto de evaluación de modelación del mundo que contiene 30+ escenarios ejecutables e indicadores de fidelidad de estado/clasificación de estado
Mejora de Rendimiento: Supera métodos de línea base fuerte en 16/23 escenarios de prueba y demuestra capacidades de planificación

Explicación Detallada del Método

Definición de la Tarea

Dada una función de transición pura del entorno T: S × A → Δ(S), donde:

S: espacio de estados
A: espacio de acciones
Δ(S): distribución de probabilidad sobre el espacio de estados

El objetivo es aprender un modelo simbólico del mundo a partir de una única trayectoria de exploración no guiada que pueda predecir la distribución de probabilidad de transiciones de estado.

Arquitectura del Modelo

1. Representación del Modelo del Mundo

OneLife modela el entorno como una mezcla de reglas programáticas:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

donde la probabilidad de cada observable o es:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Estructura de Reglas

Cada regla L_i se define por un par premisa-efecto (c_i, e_i):

Premisa c_i(s,a) → {verdadero, falso}: Determina si la regla es aplicable
Efecto e_i(s,a) → s': Realiza predicciones mediante modificación de copia de estado

3. Grafo de Cálculo Dinámico

Para una transición dada, solo se activan las reglas que satisfacen la premisa I(s,a) = {i | c_i(s,a) es verdadero}, creando un mecanismo de actualización de parámetros disperso.

Componentes Principales

1. Estrategia de Exploración

Utiliza una estrategia de exploración impulsada por modelo de lenguaje grande:

Objetivo: Descubrir tantos mecanismos subyacentes como sea posible
Estrategia: Considerar la exploración como una tarea de ingeniería inversa
Ventaja: Comparado con estrategias aleatorias, el tiempo de supervivencia aumenta de 100 pasos a 400 pasos

2. Sintetizador de Reglas

Adopta un enfoque general en lugar de sintetizadores diseñados manualmente:

Propone una gran cantidad de reglas atómicas simples para explicar cada transición observada
Reglas atómicas: Reglas que describen cambios mínimos de atributos de estado
Respalda asignación de crédito de grano fino

3. Inferencia de Parámetros

Algoritmo de optimización basado en gradientes:

Maximiza la verosimilitud logarítmica de transiciones observadas
Solo actualiza pesos de reglas activadas que afecten variables observadas
Utiliza L-BFGS para optimización

Puntos de Innovación Técnica

Mecanismo de Activación Condicional: Implementa activación selectiva de reglas mediante estructura de premisa, evitando interferencia de reglas irrelevantes
Actualización de Parámetros Dispersa: Realiza actualizaciones de gradiente solo en reglas activadas que predicen cambios observados, proporcionando asignación de crédito precisa
Descomposición de Reglas Atómicas: Descompone eventos complejos en múltiples reglas simples, mejorando precisión de aprendizaje
Marco de Programación Probabilística: Respalda modelación e inferencia de dinámicas estocásticas

Configuración Experimental

Conjunto de Datos

Entorno Crafter-OO:

Reimplementación basada en el entorno Crafter
Expone representación de estado estructurada orientada a objetos
Contiene estocasticidad significativa y mecanismos diversos
Respalda modificación de estado programática

Indicadores de Evaluación

Indicadores de Clasificación de Estado

Rank@1: Si el siguiente estado verdadero se clasifica con la probabilidad más alta
Mean Reciprocal Rank (MRR): Valor promedio del recíproco de la clasificación del estado verdadero

Indicadores de Fidelidad de Estado

Raw Edit Distance: Número de operaciones de parche JSON entre estado predicho y verdadero
Normalized Edit Distance: Distancia de edición bruta dividida por el número total de elementos en la representación de estado

Métodos de Comparación

Random World Model: Asigna probabilidad uniforme a todos los estados candidatos
PoE-World: Modelo simbólico del mundo de última generación, utiliza la estrategia de exploración y sintetizador de reglas del artículo para comparación justa

Detalles de Implementación

Escenarios de evaluación: 40+ escenarios cubriendo todos los mecanismos principales del juego
Generación de estado de interferencia: 8 mutadores producen transiciones de estado ilegales
Algoritmo de optimización: L-BFGS
Presupuesto de exploración: Trayectoria única, promedio de 400 pasos

Resultados Experimentales

Resultados Principales

Método	Rank@1	MRR	Dist. Edición Bruta	Dist. Edición Norm.
Aleatorio	8.5%	0.322	121.538	0.809
PoE-World	10.8%	0.351	10.634	0.071
OneLife	18.7%	0.479	8.764	0.058

OneLife supera significativamente los métodos de línea base en precisión discriminativa:

Mejora de Rank@1 de 7.9 puntos porcentuales
Mejora de MRR de 0.128
Supera la línea base PoE-World en 16/23 escenarios

Evaluación de Grano Fino

El análisis de rendimiento clasificado por mecanismo de juego muestra que OneLife se desempeña excepcionalmente en la mayoría de mecanismos:

Recolección de Recursos: Tareas de recolección de madera, piedra, carbón, etc.
Fabricación de Herramientas: Fabricación de varios picos y espadas
Sistema de Combate: Combate contra zombis, esqueletos
Operación del Mundo: Colocación de objetos y modificación ambiental

Verificación de Capacidad de Planificación

Prueba de capacidad de planificación mediante simulación hacia adelante, verificada en 3 escenarios:

Escenario	Descripción del Plan	Pasos Promedio	Preferencia Entorno Real	Preferencia OneLife
Guerrero Zombi	Fabricar espada después de combatir vs. Combatir inmediatamente	33 vs 17	✓Fabricar espada	✓Fabricar espada
Minero de Piedra	Fabricar pico después de minar vs. Minar directamente	31 vs 13	✓Fabricar pico	✓Fabricar pico
Herrero	Reutilizar banco de trabajo vs. Construir nuevo cada vez	5 vs 10	✓Reutilizar	✓Reutilizar

El modelo del mundo aprendido por OneLife identifica correctamente la estrategia más eficiente en todos los escenarios.

Experimentos de Ablación

Comparación de diferentes métodos de inferencia:

OneLife (Completo): 18.7% Rank@1, 0.479 MRR
Sin Inferencia de Parámetros: 13.0% Rank@1, 0.429 MRR
Inferencia PoE-World: 10.8% Rank@1, 0.351 MRR

Los resultados demuestran que el algoritmo de inferencia de OneLife es crucial para la mejora de rendimiento.

Trabajo Relacionado

Modelos Simbólicos del Mundo

Enfoques de Programa Único: Tang et al. (2024), Dainese et al. (2024) utilizan síntesis de LLM de programa único
Enfoques Compositivos: Piriyakulkij et al. (2025) proponen modelo de producto de expertos
Representaciones de Planificación Formal: Construcción de representaciones de planificación simbólica como PDDL

Representaciones de Toma de Decisiones Programática

Políticas Programáticas: Proporcionan mejor interpretabilidad y capacidad de generalización
Recompensas Programáticas: Generación de funciones de recompensa a partir de instrucciones en lenguaje natural
Bibliotecas de Habilidades: Construcción de habilidades componibles de horizonte temporal extendido

Modelación del Mundo para Exploración de Mundo Abierto

Modelos Implícitos del Mundo: Exploración impulsada por motivación intrínseca
Descubrimiento Científico Automático: Formación autónoma de hipótesis y conducción de experimentos
Evaluación de Inducción Rápida: Evaluación de la capacidad del agente para inducir rápidamente modelos del mundo en entornos nuevos

Conclusiones y Discusión

Conclusiones Principales

OneLife resuelve exitosamente el desafío de aprender modelos simbólicos del mundo a partir de interacciones limitadas no guiadas en entornos complejos estocásticos
El mecanismo de activación condicional de reglas programáticas y la actualización de parámetros dispersa son innovaciones clave
El modelo del mundo aprendido respalda planificación y toma de decisiones efectiva

Limitaciones

Cuello de Botella de Exploración: La estrategia de exploración impulsada por LLM aún tiene dificultades para descubrir completamente árboles de tecnología complejos
Problemas de Memoria: El agente de exploración tiende a olvidar información aprendida previamente
Especificidad del Entorno: La implementación actual se enfoca principalmente en el entorno Crafter-OO
Complejidad Computacional: La síntesis de reglas y la inferencia de parámetros tienen sobrecarga computacional considerable

Direcciones Futuras

Mejora de Estrategia de Exploración: Desarrollo de métodos de exploración no guiada más efectivos
Extensión a Otros Entornos: Verificación de capacidad de generalización del marco en diferentes entornos complejos
Aprendizaje En Línea: Respaldar aprendizaje continuo y adaptación
Integración Multimodal: Combinación de información visual y textual para modelación del mundo

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda desafío central en modelación simbólica del mundo—aprendizaje en entornos complejos estocásticos con datos limitados
Innovación Técnica: El mecanismo de activación condicional y estrategia de actualización dispersa poseen innovación significativa
Experimentación Completa: Protocolo de evaluación integral y verificación experimental desde múltiples perspectivas
Valor Práctico: Demuestra efectividad real de aplicaciones de planificación
Contribución Ambiental: Crafter-OO proporciona plataforma de prueba valiosa para modelación simbólica del mundo

Insuficiencias

Dependencia de Exploración: Aún depende de exploración relativamente fuerte impulsada por LLM, que puede limitar generalidad del método
Alcance de Evaluación: Validación principalmente en tipo de entorno único, capacidad de generalización requiere verificación
Análisis Teórico: Carece de garantías teóricas sobre convergencia y complejidad de muestra del método
Eficiencia Computacional: Análisis insuficiente de sobrecarga computacional del proceso de síntesis de reglas

Impacto

Contribución Académica: Proporciona nuevo paradigma de investigación para campo de modelación simbólica del mundo
Perspectiva Práctica: Tiene valor potencial de aplicación en IA de juegos, robótica y otros campos
Valor de Código Abierto: Entorno Crafter-OO y marco de evaluación disponibles para comunidad
Inspiración de Método: Ideas de activación condicional y actualización dispersa aplicables a otras tareas de aprendizaje

Escenarios Aplicables

IA de Juegos: Aprendizaje de reglas y planificación de estrategia en juegos de estrategia complejos
Robótica: Modelación de dinámicas y planificación de tareas en entornos desconocidos
Descubrimiento Científico: Generación automática de hipótesis científicas y verificación
Aplicaciones Educativas: Modelación de estudiantes en sistemas de enseñanza inteligente

Referencias

El artículo cita trabajos importantes de múltiples campos incluyendo modelación simbólica del mundo, síntesis de programas, y aprendizaje por refuerzo, proporcionando base de literatura completa para investigación relacionada. Las referencias clave incluyen el entorno Crafter, método PoE-World, y trabajos relacionados sobre aprendizaje de representación programática.

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones significativas en el campo importante pero desafiante de la modelación simbólica del mundo. El marco OneLife resuelve problemas prácticos mediante diseño técnico ingenioso, verificación experimental completa, y posee valor académico importante y potencial práctico significativo. Aunque existen algunas limitaciones, proporciona dirección clara para investigación futura.