2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic

Una Vida para Aprender: Inferencia de Modelos Mundiales Simbólicos para Entornos Estocásticos a partir de Exploración No Guiada

Información Básica

  • ID del Artículo: 2510.12088
  • Título: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
  • Autores: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
  • Clasificación: cs.AI, cs.CL, cs.LG
  • Fecha de Publicación: 14 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12088

Resumen

La modelación simbólica del mundo requiere inferir y representar la dinámica de transición del entorno como programas ejecutables. Los trabajos previos se han enfocado principalmente en entornos deterministas con datos de interacción abundantes, mecanismos simples y guía humana. Este artículo aborda un escenario más realista y desafiante: aprender en entornos complejos estocásticos donde el agente tiene "una sola vida" para explorar un entorno adversarial sin guía humana. El artículo propone el marco OneLife, que modela la dinámica del mundo mediante reglas programáticas activadas condicionalmente dentro de un marco de programación probabilística. Cada regla opera a través de una estructura premisa-efecto, activándose en estados mundiales relevantes. Esto crea un grafo de cálculo dinámico que enruta la inferencia y optimización solo a través de reglas relevantes, evitando los desafíos de escalabilidad cuando todas las reglas predicen sobre estados jerárquicos complejos, y permitiendo aprender dinámicas estocásticas incluso con activación de reglas dispersa.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de modelación simbólica del mundo enfrentan los siguientes desafíos clave:

  1. Limitaciones de Datos: Los agentes en el mundo real frecuentemente pueden realizar solo interacciones limitadas, especialmente en entornos peligrosos
  2. Manejo de Estocasticidad: Los entornos reales poseen estocasticidad irreducible, como el comportamiento impredecible de NPCs
  3. Ausencia de Guía Externa: Falta de recompensas específicas del entorno u objetivos proporcionados por humanos
  4. Escalabilidad de Complejidad: Los métodos existentes tienen dificultades para escalar cuando el entorno contiene numerosos mecanismos de interacción

Importancia de la Investigación

La modelación simbólica del mundo es crucial para la inteligencia artificial porque permite:

  • Proporcionar una comprensión funcional de la dinámica subyacente del entorno
  • Respaldar la predicción de resultados de acciones sin interacción real
  • Construir representaciones interpretables, editables y verificables

Limitaciones de Métodos Existentes

La investigación previa asume principalmente:

  • Un número limitado de mecanismos detectables y baja estocasticidad
  • Acceso a grandes cantidades de datos de interacción
  • Guía humana específica del entorno (objetivos/recompensas)

Estos supuestos frecuentemente no se cumplen en entornos complejos de mundo abierto (como MineCraft, RuneScape).

Motivación de la Investigación

La pregunta central de investigación es: ¿Cómo puede un agente invertir la ingeniería de las reglas de mundos aleatorios complejos y peligrosos con un presupuesto de interacción limitado y sin guía humana específica del entorno?

Contribuciones Principales

  1. Marco OneLife: Propone un modelo simbólico probabilístico del mundo que puede aprender de entornos estocásticos adversariales con interacción mínima, sin acceso a recompensas definidas por humanos
  2. Entorno Crafter-OO: Reimplementa el entorno Crafter, exponiendo estado simbólico estructurado orientado a objetos y funciones de transición puras
  3. Protocolo de Evaluación: Introduce un nuevo conjunto de evaluación de modelación del mundo que contiene 30+ escenarios ejecutables e indicadores de fidelidad de estado/clasificación de estado
  4. Mejora de Rendimiento: Supera métodos de línea base fuerte en 16/23 escenarios de prueba y demuestra capacidades de planificación

Explicación Detallada del Método

Definición de la Tarea

Dada una función de transición pura del entorno T: S × A → Δ(S), donde:

  • S: espacio de estados
  • A: espacio de acciones
  • Δ(S): distribución de probabilidad sobre el espacio de estados

El objetivo es aprender un modelo simbólico del mundo a partir de una única trayectoria de exploración no guiada que pueda predecir la distribución de probabilidad de transiciones de estado.

Arquitectura del Modelo

1. Representación del Modelo del Mundo

OneLife modela el entorno como una mezcla de reglas programáticas:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

donde la probabilidad de cada observable o es:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Estructura de Reglas

Cada regla L_i se define por un par premisa-efecto (c_i, e_i):

  • Premisa c_i(s,a) → {verdadero, falso}: Determina si la regla es aplicable
  • Efecto e_i(s,a) → s': Realiza predicciones mediante modificación de copia de estado

3. Grafo de Cálculo Dinámico

Para una transición dada, solo se activan las reglas que satisfacen la premisa I(s,a) = {i | c_i(s,a) es verdadero}, creando un mecanismo de actualización de parámetros disperso.

Componentes Principales

1. Estrategia de Exploración

Utiliza una estrategia de exploración impulsada por modelo de lenguaje grande:

  • Objetivo: Descubrir tantos mecanismos subyacentes como sea posible
  • Estrategia: Considerar la exploración como una tarea de ingeniería inversa
  • Ventaja: Comparado con estrategias aleatorias, el tiempo de supervivencia aumenta de 100 pasos a 400 pasos

2. Sintetizador de Reglas

Adopta un enfoque general en lugar de sintetizadores diseñados manualmente:

  • Propone una gran cantidad de reglas atómicas simples para explicar cada transición observada
  • Reglas atómicas: Reglas que describen cambios mínimos de atributos de estado
  • Respalda asignación de crédito de grano fino

3. Inferencia de Parámetros

Algoritmo de optimización basado en gradientes:

  • Maximiza la verosimilitud logarítmica de transiciones observadas
  • Solo actualiza pesos de reglas activadas que afecten variables observadas
  • Utiliza L-BFGS para optimización

Puntos de Innovación Técnica

  1. Mecanismo de Activación Condicional: Implementa activación selectiva de reglas mediante estructura de premisa, evitando interferencia de reglas irrelevantes
  2. Actualización de Parámetros Dispersa: Realiza actualizaciones de gradiente solo en reglas activadas que predicen cambios observados, proporcionando asignación de crédito precisa
  3. Descomposición de Reglas Atómicas: Descompone eventos complejos en múltiples reglas simples, mejorando precisión de aprendizaje
  4. Marco de Programación Probabilística: Respalda modelación e inferencia de dinámicas estocásticas

Configuración Experimental

Conjunto de Datos

Entorno Crafter-OO:

  • Reimplementación basada en el entorno Crafter
  • Expone representación de estado estructurada orientada a objetos
  • Contiene estocasticidad significativa y mecanismos diversos
  • Respalda modificación de estado programática

Indicadores de Evaluación

Indicadores de Clasificación de Estado

  • Rank@1: Si el siguiente estado verdadero se clasifica con la probabilidad más alta
  • Mean Reciprocal Rank (MRR): Valor promedio del recíproco de la clasificación del estado verdadero

Indicadores de Fidelidad de Estado

  • Raw Edit Distance: Número de operaciones de parche JSON entre estado predicho y verdadero
  • Normalized Edit Distance: Distancia de edición bruta dividida por el número total de elementos en la representación de estado

Métodos de Comparación

  • Random World Model: Asigna probabilidad uniforme a todos los estados candidatos
  • PoE-World: Modelo simbólico del mundo de última generación, utiliza la estrategia de exploración y sintetizador de reglas del artículo para comparación justa

Detalles de Implementación

  • Escenarios de evaluación: 40+ escenarios cubriendo todos los mecanismos principales del juego
  • Generación de estado de interferencia: 8 mutadores producen transiciones de estado ilegales
  • Algoritmo de optimización: L-BFGS
  • Presupuesto de exploración: Trayectoria única, promedio de 400 pasos

Resultados Experimentales

Resultados Principales

MétodoRank@1MRRDist. Edición BrutaDist. Edición Norm.
Aleatorio8.5%0.322121.5380.809
PoE-World10.8%0.35110.6340.071
OneLife18.7%0.4798.7640.058

OneLife supera significativamente los métodos de línea base en precisión discriminativa:

  • Mejora de Rank@1 de 7.9 puntos porcentuales
  • Mejora de MRR de 0.128
  • Supera la línea base PoE-World en 16/23 escenarios

Evaluación de Grano Fino

El análisis de rendimiento clasificado por mecanismo de juego muestra que OneLife se desempeña excepcionalmente en la mayoría de mecanismos:

  • Recolección de Recursos: Tareas de recolección de madera, piedra, carbón, etc.
  • Fabricación de Herramientas: Fabricación de varios picos y espadas
  • Sistema de Combate: Combate contra zombis, esqueletos
  • Operación del Mundo: Colocación de objetos y modificación ambiental

Verificación de Capacidad de Planificación

Prueba de capacidad de planificación mediante simulación hacia adelante, verificada en 3 escenarios:

EscenarioDescripción del PlanPasos PromedioPreferencia Entorno RealPreferencia OneLife
Guerrero ZombiFabricar espada después de combatir vs. Combatir inmediatamente33 vs 17✓Fabricar espada✓Fabricar espada
Minero de PiedraFabricar pico después de minar vs. Minar directamente31 vs 13✓Fabricar pico✓Fabricar pico
HerreroReutilizar banco de trabajo vs. Construir nuevo cada vez5 vs 10✓Reutilizar✓Reutilizar

El modelo del mundo aprendido por OneLife identifica correctamente la estrategia más eficiente en todos los escenarios.

Experimentos de Ablación

Comparación de diferentes métodos de inferencia:

  • OneLife (Completo): 18.7% Rank@1, 0.479 MRR
  • Sin Inferencia de Parámetros: 13.0% Rank@1, 0.429 MRR
  • Inferencia PoE-World: 10.8% Rank@1, 0.351 MRR

Los resultados demuestran que el algoritmo de inferencia de OneLife es crucial para la mejora de rendimiento.

Trabajo Relacionado

Modelos Simbólicos del Mundo

  • Enfoques de Programa Único: Tang et al. (2024), Dainese et al. (2024) utilizan síntesis de LLM de programa único
  • Enfoques Compositivos: Piriyakulkij et al. (2025) proponen modelo de producto de expertos
  • Representaciones de Planificación Formal: Construcción de representaciones de planificación simbólica como PDDL

Representaciones de Toma de Decisiones Programática

  • Políticas Programáticas: Proporcionan mejor interpretabilidad y capacidad de generalización
  • Recompensas Programáticas: Generación de funciones de recompensa a partir de instrucciones en lenguaje natural
  • Bibliotecas de Habilidades: Construcción de habilidades componibles de horizonte temporal extendido

Modelación del Mundo para Exploración de Mundo Abierto

  • Modelos Implícitos del Mundo: Exploración impulsada por motivación intrínseca
  • Descubrimiento Científico Automático: Formación autónoma de hipótesis y conducción de experimentos
  • Evaluación de Inducción Rápida: Evaluación de la capacidad del agente para inducir rápidamente modelos del mundo en entornos nuevos

Conclusiones y Discusión

Conclusiones Principales

  1. OneLife resuelve exitosamente el desafío de aprender modelos simbólicos del mundo a partir de interacciones limitadas no guiadas en entornos complejos estocásticos
  2. El mecanismo de activación condicional de reglas programáticas y la actualización de parámetros dispersa son innovaciones clave
  3. El modelo del mundo aprendido respalda planificación y toma de decisiones efectiva

Limitaciones

  1. Cuello de Botella de Exploración: La estrategia de exploración impulsada por LLM aún tiene dificultades para descubrir completamente árboles de tecnología complejos
  2. Problemas de Memoria: El agente de exploración tiende a olvidar información aprendida previamente
  3. Especificidad del Entorno: La implementación actual se enfoca principalmente en el entorno Crafter-OO
  4. Complejidad Computacional: La síntesis de reglas y la inferencia de parámetros tienen sobrecarga computacional considerable

Direcciones Futuras

  1. Mejora de Estrategia de Exploración: Desarrollo de métodos de exploración no guiada más efectivos
  2. Extensión a Otros Entornos: Verificación de capacidad de generalización del marco en diferentes entornos complejos
  3. Aprendizaje En Línea: Respaldar aprendizaje continuo y adaptación
  4. Integración Multimodal: Combinación de información visual y textual para modelación del mundo

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda desafío central en modelación simbólica del mundo—aprendizaje en entornos complejos estocásticos con datos limitados
  2. Innovación Técnica: El mecanismo de activación condicional y estrategia de actualización dispersa poseen innovación significativa
  3. Experimentación Completa: Protocolo de evaluación integral y verificación experimental desde múltiples perspectivas
  4. Valor Práctico: Demuestra efectividad real de aplicaciones de planificación
  5. Contribución Ambiental: Crafter-OO proporciona plataforma de prueba valiosa para modelación simbólica del mundo

Insuficiencias

  1. Dependencia de Exploración: Aún depende de exploración relativamente fuerte impulsada por LLM, que puede limitar generalidad del método
  2. Alcance de Evaluación: Validación principalmente en tipo de entorno único, capacidad de generalización requiere verificación
  3. Análisis Teórico: Carece de garantías teóricas sobre convergencia y complejidad de muestra del método
  4. Eficiencia Computacional: Análisis insuficiente de sobrecarga computacional del proceso de síntesis de reglas

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de investigación para campo de modelación simbólica del mundo
  2. Perspectiva Práctica: Tiene valor potencial de aplicación en IA de juegos, robótica y otros campos
  3. Valor de Código Abierto: Entorno Crafter-OO y marco de evaluación disponibles para comunidad
  4. Inspiración de Método: Ideas de activación condicional y actualización dispersa aplicables a otras tareas de aprendizaje

Escenarios Aplicables

  1. IA de Juegos: Aprendizaje de reglas y planificación de estrategia en juegos de estrategia complejos
  2. Robótica: Modelación de dinámicas y planificación de tareas en entornos desconocidos
  3. Descubrimiento Científico: Generación automática de hipótesis científicas y verificación
  4. Aplicaciones Educativas: Modelación de estudiantes en sistemas de enseñanza inteligente

Referencias

El artículo cita trabajos importantes de múltiples campos incluyendo modelación simbólica del mundo, síntesis de programas, y aprendizaje por refuerzo, proporcionando base de literatura completa para investigación relacionada. Las referencias clave incluyen el entorno Crafter, método PoE-World, y trabajos relacionados sobre aprendizaje de representación programática.


Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones significativas en el campo importante pero desafiante de la modelación simbólica del mundo. El marco OneLife resuelve problemas prácticos mediante diseño técnico ingenioso, verificación experimental completa, y posee valor académico importante y potencial práctico significativo. Aunque existen algunas limitaciones, proporciona dirección clara para investigación futura.