2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
academic

Una Vita per Imparare: Inferenza di Modelli Mondiali Simbolici per Ambienti Stocastici da Esplorazione Non Guidata

Informazioni Fondamentali

  • ID Articolo: 2510.12088
  • Titolo: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
  • Autori: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
  • Classificazione: cs.AI, cs.CL, cs.LG
  • Data di Pubblicazione: 14 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.12088

Riassunto

La modellazione simbolica del mondo richiede l'inferenza e la rappresentazione della dinamica di transizione dell'ambiente come programmi eseguibili. I lavori precedenti si sono concentrati principalmente su ambienti deterministici con dati di interazione abbondanti, meccanismi semplici e guida umana. Questo articolo affronta un'impostazione più realistica e impegnativa: l'apprendimento in ambienti stocastici complessi, dove l'agente ha "una sola vita" per esplorare un ambiente ostile senza guida umana. L'articolo propone il framework OneLife, che modella la dinamica del mondo attraverso regole programmatiche attivate condizionatamente all'interno di un framework di programmazione probabilistica. Ogni regola opera attraverso una struttura premessa-effetto, attivandosi negli stati mondiali rilevanti. Questo crea un grafo computazionale dinamico che instrada il ragionamento e l'ottimizzazione solo attraverso le regole rilevanti, evitando le sfide di scalabilità quando tutte le regole predicono stati gerarchici complessi, e consentendo l'apprendimento della dinamica stocastica anche con attivazione di regole sparse.

Contesto e Motivazione della Ricerca

Definizione del Problema

I metodi tradizionali di modellazione simbolica del mondo affrontano le seguenti sfide chiave:

  1. Limitazioni dei Dati: Nel mondo reale, gli agenti spesso possono effettuare solo interazioni limitate, specialmente in ambienti pericolosi
  2. Gestione della Stocasticità: Gli ambienti reali presentano stocasticità irriducibile, come il comportamento imprevedibile dei PNGi
  3. Assenza di Guida Esterna: Mancanza di ricompense specifiche dell'ambiente o obiettivi forniti da umani
  4. Scalabilità della Complessità: I metodi esistenti faticano a scalare quando l'ambiente contiene numerosi meccanismi di interazione

Importanza della Ricerca

La modellazione simbolica del mondo è cruciale per l'intelligenza artificiale perché consente di:

  • Fornire una comprensione funzionale della dinamica sottostante dell'ambiente
  • Supportare la previsione delle conseguenze delle azioni senza interazione effettiva
  • Costruire rappresentazioni interpretabili, modificabili e verificabili

Limitazioni dei Metodi Esistenti

La ricerca precedente presuppone principalmente:

  • Un numero limitato di meccanismi rilevabili e bassa stocasticità
  • Accesso a grandi quantità di dati di interazione
  • Guida umana specifica dell'ambiente (obiettivi/ricompense)

Questi presupposti spesso non si verificano in ambienti aperti complessi (come MineCraft, RuneScape).

Motivazione della Ricerca

La domanda di ricerca centrale è: Come può un agente invertire l'ingegneria delle regole di mondi stocastici complessi e pericolosi con un budget di interazione limitato e senza guida umana specifica dell'ambiente?

Contributi Principali

  1. Framework OneLife: Propone un modello simbolico probabilistico del mondo che può apprendere da ambienti stocastici ostili con interazioni minime, senza accesso a ricompense definite da umani
  2. Ambiente Crafter-OO: Reimplementazione dell'ambiente Crafter che espone uno stato simbolico strutturato orientato agli oggetti e funzioni di transizione pure
  3. Protocollo di Valutazione: Introduce una nuova suite di valutazione della modellazione del mondo contenente 30+ scenari eseguibili e metriche di fedeltà dello stato/ordinamento dello stato
  4. Miglioramento delle Prestazioni: Supera i metodi di base forti in 16/23 scenari di test e dimostra capacità di pianificazione

Dettagli del Metodo

Definizione del Compito

Data la funzione di transizione pura dell'ambiente T: S × A → Δ(S), dove:

  • S: spazio degli stati
  • A: spazio delle azioni
  • Δ(S): distribuzione di probabilità sullo spazio degli stati

L'obiettivo è apprendere un modello simbolico del mondo da una singola traiettoria di esplorazione non guidata, che possa prevedere la distribuzione di probabilità delle transizioni di stato.

Architettura del Modello

1. Rappresentazione del Modello Mondiale

OneLife modella l'ambiente come una miscela di regole programmatiche:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

dove la probabilità per ogni osservabile o è:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Struttura delle Regole

Ogni regola L_i è definita da una coppia premessa-effetto (c_i, e_i):

  • Premessa c_i(s,a) → {true, false}: determina se la regola è applicabile
  • Effetto e_i(s,a) → s': predice modificando una copia dello stato

3. Grafo Computazionale Dinamico

Per una data transizione, solo l'insieme di regole che soddisfano la premessa I(s,a) = {i | c_i(s,a) è vero} viene attivato, creando un meccanismo di aggiornamento dei parametri sparse.

Componenti Principali

1. Strategia di Esplorazione

Utilizza una strategia di esplorazione guidata da modelli di linguaggio di grandi dimensioni:

  • Obiettivo: scoprire il maggior numero possibile di meccanismi sottostanti
  • Strategia: considerare l'esplorazione come un compito di ingegneria inversa
  • Vantaggio: il tempo di sopravvivenza aumenta da 100 a 400 passi rispetto a strategie casuali

2. Sintetizzatore di Regole

Adotta un approccio generale piuttosto che sintetizzatori progettati manualmente:

  • Propone numerose regole atomiche semplici per spiegare ogni transizione osservata
  • Regole atomiche: descrivono i cambiamenti di attributi di stato minimi
  • Supporta l'assegnazione del credito a grana fine

3. Inferenza dei Parametri

Algoritmo di ottimizzazione basato su gradienti:

  • Massimizza la verosimiglianza logaritmica delle transizioni osservate
  • Aggiorna solo i pesi delle regole attivate che influenzano le variabili osservate
  • Utilizza L-BFGS per l'ottimizzazione

Punti di Innovazione Tecnica

  1. Meccanismo di Attivazione Condizionata: Realizza l'attivazione selettiva delle regole attraverso la struttura della premessa, evitando l'interferenza di regole non rilevanti
  2. Aggiornamento dei Parametri Sparse: Aggiorna i gradienti solo per le regole attivate che predicono i cambiamenti osservati, fornendo un'assegnazione precisa del credito
  3. Decomposizione di Regole Atomiche: Scompone eventi complessi in più regole semplici, migliorando la precisione dell'apprendimento
  4. Framework di Programmazione Probabilistica: Supporta la modellazione e il ragionamento della dinamica stocastica

Configurazione Sperimentale

Dataset

Ambiente Crafter-OO:

  • Reimplementazione basata sull'ambiente Crafter
  • Espone una rappresentazione dello stato strutturata orientata agli oggetti
  • Contiene stocasticità significativa e meccanismi diversificati
  • Supporta la modifica dello stato programmatica

Metriche di Valutazione

Metriche di Ordinamento dello Stato

  • Rank@1: Se lo stato successivo vero è classificato con la probabilità più alta
  • Mean Reciprocal Rank (MRR): Media del reciproco della classificazione dello stato vero

Metriche di Fedeltà dello Stato

  • Raw Edit Distance: Numero di operazioni di patch JSON tra lo stato predetto e quello vero
  • Normalized Edit Distance: Distanza di modifica grezza divisa per il numero totale di elementi nella rappresentazione dello stato

Metodi di Confronto

  • Random World Model: Assegna probabilità uniforme a tutti gli stati candidati
  • PoE-World: Modello simbolico del mondo all'avanguardia, utilizzato con la strategia di esplorazione e il sintetizzatore di regole dell'articolo per un confronto equo

Dettagli di Implementazione

  • Scenari di valutazione: 40+ scenari che coprono tutti i meccanismi di gioco principali
  • Generazione di stati di disturbo: 8 variatori producono transizioni di stato illegittime
  • Algoritmo di ottimizzazione: L-BFGS
  • Budget di esplorazione: singola traiettoria, media 400 passi

Risultati Sperimentali

Risultati Principali

MetodoRank@1MRRRaw Edit Dist.Norm. Edit Dist.
Random8.5%0.322121.5380.809
PoE-World10.8%0.35110.6340.071
OneLife18.7%0.4798.7640.058

OneLife supera significativamente i metodi di base in termini di accuratezza discriminativa:

  • Miglioramento di Rank@1 di 7.9 punti percentuali
  • Miglioramento di MRR di 0.128
  • Supera il metodo di base PoE-World in 16/23 scenari

Valutazione a Grana Fine

L'analisi delle prestazioni classificate per meccanismo di gioco mostra che OneLife eccelle nella maggior parte dei meccanismi:

  • Raccolta di Risorse: Compiti di raccolta di legno, pietra, carbone, ecc.
  • Creazione di Attrezzi: Creazione di vari picconi e spade
  • Sistema di Combattimento: Combattimento con zombie e scheletri
  • Operazioni Mondiali: Posizionamento di oggetti e modifica dell'ambiente

Verifica della Capacità di Pianificazione

Testata attraverso simulazione in avanti in 3 scenari:

ScenarioDescrizione del PianoPassi MediPreferenza Ambiente RealePreferenza OneLife
Guerriero ZombieCreare spada dopo il combattimento vs combattimento immediato33 vs 17✓Creare spada✓Creare spada
Minatore di PietraCreare piccone dopo l'estrazione vs estrazione diretta31 vs 13✓Creare piccone✓Creare piccone
SpadaioRiutilizzare banco di lavoro vs crearne uno nuovo ogni volta5 vs 10✓Riutilizzare✓Riutilizzare

Il modello mondiale appreso da OneLife identifica correttamente la strategia più efficiente in tutti gli scenari.

Esperimenti di Ablazione

Confronto di diversi metodi di inferenza:

  • OneLife (Completo): 18.7% Rank@1, 0.479 MRR
  • Senza Inferenza dei Parametri: 13.0% Rank@1, 0.429 MRR
  • Inferenza PoE-World: 10.8% Rank@1, 0.351 MRR

I risultati dimostrano che l'algoritmo di inferenza di OneLife è cruciale per il miglioramento delle prestazioni.

Lavori Correlati

Modelli Simbolici del Mondo

  • Approcci Monolitici: Tang et al. (2024), Dainese et al. (2024) utilizzano LLM per sintetizzare un singolo programma
  • Approcci Composizionali: Piriyakulkij et al. (2025) propongono modelli di prodotto di esperti
  • Rappresentazioni di Pianificazione Formale: Costruzione di rappresentazioni di pianificazione simbolica come PDDL

Rappresentazioni di Decisione Programmatica

  • Politiche Programmatiche: Forniscono migliore interpretabilità e capacità di generalizzazione
  • Ricompense Programmatiche: Generazione di funzioni di ricompensa da istruzioni in linguaggio naturale
  • Librerie di Competenze: Costruzione di competenze temporalmente estese componibili

Modellazione del Mondo con Esplorazione Aperta

  • Modelli Mondiali Impliciti: Esplorazione guidata da motivazione intrinseca
  • Scoperta Scientifica Automatizzata: Formazione autonoma di ipotesi e conduzione di esperimenti
  • Valutazione di Induzione Rapida: Valutazione della capacità dell'agente di indurre rapidamente modelli mondiali in nuovi ambienti

Conclusioni e Discussione

Conclusioni Principali

  1. OneLife risolve con successo la sfida di apprendere modelli simbolici del mondo da interazioni limitate e non guidate in ambienti stocastici complessi
  2. Il meccanismo di attivazione condizionata di regole programmatiche e l'aggiornamento dei parametri sparse sono innovazioni chiave
  3. Il modello mondiale appreso supporta una pianificazione e un processo decisionale efficaci

Limitazioni

  1. Collo di Bottiglia dell'Esplorazione: La strategia di esplorazione guidata da LLM fatica ancora a scoprire completamente alberi tecnologici complessi
  2. Problemi di Memoria: L'agente esploratore tende a dimenticare le informazioni apprese in precedenza
  3. Specificità dell'Ambiente: L'implementazione attuale è principalmente mirata all'ambiente Crafter-OO
  4. Complessità Computazionale: Il costo computazionale della sintesi delle regole e dell'inferenza dei parametri è considerevole

Direzioni Future

  1. Miglioramento della Strategia di Esplorazione: Sviluppo di metodi di esplorazione non guidata più efficaci
  2. Estensione ad Altri Ambienti: Verifica della capacità di generalizzazione del framework in diversi ambienti complessi
  3. Apprendimento Online: Supporto per l'apprendimento continuo e l'adattamento
  4. Integrazione Multimodale: Combinazione di informazioni visive e testuali per la modellazione mondiale

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta le sfide centrali nella modellazione simbolica del mondo — apprendimento in ambienti stocastici complessi con dati limitati
  2. Innovazione Tecnica: Il meccanismo di attivazione condizionata e la strategia di aggiornamento sparse presentano innovazione significativa
  3. Esperimenti Completi: Protocollo di valutazione completo e verifica sperimentale da molteplici angolazioni
  4. Valore Pratico: Dimostra l'effetto pratico dell'applicazione di pianificazione
  5. Contributo Ambientale: Crafter-OO fornisce una piattaforma di test preziosa per la modellazione simbolica del mondo

Insufficienze

  1. Dipendenza dall'Esplorazione: Dipende ancora da esplorazione relativamente potente guidata da LLM, che potrebbe limitare l'universalità del metodo
  2. Portata della Valutazione: Principalmente verificato su un singolo tipo di ambiente, la capacità di generalizzazione rimane da verificare
  3. Analisi Teorica: Mancanza di garanzie teoriche sulla convergenza e sulla complessità del campione del metodo
  4. Efficienza Computazionale: Analisi insufficiente del costo computazionale del processo di sintesi delle regole

Impatto

  1. Contributo Accademico: Fornisce un nuovo paradigma di ricerca per il campo della modellazione simbolica del mondo
  2. Prospettive Pratiche: Potenziale valore applicativo in IA per giochi, robotica e altri campi
  3. Valore Open Source: L'ambiente Crafter-OO e il framework di valutazione possono essere utilizzati dalla comunità
  4. Ispirazione Metodologica: Le idee di attivazione condizionata e aggiornamento sparse possono essere applicate ad altri compiti di apprendimento

Scenari Applicabili

  1. IA per Giochi: Apprendimento delle regole e pianificazione strategica in giochi strategici complessi
  2. Robotica: Modellazione della dinamica e pianificazione dei compiti in ambienti sconosciuti
  3. Scoperta Scientifica: Generazione e verifica automatizzate di ipotesi scientifiche
  4. Applicazioni Educative: Modellazione degli studenti in sistemi di insegnamento intelligente

Bibliografia

L'articolo cita lavori importanti da molteplici campi della modellazione simbolica del mondo, sintesi di programmi e apprendimento per rinforzo, fornendo una base bibliografica completa per la ricerca correlata. Le referenze chiave includono l'ambiente Crafter, il metodo PoE-World e vari lavori correlati sull'apprendimento di rappresentazioni programmatiche.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi significativi nel campo importante ma impegnativo della modellazione simbolica del mondo. Il framework OneLife risolve problemi pratici attraverso una progettazione tecnica intelligente, la verifica sperimentale è completa e possiede importante valore accademico e potenziale pratico. Nonostante alcune limitazioni, fornisce direzioni chiare per la ricerca futura.