2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.

Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.

academic

Una Vita per Imparare: Inferenza di Modelli Mondiali Simbolici per Ambienti Stocastici da Esplorazione Non Guidata

Informazioni Fondamentali

ID Articolo: 2510.12088
Titolo: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
Autori: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
Classificazione: cs.AI, cs.CL, cs.LG
Data di Pubblicazione: 14 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.12088

Riassunto

La modellazione simbolica del mondo richiede l'inferenza e la rappresentazione della dinamica di transizione dell'ambiente come programmi eseguibili. I lavori precedenti si sono concentrati principalmente su ambienti deterministici con dati di interazione abbondanti, meccanismi semplici e guida umana. Questo articolo affronta un'impostazione più realistica e impegnativa: l'apprendimento in ambienti stocastici complessi, dove l'agente ha "una sola vita" per esplorare un ambiente ostile senza guida umana. L'articolo propone il framework OneLife, che modella la dinamica del mondo attraverso regole programmatiche attivate condizionatamente all'interno di un framework di programmazione probabilistica. Ogni regola opera attraverso una struttura premessa-effetto, attivandosi negli stati mondiali rilevanti. Questo crea un grafo computazionale dinamico che instrada il ragionamento e l'ottimizzazione solo attraverso le regole rilevanti, evitando le sfide di scalabilità quando tutte le regole predicono stati gerarchici complessi, e consentendo l'apprendimento della dinamica stocastica anche con attivazione di regole sparse.

Contesto e Motivazione della Ricerca

Definizione del Problema

I metodi tradizionali di modellazione simbolica del mondo affrontano le seguenti sfide chiave:

Limitazioni dei Dati: Nel mondo reale, gli agenti spesso possono effettuare solo interazioni limitate, specialmente in ambienti pericolosi
Gestione della Stocasticità: Gli ambienti reali presentano stocasticità irriducibile, come il comportamento imprevedibile dei PNGi
Assenza di Guida Esterna: Mancanza di ricompense specifiche dell'ambiente o obiettivi forniti da umani
Scalabilità della Complessità: I metodi esistenti faticano a scalare quando l'ambiente contiene numerosi meccanismi di interazione

Importanza della Ricerca

La modellazione simbolica del mondo è cruciale per l'intelligenza artificiale perché consente di:

Fornire una comprensione funzionale della dinamica sottostante dell'ambiente
Supportare la previsione delle conseguenze delle azioni senza interazione effettiva
Costruire rappresentazioni interpretabili, modificabili e verificabili

Limitazioni dei Metodi Esistenti

La ricerca precedente presuppone principalmente:

Un numero limitato di meccanismi rilevabili e bassa stocasticità
Accesso a grandi quantità di dati di interazione
Guida umana specifica dell'ambiente (obiettivi/ricompense)

Questi presupposti spesso non si verificano in ambienti aperti complessi (come MineCraft, RuneScape).

Motivazione della Ricerca

La domanda di ricerca centrale è: Come può un agente invertire l'ingegneria delle regole di mondi stocastici complessi e pericolosi con un budget di interazione limitato e senza guida umana specifica dell'ambiente?

Contributi Principali

Framework OneLife: Propone un modello simbolico probabilistico del mondo che può apprendere da ambienti stocastici ostili con interazioni minime, senza accesso a ricompense definite da umani
Ambiente Crafter-OO: Reimplementazione dell'ambiente Crafter che espone uno stato simbolico strutturato orientato agli oggetti e funzioni di transizione pure
Protocollo di Valutazione: Introduce una nuova suite di valutazione della modellazione del mondo contenente 30+ scenari eseguibili e metriche di fedeltà dello stato/ordinamento dello stato
Miglioramento delle Prestazioni: Supera i metodi di base forti in 16/23 scenari di test e dimostra capacità di pianificazione

Dettagli del Metodo

Definizione del Compito

Data la funzione di transizione pura dell'ambiente T: S × A → Δ(S), dove:

S: spazio degli stati
A: spazio delle azioni
Δ(S): distribuzione di probabilità sullo spazio degli stati

L'obiettivo è apprendere un modello simbolico del mondo da una singola traiettoria di esplorazione non guidata, che possa prevedere la distribuzione di probabilità delle transizioni di stato.

Architettura del Modello

1. Rappresentazione del Modello Mondiale

OneLife modella l'ambiente come una miscela di regole programmatiche:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

dove la probabilità per ogni osservabile o è:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. Struttura delle Regole

Ogni regola L_i è definita da una coppia premessa-effetto (c_i, e_i):

Premessa c_i(s,a) → {true, false}: determina se la regola è applicabile
Effetto e_i(s,a) → s': predice modificando una copia dello stato

3. Grafo Computazionale Dinamico

Per una data transizione, solo l'insieme di regole che soddisfano la premessa I(s,a) = {i | c_i(s,a) è vero} viene attivato, creando un meccanismo di aggiornamento dei parametri sparse.

Componenti Principali

1. Strategia di Esplorazione

Utilizza una strategia di esplorazione guidata da modelli di linguaggio di grandi dimensioni:

Obiettivo: scoprire il maggior numero possibile di meccanismi sottostanti
Strategia: considerare l'esplorazione come un compito di ingegneria inversa
Vantaggio: il tempo di sopravvivenza aumenta da 100 a 400 passi rispetto a strategie casuali

2. Sintetizzatore di Regole

Adotta un approccio generale piuttosto che sintetizzatori progettati manualmente:

Propone numerose regole atomiche semplici per spiegare ogni transizione osservata
Regole atomiche: descrivono i cambiamenti di attributi di stato minimi
Supporta l'assegnazione del credito a grana fine

3. Inferenza dei Parametri

Algoritmo di ottimizzazione basato su gradienti:

Massimizza la verosimiglianza logaritmica delle transizioni osservate
Aggiorna solo i pesi delle regole attivate che influenzano le variabili osservate
Utilizza L-BFGS per l'ottimizzazione

Punti di Innovazione Tecnica

Meccanismo di Attivazione Condizionata: Realizza l'attivazione selettiva delle regole attraverso la struttura della premessa, evitando l'interferenza di regole non rilevanti
Aggiornamento dei Parametri Sparse: Aggiorna i gradienti solo per le regole attivate che predicono i cambiamenti osservati, fornendo un'assegnazione precisa del credito
Decomposizione di Regole Atomiche: Scompone eventi complessi in più regole semplici, migliorando la precisione dell'apprendimento
Framework di Programmazione Probabilistica: Supporta la modellazione e il ragionamento della dinamica stocastica

Configurazione Sperimentale

Dataset

Ambiente Crafter-OO:

Reimplementazione basata sull'ambiente Crafter
Espone una rappresentazione dello stato strutturata orientata agli oggetti
Contiene stocasticità significativa e meccanismi diversificati
Supporta la modifica dello stato programmatica

Metriche di Valutazione

Metriche di Ordinamento dello Stato

Rank@1: Se lo stato successivo vero è classificato con la probabilità più alta
Mean Reciprocal Rank (MRR): Media del reciproco della classificazione dello stato vero

Metriche di Fedeltà dello Stato

Raw Edit Distance: Numero di operazioni di patch JSON tra lo stato predetto e quello vero
Normalized Edit Distance: Distanza di modifica grezza divisa per il numero totale di elementi nella rappresentazione dello stato

Metodi di Confronto

Random World Model: Assegna probabilità uniforme a tutti gli stati candidati
PoE-World: Modello simbolico del mondo all'avanguardia, utilizzato con la strategia di esplorazione e il sintetizzatore di regole dell'articolo per un confronto equo

Dettagli di Implementazione

Scenari di valutazione: 40+ scenari che coprono tutti i meccanismi di gioco principali
Generazione di stati di disturbo: 8 variatori producono transizioni di stato illegittime
Algoritmo di ottimizzazione: L-BFGS
Budget di esplorazione: singola traiettoria, media 400 passi

Risultati Sperimentali

Risultati Principali

Metodo	Rank@1	MRR	Raw Edit Dist.	Norm. Edit Dist.
Random	8.5%	0.322	121.538	0.809
PoE-World	10.8%	0.351	10.634	0.071
OneLife	18.7%	0.479	8.764	0.058

OneLife supera significativamente i metodi di base in termini di accuratezza discriminativa:

Miglioramento di Rank@1 di 7.9 punti percentuali
Miglioramento di MRR di 0.128
Supera il metodo di base PoE-World in 16/23 scenari

Valutazione a Grana Fine

L'analisi delle prestazioni classificate per meccanismo di gioco mostra che OneLife eccelle nella maggior parte dei meccanismi:

Raccolta di Risorse: Compiti di raccolta di legno, pietra, carbone, ecc.
Creazione di Attrezzi: Creazione di vari picconi e spade
Sistema di Combattimento: Combattimento con zombie e scheletri
Operazioni Mondiali: Posizionamento di oggetti e modifica dell'ambiente

Verifica della Capacità di Pianificazione

Testata attraverso simulazione in avanti in 3 scenari:

Scenario	Descrizione del Piano	Passi Medi	Preferenza Ambiente Reale	Preferenza OneLife
Guerriero Zombie	Creare spada dopo il combattimento vs combattimento immediato	33 vs 17	✓Creare spada	✓Creare spada
Minatore di Pietra	Creare piccone dopo l'estrazione vs estrazione diretta	31 vs 13	✓Creare piccone	✓Creare piccone
Spadaio	Riutilizzare banco di lavoro vs crearne uno nuovo ogni volta	5 vs 10	✓Riutilizzare	✓Riutilizzare

Il modello mondiale appreso da OneLife identifica correttamente la strategia più efficiente in tutti gli scenari.

Esperimenti di Ablazione

Confronto di diversi metodi di inferenza:

OneLife (Completo): 18.7% Rank@1, 0.479 MRR
Senza Inferenza dei Parametri: 13.0% Rank@1, 0.429 MRR
Inferenza PoE-World: 10.8% Rank@1, 0.351 MRR

I risultati dimostrano che l'algoritmo di inferenza di OneLife è cruciale per il miglioramento delle prestazioni.

Lavori Correlati

Modelli Simbolici del Mondo

Approcci Monolitici: Tang et al. (2024), Dainese et al. (2024) utilizzano LLM per sintetizzare un singolo programma
Approcci Composizionali: Piriyakulkij et al. (2025) propongono modelli di prodotto di esperti
Rappresentazioni di Pianificazione Formale: Costruzione di rappresentazioni di pianificazione simbolica come PDDL

Rappresentazioni di Decisione Programmatica

Politiche Programmatiche: Forniscono migliore interpretabilità e capacità di generalizzazione
Ricompense Programmatiche: Generazione di funzioni di ricompensa da istruzioni in linguaggio naturale
Librerie di Competenze: Costruzione di competenze temporalmente estese componibili

Modellazione del Mondo con Esplorazione Aperta

Modelli Mondiali Impliciti: Esplorazione guidata da motivazione intrinseca
Scoperta Scientifica Automatizzata: Formazione autonoma di ipotesi e conduzione di esperimenti
Valutazione di Induzione Rapida: Valutazione della capacità dell'agente di indurre rapidamente modelli mondiali in nuovi ambienti

Conclusioni e Discussione

Conclusioni Principali

OneLife risolve con successo la sfida di apprendere modelli simbolici del mondo da interazioni limitate e non guidate in ambienti stocastici complessi
Il meccanismo di attivazione condizionata di regole programmatiche e l'aggiornamento dei parametri sparse sono innovazioni chiave
Il modello mondiale appreso supporta una pianificazione e un processo decisionale efficaci

Limitazioni

Collo di Bottiglia dell'Esplorazione: La strategia di esplorazione guidata da LLM fatica ancora a scoprire completamente alberi tecnologici complessi
Problemi di Memoria: L'agente esploratore tende a dimenticare le informazioni apprese in precedenza
Specificità dell'Ambiente: L'implementazione attuale è principalmente mirata all'ambiente Crafter-OO
Complessità Computazionale: Il costo computazionale della sintesi delle regole e dell'inferenza dei parametri è considerevole

Direzioni Future

Miglioramento della Strategia di Esplorazione: Sviluppo di metodi di esplorazione non guidata più efficaci
Estensione ad Altri Ambienti: Verifica della capacità di generalizzazione del framework in diversi ambienti complessi
Apprendimento Online: Supporto per l'apprendimento continuo e l'adattamento
Integrazione Multimodale: Combinazione di informazioni visive e testuali per la modellazione mondiale

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta le sfide centrali nella modellazione simbolica del mondo — apprendimento in ambienti stocastici complessi con dati limitati
Innovazione Tecnica: Il meccanismo di attivazione condizionata e la strategia di aggiornamento sparse presentano innovazione significativa
Esperimenti Completi: Protocollo di valutazione completo e verifica sperimentale da molteplici angolazioni
Valore Pratico: Dimostra l'effetto pratico dell'applicazione di pianificazione
Contributo Ambientale: Crafter-OO fornisce una piattaforma di test preziosa per la modellazione simbolica del mondo

Insufficienze

Dipendenza dall'Esplorazione: Dipende ancora da esplorazione relativamente potente guidata da LLM, che potrebbe limitare l'universalità del metodo
Portata della Valutazione: Principalmente verificato su un singolo tipo di ambiente, la capacità di generalizzazione rimane da verificare
Analisi Teorica: Mancanza di garanzie teoriche sulla convergenza e sulla complessità del campione del metodo
Efficienza Computazionale: Analisi insufficiente del costo computazionale del processo di sintesi delle regole

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di ricerca per il campo della modellazione simbolica del mondo
Prospettive Pratiche: Potenziale valore applicativo in IA per giochi, robotica e altri campi
Valore Open Source: L'ambiente Crafter-OO e il framework di valutazione possono essere utilizzati dalla comunità
Ispirazione Metodologica: Le idee di attivazione condizionata e aggiornamento sparse possono essere applicate ad altri compiti di apprendimento

Scenari Applicabili

IA per Giochi: Apprendimento delle regole e pianificazione strategica in giochi strategici complessi
Robotica: Modellazione della dinamica e pianificazione dei compiti in ambienti sconosciuti
Scoperta Scientifica: Generazione e verifica automatizzate di ipotesi scientifiche
Applicazioni Educative: Modellazione degli studenti in sistemi di insegnamento intelligente

Bibliografia

L'articolo cita lavori importanti da molteplici campi della modellazione simbolica del mondo, sintesi di programmi e apprendimento per rinforzo, fornendo una base bibliografica completa per la ricerca correlata. Le referenze chiave includono l'ambiente Crafter, il metodo PoE-World e vari lavori correlati sull'apprendimento di rappresentazioni programmatiche.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi significativi nel campo importante ma impegnativo della modellazione simbolica del mondo. Il framework OneLife risolve problemi pratici attraverso una progettazione tecnica intelligente, la verifica sperimentale è completa e possiede importante valore accademico e potenziale pratico. Nonostante alcune limitazioni, fornisce direzioni chiare per la ricerca futura.