2025-11-24T21:37:17.430058

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Khan, Prasad, Stengel-Eskin et al.

Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.

academic

한 번의 삶으로 배우기: 무지도 탐색으로부터 확률적 환경을 위한 기호 세계 모델 추론

기본 정보

논문 ID: 2510.12088
제목: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
저자: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal (UNC Chapel Hill)
분류: cs.AI, cs.CL, cs.LG
발표 시간: 2025년 10월 14일
논문 링크: https://arxiv.org/abs/2510.12088

초록

기호 세계 모델링은 환경의 전이 동역학을 실행 가능한 프로그램으로 추론하고 표현해야 한다. 선행 연구는 주로 풍부한 상호작용 데이터, 단순한 메커니즘, 인간 지도가 있는 결정론적 환경에 초점을 맞추었다. 본 논문은 더욱 현실적이고 도전적인 설정을 다룬다: 복잡한 확률적 환경에서의 학습으로, 에이전트는 적대적 환경을 탐색할 "한 번의 삶"만 가지며 인간 지도가 없다. 본 논문은 OneLife 프레임워크를 제안하며, 확률 프로그래밍 프레임워크 내에서 조건부 활성화된 프로그래밍 규칙을 통해 세계 동역학을 모델링한다. 각 규칙은 전제-효과 구조를 통해 작동하며, 관련 세계 상태에서 활성화된다. 이는 동적 계산 그래프를 생성하여 관련 규칙을 통해서만 추론과 최적화를 라우팅하고, 모든 규칙이 복잡한 계층적 상태를 예측할 때의 확장 문제를 피하며, 희소한 규칙 활성화 상황에서도 확률적 동역학 학습을 가능하게 한다.

연구 배경 및 동기

문제 정의

전통적인 기호 세계 모델링 방법은 다음과 같은 핵심 과제에 직면한다:

데이터 제한: 현실 세계에서 에이전트는 종종 제한된 상호작용만 수행할 수 있으며, 특히 위험한 환경에서는 더욱 그렇다
확률성 처리: 실제 환경은 NPC의 예측 불가능한 행동과 같은 기약 불가능한 확률성을 가진다
외부 지도 부재: 환경 특정 보상이나 인간이 제공한 목표의 부재
복잡성 확장: 환경이 많은 상호작용 메커니즘을 포함할 때 기존 방법의 확장 어려움

연구의 중요성

기호 세계 모델링은 인공지능에 중요한데, 그 이유는:

환경 기저 동역학의 기능적 이해 제공
실제 상호작용 없이 행동 결과 예측 지원
해석 가능하고 편집 가능하며 검증 가능한 표현 구축

기존 방법의 한계

선행 연구는 주로 다음을 가정한다:

발견 가능한 메커니즘 수가 제한적이고 확률성이 낮음
대량의 상호작용 데이터 접근 가능
인간이 제공한 환경 특정 지도(목표/보상) 가용성

이러한 가정은 Minecraft, RuneScape와 같은 복잡한 개방형 세계 환경에서는 종종 성립하지 않는다.

연구 동기

본 논문의 핵심 연구 질문은: 에이전트가 제한된 상호작용 예산과 환경 특정 인간 지도 부재 상황에서, 복잡하고 위험한 확률적 세계의 규칙을 어떻게 역공학할 수 있는가?

핵심 기여

OneLife 프레임워크: 확률적 기호 세계 모델을 제안하여 최소한의 상호작용으로 확률적 적대적 환경에서 학습할 수 있으며, 인간 정의 보상에 접근할 필요가 없다
Crafter-OO 환경: Crafter 환경을 재구현하여 구조화된 객체 지향 기호 상태와 순수 전이 함수를 노출한다
평가 프로토콜: 30개 이상의 실행 가능한 시나리오와 상태 충실도/상태 순위 지표를 포함하는 새로운 세계 모델링 평가 스위트를 도입한다
성능 향상: 23개 테스트 시나리오 중 16개에서 강력한 기준선 방법을 능가하며 계획 능력을 시연한다

방법 상세 설명

작업 정의

환경의 순수 전이 함수 T: S × A → Δ(S)가 주어졌을 때, 여기서:

S: 상태 공간
A: 행동 공간
Δ(S): 상태 공간 위의 확률 분포

목표는 단일 무지도 탐색 궤적에서 기호 세계 모델을 학습하는 것이며, 이 모델은 상태 전이의 확률 분포를 예측할 수 있어야 한다.

모델 아키텍처

1. 세계 모델 표현

OneLife는 환경을 프로그래밍 규칙의 혼합으로 모델링한다:

p(s'|s,a;θ) = ∏_{o∈O} p(o|s,a;θ)

여기서 각 관측 가능량 o의 확률은:

p(o=v|s,a;θ) ∝ ∏_{i∈I_o(s,a)} φ_i(o=v|s,a)^{θ_i}

2. 규칙 구조

각 규칙 L_i는 전제-효과 쌍(c_i, e_i)으로 정의된다:

전제 조건 c_i(s,a) → {true, false}: 규칙이 적용되는지 결정
효과 e_i(s,a) → s': 상태 사본 수정을 통한 예측

3. 동적 계산 그래프

주어진 전이에 대해, 전제 조건을 만족하는 규칙 집합 I(s,a) = {i | c_i(s,a) is true}만 활성화되어 희소한 매개변수 업데이트 메커니즘을 생성한다.

핵심 구성 요소

1. 탐색 전략

대규모 언어 모델 기반 탐색 전략 사용:

목표: 가능한 한 많은 기저 메커니즘 발견
전략: 탐색을 역공학 작업으로 간주
장점: 무작위 전략 대비 생존 시간을 100단계에서 400단계로 향상

2. 규칙 합성기

수작업 설계 합성기가 아닌 일반적 방법 채택:

각 관측된 전이를 설명하는 많은 단순 원자 규칙 제안
원자 규칙: 최소 상태 속성 변화를 설명하는 규칙
세밀한 신용 할당 지원

3. 매개변수 추론

기울기 기반 최적화 알고리즘:

관측된 전이의 로그 우도 최대화
관측 변수에 영향을 미치는 규칙 가중치만 업데이트
L-BFGS를 사용한 최적화

기술 혁신점

조건부 활성화 메커니즘: 전제 조건 구조를 통한 규칙의 선택적 활성화로 무관한 규칙의 간섭 회피
희소 매개변수 업데이트: 관측 변화를 예측하는 활성화된 규칙에만 기울기 업데이트를 수행하여 정확한 신용 할당 제공
원자 규칙 분해: 복잡한 이벤트를 여러 단순 규칙으로 분해하여 학습 정확도 향상
확률 프로그래밍 프레임워크: 확률적 동역학의 모델링 및 추론 지원

실험 설정

데이터셋

Crafter-OO 환경:

Crafter 환경 기반 재구현
구조화된 객체 지향 상태 표현 노출
상당한 확률성과 다양한 메커니즘 포함
프로그래밍 가능한 상태 수정 지원

평가 지표

상태 순위 지표

Rank@1: 실제 다음 상태이 최고 확률로 순위 지정되는지 여부
Mean Reciprocal Rank (MRR): 실제 상태 순위의 역수 평균값

상태 충실도 지표

Raw Edit Distance: 예측 상태와 실제 상태 간의 JSON 패치 연산 수
Normalized Edit Distance: 원본 편집 거리를 상태 표현의 총 요소 수로 나눈 값

비교 방법

Random World Model: 모든 후보 상태에 균등 확률 할당
PoE-World: 최첨단 기호 세계 모델로, 본 논문의 탐색 전략과 규칙 합성기를 사용한 공정한 비교

구현 세부사항

평가 시나리오: 모든 핵심 게임 메커니즘을 다루는 40개 이상의 시나리오
간섭 상태 생성: 8개 변형기가 불법 상태 전이 생성
최적화 알고리즘: L-BFGS
탐색 예산: 단일 궤적, 평균 400단계

실험 결과

주요 결과

방법	Rank@1	MRR	Raw Edit Dist.	Norm. Edit Dist.
Random	8.5%	0.322	121.538	0.809
PoE-World	10.8%	0.351	10.634	0.071
OneLife	18.7%	0.479	8.764	0.058

OneLife는 판별 정확도에서 기준선을 크게 능가한다:

Rank@1 7.9 백분점 향상
MRR 0.128 향상
23개 시나리오 중 16개에서 PoE-World 기준선 능가

세밀한 평가

게임 메커니즘별 분류된 성능 분석은 OneLife가 대부분의 메커니즘에서 우수한 성능을 보임을 나타낸다:

자원 수집: 목재, 돌, 석탄 등 수집 작업
도구 제작: 다양한 곡괭이와 검의 제작
전투 시스템: 좀비, 해골과의 전투
세계 조작: 아이템 배치 및 환경 수정

계획 능력 검증

전방향 시뮬레이션을 통한 계획 능력 테스트, 3개 시나리오에서 검증:

시나리오	계획 설명	평균 단계	실제 환경 선호	OneLife 선호
좀비 전사	검 제작 후 전투 vs 즉시 전투	33 vs 17	✓검 제작	✓검 제작
돌 채광자	곡괭이 제작 후 채광 vs 직접 채광	31 vs 13	✓곡괭이 제작	✓곡괭이 제작
검 장인	작업대 재사용 vs 매번 신규 생성	5 vs 10	✓재사용	✓재사용

OneLife가 학습한 세계 모델은 모든 시나리오에서 더 효율적인 전략을 올바르게 식별했다.

제거 실험

다양한 추론 방법 비교:

OneLife (완전): 18.7% Rank@1, 0.479 MRR
매개변수 추론 없음: 13.0% Rank@1, 0.429 MRR
PoE-World 추론: 10.8% Rank@1, 0.351 MRR

결과는 OneLife의 추론 알고리즘이 성능 향상에 필수적임을 보여준다.

결론 및 논의

주요 결론

OneLife는 복잡한 확률적 환경에서 제한된 무지도 상호작용으로부터 기호 세계 모델 학습의 도전을 성공적으로 해결한다
조건부 활성화된 프로그래밍 규칙과 희소 매개변수 업데이트 메커니즘이 핵심 혁신이다
학습된 세계 모델은 효과적인 계획 및 의사결정을 지원한다

한계

탐색 병목: LLM 기반 탐색 전략은 여전히 복잡한 기술 트리를 완전히 발견하기 어렵다
메모리 문제: 탐색 에이전트는 이전에 학습한 정보를 쉽게 잊는다
환경 특이성: 현재 구현은 주로 Crafter-OO 환경을 대상으로 한다
계산 복잡성: 규칙 합성 및 매개변수 추론의 계산 오버헤드가 크다

향후 방향

탐색 전략 개선: 더 효과적인 무지도 탐색 방법 개발
다른 환경으로 확장: 다양한 복잡한 환경에서 프레임워크의 일반화 능력 검증
온라인 학습: 지속적 학습 및 적응 지원
다중 모달 통합: 시각 및 텍스트 정보를 세계 모델링에 결합

심층 평가

장점

문제의 중요성: 기호 세계 모델링의 핵심 과제인 제한된 데이터 하에서의 복잡한 확률적 환경 학습을 해결한다
기술 혁신: 조건부 활성화 메커니즘과 희소 업데이트 전략은 상당한 혁신성을 가진다
충분한 실험: 포괄적인 평가 프로토콜과 다각적 실험 검증
실용적 가치: 계획 응용의 실제 효과 시연
환경 기여: Crafter-OO는 기호 세계 모델링을 위한 가치 있는 테스트 플랫폼 제공

부족한 점

탐색 의존성: 여전히 상대적으로 강력한 LLM에 의존하여 탐색하며, 방법의 일반성을 제한할 수 있다
평가 범위: 주로 단일 환경 유형에서 검증되어 일반화 능력이 미검증이다
이론 분석: 방법의 수렴성 및 표본 복잡도에 대한 이론적 보증 부재
계산 효율: 규칙 합성 프로세스의 계산 오버헤드 분석 부족

영향력

학술 기여: 기호 세계 모델링 분야에 새로운 연구 패러다임 제공
실용적 전망: 게임 AI, 로봇 공학 등 분야에서 잠재적 응용 가치
오픈소스 가치: Crafter-OO 환경 및 평가 프레임워크를 커뮤니티에 제공 가능
방법론적 영감: 조건부 활성화 및 희소 업데이트 아이디어를 다른 학습 작업에 적용 가능

적용 시나리오

게임 AI: 복잡한 전략 게임의 규칙 학습 및 전략 계획
로봇 공학: 미지의 환경에서의 동역학 모델링 및 작업 계획
과학 발견: 자동화된 과학 가설 생성 및 검증
교육 응용: 지능형 교육 시스템의 학습자 모델링

참고 문헌

논문은 기호 세계 모델링, 프로그램 합성, 강화 학습 등 여러 분야의 중요한 연구를 인용하여 관련 연구에 대한 포괄적인 문헌 기초를 제공한다. 주요 참고 문헌에는 Crafter 환경, PoE-World 방법, 및 다양한 프로그래밍 표현 학습 관련 연구가 포함된다.

종합 평가: 이는 기호 세계 모델링이라는 중요하면서도 도전적인 분야에서 상당한 기여를 한 고품질 연구 논문이다. OneLife 프레임워크는 영리한 기술 설계를 통해 실제 문제를 해결하며, 실험 검증이 충분하고, 중요한 학술적 가치와 실용적 잠재력을 가진다. 일부 한계가 있지만, 향후 연구를 위한 명확한 방향을 제시한다.