2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

LLM을 이용한 계획 형식화: 자동 계획 모델 구성을 위한 대규모 언어 모델 활용 조사

기본 정보

논문 ID: 2503.18971
제목: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
저자: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
분류: cs.AI
발표 시간: 2025년 3월 (arXiv v2: 2025년 10월 25일)
논문 링크: https://arxiv.org/abs/2503.18971v2

초록

대규모 언어 모델(LLM)은 다양한 자연언어 처리 작업에서 우수한 성능을 보이지만, 구조화된 추론이 필요한 장기 계획 문제에서는 여전히 어려움을 겪고 있습니다. 본 논문은 현재 LLM을 계획 규격의 형식화 및 정제 도구로 위치시켜 신뢰할 수 있는 기성 자동 계획(AP) 시스템을 지원하는 연구 현황을 체계적으로 분석하는 시의적절한 조사를 제공합니다. 본 논문은 약 80개의 관련 연구를 체계적으로 검토하여 방법론을 강조하고, 주요 과제와 향후 방향을 파악하며, 해당 분야의 연구를 촉진하기 위해 오픈소스 Python 라이브러리 Language-to-Plan (L2P)을 제공합니다.

연구 배경 및 동기

1. 핵심 문제

LLM이 자연언어 처리 작업에서 탁월한 성능을 보이지만, 장기 계획 및 추론 작업에서는 성능이 저조하며 종종 신뢰할 수 없는 계획을 생성합니다. LLM을 계획자로 직접 사용하는 방식(LLM-as-Planner)은 출력의 정확성, 최적성 및 신뢰성을 보장할 수 없습니다.

2. 문제의 중요성

계획의 본질: 계획은 System II 인지의 중요한 구성 요소로, 구조화된 추론이 필요하며 LLM은 System I 작업에 더 적합합니다
실제 응용 병목: 계획 모델 추출은 오랫동안 계획 기술의 광범위한 응용의 주요 장애물이었습니다
신뢰성 요구사항: 실제 응용은 검증 가능하고 해석 가능하며 견고한 계획 솔루션이 필요합니다

3. 기존 방법의 한계

직접 계획 방식: LLM이 동작 시퀀스를 직접 생성할 때 반복 피드백에 따라 성능이 저하됩니다
구조화된 보장 부족: LLM은 고전적 계획 시스템처럼 정확성 보장을 제공할 수 없습니다
장기 의존성 문제: 규모가 증가함에 따라 LLM은 동작의 효과와 전제 조건을 고려하지 못하는 경우가 많습니다

4. 연구 동기

본 논문은 LLM-as-Formalizers 패러다임을 제안합니다: LLM의 장점(자연언어에서 계획 모델 규격 추출, 해석 및 정제)을 활용하고 고전적 자동 계획 시스템의 장점(구조화된 표현, 논리 및 탐색 방법)과 결합하여 상호 보완적인 신경-기호 프레임워크를 구축합니다.

핵심 기여

체계적 분류법: LLM 기반 자동 계획 모델 구성의 첫 번째 포괄적 분류 체계를 제안합니다:
- 모델 생성(Model Generation): 작업 건모델링, 영역 모델링, 혼합 모델링
- 모델 편집(Model Editing): 코드 정제 및 오류 수정
- 모델 벤치마크(Model Benchmarks): 평가 프레임워크 및 데이터셋
기술 방법 요약: LLM을 AI 계획 프레임워크에 통합하는 공유 및 혁신적 기술 방법과 그 한계를 체계적으로 정리합니다
연구 문제 프레임워크: 두 가지 핵심 연구 문제(RQ)를 제안합니다:
- RQ1: LLM이 인간의 목표를 정확하게 정렬하여 계획 모델 규격이 원하는 기대와 목표를 올바르게 표현하도록 하려면 어떻게 해야 합니까?
- RQ2: 자연언어 지침을 어느 정도와 세분화 수준까지 정확한 계획 모델 정의로 효과적으로 변환할 수 있습니까?
오픈소스 도구 라이브러리: Language-to-Plan (L2P) 오픈소스 Python 라이브러리를 제공하여 본 조사에서 다룬 표지적 논문의 방법을 구현합니다:
- 포괄적인 PDDL 추출 및 정제 도구 모음
- 유연한 프롬프트 스타일 및 사용자 정의 파이프라인을 지원하는 모듈식 설계
- 완전 자율 엔드-투-엔드 파이프라인 기능
향후 방향 지침: 주요 과제를 파악하고 해당 분야의 향후 연구 방향을 개략적으로 설명합니다

방법 상세 설명

작업 정의

본 조사는 LLM-as-Formalizers 패러다임에 초점을 맞춥니다. 즉, LLM을 사용하여 자동 계획(AP) 모델 규격(주로 PDDL 형식)을 구성한 후 영역 독립적 계획자가 솔루션을 생성합니다. 이는 다음 패러다임과 대조됩니다:

LLM-as-Planners: LLM이 동작 시퀀스를 직접 생성합니다
LLM-as-Heuristics: LLM이 휴리스틱을 통해 탐색 효율성을 향상시킵니다

핵심 프레임워크 분류

1. 모델 생성(Model Generation)

자연언어 입력에서 계획 규격을 추출하고 형식화하며, 세 가지 하위 범주로 나뉩니다:

1.1 작업 모델링(Task Modeling)

목표 규격 방법:
- Few-shot 프롬프팅 (Collins et al., 2022; Grover & Mohan, 2024)
- Chain-of-Thought (CoT) 프롬프팅 (Lyu et al., 2023)
- 다양한 수준의 모호성 처리 (Xie et al., 2023)
완전 작업 규격:
- 개방 루프 시스템: LLM+P는 컨텍스트 예제를 사용하여 완전한 PDDL 문제 파일을 생성합니다
- 폐쇄 루프 시스템: Auto-GPT+P는 시각적 인식을 기반으로 초기 상태를 생성하며 자동 오류 수정 루프를 갖습니다
- 다중 에이전트 협력: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
대체 표현:
- 작업 및 운동 계획을 위한 기하학적 표현
- 시간 논리(TSL, STL, LTL)
- Python 함수 정의 검색 공간

1.2 영역 모델링(Domain Modeling)

단일 쿼리 방법:
- CLLaMP: CVE 설명에서 PDDL 동작 모델 추출
- PROC2PDDL: 근접 발달 영역 프롬프트 설계
- 후보 필터링 방법 (Huang et al., 2024b; Athalye et al., 2024)
반복 생성 방법:
- LLM+DM: "생성-테스트-비판" 방법을 채택하여 여러 LLM 호출을 통해 영역 구성 요소를 증분식으로 구축합니다
- LLM+AL: BC+ 문법의 동작 언어 생성
- LAMP: 추상 PDDL 영역 모델을 학습하는 알고리즘 계열
폐쇄 루프 프레임워크:
- ADA: 후보 기호 작업 분해를 생성하고 정의되지 않은 동작에 대해 반복적으로 프롬프트합니다
- COWP: 개방형 세계 계획에서 예상치 못한 상황을 처리합니다
- LASP: 환경 관찰에서 잠재적 오류를 식별합니다

1.3 혼합 모델링(Hybrid Modeling) PDDL 영역 및 문제 시스템의 완전한 모델 생성을 결합합니다:

기초 방법: Kelly et al. (2023)은 입력 스토리에서 서사 계획을 추출하고 계획자 오류 메시지를 반복적으로 처리합니다
중간 표현 방법:
- NL2Plan: 첫 번째 영역 독립적 오프라인 엔드-투-엔드 NL 계획 시스템
- JSON 토큰 생성, 일관성 검사 및 오류 수정 루프
- 도달 가능성 분석 및 의존성 분석
실제 응용:
- MORPHeus: 인간-기계 협력 장기 계획, 이상 탐지 메커니즘
- InterPret: 사용자 상호작용 언어 피드백을 통해 PDDL 술어 학습
- AgentGen: LLM을 사용하여 훈련용 다양한 PDDL 작업 합성

2. 모델 편집(Model Editing)

LLM이 완전히 자율적인 생성 솔루션이 아닌 보조 도구로 작동합니다:

Gragera & Pozanco (2023): LLM이 해결 불가능한 작업을 수정하는 한계를 연구합니다
Patil (2024): LLM은 구문 수정에 뛰어나지만 의미론적 불일치에서는 신뢰할 수 없습니다
Sikes et al. (2024a): 의미론적으로 동등하지만 구문적으로 다른 상태 변수 문제를 해결합니다
Caglar et al. (2024): LLM이 합리적인 모델 편집을 생성하는 효과를 평가합니다

3. 모델 벤치마크(Model Benchmarks)

계획 작업에서 LLM의 능력과 생성된 계획 규격의 품질을 평가합니다:

3.1 LLM-as-Planner 벤치마크:

Mystery Blocksworld: 훈련 데이터 누출을 감지하기 위해 고전적 Blocksworld를 혼동합니다
ALFWorld & Household: PDDL 의미론을 사용한 실제 가정 환경
TravelPlanner & Natural Plan: 여행 계획 및 실제 일정 벤치마크
PlanBench: 비용 최적 계획 및 계획 검증의 체계적 평가
ACPBench: 표준화된 평가 작업 및 지표, 13개 영역 및 22개 SOTA 모델 포함

3.2 LLM-as-Planning-Formalizers 벤치마크:

Planetarium: LLM이 생성한 PDDL 작업/문제를 평가하며 두 가지 주요 문제를 강조합니다:
- LLM이 유효하지만 원본 NL 설명과 불일치하는 코드를 생성할 수 있습니다
- 평가 세트의 NL 설명이 실제 값과 너무 유사합니다
Text2World:
- 자동화된 영역 추출 파이프라인
- 다중 기준 지표: 실행 가능성, 구조 유사성, 구성 요소 수준 F1 점수
- 한계: 실행 가능성을 게이팅 지표로 사용합니다

기술 혁신 포인트

LLM-Modulo 프레임워크: 외부 검증자를 통한 반복적 계획 정제로 정확성을 보장하며, 초점을 직접 계획에서 통합 검증자가 있는 PDDL 생성으로 이동합니다
중간 표현: ASP, Python, JSON 등 LLM이 더 쉽게 처리할 수 있는 중간 표현을 사용한 후 PDDL로 변환합니다
다중 후보 생성: 여러 후보 영역 또는 특정 구성 요소(예: 술어 정의)를 생성하여 사용자 의도의 모호성과 불확실성에 더 잘 적응합니다
인간-기계 협력: 전처리 단계 및 인간-기계 상호작용 피드백 루프를 통해 모델 품질을 향상시킵니다
모듈식 설계: 동적 유형 및 술어 통합을 지원하여 생성의 후기 단계에서 더 적응적이고 내결함성 있는 계획 시스템을 구현합니다

실험 설정

데이터셋

본 논문은 조사 논문으로서 약 80개의 연구 작업에서 사용된 다양한 데이터셋 및 영역을 포함합니다:

고전적 계획 영역:

Blocksworld
Gripper
Logistics
Floor Tile

실제 환경:

ALFWorld: 가정 환경 상호작용
Household: 전형적인 가정 시나리오
TravelPlanner: 여행 계획 시나리오

전문 영역:

CVE (Common Vulnerabilities and Exposures): 사이버 보안
Emergency Operation Plans (EOPs): 응급 의사결정

평가 지표

계획 품질 지표:

계획 정확성
비용 최적성
실행 가능성

모델 품질 지표:

구조 유사성: 실제 값과의 구조 비교
구성 요소 수준 F1 점수: 술어, 동작 등 구성 요소의 정밀도 및 재현율
작동 동등성: 재구성된 영역이 원본 영역과 동일한 동작을 하는지 여부
의미론적 정확성: 생성된 코드가 원본 NL 설명과 정렬되는지 여부

시스템 성능 지표:

생성 성공률
반복 횟수
인간 개입 필요성

비교 방법

조사에서 다룬 주요 방법 범주:

직접 생성 방법: 단일 LLM 호출로 완전한 PDDL 생성
반복 정제 방법: 여러 호출 및 피드백 루프
혼합 방법: LLM과 전통적 검증 도구 결합
미세 조정 방법: 특정 데이터셋에서 LLM 미세 조정

실험 결과

주요 발견

1. 작업 모델링은 상대적으로 간단합니다

명확한 설명은 번역 정확도를 크게 향상시킵니다 (Liu et al., 2023a)
Few-shot 예제 및 추론 체인 사용은 목표 규격을 향상시킵니다 (Lyu et al., 2023)
TIC는 GPT-3.5 Turbo에서 중간 표현을 사용하여 LLM+P 계획 영역에서 거의 100%의 정확도를 달성합니다

2. 영역 모델링은 더 도전적입니다

단일 생성으로 완전히 기능하는 PDDL 영역을 생성하는 것은 비현실적입니다 (Kambhampati et al., 2024)
반복 방법(예: LLM+DM의 "생성-테스트-비판")은 품질을 크게 향상시킵니다
컨텍스트 예제는 CoT 프롬프팅보다 우수합니다 (Oates et al., 2024)
다중 후보 생성 방법은 사용자 의도의 모호성을 더 잘 처리할 수 있습니다

3. 혼합 모델링의 복잡성

영역과 해당 문제를 조정할 때 복잡성이 발생합니다
선형 파이프라인은 계단식 오류의 위험이 있습니다
전처리 단계(FastDownward, VAL 등 외부 도구 사용)는 성공률을 향상시킵니다
인간-기계 협력은 모델 품질을 크게 향상시킵니다

4. 모델 편집의 효과성

LLM은 구문 수정에서 우수한 성능을 보입니다
의미론적 불일치에서는 덜 신뢰할 수 있습니다 (Patil, 2024)
사후 수정 전략 개발이 필요합니다

5. 벤치마크 테스트 과제

훈련 데이터 누출은 주요 문제입니다 (Hu et al., 2025는 높은 오염률 보고)
동적 벤치마크 표준이 필요합니다
평가 세트의 NL 설명과 실제 값의 유사도는 평가 난이도에 영향을 미칩니다

사례 분석

L2P 라이브러리가 재현한 "action-by-action" 알고리즘 (Guan et al., 2023)

논문은 L2P 라이브러리를 사용하여 Logistics 영역의 술어 및 동작 생성을 재현하는 방법을 보여줍니다:

생성된 술어 예제:

(truck-at ?t - truck ?l - location): 트럭 ?t가 현재 위치 ?l에 있습니다
(package-at ?p - package ?l - location): 패키지 ?p가 현재 위치 ?l에 있습니다
(truck-holding ?t - truck ?p - package): 트럭 ?t가 현재 패키지 ?p를 보유하고 있습니다
(plane-at ?a - plane ?l - location): 비행기 ?a가 위치 ?l에 있습니다

생성된 동작 예제:

load_truck(?p - package, ?t - truck, ?l - location)
  전제 조건: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  효과: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

실험 발견

프롬프트 민감성: LLM은 프롬프트 설계에 매우 민감하며 표준화된 프롬프트 세분화가 필요합니다
중간 표현의 가치: JSON, Python 등 중간 표현을 사용하면 정확도와 일관성을 향상시킬 수 있습니다
검증자의 중요성: 외부 검증 도구(VAL, FastDownward 등) 통합은 품질 보장의 핵심입니다
영역 지식의 역할: 명시적 술어 집합 규격은 다양한 방법 간 평가에 중요합니다
인간-기계 협력의 필요성: 복잡한 영역은 일반적으로 정렬을 보장하기 위해 인간-기계 상호작용이 필요합니다

결론 및 논의

주요 결론

LLM-as-Formalizers는 유망한 패러다임입니다: LLM의 자연언어 이해 능력과 고전적 계획자의 구조화된 추론 능력을 결합합니다
작업 모델링은 상대적으로 성숙합니다: 기존 방법은 명확한 설명 하에서 작업 규격을 효과적으로 생성할 수 있습니다
영역 모델링은 여전히 도전적입니다: 반복 방법, 다중 후보 생성 및 외부 검증이 필요합니다
혼합 모델링은 체계적 방법이 필요합니다: 모듈식 설계 및 오류 허용 메커니즘이 중요합니다
벤치마크 테스트는 지속적인 개선이 필요합니다: 데이터 누출 및 평가 표준화가 주요 문제입니다

한계

조사 범위:
- 주로 PDDL 구성 프레임워크에 초점을 맞춥니다
- 지면 제약으로 인해 각 작업의 기술 분석이 간략적입니다
- 다른 회의/저널의 관련 연구를 놓칠 수 있습니다
L2P 라이브러리의 현재 한계:
- 완전히 관찰 가능한 결정론적 계획의 기본 PDDL 추출 도구만 지원합니다
- 시간 계획 등 고급 영역의 도구는 아직 포함되지 않습니다
방법 한계:
- 대부분의 방법은 명시적 NL에서 PDDL 코드 매핑에 의존합니다
- 희소 입력에서 완전한 규격을 추론하는 능력이 제한적입니다
- 의미론적 오류 처리는 여전히 어렵습니다

향후 방향

RQ1(목표 정렬)에 대한 방향:

해석 가능성 향상: 견고하고 투명하며 수정 가능한 출력을 생성하는 해석 가능한 계획 시스템 개발
수정 피드백 루프: 동작 전제 조건 오류 및 실행 실패 처리 메커니즘 개선
인간-기계 협력: 전처리 단계 및 인간-기계 피드백 루프를 통해 정렬 보장
의미론적 정확성 검증: 생성된 계획의 의미론적 정확성 분석, PDDL 규격 정제의 피드백으로 사용

RQ2(설명 세분화)에 대한 방향:

최소 설명 처리: 희소 입력에서 완전한 PDDL 규격을 추론할 수 있는 방법 개발
상식 추론 통합: LLM의 상식 능력을 활용하여 잠재적 가정 및 제약 조건 포착
표준화된 프롬프트: 초기 생성 및 반복 피드백을 위한 표준화된 프롬프트 세분화 설정
자동 설명 생성: PDDL 설명 자동 생성 도구 개발 (예: Nabizada et al., 2024)

기술 방향:

모듈식 아키텍처: 유형 및 술어의 동적 통합을 지원하는 더 적응적인 시스템
다중 후보 전략: 불확실성을 처리하기 위해 여러 후보 모델 생성 및 평가
사후 수정: 자동 지표 또는 인간 평가를 통해 의미론적 불일치 식별
동적 벤치마크: 데이터 누출을 방지하는 커뮤니티 주도 동적 벤치마크 표준 설정
고급 계획으로 확장: 시간 계획, 확률 계획 등으로 방법 확장

응용 방향:

실제 배포: 로봇, 게임 AI, 응급 대응 등 실제 시나리오에서 테스트
영역 이전: 도메인 간 일반화 능력 향상
다중 모달 통합: 시각, 언어 및 기타 모달 정보 결합

심층 평가

장점

포괄성 및 체계성:
- LLM-as-Formalizers 패러다임에 초점을 맞춘 첫 번째 포괄적 조사
- 약 80개의 관련 연구를 포함하며 분류가 명확합니다
- 작업 모델링에서 영역 모델링을 거쳐 혼합 모델링까지의 완전한 관점을 제공합니다
높은 실용 가치:
- 여러 표지적 방법을 구현한 오픈소스 L2P 라이브러리 제공
- 모듈식 설계는 연구자가 빠르게 실험하고 비교할 수 있도록 지원합니다
- 상세한 코드 예제 및 사용 설명서 포함
문제 지향적:
- RQ1과 RQ2 두 가지 핵심 연구 문제를 명확하게 제시합니다
- 각 하위 분야는 "요약 및 향후 방향"을 제공합니다
- 향후 연구를 위한 명확한 로드맵을 제공합니다
기술 깊이:
- 다양한 방법의 기술 세부 사항을 상세히 분석합니다
- 다양한 프롬프트 전략, 피드백 메커니즘 및 검증 방법을 비교합니다
- PDDL 기초 지식 및 Blocksworld 예제를 제공합니다
비판적 사고:
- 각 방법의 한계를 객관적으로 지적합니다
- 데이터 누출, 평가 표준화 등 주요 문제를 논의합니다
- 의미론적 정확성 대 구문 정확성의 구별을 강조합니다

부족한 점

실증 분석 제한:
- 조사 논문으로서 통합 프레임워크 하에서 체계적인 실험 비교가 부족합니다
- 다양한 방법이 다양한 데이터셋 및 평가 지표를 사용하여 직접 비교가 어렵습니다
- 다양한 방법의 정량적 성능 비교 표를 제공하지 않습니다
L2P 라이브러리의 성숙도:
- 현재 일부 표지적 방법만 재현합니다
- 기본 PDDL만 지원하며 시간, 확률 등 고급 기능은 지원하지 않습니다
- 커뮤니티의 지속적인 기여가 필요합니다
이론 분석 부족:
- LLM이 특정 계획 작업에서 실패하는 이유에 대한 이론적 설명이 부족합니다
- 다양한 아키텍처(GPT vs LLaMA 등)의 차이에 대한 심층 분석이 없습니다
- 프롬프트 엔지니어링의 이론적 기초에 대한 논의가 제한적입니다
평가 방법론:
- 벤치마크 테스트를 논의하지만 통합 평가 프레임워크를 제시하지 않습니다
- "좋은 PDDL 모델"이 무엇인지에 대한 명확한 정의가 부족합니다
- 인간 평가의 표준 및 절차가 충분히 상세하지 않습니다
응용 시나리오 논의:
- 실제 배포의 과제(계산 비용, 지연 등)에 대한 논의가 적습니다
- 다양한 응용 시나리오(로봇, 게임, 일정 등)에 대한 맞춤형 분석이 부족합니다
- 산업 채택의 장애물 및 솔루션에 대한 논의가 부족합니다

영향력

학술 기여:
- NLP 및 AI 계획 커뮤니티 간의 다리 역할
- LLM-as-Formalizers 패러다임을 명확히 정의하고 다른 패러다임과 대조
- 해당 분야에 대한 체계적 분류법 및 용어 체계 설정
실용 가치:
- L2P 라이브러리는 연구 진입 장벽을 낮추고 재현성을 촉진합니다
- 연구자에게 빠른 프로토타입 개발 도구 제공
- LLM+계획 분야의 연구 진행을 가속화할 수 있습니다
커뮤니티 구축:
- 분산된 문헌을 통합하여 통합 관점 제공
- 주요 과제 및 연구 공백 파악
- 새로운 연구 방향 및 협력을 촉발할 수 있습니다
잠재적 영향:
- 해당 분야의 표준 참고 문헌이 될 가능성
- L2P 라이브러리가 커뮤니티 표준 도구가 될 가능성
- 제시된 연구 문제가 향후 수년간의 연구를 지도할 가능성

적용 시나리오

연구자:
- LLM+계획 분야 진입을 위한 입문 가이드
- 연구 공백 및 향후 방향 찾기
- 다양한 방법 비교 및 평가
엔지니어:
- 특정 응용을 위한 적절한 LLM+계획 방법 선택
- L2P 라이브러리를 사용한 빠른 프로토타입 개발
- 다양한 방법의 장단점 및 적용 시나리오 이해
교육 용도:
- LLM+계획 과정의 교재로 사용
- 풍부한 문헌 및 코드 리소스 제공
- 명확한 PDDL 입문 예제 포함
구체적 응용 분야:
- 로봇: 자연언어 지침에서 로봇 작업 계획 생성
- 게임 AI: NPC 행동 계획 모델 생성
- 응급 대응: 정책 문서에서 응급 운영 계획 생성
- 물류: 비즈니스 설명에서 일정 및 경로 계획 생성

참고 문헌

본 조사는 약 80개의 관련 연구를 포함하며, 주요 참고 문헌은 다음과 같습니다:

기초 방법:

Liu et al. (2023a): LLM+P - 최적 계획 능력으로 LLM 강화
Guan et al. (2023): LLM+DM - 사전 훈련된 LLM을 활용한 세계 모델 구축
Kambhampati et al. (2024): LLM-Modulo 프레임워크 - LLM은 계획할 수 없지만 계획을 도울 수 있습니다

벤치마크 테스트:

Valmeekam et al. (2023a): PlanBench - LLM 계획 능력 평가
Zuo et al. (2024): Planetarium - PDDL 문제 생성 평가
Hu et al. (2025): Text2World - 영역 생성 벤치마크

영역 모델링:

Wong et al. (2023): ADA - 동작 영역 획득
Oswald et al. (2024): 작동 동등성 평가
Zhang et al. (2024b): PROC2PDDL - 텍스트에서 PDDL로

응용 시스템:

Gestrin et al. (2024): NL2Plan - 영역 독립적 엔드-투-엔드 시스템
Kelly et al. (2023): 서사 계획의 PDDL 추출
Ye et al. (2024): MORPHeus - 인간-기계 협력 장기 계획

전체 평가: 이것은 LLM을 계획 형식화 도구로 사용하는 연구 현황을 체계적으로 정리한 고품질의 시의적절하고 실용적인 조사 논문입니다. 논문의 분류가 명확하고 분석이 깊으며, 특히 L2P 오픈소스 라이브러리의 기여로 인해 단순한 문헌 조사를 넘어 실행 가능한 연구 도구가 되었습니다. 실증적 비교 및 이론적 분석 측면에서 개선의 여지가 있지만, 해당 분야의 첫 번째 포괄적 조사로서 학술 가치와 실용 가치가 모두 높으며, LLM+자동 계획 분야의 중요한 참고 문헌이 될 것으로 예상됩니다.