2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

基本信息

论文ID: 2503.18971
标题: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
作者: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
分类: cs.AI
发表时间: 2025年3月（arXiv v2: 2025年10月25日）
论文链接: https://arxiv.org/abs/2503.18971v2

摘要

大型语言模型（LLMs）在各种自然语言任务中表现出色，但在需要结构化推理的长期规划问题上仍然存在困难。本文提供了一个及时的综述，系统性地分析了当前将LLMs定位为形式化和精炼规划规范的工具，以支持可靠的现成自动规划（AP）系统的研究现状。论文通过系统回顾约80篇相关工作，突出了方法论，识别了关键挑战和未来方向，并提供了开源Python库Language-to-Plan (L2P)以促进该领域的研究。

研究背景与动机

1. 核心问题

尽管LLMs在自然语言处理任务中表现优异，但在长期规划和推理任务中表现不佳，经常产生不可靠的计划。直接使用LLMs作为规划器（LLM-as-Planner）无法保证输出的正确性、最优性和可靠性。

2. 问题重要性

规划的本质: 规划是System II认知的重要组成部分，需要结构化推理，而LLMs更擅长System I任务
实际应用瓶颈: 提取规划模型长期以来是规划技术广泛应用的主要障碍
可靠性需求: 实际应用需要可验证、可解释且健壮的规划解决方案

3. 现有方法局限

直接规划方法: LLMs直接生成动作序列时，性能随着迭代反馈而下降
缺乏结构化保证: LLMs无法像经典规划系统那样提供正确性保证
长期依赖问题: 随着规模增长，LLMs经常无法考虑动作的效果和前提条件

4. 研究动机

本文提出LLMs-as-Formalizers范式：利用LLMs的优势（从自然语言中提取、解释和精炼规划模型规范），结合经典自动规划系统的优势（结构化表示、逻辑和搜索方法），构建互补的神经符号框架。

核心贡献

系统性分类法: 提出了LLM驱动的自动规划模型构建的首个全面分类体系，包括：
- 模型生成（Model Generation）：任务建模、领域建模、混合建模
- 模型编辑（Model Editing）：代码精炼和错误修复
- 模型基准（Model Benchmarks）：评估框架和数据集
技术方法总结: 系统梳理了将LLMs集成到AI规划框架中的共享和创新技术方法及其局限性
研究问题框架: 提出两个核心研究问题（RQ）：
- RQ1: LLMs如何准确对齐人类目标，确保规划模型规范正确表示期望的期望和目标？
- RQ2: 自然语言指令可以在多大程度和粒度上有效转换为准确的规划模型定义？
开源工具库: 提供**Language-to-Plan (L2P)**开源Python库，实现了综述中涵盖的标志性论文方法，支持：
- 全面的PDDL提取和精炼工具套件
- 模块化设计，支持灵活的提示样式和自定义管道
- 完全自主的端到端管道能力
未来方向指引: 识别关键挑战并概述该领域的未来研究方向

方法详解

任务定义

本综述关注LLMs-as-Formalizers范式，即使用LLMs构建自动规划（AP）模型规范（主要是PDDL格式），然后由领域独立的规划器生成解决方案。这与以下范式形成对比：

LLMs-as-Planners: LLMs直接生成动作序列
LLMs-as-Heuristics: LLMs通过启发式指导增强搜索效率

核心框架分类

1. 模型生成（Model Generation）

从自然语言输入中提取和形式化规划规范，分为三个子类别：

1.1 任务建模（Task Modeling）

目标规范方法:
- Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
- Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
- 处理不同程度的模糊性 (Xie et al., 2023)
完整任务规范:
- 开环系统: LLM+P使用上下文示例生成完整的PDDL问题文件
- 闭环系统: Auto-GPT+P基于视觉感知生成初始状态，并具有自动错误纠正循环
- 多智能体协作: DaTAPlan、PlanCollabNL、TwoStep、LaMMA-P
替代表示:
- 几何表示用于任务和运动规划
- 时序逻辑（TSL, STL, LTL）
- Python函数定义搜索空间

1.2 领域建模（Domain Modeling）

单次查询方法:
- CLLaMP: 从CVE描述提取PDDL动作模型
- PROC2PDDL: Zone of Proximal Development提示设计
- 候选过滤方法（Huang et al., 2024b; Athalye et al., 2024）
迭代生成方法:
- LLM+DM: 采用"生成-测试-批评"方法，通过多次LLM调用增量构建领域组件
- LLM+AL: 生成BC+语法的动作语言
- LAMP: 学习抽象PDDL领域模型的算法系列
闭环框架:
- ADA: 生成候选符号任务分解，迭代提示未定义的动作
- COWP: 处理开放世界规划中的意外情况
- LASP: 从环境观察识别潜在错误

1.3 混合建模（Hybrid Modeling） 结合PDDL领域和问题系统的完整模型生成：

基础方法: Kelly et al. (2023)从输入故事提取叙事规划，迭代处理规划器错误消息
中间表示方法:
- NL2Plan: 首个领域无关的离线端到端NL规划系统
- JSON标记生成、一致性检查和错误纠正循环
- 可达性分析和依赖性分析
实际应用:
- MORPHeus: 人机协作长期规划，异常检测机制
- InterPret: 通过用户交互式语言反馈学习PDDL谓词
- AgentGen: 使用LLMs合成多样化的PDDL任务用于训练

2. 模型编辑（Model Editing）

LLMs作为辅助工具而非完全自主的生成解决方案：

Gragera & Pozanco (2023): 研究LLMs修复不可解任务的局限性
Patil (2024): LLMs擅长语法纠正但在语义不一致方面不可靠
Sikes et al. (2024a): 解决语义等价但语法不同的状态变量问题
Caglar et al. (2024): 评估LLMs生成合理模型编辑的有效性

3. 模型基准（Model Benchmarks）

评估LLMs在规划任务中的能力和生成的规划规范质量：

3.1 LLMs-as-Planner基准:

Mystery Blocksworld: 混淆经典Blocksworld以检测训练数据泄露
ALFWorld & Household: 使用PDDL语义的真实家庭环境
TravelPlanner & Natural Plan: 旅行规划和现实调度基准
PlanBench: 系统评估成本最优规划和计划验证
ACPBench: 标准化评估任务和指标，覆盖13个领域和22个SOTA模型

3.2 LLMs-as-Planning-Formalizers基准:

Planetarium: 评估LLM生成的PDDL任务/问题，强调两个关键问题：
- LLMs可能产生有效但与原始NL描述不一致的代码
- 评估集的NL描述与真实值过于相似
Text2World:
- 自动化领域提取管道
- 多标准指标：可执行性、结构相似性、组件级F1分数
- 局限：依赖可执行性作为门控指标

技术创新点

LLM-Modulo框架: 通过外部验证器进行迭代计划精炼来确保正确性，将焦点从直接规划转移到具有集成验证器的PDDL生成
中间表示: 使用ASP、Python、JSON等更易于LLMs处理的中间表示，然后转换为PDDL
多候选生成: 生成多个候选领域或特定组件（如谓词定义），以更好地适应用户意图中的模糊性和不确定性
人机协作: 通过预处理步骤和人机交互反馈循环增强模型质量
模块化设计: 支持动态集成类型和谓词，在生成的后期阶段实现更适应性和容错的规划系统

实验设置

数据集

本文作为综述论文，涵盖了约80篇研究工作中使用的多种数据集和领域：

经典规划领域:

Blocksworld
Gripper
Logistics
Floor Tile

真实世界环境:

ALFWorld: 家庭环境交互
Household: 典型家庭场景
TravelPlanner: 旅行规划场景

专业领域:

CVE (Common Vulnerabilities and Exposures): 网络安全
Emergency Operation Plans (EOPs): 应急决策

评价指标

规划质量指标:

计划正确性
成本最优性
可执行性

模型质量指标:

结构相似性: 与真实值的结构对比
组件级F1分数: 谓词、动作等组件的精确度和召回率
操作等价性: 重建领域是否与原始领域行为相同
语义正确性: 生成的代码是否与原始NL描述对齐

系统性能指标:

生成成功率
迭代次数
人工干预需求

对比方法

综述涵盖的主要方法类别：

直接生成方法: 单次LLM调用生成完整PDDL
迭代精炼方法: 多次调用和反馈循环
混合方法: 结合LLM和传统验证工具
微调方法: 在特定数据集上微调LLMs

实验结果

主要发现

1. 任务建模相对简单

高度明确的描述显著提高翻译准确性（Liu et al., 2023a）
使用few-shot示例和推理链可以增强目标规范（Lyu et al., 2023）
TIC在GPT-3.5 Turbo上使用中间表示在LLM+P规划领域达到近100%的准确率

2. 领域建模更具挑战性

单次生成完全功能的PDDL领域不切实际（Kambhampati et al., 2024）
迭代方法（如LLM+DM的"生成-测试-批评"）显著提高质量
上下文示例优于CoT提示（Oates et al., 2024）
多候选生成方法可以更好地处理用户意图的模糊性

3. 混合建模的复杂性

协调领域和相应问题时会出现复杂性
线性管道存在级联错误风险
预处理步骤（使用FastDownward、VAL等外部工具）提高成功率
人机协作显著提升模型质量

4. 模型编辑的有效性

LLMs在语法纠正方面表现出色
在语义不一致方面不太可靠（Patil, 2024）
需要开发事后纠正策略

5. 基准测试挑战

训练数据泄露是主要问题（Hu et al., 2025报告高污染率）
需要动态基准标准
评估集的NL描述与真实值的相似度影响评估难度

案例分析

L2P库重现的"action-by-action"算法（Guan et al., 2023）

论文展示了如何使用L2P库重现Logistics域的谓词和动作生成：

生成的谓词示例:

(truck-at ?t - truck ?l - location): 卡车?t当前在位置?l
(package-at ?p - package ?l - location): 包裹?p当前在位置?l
(truck-holding ?t - truck ?p - package): 卡车?t当前持有包裹?p
(plane-at ?a - plane ?l - location): 飞机?a位于位置?l

生成的动作示例:

load_truck(?p - package, ?t - truck, ?l - location)
  前提: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  效果: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

实验发现

提示敏感性: LLMs对提示设计高度敏感，需要标准化提示粒度
中间表示的价值: 使用JSON、Python等中间表示可以提高准确性和一致性
验证器的重要性: 集成外部验证工具（VAL、FastDownward等）是确保质量的关键
领域知识的作用: 明确的谓词集规范对于跨不同方法的评估至关重要
人机协作的必要性: 复杂领域通常需要人机交互来确保对齐

结论与讨论

主要结论

LLMs-as-Formalizers是有前景的范式: 结合LLMs的自然语言理解能力和经典规划器的结构化推理能力
任务建模相对成熟: 现有方法在明确描述下可以有效生成任务规范
领域建模仍具挑战: 需要迭代方法、多候选生成和外部验证
混合建模需要系统性方法: 模块化设计和错误容忍机制至关重要
基准测试需要持续改进: 数据泄露和评估标准化是关键问题

局限性

综述范围:
- 主要关注PDDL构建框架
- 由于篇幅限制，每项工作的技术分析简要
- 可能遗漏其他会议/期刊的相关研究
L2P库的当前限制:
- 仅支持完全可观察的确定性规划的基本PDDL提取工具
- 尚未包含时序规划等高级领域的工具
方法局限性:
- 大多数方法依赖显式的NL到PDDL代码映射
- 从稀疏输入推断完整规范的能力有限
- 语义错误处理仍然困难

未来方向

针对RQ1（目标对齐）:

可解释性增强: 开发可解释的规划系统，产生健壮、透明和可纠正的输出
纠正反馈循环: 改进处理动作前提条件错误和执行失败的机制
人机协作: 通过预处理步骤和人机反馈循环确保对齐
语义正确性验证: 分析生成计划的语义正确性，用作精炼PDDL规范的反馈

针对RQ2（描述粒度）:

最小描述处理: 开发能够从稀疏输入推断完整PDDL规范的方法
常识推理集成: 利用LLMs的常识能力捕获潜在假设和约束
标准化提示: 为初始生成和迭代反馈建立标准化的提示粒度
自动描述生成: 开发自动生成PDDL描述的工具（如Nabizada et al., 2024）

技术方向:

模块化架构: 支持动态集成类型和谓词的更适应性系统
多候选策略: 生成和评估多个候选模型以处理不确定性
事后纠正: 通过自动指标或人工评估系统识别语义不一致
动态基准: 建立社区驱动的动态基准标准，防止数据泄露
扩展到高级规划: 将方法扩展到时序规划、概率规划等

应用方向:

实际部署: 在机器人、游戏AI、应急响应等实际场景中测试
领域迁移: 提高跨领域泛化能力
多模态集成: 结合视觉、语言和其他模态信息

深度评价

优点

全面性和系统性:
- 首个专注于LLMs-as-Formalizers范式的全面综述
- 覆盖约80篇相关工作，分类清晰
- 提供了从任务建模到领域建模再到混合建模的完整视角
实用价值高:
- 提供开源L2P库，实现了多个标志性方法
- 模块化设计支持研究人员快速实验和比较
- 包含详细的代码示例和使用说明
问题导向:
- 明确提出RQ1和RQ2两个核心研究问题
- 每个子领域都提供"Summary and Future Directions"
- 为未来研究提供清晰的路线图
技术深度:
- 详细分析了各种方法的技术细节
- 比较了不同提示策略、反馈机制和验证方法
- 提供了PDDL基础知识和Blocksworld示例
批判性思维:
- 客观指出各方法的局限性
- 讨论了数据泄露、评估标准等关键问题
- 强调了语义正确性vs语法正确性的区别

不足

实证分析有限:
- 作为综述论文，缺乏统一框架下的系统性实验比较
- 不同方法使用不同数据集和评估指标，难以直接比较
- 未提供各方法的定量性能对比表
L2P库的成熟度:
- 目前仅重现了部分标志性方法
- 仅支持基本PDDL，不支持时序、概率等高级特性
- 需要社区持续贡献来保持更新
理论分析不足:
- 缺乏对LLMs为何在某些规划任务上失败的理论解释
- 未深入分析不同架构（GPT vs LLaMA等）的差异
- 对提示工程的理论基础讨论有限
评估方法学:
- 尽管讨论了基准测试，但未提出统一的评估框架
- 对"什么是好的PDDL模型"缺乏明确定义
- 人工评估的标准和流程不够详细
应用场景讨论:
- 对实际部署中的挑战（如计算成本、延迟等）讨论较少
- 缺乏不同应用场景（机器人、游戏、调度等）的针对性分析
- 对工业界采用的障碍和解决方案讨论不足

影响力

学术贡献:
- 为NLP和AI规划社区搭建桥梁
- 明确界定LLMs-as-Formalizers范式，与其他范式形成对比
- 为该领域建立了系统的分类法和术语体系
实用价值:
- L2P库降低了研究门槛，促进可复现性
- 为研究人员提供了快速原型开发工具
- 可能加速LLM+规划领域的研究进展
社区建设:
- 整合了分散的文献，提供统一视角
- 识别了关键挑战和研究空白
- 可能激发新的研究方向和合作
潜在影响:
- 可能成为该领域的标准参考文献
- L2P库有潜力成为社区标准工具
- 提出的研究问题可能引导未来多年的研究

适用场景

研究人员:
- 进入LLM+规划领域的入门指南
- 寻找研究空白和未来方向
- 比较和评估不同方法
工程师:
- 选择合适的LLM+规划方法用于特定应用
- 使用L2P库快速原型开发
- 理解不同方法的优缺点和适用场景
教育用途:
- 作为LLM+规划课程的教材
- 提供丰富的文献和代码资源
- 包含清晰的PDDL入门示例
具体应用领域:
- 机器人: 从自然语言指令生成机器人任务规划
- 游戏AI: 生成NPC行为规划模型
- 应急响应: 从政策文档生成应急操作计划
- 物流: 从业务描述生成调度和路由规划

参考文献

本综述涵盖约80篇相关工作，关键参考文献包括：

基础方法:

Liu et al. (2023a): LLM+P - 使用最优规划能力增强LLMs
Guan et al. (2023): LLM+DM - 利用预训练LLMs构建世界模型
Kambhampati et al. (2024): LLM-Modulo框架 - LLMs无法规划但可以帮助规划

基准测试:

Valmeekam et al. (2023a): PlanBench - 评估LLMs规划能力
Zuo et al. (2024): Planetarium - 评估PDDL问题生成
Hu et al. (2025): Text2World - 领域生成基准

领域建模:

Wong et al. (2023): ADA - 动作领域获取
Oswald et al. (2024): 操作等价性评估
Zhang et al. (2024b): PROC2PDDL - 从文本到PDDL

应用系统:

Gestrin et al. (2024): NL2Plan - 领域无关的端到端系统
Kelly et al. (2023): 叙事规划的PDDL提取
Ye et al. (2024): MORPHeus - 人机协作长期规划

总体评价: 这是一篇高质量、及时且实用的综述论文，系统地梳理了LLMs作为规划形式化工具的研究现状。论文的分类清晰、分析深入，特别是L2P开源库的贡献使其不仅是文献综述，更是可操作的研究工具。尽管在实证比较和理论分析方面有提升空间，但作为该领域首个全面综述，其学术价值和实用价值都很高，有望成为LLM+自动规划领域的重要参考文献。