2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

LLMsを計画形式化器として活用する：大規模言語モデルを用いた自動計画モデル構築に関する調査

基本情報

論文ID: 2503.18971
タイトル: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
著者: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
分類: cs.AI
発表時期: 2025年3月（arXiv v2: 2025年10月25日）
論文リンク: https://arxiv.org/abs/2503.18971v2

要約

大規模言語モデル（LLM）は様々な自然言語処理タスクで優れた性能を示していますが、構造化推論を必要とする長期計画問題では依然として困難に直面しています。本論文は、LLMを計画仕様の形式化と精緻化のツールとして位置付け、信頼性の高い既成の自動計画（AP）システムをサポートする現在の研究状況を体系的に分析した、タイムリーな調査を提供します。論文は約80の関連研究を体系的に検討し、方法論を強調し、主要な課題と将来の方向性を特定し、この分野の研究を促進するためにオープンソースのPythonライブラリLanguage-to-Plan（L2P）を提供しています。

研究背景と動機

1. 中核的な問題

LLMは自然言語処理タスクで優れた性能を示していますが、長期計画と推論タスクでは性能が低く、しばしば信頼性の低い計画を生成します。LLMを計画器として直接使用する（LLM-as-Planner）アプローチでは、出力の正確性、最適性、信頼性を保証することができません。

2. 問題の重要性

計画の本質: 計画はシステムII認知の重要な構成要素であり、構造化推論を必要とします。一方、LLMはシステムIタスクに長けています
実用的応用の瓶頸: 計画モデルの抽出は、計画技術の広範な応用における長年の主要な障害となっています
信頼性要件: 実用的応用では、検証可能で解釈可能かつロバストな計画ソリューションが必要です

3. 既存方法の限界

直接計画方法: LLMが直接行動シーケンスを生成する場合、反復的フィードバックに伴って性能が低下します
構造化保証の欠如: LLMは古典的計画システムのような正確性保証を提供できません
長期依存の問題: スケール増加に伴い、LLMは行動の効果と前提条件を考慮できなくなることが多いです

4. 研究動機

本論文はLLMs-as-Formalizersパラダイムを提案しています：LLMの強み（自然言語からの計画モデル仕様の抽出、解釈、精緻化）と古典的自動計画システムの強み（構造化表現、論理、探索方法）を組み合わせて、相補的なニューロシンボリックフレームワークを構築します。

中核的貢献

体系的分類法: LLM駆動の自動計画モデル構築に関する初の包括的分類体系を提案しており、以下を含みます：
- モデル生成（Model Generation）：タスク建模、領域建模、ハイブリッド建模
- モデル編集（Model Editing）：コード精緻化とエラー修正
- モデルベンチマーク（Model Benchmarks）：評価フレームワークとデータセット
技術方法の総括: LLMをAI計画フレームワークに統合するための共有および革新的な技術方法とその限界を体系的に整理しました
研究問題フレームワーク: 2つの中核的研究問題（RQ）を提案しています：
- RQ1: LLMが人間の目標を正確に整合させ、計画モデル仕様が期待される期待と目標を正しく表現することを確保するにはどうすればよいか？
- RQ2: 自然言語指令は、正確な計画モデル定義への変換にどの程度と粒度まで効果的に変換できるか？
オープンソースツールライブラリ: **Language-to-Plan（L2P）**オープンソースPythonライブラリを提供し、本調査で取り上げた標志的論文の方法を実装しており、以下をサポートしています：
- 包括的なPDDL抽出および精緻化ツールスイート
- 柔軟なプロンプトスタイルとカスタムパイプラインをサポートするモジュール設計
- 完全自律型のエンドツーエンドパイプライン機能
将来方向の指針: 主要な課題を特定し、この分野の将来の研究方向を概説しています

方法の詳細説明

タスク定義

本調査はLLMs-as-Formalizersパラダイムに焦点を当てており、LLMを使用して自動計画（AP）モデル仕様（主にPDDL形式）を構築し、その後、領域独立の計画器がソリューションを生成します。これは以下のパラダイムと対比されます：

LLMs-as-Planners: LLMが直接行動シーケンスを生成
LLMs-as-Heuristics: LLMがヒューリスティックガイダンスを通じて探索効率を向上

中核的フレームワーク分類

1. モデル生成（Model Generation）

自然言語入力から計画仕様を抽出および形式化し、3つのサブカテゴリに分類されます：

1.1 タスク建模（Task Modeling）

目標仕様方法:
- Few-shotプロンプティング（Collins et al., 2022; Grover & Mohan, 2024）
- Chain-of-Thought（CoT）プロンプティング（Lyu et al., 2023）
- 異なる程度の曖昧性の処理（Xie et al., 2023）
完全なタスク仕様:
- オープンループシステム: LLM+Pはコンテキスト例を使用して完全なPDDL問題ファイルを生成
- クローズドループシステム: Auto-GPT+Pは視覚知覚に基づいて初期状態を生成し、自動エラー修正ループを備えています
- マルチエージェント協調: DaTAPlan、PlanCollabNL、TwoStep、LaMMA-P
代替表現:
- タスクと運動計画用の幾何学的表現
- 時間論理（TSL、STL、LTL）
- Python関数定義探索空間

1.2 領域建模（Domain Modeling）

単一クエリ方法:
- CLLaMP: CVE記述からのPDDL動作モデル抽出
- PROC2PDDL: 近接発達ゾーン（ZPD）プロンプト設計
- 候補フィルタリング方法（Huang et al., 2024b; Athalye et al., 2024）
反復生成方法:
- LLM+DM: 「生成-テスト-批評」アプローチを採用し、複数のLLM呼び出しを通じて領域コンポーネントを段階的に構築
- LLM+AL: BC+構文の動作言語を生成
- LAMP: 抽象PDDL領域モデルを学習するアルゴリズムシリーズ
クローズドループフレームワーク:
- ADA: 候補シンボルタスク分解を生成し、未定義の動作に対して反復的にプロンプト
- COWP: オープンワールド計画における予期しない状況を処理
- LASP: 環境観察から潜在的エラーを特定

1.3 ハイブリッド建模（Hybrid Modeling） PDDL領域と問題システムの完全なモデル生成を組み合わせます：

基本方法: Kelly et al.（2023）は入力ストーリーから叙事計画を抽出し、計画器エラーメッセージを反復的に処理
中間表現方法:
- NL2Plan: 最初の領域非依存のオフラインエンドツーエンドNL計画システム
- JSON標記生成、一貫性チェック、エラー修正ループ
- 到達可能性分析と依存性分析
実用的応用:
- MORPHeus: 人間-機械協調長期計画、異常検出メカニズム
- InterPret: ユーザー対話型言語フィードバックを通じたPDDL述語学習
- AgentGen: LLMを使用した多様なPDDLタスク合成による訓練

2. モデル編集（Model Editing）

LLMを完全に自律的な生成ソリューションではなく補助ツールとして使用：

Gragera & Pozanco（2023）: 解不可能なタスク修正におけるLLMの限界を研究
Patil（2024）: LLMは構文修正に優れているが、意味的矛盾では信頼性が低い
Sikes et al.（2024a）: 意味的に等価だが構文的に異なる状態変数問題に対処
Caglar et al.（2024）: LLMが合理的なモデル編集を生成する有効性を評価

3. モデルベンチマーク（Model Benchmarks）

計画タスクにおけるLLMの能力と生成された計画仕様の品質を評価：

3.1 LLMs-as-Planner ベンチマーク:

Mystery Blocksworld: 訓練データ漏洩を検出するための古典的Blocksworldの混乱
ALFWorld & Household: PDDL意味論を使用した実際の家庭環境
TravelPlanner & Natural Plan: 旅行計画と現実的なスケジューリングベンチマーク
PlanBench: コスト最適計画と計画検証の体系的評価
ACPBench: 標準化された評価タスクと指標、13の領域と22のSOTAモデルをカバー

3.2 LLMs-as-Planning-Formalizers ベンチマーク:

Planetarium: LLM生成PDDL タスク/問題の評価、2つの主要な問題を強調：
- LLMは元のNL記述と矛盾する有効なコードを生成する可能性がある
- 評価セットのNL記述が真実値と過度に類似している
Text2World:
- 自動化領域抽出パイプライン
- 複数基準指標：実行可能性、構造相似性、コンポーネントレベルF1スコア
- 限界：実行可能性をゲーティング指標として依存

技術的革新点

LLM-Moduloフレームワーク: 外部検証器を通じた反復計画精緻化により正確性を確保し、焦点を直接計画から統合検証器を備えたPDDL生成に移行
中間表現: ASP、Python、JSONなど、LLMがより処理しやすい中間表現を使用し、その後PDDLに変換
複数候補生成: 複数の候補領域または特定のコンポーネント（述語定義など）を生成し、ユーザー意図の曖昧性と不確実性により適応
人間-機械協調: 前処理ステップと人間-機械相互作用フィードバックループを通じてモデル品質を向上
モジュール設計: 動的型と述語統合をサポートし、生成の後期段階でより適応的でエラー耐性のある計画システムを実現

実験設定

データセット

本論文は調査論文として、約80の研究論文で使用された多様なデータセットと領域をカバーしています：

古典的計画領域:

Blocksworld
Gripper
Logistics
Floor Tile

実世界環境:

ALFWorld: 家庭環境相互作用
Household: 典型的な家庭シナリオ
TravelPlanner: 旅行計画シナリオ

専門領域:

CVE（Common Vulnerabilities and Exposures）: サイバーセキュリティ
Emergency Operation Plans（EOPs）: 緊急意思決定

評価指標

計画品質指標:

計画の正確性
コスト最適性
実行可能性

モデル品質指標:

構造相似性: 真実値との構造比較
コンポーネントレベルF1スコア: 述語、動作などのコンポーネントの精度と再現率
操作等価性: 再構築領域が元の領域と同じ動作をするかどうか
意味的正確性: 生成されたコードが元のNL記述と整合しているかどうか

システムパフォーマンス指標:

生成成功率
反復回数
人的介入の必要性

比較方法

調査でカバーされた主要な方法カテゴリ：

直接生成方法: 単一のLLM呼び出しで完全なPDDLを生成
反復精緻化方法: 複数の呼び出しとフィードバックループ
ハイブリッド方法: LLMと従来の検証ツールの組み合わせ
微調整方法: 特定のデータセット上でのLLM微調整

実験結果

主要な発見

1. タスク建模は比較的単純

高度に明確な記述は翻訳精度を大幅に向上させます（Liu et al., 2023a）
Few-shot例と推論チェーンの使用は目標仕様を向上させることができます（Lyu et al., 2023）
TICはGPT-3.5 Turbo上で中間表現を使用してLLM+P計画領域でほぼ100%の精度を達成

2. 領域建模はより課題が多い

単一の生成で完全に機能するPDDL領域は非現実的です（Kambhampati et al., 2024）
反復方法（LLM+DMの「生成-テスト-批評」など）は品質を大幅に向上させます
コンテキスト例はCoTプロンプティングより優れています（Oates et al., 2024）
複数候補生成方法はユーザー意図の曖昧性をより良く処理できます

3. ハイブリッド建模の複雑性

領域と対応する問題を調整する際に複雑性が発生します
線形パイプラインはカスケードエラーのリスクがあります
前処理ステップ（FastDownward、VALなどの外部ツール使用）は成功率を向上させます
人間-機械協調はモデル品質を大幅に向上させます

4. モデル編集の有効性

LLMは構文修正で優れた性能を示します
意味的矛盾では信頼性が低い（Patil、2024）
事後修正戦略の開発が必要です

5. ベンチマークテストの課題

訓練データ漏洩は主要な問題です（Hu et al., 2025は高い汚染率を報告）
動的ベンチマーク標準が必要です
評価セットのNL記述と真実値の類似性は評価難度に影響します

ケーススタディ

L2Pライブラリで再現された「action-by-action」アルゴリズム（Guan et al., 2023）

論文はL2Pライブラリを使用してLogistics領域の述語と動作生成を再現する方法を示しています：

生成された述語の例:

(truck-at ?t - truck ?l - location): トラック?tは現在位置?lにいます
(package-at ?p - package ?l - location): パッケージ?pは現在位置?lにあります
(truck-holding ?t - truck ?p - package): トラック?tは現在パッケージ?pを保持しています
(plane-at ?a - plane ?l - location): 飛行機?aは位置?lにあります

生成された動作の例:

load_truck(?p - package, ?t - truck, ?l - location)
  前提条件: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  効果: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

実験の発見

プロンプト感度: LLMはプロンプト設計に高度に敏感であり、標準化されたプロンプト粒度が必要です
中間表現の価値: JSON、Pythonなどの中間表現を使用することで、精度と一貫性を向上させることができます
検証器の重要性: 外部検証ツール（VAL、FastDownwardなど）の統合は品質保証の鍵です
領域知識の役割: 明示的な述語セット仕様は、異なる方法間の評価に重要です
人間-機械協調の必要性: 複雑な領域は通常、整合性を確保するための人間-機械相互作用を必要とします

結論と議論

主要な結論

LLMs-as-Formalizersは有望なパラダイム: LLMの自然言語理解能力と古典的計画器の構造化推論能力を組み合わせます
タスク建模は比較的成熟: 既存の方法は明確な記述の下で効果的にタスク仕様を生成できます
領域建模は依然として課題: 反復方法、複数候補生成、外部検証が必要です
ハイブリッド建模は体系的アプローチが必要: モジュール設計とエラー耐性メカニズムが重要です
ベンチマークテストは継続的改善が必要: データ漏洩と評価標準化は主要な問題です

限界

調査範囲:
- 主にPDDL構築フレームワークに焦点
- スペースの制限により、各作業の技術分析は簡潔
- 他の会議/ジャーナルの関連研究を見落とす可能性があります
L2Pライブラリの現在の限界:
- 完全に観察可能な決定論的計画の基本的なPDDL抽出ツールのみをサポート
- 時間計画などの高度な領域のツールはまだ含まれていません
方法の限界:
- ほとんどの方法は明示的なNLからPDDLコードへのマッピングに依存
- スパース入力から完全な仕様を推論する能力は限定的
- 意味的エラー処理は依然として困難です

将来の方向

RQ1（目標整合）に対して:

解釈可能性の向上: ロバスト、透明、修正可能な出力を生成する解釈可能な計画システムを開発
修正フィードバックループ: 動作前提条件エラーと実行失敗を処理するメカニズムを改善
人間-機械協調: 前処理ステップと人間-機械フィードバックループを通じて整合性を確保
意味的正確性検証: 生成された計画の意味的正確性を分析し、PDDL仕様精緻化のフィードバックとして使用

RQ2（記述粒度）に対して:

最小記述処理: スパース入力から完全なPDDL仕様を推論できる方法を開発
常識推論統合: LLMの常識能力を活用して潜在的な仮定と制約をキャプチャ
標準化プロンプト: 初期生成と反復フィードバックのための標準化されたプロンプト粒度を確立
自動記述生成: PDDL記述を自動生成するツール開発（Nabizada et al., 2024など）

技術方向:

モジュール設計: 型と述語の動的統合をサポートするより適応的なシステム
複数候補戦略: 不確実性を処理するための複数の候補モデルを生成および評価
事後修正: 自動指標または人的評価を通じて意味的矛盾を特定するシステム
動的ベンチマーク: データ漏洩を防ぐためのコミュニティ駆動の動的ベンチマーク標準を確立
高度な計画への拡張: 時間計画、確率計画などへの方法拡張

応用方向:

実用的展開: ロボット、ゲームAI、緊急対応などの実際のシナリオでテスト
領域転移: 領域間の一般化能力を向上
マルチモーダル統合: ビジョン、言語、その他のモダリティ情報を組み合わせ

深度評価

強み

包括性と体系性:
- LLMs-as-Formalizersパラダイムに焦点を当てた最初の包括的調査
- 約80の関連研究をカバーし、分類が明確
- タスク建模から領域建模、ハイブリッド建模までの完全な視点を提供
実用的価値が高い:
- オープンソースL2Pライブラリを提供し、複数の標志的方法を実装
- モジュール設計は研究者が迅速に実験および比較することをサポート
- 詳細なコード例と使用説明を含む
問題指向:
- RQ1とRQ2の2つの中核的研究問題を明確に提案
- 各サブ分野は「Summary and Future Directions」を提供
- 将来の研究のための明確なロードマップを提供
技術的深さ:
- 様々な方法の技術的詳細を詳細に分析
- 異なるプロンプト戦略、フィードバックメカニズム、検証方法を比較
- PDDL基礎知識とBlocksworldの例を提供
批判的思考:
- 各方法の限界を客観的に指摘
- データ漏洩、評価標準などの主要な問題を議論
- 意味的正確性対構文的正確性の区別を強調

不足

実証分析が限定的:
- 調査論文として、統一フレームワーク下での体系的な実験比較が不足
- 異なる方法は異なるデータセットと評価指標を使用し、直接比較が困難
- 各方法の定量的性能比較表を提供していません
L2Pライブラリの成熟度:
- 現在、標志的方法の一部のみを再現
- 基本的なPDDLのみをサポートし、時間、確率などの高度な機能をサポートしていません
- コミュニティの継続的な貢献が必要です
理論分析が不足:
- LLMが特定の計画タスクで失敗する理由の理論的説明が不足
- 異なるアーキテクチャ（GPT対LLaMAなど）の差異の深い分析がない
- プロンプトエンジニアリングの理論的基礎の議論が限定的
評価方法論:
- ベンチマークテストについて議論していますが、統一された評価フレームワークを提案していません
- 「良いPDDLモデル」とは何かについて明確な定義が不足
- 人的評価の標準と手順が十分に詳細ではありません
応用シナリオの議論:
- 実際の展開における課題（計算コスト、遅延など）についての議論が少ない
- 異なる応用シナリオ（ロボット、ゲーム、スケジューリングなど）の針対的分析が不足
- 業界採用の障害と解決策についての議論が不足

影響力

学術的貢献:
- NLPとAI計画コミュニティ間の橋渡し
- LLMs-as-Formalizersパラダイムを明確に定義し、他のパラダイムと対比
- この分野に体系的な分類法と用語体系を確立
実用的価値:
- L2Pライブラリは研究の敷居を低下させ、再現性を促進
- 研究者に迅速なプロトタイプ開発ツールを提供
- LLM+計画分野の研究進展を加速させる可能性があります
コミュニティ構築:
- 分散した文献を統合し、統一的な視点を提供
- 主要な課題と研究空白を特定
- 新しい研究方向と協力を刺激する可能性があります
潜在的な影響:
- この分野の標準的な参考文献となる可能性
- L2Pライブラリはコミュニティ標準ツールになる可能性
- 提案された研究問題は今後数年の研究を導く可能性があります

適用シナリオ

研究者:
- LLM+計画分野への入門ガイド
- 研究空白と将来の方向を探索
- 異なる方法の比較と評価
エンジニア:
- 特定の応用に適したLLM+計画方法を選択
- L2Pライブラリを使用した迅速なプロトタイプ開発
- 異なる方法の長所と短所と適用シナリオを理解
教育用途:
- LLM+計画コースの教材として
- 豊富な文献とコードリソースを提供
- 明確なPDDL入門例を含む
具体的な応用分野:
- ロボット工学: 自然言語指令からロボットタスク計画を生成
- ゲームAI: NPC行動計画モデルを生成
- 緊急対応: ポリシー文書から緊急操作計画を生成
- ロジスティクス: ビジネス記述からスケジューリングおよびルーティング計画を生成

参考文献

本調査は約80の関連研究をカバーしており、主要な参考文献には以下が含まれます：

基本的方法:

Liu et al.（2023a）: LLM+P - 最適計画能力でLLMを強化
Guan et al.（2023）: LLM+DM - 事前訓練されたLLMを活用して世界モデルを構築
Kambhampati et al.（2024）: LLM-Moduloフレームワーク - LLMは計画できないが計画を支援できる

ベンチマークテスト:

Valmeekam et al.（2023a）: PlanBench - LLM計画能力の評価
Zuo et al.（2024）: Planetarium - PDDL問題生成の評価
Hu et al.（2025）: Text2World - 領域生成ベンチマーク

領域建模:

Wong et al.（2023）: ADA - 動作領域取得
Oswald et al.（2024）: 操作等価性評価
Zhang et al.（2024b）: PROC2PDDL - テキストからPDDLへ

応用システム:

Gestrin et al.（2024）: NL2Plan - 領域非依存のエンドツーエンドシステム
Kelly et al.（2023）: 叙事計画のPDDL抽出
Ye et al.（2024）: MORPHeus - 人間-機械協調長期計画

総合評価: これは高品質で、タイムリーで、実用的な調査論文であり、LLMを計画形式化ツールとして活用する研究の現状を体系的に整理しています。論文の分類は明確で、分析は深く、特にL2Pオープンソースライブラリの貢献により、文献調査だけでなく、操作可能な研究ツールとなっています。実証比較と理論分析の面で改善の余地がありますが、この分野の最初の包括的調査として、その学術的価値と実用的価値は非常に高く、LLM+自動計画分野の重要な参考文献となる可能性があります。