2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

LLMs als Planungsformalisatoren: Eine Übersicht zur Nutzung großer Sprachmodelle zur Konstruktion automatisierter Planungsmodelle

Grundlegende Informationen

Papier-ID: 2503.18971
Titel: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Autoren: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
Klassifizierung: cs.AI
Veröffentlichungsdatum: März 2025 (arXiv v2: 25. Oktober 2025)
Papierlink: https://arxiv.org/abs/2503.18971v2

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Leistungen bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung, haben jedoch Schwierigkeiten bei langfristigen Planungsproblemen, die strukturiertes Denken erfordern. Dieses Papier bietet eine zeitnahe Übersicht, die systematisch den aktuellen Forschungsstand analysiert, in dem LLMs als Werkzeuge zur Formalisierung und Verfeinerung von Planungsspezifikationen positioniert werden, um zuverlässige, einsatzbereite automatisierte Planungssysteme (AP) zu unterstützen. Das Papier überprüft systematisch etwa 80 verwandte Arbeiten, hebt Methoden hervor, identifiziert Schlüsselherausforderungen und zukünftige Richtungen und bietet eine Open-Source-Python-Bibliothek Language-to-Plan (L2P) zur Förderung der Forschung in diesem Bereich.

Forschungshintergrund und Motivation

1. Kernproblem

Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Leistungen zeigen, schneiden sie bei langfristigen Planungs- und Denkaufgaben schlecht ab und erzeugen häufig unzuverlässige Pläne. Die direkte Verwendung von LLMs als Planer (LLM-as-Planner) kann nicht die Korrektheit, Optimalität und Zuverlässigkeit der Ausgabe garantieren.

2. Bedeutung des Problems

Wesen der Planung: Planung ist ein wesentlicher Bestandteil des System-II-Denkens und erfordert strukturiertes Denken, während LLMs bei System-I-Aufgaben besser sind
Engpass in praktischen Anwendungen: Die Extraktion von Planungsmodellen ist seit langem ein Haupthindernis für die breite Anwendung von Planungstechnologien
Zuverlässigkeitsanforderungen: Praktische Anwendungen erfordern verifizierbare, interpretierbare und robuste Planungslösungen

3. Einschränkungen bestehender Methoden

Direkte Planungsmethoden: Wenn LLMs direkt Aktionssequenzen generieren, sinkt die Leistung mit iterativem Feedback
Fehlende strukturierte Garantien: LLMs können keine Korrektheitszusicherungen wie klassische Planungssysteme bieten
Langzeitabhängigkeitsprobleme: Mit zunehmender Skalierung können LLMs häufig die Auswirkungen und Vorbedingungen von Aktionen nicht berücksichtigen

4. Forschungsmotivation

Dieses Papier schlägt das Paradigma LLMs-as-Formalizers vor: Nutzung der Stärken von LLMs (Extraktion, Interpretation und Verfeinerung von Planungsspezifikationen aus natürlicher Sprache) in Kombination mit den Stärken klassischer automatisierter Planungssysteme (strukturierte Darstellung, Logik und Suchmethoden) zur Konstruktion eines komplementären neurosymbolischen Rahmens.

Kernbeiträge

Systematische Klassifizierung: Vorschlag der ersten umfassenden Klassifizierungstaxonomie für LLM-gesteuerte Konstruktion automatisierter Planungsmodelle, einschließlich:
- Modellgenerierung (Model Generation): Aufgabenmodellierung, Domänenmodellierung, Hybridmodellierung
- Modellbearbeitung (Model Editing): Codeverfeinerung und Fehlerbehebung
- Modellbenchmarks (Model Benchmarks): Bewertungsrahmen und Datensätze
Zusammenfassung technischer Methoden: Systematische Übersicht gemeinsamer und innovativer technischer Methoden zur Integration von LLMs in AI-Planungsrahmen und deren Einschränkungen
Forschungsfragen-Rahmen: Vorschlag zweier Kernforschungsfragen (RQ):
- RQ1: Wie können LLMs menschliche Ziele genau ausrichten und sicherstellen, dass Planungsspezifikationen die beabsichtigten Erwartungen und Ziele korrekt darstellen?
- RQ2: In welchem Umfang und auf welcher Granularitätsebene können natürlichsprachliche Anweisungen effektiv in genaue Planungsmodelldefinitionen umgewandelt werden?
Open-Source-Toolbibliothek: Bereitstellung der Language-to-Plan (L2P) Open-Source-Python-Bibliothek, die Methoden aus Arbeiten implementiert, die in der Übersicht behandelt werden, und unterstützt:
- Umfassende PDDL-Extraktions- und Verfeinerungswerkzeugsuite
- Modulares Design, das flexible Prompt-Stile und benutzerdefinierte Pipelines unterstützt
- Vollständig autonome End-to-End-Pipeline-Fähigkeiten
Anleitung zu zukünftigen Richtungen: Identifikation von Schlüsselherausforderungen und Skizzierung zukünftiger Forschungsrichtungen in diesem Bereich

Methodische Details

Aufgabendefinition

Diese Übersicht konzentriert sich auf das Paradigma LLMs-as-Formalizers, d.h. die Verwendung von LLMs zur Konstruktion von Spezifikationen automatisierter Planungsmodelle (hauptsächlich im PDDL-Format), die dann von domänenunabhängigen Planern zur Lösungsgenerierung verwendet werden. Dies steht im Gegensatz zu den folgenden Paradigmen:

LLMs-as-Planners: LLMs generieren direkt Aktionssequenzen
LLMs-as-Heuristics: LLMs verbessern die Sucheffizienz durch heuristische Führung

Kernrahmen-Klassifizierung

1. Modellgenerierung (Model Generation)

Extraktion und Formalisierung von Planungsspezifikationen aus natürlichsprachlichen Eingaben, unterteilt in drei Unterkategorien:

1.1 Aufgabenmodellierung (Task Modeling)

Zielspezifikationsmethoden:
- Few-shot Prompting (Collins et al., 2022; Grover & Mohan, 2024)
- Chain-of-Thought (CoT) Prompting (Lyu et al., 2023)
- Umgang mit verschiedenen Ambiguitätsgraden (Xie et al., 2023)
Vollständige Aufgabenspezifikation:
- Offene Systeme: LLM+P verwendet Kontextbeispiele zur Generierung vollständiger PDDL-Problemdateien
- Geschlossene Systeme: Auto-GPT+P generiert Initialzustände basierend auf visueller Wahrnehmung mit automatischen Fehlerkorrektionsschleifen
- Multi-Agent-Zusammenarbeit: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
Alternative Darstellungen:
- Geometrische Darstellungen für Aufgaben- und Bewegungsplanung
- Temporale Logik (TSL, STL, LTL)
- Python-Funktionsdefinitionen für Suchraum

1.2 Domänenmodellierung (Domain Modeling)

Einzelabfrage-Methoden:
- CLLaMP: Extraktion von PDDL-Aktionsmodellen aus CVE-Beschreibungen
- PROC2PDDL: Zone of Proximal Development Prompt-Design
- Kandidatenfilterungsmethoden (Huang et al., 2024b; Athalye et al., 2024)
Iterative Generierungsmethoden:
- LLM+DM: Anwendung eines "Generate-Test-Critique"-Ansatzes, inkrementelle Konstruktion von Domänenkomponenten durch mehrere LLM-Aufrufe
- LLM+AL: Generierung von BC+ Aktionssprache
- LAMP: Algorithmische Familie zum Lernen abstrakter PDDL-Domänenmodelle
Geschlossene Rahmen:
- ADA: Generierung von Kandidaten-Symboltaskzerlegungen, iteratives Prompting undefinierter Aktionen
- COWP: Umgang mit unerwarteten Situationen in offener Weltplanung
- LASP: Identifikation potenzieller Fehler aus Umgebungsbeobachtungen

1.3 Hybridmodellierung (Hybrid Modeling) Kombinierte Generierung vollständiger Modelle von PDDL-Domänen und Problemsystemen:

Grundlegende Methoden: Kelly et al. (2023) extrahieren narrative Planung aus Eingabegeschichten, iterativ Planerfehler verarbeitend
Methoden mit Zwischendarstellung:
- NL2Plan: Erstes domänenunabhängiges Offline-End-to-End-NL-Planungssystem
- JSON-Token-Generierung, Konsistenzprüfung und Fehlerkorrektionsschleifen
- Erreichbarkeitsanalyse und Abhängigkeitsanalyse
Praktische Anwendungen:
- MORPHeus: Mensch-Maschine-Zusammenarbeit bei langfristiger Planung, Anomalieerkennung
- InterPret: Lernen von PDDL-Prädikaten durch interaktives Benutzersprachfeedback
- AgentGen: Verwendung von LLMs zur Synthese vielfältiger PDDL-Aufgaben für Training

2. Modellbearbeitung (Model Editing)

LLMs als Hilfswerkzeuge statt vollständig autonome Generierungslösungen:

Gragera & Pozanco (2023): Untersuchung der Einschränkungen von LLMs bei der Behebung unlösbarer Aufgaben
Patil (2024): LLMs sind bei Syntaxkorrekturen hervorragend, aber bei semantischen Inkonsistenzen unzuverlässig
Sikes et al. (2024a): Adressierung von semantisch äquivalenten, aber syntaktisch unterschiedlichen Zustandsvariablenproblemen
Caglar et al. (2024): Bewertung der Effektivität von LLMs bei der Generierung angemessener Modellbearbeitungen

3. Modellbenchmarks (Model Benchmarks)

Bewertung der Fähigkeiten von LLMs bei Planungsaufgaben und Qualität generierter Planungsspezifikationen:

3.1 LLMs-as-Planner Benchmarks:

Mystery Blocksworld: Verwirrung des klassischen Blocksworld zur Erkennung von Trainings-Datenlecks
ALFWorld & Household: Echte Haushaltsumgebungen mit PDDL-Semantik
TravelPlanner & Natural Plan: Reiseplanungs- und reale Planungsbenchmarks
PlanBench: Systematische Bewertung kostenoptimaler Planung und Planverifizierung
ACPBench: Standardisierte Bewertung von Aufgaben und Metriken, 13 Domänen und 22 SOTA-Modelle abdeckend

3.2 LLMs-as-Planning-Formalizers Benchmarks:

Planetarium: Bewertung von LLM-generierten PDDL-Aufgaben/Problemen, zwei Schlüsselprobleme hervorhebend:
- LLMs können gültigen, aber mit ursprünglicher NL-Beschreibung inkonsistenten Code erzeugen
- NL-Beschreibungen des Bewertungssatzes sind der Grundwahrheit zu ähnlich
Text2World:
- Automatisierte Domänenextraktions-Pipeline
- Multi-Kriterien-Metriken: Ausführbarkeit, Strukturähnlichkeit, Komponenten-Level-F1-Score
- Einschränkung: Abhängigkeit von Ausführbarkeit als Gating-Metrik

Technische Innovationen

LLM-Modulo-Rahmen: Iterative Planverfeinerung durch externe Validatoren zur Gewährleistung der Korrektheit, Verschiebung des Fokus von direkter Planung zu PDDL-Generierung mit integrierten Validatoren
Zwischendarstellungen: Verwendung von ASP, Python, JSON und anderen Zwischendarstellungen, die für LLMs leichter zu verarbeiten sind, dann Konvertierung zu PDDL
Multi-Kandidaten-Generierung: Generierung mehrerer Kandidatendomänen oder spezifischer Komponenten (z.B. Prädikatdefinitionen) zur besseren Anpassung an Mehrdeutigkeit und Unsicherheit in Benutzerintentionen
Mensch-Maschine-Zusammenarbeit: Verbesserung der Modellqualität durch Vorverarbeitungsschritte und Mensch-Maschine-Interaktions-Feedback-Schleifen
Modulares Design: Unterstützung dynamischer Integration von Typen und Prädikaten, Ermöglichung adaptiverer und fehlertoleranter Planungssysteme in späteren Generierungsphasen

Experimentelle Einrichtung

Datensätze

Dieses Papier als Übersichtspapier deckt mehrere Datensätze und Domänen ab, die in etwa 80 Forschungsarbeiten verwendet werden:

Klassische Planungsdomänen:

Blocksworld
Gripper
Logistics
Floor Tile

Echte Umgebungen:

ALFWorld: Haushaltsumgebungsinteraktion
Household: Typische Haushaltsszenarien
TravelPlanner: Reiseplanungsszenarien

Spezialisierte Domänen:

CVE (Common Vulnerabilities and Exposures): Cybersicherheit
Emergency Operation Plans (EOPs): Notfallentscheidungsfindung

Bewertungsmetriken

Planungsqualitätsmetriken:

Planungskorrektheit
Kostenoptimalität
Ausführbarkeit

Modellqualitätsmetriken:

Strukturähnlichkeit: Strukturvergleich mit Grundwahrheit
Komponenten-Level-F1-Score: Präzision und Rückruf von Komponenten wie Prädikaten und Aktionen
Operationale Äquivalenz: Ob die rekonstruierte Domäne sich wie die ursprüngliche Domäne verhält
Semantische Korrektheit: Ob generierter Code mit ursprünglicher NL-Beschreibung übereinstimmt

Systemleistungsmetriken:

Generierungserfolgsquote
Iterationszahl
Bedarf für menschliche Intervention

Vergleichsmethoden

Hauptmethodenkategorien in der Übersicht:

Direkte Generierungsmethoden: Einzelner LLM-Aufruf zur Generierung vollständiger PDDL
Iterative Verfeinerungsmethoden: Mehrere Aufrufe und Feedback-Schleifen
Hybridmethoden: Kombination von LLM und traditionellen Validierungswerkzeugen
Fine-Tuning-Methoden: Fine-Tuning von LLMs auf spezifischen Datensätzen

Experimentelle Ergebnisse

Hauptfunde

1. Aufgabenmodellierung ist relativ einfach

Hochgradig explizite Beschreibungen verbessern die Übersetzungsgenauigkeit erheblich (Liu et al., 2023a)
Verwendung von Few-Shot-Beispielen und Reasoning-Ketten können Zielspezifikationen verbessern (Lyu et al., 2023)
TIC erreicht mit GPT-3.5 Turbo unter Verwendung von Zwischendarstellungen nahezu 100% Genauigkeit in der LLM+P-Planungsdomäne

2. Domänenmodellierung ist herausfordernder

Einmalige Generierung vollständig funktionsfähiger PDDL-Domänen ist unpraktisch (Kambhampati et al., 2024)
Iterative Methoden (wie LLM+DMs "Generate-Test-Critique") verbessern die Qualität erheblich
Kontextbeispiele übertreffen CoT-Prompting (Oates et al., 2024)
Multi-Kandidaten-Generierungsmethoden können Mehrdeutigkeit in Benutzerintentionen besser handhaben

3. Komplexität der Hybridmodellierung

Komplexität tritt bei der Koordination von Domäne und entsprechenden Problemen auf
Lineare Pipelines haben Kaskadenfehlrisiko
Vorverarbeitungsschritte (mit FastDownward, VAL und anderen externen Werkzeugen) erhöhen die Erfolgsquote
Mensch-Maschine-Zusammenarbeit verbessert die Modellqualität erheblich

4. Effektivität der Modellbearbeitung

LLMs zeigen hervorragende Leistung bei Syntaxkorrekturen
Weniger zuverlässig bei semantischen Inkonsistenzen (Patil, 2024)
Entwicklung von Nachbearbeitungskorrekturstrategien erforderlich

5. Benchmark-Herausforderungen

Trainings-Datenlecks sind ein Hauptproblem (Hu et al., 2025 berichten hohe Kontaminationsraten)
Dynamische Benchmark-Standards erforderlich
NL-Beschreibungen des Bewertungssatzes beeinflussen die Bewertungsschwierigkeit

Fallstudien

Reproduktion des "action-by-action"-Algorithmus mit L2P-Bibliothek (Guan et al., 2023)

Das Papier zeigt, wie die L2P-Bibliothek zur Reproduktion der Prädikat- und Aktionsgenerierung in der Logistics-Domäne verwendet wird:

Beispiele generierter Prädikate:

(truck-at ?t - truck ?l - location): Lastkraftwagen ?t befindet sich derzeit an Standort ?l
(package-at ?p - package ?l - location): Paket ?p befindet sich derzeit an Standort ?l
(truck-holding ?t - truck ?p - package): Lastkraftwagen ?t hält derzeit Paket ?p
(plane-at ?a - plane ?l - location): Flugzeug ?a befindet sich an Standort ?l

Beispiele generierter Aktionen:

load_truck(?p - package, ?t - truck, ?l - location)
  Vorbedingung: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Effekt: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Experimentelle Erkenntnisse

Prompt-Empfindlichkeit: LLMs sind hochgradig empfindlich gegenüber Prompt-Design, erfordern standardisierte Prompt-Granularität
Wert von Zwischendarstellungen: Verwendung von JSON, Python und anderen Zwischendarstellungen kann Genauigkeit und Konsistenz verbessern
Bedeutung von Validatoren: Integration externer Validierungswerkzeuge (VAL, FastDownward usw.) ist entscheidend für Qualitätssicherung
Rolle von Domänenwissen: Explizite Prädikatmengen-Spezifikationen sind wichtig für Bewertung über verschiedene Methoden hinweg
Notwendigkeit von Mensch-Maschine-Zusammenarbeit: Komplexe Domänen erfordern typischerweise menschliche Interaktion zur Gewährleistung der Ausrichtung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

LLMs-as-Formalizers ist ein vielversprechendes Paradigma: Kombination der Fähigkeiten von LLMs zur Verarbeitung natürlicher Sprache mit strukturiertem Denken klassischer Planer
Aufgabenmodellierung ist relativ reif: Bestehende Methoden können Aufgabenspezifikationen unter expliziten Beschreibungen effektiv generieren
Domänenmodellierung bleibt herausfordernd: Erfordert iterative Methoden, Multi-Kandidaten-Generierung und externe Validierung
Hybridmodellierung erfordert systematische Ansätze: Modulares Design und Fehlertoleranz-Mechanismen sind entscheidend
Benchmark-Tests erfordern kontinuierliche Verbesserung: Datenlecks und Bewertungsstandardisierung sind Schlüsselprobleme

Einschränkungen

Umfang der Übersicht:
- Hauptfokus auf PDDL-Konstruktionsrahmen
- Aufgrund von Platzbeschränkungen ist die technische Analyse jeder Arbeit prägnant
- Kann verwandte Forschung aus anderen Konferenzen/Zeitschriften übersehen
Aktuelle Einschränkungen der L2P-Bibliothek:
- Unterstützt nur grundlegende PDDL-Extraktionswerkzeuge für vollständig beobachtbare deterministische Planung
- Enthält noch keine Werkzeuge für fortgeschrittene Domänen wie zeitliche Planung
Methodische Einschränkungen:
- Die meisten Methoden verlassen sich auf explizite NL-zu-PDDL-Code-Zuordnung
- Begrenzte Fähigkeit, vollständige Spezifikationen aus spärlichen Eingaben abzuleiten
- Semantische Fehlerbehandlung bleibt schwierig

Zukünftige Richtungen

Adressierung von RQ1 (Zielausrichtung):

Verbesserte Interpretierbarkeit: Entwicklung interpretierbarer Planungssysteme, die robuste, transparente und korrigierbare Ausgaben erzeugen
Korrektur-Feedback-Schleifen: Verbesserung der Mechanismen zur Behandlung von Aktionsvorbedingungsfehlern und Ausführungsfehlern
Mensch-Maschine-Zusammenarbeit: Gewährleistung der Ausrichtung durch Vorverarbeitungsschritte und Mensch-Maschine-Feedback-Schleifen
Semantische Korrektheitsprüfung: Analyse der semantischen Korrektheit generierter Pläne als Feedback zur Verfeinerung von PDDL-Spezifikationen

Adressierung von RQ2 (Beschreibungsgranularität):

Minimale Beschreibungsverarbeitung: Entwicklung von Methoden, die vollständige PDDL-Spezifikationen aus spärlichen Eingaben ableiten können
Integration von Common-Sense-Denken: Nutzung der Common-Sense-Fähigkeiten von LLMs zur Erfassung potenzieller Annahmen und Einschränkungen
Standardisierte Prompting: Etablierung standardisierter Prompt-Granularität für initiale Generierung und iteratives Feedback
Automatische Beschreibungsgenerierung: Entwicklung von Werkzeugen zur automatischen Generierung von PDDL-Beschreibungen (z.B. Nabizada et al., 2024)

Technische Richtungen:

Modulare Architektur: Unterstützung adaptiverer Systeme mit dynamischer Integration von Typen und Prädikaten
Multi-Kandidaten-Strategien: Generierung und Bewertung mehrerer Kandidatenmodelle zur Unsicherheitsbehandlung
Nachbearbeitungskorrekturen: Automatische Identifikation semantischer Inkonsistenzen durch Metriken oder menschliche Bewertung
Dynamische Benchmarks: Etablierung gemeinschaftsgestützter dynamischer Benchmark-Standards zur Verhinderung von Datenlecks
Erweiterung auf fortgeschrittene Planung: Erweiterung von Methoden auf zeitliche Planung, probabilistische Planung usw.

Anwendungsrichtungen:

Praktische Bereitstellung: Tests in realen Szenarien wie Robotik, Spiele-KI, Notfallreaktion
Domänenübertragung: Verbesserung der Generalisierungsfähigkeit über Domänen hinweg
Multimodale Integration: Kombination von visuellen, sprachlichen und anderen Modalitätsinformationen

Tiefgreifende Bewertung

Stärken

Umfassendheit und Systematik:
- Erste umfassende Übersicht, die sich auf das LLMs-as-Formalizers-Paradigma konzentriert
- Abdeckung von etwa 80 verwandten Arbeiten mit klarer Klassifizierung
- Bietet vollständige Perspektive von Aufgabenmodellierung über Domänenmodellierung bis Hybridmodellierung
Hoher praktischer Wert:
- Bereitstellung der Open-Source-L2P-Bibliothek mit Implementierung mehrerer Landmark-Methoden
- Modulares Design unterstützt schnelle Experimente und Vergleiche durch Forscher
- Enthält detaillierte Codebeispiele und Verwendungsanweisungen
Problemorientiert:
- Klare Formulierung zweier Kernforschungsfragen RQ1 und RQ2
- Jede Unterdomäne bietet "Summary and Future Directions"
- Bietet klare Roadmap für zukünftige Forschung
Technische Tiefe:
- Detaillierte Analyse technischer Details verschiedener Methoden
- Vergleich verschiedener Prompt-Strategien, Feedback-Mechanismen und Validierungsmethoden
- Bereitstellung von PDDL-Grundlagen und Blocksworld-Beispielen
Kritisches Denken:
- Objektive Darstellung von Methodeneinschränkungen
- Diskussion kritischer Probleme wie Datenlecks und Bewertungsstandards
- Betonung des Unterschieds zwischen semantischer und syntaktischer Korrektheit

Mängel

Begrenzte empirische Analyse:
- Als Übersichtspapier fehlt systematischer Experimentvergleich unter einheitlichem Rahmen
- Verschiedene Methoden verwenden unterschiedliche Datensätze und Bewertungsmetriken, schwer direkt vergleichbar
- Keine quantitative Leistungsvergleichstabelle für verschiedene Methoden bereitgestellt
Reife der L2P-Bibliothek:
- Derzeit nur teilweise Reproduktion von Landmark-Methoden
- Unterstützt nur grundlegende PDDL, nicht zeitliche oder probabilistische Varianten
- Erfordert kontinuierliche Gemeinschaftsbeiträge zur Aktualisierung
Unzureichende theoretische Analyse:
- Mangel an theoretischer Erklärung, warum LLMs bei bestimmten Planungsaufgaben fehlschlagen
- Begrenzte Analyse von Unterschieden zwischen verschiedenen Architekturen (GPT vs. LLaMA usw.)
- Begrenzte theoretische Grundlagen für Prompt-Engineering-Diskussion
Bewertungsmethodik:
- Trotz Benchmark-Diskussion fehlt einheitlicher Bewertungsrahmen
- Mangel an klarer Definition von "was ist ein gutes PDDL-Modell"
- Standards und Prozesse für menschliche Bewertung nicht ausreichend detailliert
Anwendungsszenario-Diskussion:
- Begrenzte Diskussion von Herausforderungen bei praktischer Bereitstellung (Rechenkosten, Latenz usw.)
- Mangel an szenariospezifischer Analyse für verschiedene Anwendungen (Robotik, Spiele, Planung usw.)
- Unzureichende Diskussion von Hindernissen und Lösungen für industrielle Adoption

Auswirkungen

Akademische Beiträge:
- Brückenbau zwischen NLP- und AI-Planungs-Communities
- Klare Definition des LLMs-as-Formalizers-Paradigmas, Kontrast zu anderen Paradigmen
- Etablierung systematischer Klassifizierung und Terminologie für das Feld
Praktischer Wert:
- L2P-Bibliothek senkt Forschungseinstiegshürden, fördert Reproduzierbarkeit
- Bietet Forschern schnelle Prototyping-Werkzeuge
- Kann Forschungsfortschritt im LLM+Planungsfeld beschleunigen
Gemeinschaftsaufbau:
- Integration verstreuter Literatur, Bereitstellung einheitlicher Perspektive
- Identifikation kritischer Herausforderungen und Forschungslücken
- Kann neue Forschungsrichtungen und Zusammenarbeit inspirieren
Potenzielle Auswirkungen:
- Wahrscheinlich Standardreferenz für das Feld
- L2P-Bibliothek hat Potenzial, Community-Standard-Werkzeug zu werden
- Vorgeschlagene Forschungsfragen können zukünftige Forschung über Jahre lenken

Anwendbare Szenarien

Forscher:
- Einstiegsleitfaden für Eintritt in LLM+Planungsfeld
- Suche nach Forschungslücken und zukünftigen Richtungen
- Vergleich und Bewertung verschiedener Methoden
Ingenieure:
- Auswahl geeigneter LLM+Planungsmethoden für spezifische Anwendungen
- Schnelle Prototypentwicklung mit L2P-Bibliothek
- Verständnis von Vor- und Nachteilen verschiedener Methoden und Anwendungsszenarien
Bildungszwecke:
- Lehrmaterial für LLM+Planungskurse
- Umfangreiche Literatur- und Coderessourcen
- Klare PDDL-Einführungsbeispiele
Spezifische Anwendungsdomänen:
- Robotik: Generierung von Roboter-Aufgabenplanung aus natürlichsprachlichen Anweisungen
- Spiele-KI: Generierung von NPC-Verhaltensplanungsmodellen
- Notfallreaktion: Generierung von Notfalloperationsplänen aus Richtliniendokumenten
- Logistik: Generierung von Planungs- und Routingmodellen aus Geschäftsbeschreibungen

Referenzen

Diese Übersicht deckt etwa 80 verwandte Arbeiten ab, Schlüsselreferenzen umfassen:

Grundlegende Methoden:

Liu et al. (2023a): LLM+P - Verbesserung von LLMs mit optimalen Planungsfähigkeiten
Guan et al. (2023): LLM+DM - Nutzung vortrainierter LLMs zur Konstruktion von Weltmodellen
Kambhampati et al. (2024): LLM-Modulo-Rahmen - LLMs können nicht planen, aber können beim Planen helfen

Benchmark-Tests:

Valmeekam et al. (2023a): PlanBench - Bewertung von LLM-Planungsfähigkeiten
Zuo et al. (2024): Planetarium - Bewertung der PDDL-Problemgenerierung
Hu et al. (2025): Text2World - Domänen-Generierungs-Benchmark

Domänenmodellierung:

Wong et al. (2023): ADA - Action Domain Acquisition
Oswald et al. (2024): Bewertung operationaler Äquivalenz
Zhang et al. (2024b): PROC2PDDL - Von Text zu PDDL

Anwendungssysteme:

Gestrin et al. (2024): NL2Plan - Domänenunabhängiges End-to-End-System
Kelly et al. (2023): PDDL-Extraktion für narrative Planung
Ye et al. (2024): MORPHeus - Mensch-Maschine-Zusammenarbeit bei langfristiger Planung

Gesamtbewertung: Dies ist ein hochqualitatives, zeitnahes und praktisches Übersichtspapier, das systematisch den aktuellen Forschungsstand von LLMs als Planungsformalisierungswerkzeuge zusammenfasst. Die Klassifizierung des Papiers ist klar, die Analyse tiefgreifend, und besonders die Beitrag der Open-Source-L2P-Bibliothek macht es nicht nur eine Literaturübersicht, sondern ein praktisches Forschungswerkzeug. Obwohl es Raum für Verbesserungen in empirischer Vergleichbarkeit und theoretischer Analyse gibt, ist sein akademischer Wert und praktischer Wert als erste umfassende Übersicht in diesem Bereich hoch und wird wahrscheinlich zu einer wichtigen Referenz im LLM+Automated Planning-Feld.