LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLMs als Planungsformalisatoren: Eine Übersicht zur Nutzung großer Sprachmodelle zur Konstruktion automatisierter Planungsmodelle
Große Sprachmodelle (LLMs) zeigen hervorragende Leistungen bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung, haben jedoch Schwierigkeiten bei langfristigen Planungsproblemen, die strukturiertes Denken erfordern. Dieses Papier bietet eine zeitnahe Übersicht, die systematisch den aktuellen Forschungsstand analysiert, in dem LLMs als Werkzeuge zur Formalisierung und Verfeinerung von Planungsspezifikationen positioniert werden, um zuverlässige, einsatzbereite automatisierte Planungssysteme (AP) zu unterstützen. Das Papier überprüft systematisch etwa 80 verwandte Arbeiten, hebt Methoden hervor, identifiziert Schlüsselherausforderungen und zukünftige Richtungen und bietet eine Open-Source-Python-Bibliothek Language-to-Plan (L2P) zur Förderung der Forschung in diesem Bereich.
Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Leistungen zeigen, schneiden sie bei langfristigen Planungs- und Denkaufgaben schlecht ab und erzeugen häufig unzuverlässige Pläne. Die direkte Verwendung von LLMs als Planer (LLM-as-Planner) kann nicht die Korrektheit, Optimalität und Zuverlässigkeit der Ausgabe garantieren.
Wesen der Planung: Planung ist ein wesentlicher Bestandteil des System-II-Denkens und erfordert strukturiertes Denken, während LLMs bei System-I-Aufgaben besser sind
Engpass in praktischen Anwendungen: Die Extraktion von Planungsmodellen ist seit langem ein Haupthindernis für die breite Anwendung von Planungstechnologien
Zuverlässigkeitsanforderungen: Praktische Anwendungen erfordern verifizierbare, interpretierbare und robuste Planungslösungen
Dieses Papier schlägt das Paradigma LLMs-as-Formalizers vor: Nutzung der Stärken von LLMs (Extraktion, Interpretation und Verfeinerung von Planungsspezifikationen aus natürlicher Sprache) in Kombination mit den Stärken klassischer automatisierter Planungssysteme (strukturierte Darstellung, Logik und Suchmethoden) zur Konstruktion eines komplementären neurosymbolischen Rahmens.
Systematische Klassifizierung: Vorschlag der ersten umfassenden Klassifizierungstaxonomie für LLM-gesteuerte Konstruktion automatisierter Planungsmodelle, einschließlich:
Modellbearbeitung (Model Editing): Codeverfeinerung und Fehlerbehebung
Modellbenchmarks (Model Benchmarks): Bewertungsrahmen und Datensätze
Zusammenfassung technischer Methoden: Systematische Übersicht gemeinsamer und innovativer technischer Methoden zur Integration von LLMs in AI-Planungsrahmen und deren Einschränkungen
RQ1: Wie können LLMs menschliche Ziele genau ausrichten und sicherstellen, dass Planungsspezifikationen die beabsichtigten Erwartungen und Ziele korrekt darstellen?
RQ2: In welchem Umfang und auf welcher Granularitätsebene können natürlichsprachliche Anweisungen effektiv in genaue Planungsmodelldefinitionen umgewandelt werden?
Open-Source-Toolbibliothek: Bereitstellung der Language-to-Plan (L2P) Open-Source-Python-Bibliothek, die Methoden aus Arbeiten implementiert, die in der Übersicht behandelt werden, und unterstützt:
Umfassende PDDL-Extraktions- und Verfeinerungswerkzeugsuite
Modulares Design, das flexible Prompt-Stile und benutzerdefinierte Pipelines unterstützt
Diese Übersicht konzentriert sich auf das Paradigma LLMs-as-Formalizers, d.h. die Verwendung von LLMs zur Konstruktion von Spezifikationen automatisierter Planungsmodelle (hauptsächlich im PDDL-Format), die dann von domänenunabhängigen Planern zur Lösungsgenerierung verwendet werden. Dies steht im Gegensatz zu den folgenden Paradigmen:
LLMs-as-Planners: LLMs generieren direkt Aktionssequenzen
LLMs-as-Heuristics: LLMs verbessern die Sucheffizienz durch heuristische Führung
LLM-Modulo-Rahmen: Iterative Planverfeinerung durch externe Validatoren zur Gewährleistung der Korrektheit, Verschiebung des Fokus von direkter Planung zu PDDL-Generierung mit integrierten Validatoren
Zwischendarstellungen: Verwendung von ASP, Python, JSON und anderen Zwischendarstellungen, die für LLMs leichter zu verarbeiten sind, dann Konvertierung zu PDDL
Multi-Kandidaten-Generierung: Generierung mehrerer Kandidatendomänen oder spezifischer Komponenten (z.B. Prädikatdefinitionen) zur besseren Anpassung an Mehrdeutigkeit und Unsicherheit in Benutzerintentionen
Mensch-Maschine-Zusammenarbeit: Verbesserung der Modellqualität durch Vorverarbeitungsschritte und Mensch-Maschine-Interaktions-Feedback-Schleifen
Modulares Design: Unterstützung dynamischer Integration von Typen und Prädikaten, Ermöglichung adaptiverer und fehlertoleranter Planungssysteme in späteren Generierungsphasen
LLMs-as-Formalizers ist ein vielversprechendes Paradigma: Kombination der Fähigkeiten von LLMs zur Verarbeitung natürlicher Sprache mit strukturiertem Denken klassischer Planer
Aufgabenmodellierung ist relativ reif: Bestehende Methoden können Aufgabenspezifikationen unter expliziten Beschreibungen effektiv generieren
Domänenmodellierung bleibt herausfordernd: Erfordert iterative Methoden, Multi-Kandidaten-Generierung und externe Validierung
Hybridmodellierung erfordert systematische Ansätze: Modulares Design und Fehlertoleranz-Mechanismen sind entscheidend
Benchmark-Tests erfordern kontinuierliche Verbesserung: Datenlecks und Bewertungsstandardisierung sind Schlüsselprobleme
Diese Übersicht deckt etwa 80 verwandte Arbeiten ab, Schlüsselreferenzen umfassen:
Grundlegende Methoden:
Liu et al. (2023a): LLM+P - Verbesserung von LLMs mit optimalen Planungsfähigkeiten
Guan et al. (2023): LLM+DM - Nutzung vortrainierter LLMs zur Konstruktion von Weltmodellen
Kambhampati et al. (2024): LLM-Modulo-Rahmen - LLMs können nicht planen, aber können beim Planen helfen
Benchmark-Tests:
Valmeekam et al. (2023a): PlanBench - Bewertung von LLM-Planungsfähigkeiten
Zuo et al. (2024): Planetarium - Bewertung der PDDL-Problemgenerierung
Hu et al. (2025): Text2World - Domänen-Generierungs-Benchmark
Domänenmodellierung:
Wong et al. (2023): ADA - Action Domain Acquisition
Oswald et al. (2024): Bewertung operationaler Äquivalenz
Zhang et al. (2024b): PROC2PDDL - Von Text zu PDDL
Anwendungssysteme:
Gestrin et al. (2024): NL2Plan - Domänenunabhängiges End-to-End-System
Kelly et al. (2023): PDDL-Extraktion für narrative Planung
Ye et al. (2024): MORPHeus - Mensch-Maschine-Zusammenarbeit bei langfristiger Planung
Gesamtbewertung: Dies ist ein hochqualitatives, zeitnahes und praktisches Übersichtspapier, das systematisch den aktuellen Forschungsstand von LLMs als Planungsformalisierungswerkzeuge zusammenfasst. Die Klassifizierung des Papiers ist klar, die Analyse tiefgreifend, und besonders die Beitrag der Open-Source-L2P-Bibliothek macht es nicht nur eine Literaturübersicht, sondern ein praktisches Forschungswerkzeug. Obwohl es Raum für Verbesserungen in empirischer Vergleichbarkeit und theoretischer Analyse gibt, ist sein akademischer Wert und praktischer Wert als erste umfassende Übersicht in diesem Bereich hoch und wird wahrscheinlich zu einer wichtigen Referenz im LLM+Automated Planning-Feld.