2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

LLMs als Planungsformalisatoren: Eine Übersicht zur Nutzung großer Sprachmodelle zur Konstruktion automatisierter Planungsmodelle

Grundlegende Informationen

  • Papier-ID: 2503.18971
  • Titel: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • Autoren: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
  • Klassifizierung: cs.AI
  • Veröffentlichungsdatum: März 2025 (arXiv v2: 25. Oktober 2025)
  • Papierlink: https://arxiv.org/abs/2503.18971v2

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Leistungen bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung, haben jedoch Schwierigkeiten bei langfristigen Planungsproblemen, die strukturiertes Denken erfordern. Dieses Papier bietet eine zeitnahe Übersicht, die systematisch den aktuellen Forschungsstand analysiert, in dem LLMs als Werkzeuge zur Formalisierung und Verfeinerung von Planungsspezifikationen positioniert werden, um zuverlässige, einsatzbereite automatisierte Planungssysteme (AP) zu unterstützen. Das Papier überprüft systematisch etwa 80 verwandte Arbeiten, hebt Methoden hervor, identifiziert Schlüsselherausforderungen und zukünftige Richtungen und bietet eine Open-Source-Python-Bibliothek Language-to-Plan (L2P) zur Förderung der Forschung in diesem Bereich.

Forschungshintergrund und Motivation

1. Kernproblem

Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Leistungen zeigen, schneiden sie bei langfristigen Planungs- und Denkaufgaben schlecht ab und erzeugen häufig unzuverlässige Pläne. Die direkte Verwendung von LLMs als Planer (LLM-as-Planner) kann nicht die Korrektheit, Optimalität und Zuverlässigkeit der Ausgabe garantieren.

2. Bedeutung des Problems

  • Wesen der Planung: Planung ist ein wesentlicher Bestandteil des System-II-Denkens und erfordert strukturiertes Denken, während LLMs bei System-I-Aufgaben besser sind
  • Engpass in praktischen Anwendungen: Die Extraktion von Planungsmodellen ist seit langem ein Haupthindernis für die breite Anwendung von Planungstechnologien
  • Zuverlässigkeitsanforderungen: Praktische Anwendungen erfordern verifizierbare, interpretierbare und robuste Planungslösungen

3. Einschränkungen bestehender Methoden

  • Direkte Planungsmethoden: Wenn LLMs direkt Aktionssequenzen generieren, sinkt die Leistung mit iterativem Feedback
  • Fehlende strukturierte Garantien: LLMs können keine Korrektheitszusicherungen wie klassische Planungssysteme bieten
  • Langzeitabhängigkeitsprobleme: Mit zunehmender Skalierung können LLMs häufig die Auswirkungen und Vorbedingungen von Aktionen nicht berücksichtigen

4. Forschungsmotivation

Dieses Papier schlägt das Paradigma LLMs-as-Formalizers vor: Nutzung der Stärken von LLMs (Extraktion, Interpretation und Verfeinerung von Planungsspezifikationen aus natürlicher Sprache) in Kombination mit den Stärken klassischer automatisierter Planungssysteme (strukturierte Darstellung, Logik und Suchmethoden) zur Konstruktion eines komplementären neurosymbolischen Rahmens.

Kernbeiträge

  1. Systematische Klassifizierung: Vorschlag der ersten umfassenden Klassifizierungstaxonomie für LLM-gesteuerte Konstruktion automatisierter Planungsmodelle, einschließlich:
    • Modellgenerierung (Model Generation): Aufgabenmodellierung, Domänenmodellierung, Hybridmodellierung
    • Modellbearbeitung (Model Editing): Codeverfeinerung und Fehlerbehebung
    • Modellbenchmarks (Model Benchmarks): Bewertungsrahmen und Datensätze
  2. Zusammenfassung technischer Methoden: Systematische Übersicht gemeinsamer und innovativer technischer Methoden zur Integration von LLMs in AI-Planungsrahmen und deren Einschränkungen
  3. Forschungsfragen-Rahmen: Vorschlag zweier Kernforschungsfragen (RQ):
    • RQ1: Wie können LLMs menschliche Ziele genau ausrichten und sicherstellen, dass Planungsspezifikationen die beabsichtigten Erwartungen und Ziele korrekt darstellen?
    • RQ2: In welchem Umfang und auf welcher Granularitätsebene können natürlichsprachliche Anweisungen effektiv in genaue Planungsmodelldefinitionen umgewandelt werden?
  4. Open-Source-Toolbibliothek: Bereitstellung der Language-to-Plan (L2P) Open-Source-Python-Bibliothek, die Methoden aus Arbeiten implementiert, die in der Übersicht behandelt werden, und unterstützt:
    • Umfassende PDDL-Extraktions- und Verfeinerungswerkzeugsuite
    • Modulares Design, das flexible Prompt-Stile und benutzerdefinierte Pipelines unterstützt
    • Vollständig autonome End-to-End-Pipeline-Fähigkeiten
  5. Anleitung zu zukünftigen Richtungen: Identifikation von Schlüsselherausforderungen und Skizzierung zukünftiger Forschungsrichtungen in diesem Bereich

Methodische Details

Aufgabendefinition

Diese Übersicht konzentriert sich auf das Paradigma LLMs-as-Formalizers, d.h. die Verwendung von LLMs zur Konstruktion von Spezifikationen automatisierter Planungsmodelle (hauptsächlich im PDDL-Format), die dann von domänenunabhängigen Planern zur Lösungsgenerierung verwendet werden. Dies steht im Gegensatz zu den folgenden Paradigmen:

  • LLMs-as-Planners: LLMs generieren direkt Aktionssequenzen
  • LLMs-as-Heuristics: LLMs verbessern die Sucheffizienz durch heuristische Führung

Kernrahmen-Klassifizierung

1. Modellgenerierung (Model Generation)

Extraktion und Formalisierung von Planungsspezifikationen aus natürlichsprachlichen Eingaben, unterteilt in drei Unterkategorien:

1.1 Aufgabenmodellierung (Task Modeling)

  • Zielspezifikationsmethoden:
    • Few-shot Prompting (Collins et al., 2022; Grover & Mohan, 2024)
    • Chain-of-Thought (CoT) Prompting (Lyu et al., 2023)
    • Umgang mit verschiedenen Ambiguitätsgraden (Xie et al., 2023)
  • Vollständige Aufgabenspezifikation:
    • Offene Systeme: LLM+P verwendet Kontextbeispiele zur Generierung vollständiger PDDL-Problemdateien
    • Geschlossene Systeme: Auto-GPT+P generiert Initialzustände basierend auf visueller Wahrnehmung mit automatischen Fehlerkorrektionsschleifen
    • Multi-Agent-Zusammenarbeit: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • Alternative Darstellungen:
    • Geometrische Darstellungen für Aufgaben- und Bewegungsplanung
    • Temporale Logik (TSL, STL, LTL)
    • Python-Funktionsdefinitionen für Suchraum

1.2 Domänenmodellierung (Domain Modeling)

  • Einzelabfrage-Methoden:
    • CLLaMP: Extraktion von PDDL-Aktionsmodellen aus CVE-Beschreibungen
    • PROC2PDDL: Zone of Proximal Development Prompt-Design
    • Kandidatenfilterungsmethoden (Huang et al., 2024b; Athalye et al., 2024)
  • Iterative Generierungsmethoden:
    • LLM+DM: Anwendung eines "Generate-Test-Critique"-Ansatzes, inkrementelle Konstruktion von Domänenkomponenten durch mehrere LLM-Aufrufe
    • LLM+AL: Generierung von BC+ Aktionssprache
    • LAMP: Algorithmische Familie zum Lernen abstrakter PDDL-Domänenmodelle
  • Geschlossene Rahmen:
    • ADA: Generierung von Kandidaten-Symboltaskzerlegungen, iteratives Prompting undefinierter Aktionen
    • COWP: Umgang mit unerwarteten Situationen in offener Weltplanung
    • LASP: Identifikation potenzieller Fehler aus Umgebungsbeobachtungen

1.3 Hybridmodellierung (Hybrid Modeling) Kombinierte Generierung vollständiger Modelle von PDDL-Domänen und Problemsystemen:

  • Grundlegende Methoden: Kelly et al. (2023) extrahieren narrative Planung aus Eingabegeschichten, iterativ Planerfehler verarbeitend
  • Methoden mit Zwischendarstellung:
    • NL2Plan: Erstes domänenunabhängiges Offline-End-to-End-NL-Planungssystem
    • JSON-Token-Generierung, Konsistenzprüfung und Fehlerkorrektionsschleifen
    • Erreichbarkeitsanalyse und Abhängigkeitsanalyse
  • Praktische Anwendungen:
    • MORPHeus: Mensch-Maschine-Zusammenarbeit bei langfristiger Planung, Anomalieerkennung
    • InterPret: Lernen von PDDL-Prädikaten durch interaktives Benutzersprachfeedback
    • AgentGen: Verwendung von LLMs zur Synthese vielfältiger PDDL-Aufgaben für Training

2. Modellbearbeitung (Model Editing)

LLMs als Hilfswerkzeuge statt vollständig autonome Generierungslösungen:

  • Gragera & Pozanco (2023): Untersuchung der Einschränkungen von LLMs bei der Behebung unlösbarer Aufgaben
  • Patil (2024): LLMs sind bei Syntaxkorrekturen hervorragend, aber bei semantischen Inkonsistenzen unzuverlässig
  • Sikes et al. (2024a): Adressierung von semantisch äquivalenten, aber syntaktisch unterschiedlichen Zustandsvariablenproblemen
  • Caglar et al. (2024): Bewertung der Effektivität von LLMs bei der Generierung angemessener Modellbearbeitungen

3. Modellbenchmarks (Model Benchmarks)

Bewertung der Fähigkeiten von LLMs bei Planungsaufgaben und Qualität generierter Planungsspezifikationen:

3.1 LLMs-as-Planner Benchmarks:

  • Mystery Blocksworld: Verwirrung des klassischen Blocksworld zur Erkennung von Trainings-Datenlecks
  • ALFWorld & Household: Echte Haushaltsumgebungen mit PDDL-Semantik
  • TravelPlanner & Natural Plan: Reiseplanungs- und reale Planungsbenchmarks
  • PlanBench: Systematische Bewertung kostenoptimaler Planung und Planverifizierung
  • ACPBench: Standardisierte Bewertung von Aufgaben und Metriken, 13 Domänen und 22 SOTA-Modelle abdeckend

3.2 LLMs-as-Planning-Formalizers Benchmarks:

  • Planetarium: Bewertung von LLM-generierten PDDL-Aufgaben/Problemen, zwei Schlüsselprobleme hervorhebend:
    • LLMs können gültigen, aber mit ursprünglicher NL-Beschreibung inkonsistenten Code erzeugen
    • NL-Beschreibungen des Bewertungssatzes sind der Grundwahrheit zu ähnlich
  • Text2World:
    • Automatisierte Domänenextraktions-Pipeline
    • Multi-Kriterien-Metriken: Ausführbarkeit, Strukturähnlichkeit, Komponenten-Level-F1-Score
    • Einschränkung: Abhängigkeit von Ausführbarkeit als Gating-Metrik

Technische Innovationen

  1. LLM-Modulo-Rahmen: Iterative Planverfeinerung durch externe Validatoren zur Gewährleistung der Korrektheit, Verschiebung des Fokus von direkter Planung zu PDDL-Generierung mit integrierten Validatoren
  2. Zwischendarstellungen: Verwendung von ASP, Python, JSON und anderen Zwischendarstellungen, die für LLMs leichter zu verarbeiten sind, dann Konvertierung zu PDDL
  3. Multi-Kandidaten-Generierung: Generierung mehrerer Kandidatendomänen oder spezifischer Komponenten (z.B. Prädikatdefinitionen) zur besseren Anpassung an Mehrdeutigkeit und Unsicherheit in Benutzerintentionen
  4. Mensch-Maschine-Zusammenarbeit: Verbesserung der Modellqualität durch Vorverarbeitungsschritte und Mensch-Maschine-Interaktions-Feedback-Schleifen
  5. Modulares Design: Unterstützung dynamischer Integration von Typen und Prädikaten, Ermöglichung adaptiverer und fehlertoleranter Planungssysteme in späteren Generierungsphasen

Experimentelle Einrichtung

Datensätze

Dieses Papier als Übersichtspapier deckt mehrere Datensätze und Domänen ab, die in etwa 80 Forschungsarbeiten verwendet werden:

Klassische Planungsdomänen:

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

Echte Umgebungen:

  • ALFWorld: Haushaltsumgebungsinteraktion
  • Household: Typische Haushaltsszenarien
  • TravelPlanner: Reiseplanungsszenarien

Spezialisierte Domänen:

  • CVE (Common Vulnerabilities and Exposures): Cybersicherheit
  • Emergency Operation Plans (EOPs): Notfallentscheidungsfindung

Bewertungsmetriken

Planungsqualitätsmetriken:

  • Planungskorrektheit
  • Kostenoptimalität
  • Ausführbarkeit

Modellqualitätsmetriken:

  • Strukturähnlichkeit: Strukturvergleich mit Grundwahrheit
  • Komponenten-Level-F1-Score: Präzision und Rückruf von Komponenten wie Prädikaten und Aktionen
  • Operationale Äquivalenz: Ob die rekonstruierte Domäne sich wie die ursprüngliche Domäne verhält
  • Semantische Korrektheit: Ob generierter Code mit ursprünglicher NL-Beschreibung übereinstimmt

Systemleistungsmetriken:

  • Generierungserfolgsquote
  • Iterationszahl
  • Bedarf für menschliche Intervention

Vergleichsmethoden

Hauptmethodenkategorien in der Übersicht:

  1. Direkte Generierungsmethoden: Einzelner LLM-Aufruf zur Generierung vollständiger PDDL
  2. Iterative Verfeinerungsmethoden: Mehrere Aufrufe und Feedback-Schleifen
  3. Hybridmethoden: Kombination von LLM und traditionellen Validierungswerkzeugen
  4. Fine-Tuning-Methoden: Fine-Tuning von LLMs auf spezifischen Datensätzen

Experimentelle Ergebnisse

Hauptfunde

1. Aufgabenmodellierung ist relativ einfach

  • Hochgradig explizite Beschreibungen verbessern die Übersetzungsgenauigkeit erheblich (Liu et al., 2023a)
  • Verwendung von Few-Shot-Beispielen und Reasoning-Ketten können Zielspezifikationen verbessern (Lyu et al., 2023)
  • TIC erreicht mit GPT-3.5 Turbo unter Verwendung von Zwischendarstellungen nahezu 100% Genauigkeit in der LLM+P-Planungsdomäne

2. Domänenmodellierung ist herausfordernder

  • Einmalige Generierung vollständig funktionsfähiger PDDL-Domänen ist unpraktisch (Kambhampati et al., 2024)
  • Iterative Methoden (wie LLM+DMs "Generate-Test-Critique") verbessern die Qualität erheblich
  • Kontextbeispiele übertreffen CoT-Prompting (Oates et al., 2024)
  • Multi-Kandidaten-Generierungsmethoden können Mehrdeutigkeit in Benutzerintentionen besser handhaben

3. Komplexität der Hybridmodellierung

  • Komplexität tritt bei der Koordination von Domäne und entsprechenden Problemen auf
  • Lineare Pipelines haben Kaskadenfehlrisiko
  • Vorverarbeitungsschritte (mit FastDownward, VAL und anderen externen Werkzeugen) erhöhen die Erfolgsquote
  • Mensch-Maschine-Zusammenarbeit verbessert die Modellqualität erheblich

4. Effektivität der Modellbearbeitung

  • LLMs zeigen hervorragende Leistung bei Syntaxkorrekturen
  • Weniger zuverlässig bei semantischen Inkonsistenzen (Patil, 2024)
  • Entwicklung von Nachbearbeitungskorrekturstrategien erforderlich

5. Benchmark-Herausforderungen

  • Trainings-Datenlecks sind ein Hauptproblem (Hu et al., 2025 berichten hohe Kontaminationsraten)
  • Dynamische Benchmark-Standards erforderlich
  • NL-Beschreibungen des Bewertungssatzes beeinflussen die Bewertungsschwierigkeit

Fallstudien

Reproduktion des "action-by-action"-Algorithmus mit L2P-Bibliothek (Guan et al., 2023)

Das Papier zeigt, wie die L2P-Bibliothek zur Reproduktion der Prädikat- und Aktionsgenerierung in der Logistics-Domäne verwendet wird:

Beispiele generierter Prädikate:

(truck-at ?t - truck ?l - location): Lastkraftwagen ?t befindet sich derzeit an Standort ?l
(package-at ?p - package ?l - location): Paket ?p befindet sich derzeit an Standort ?l
(truck-holding ?t - truck ?p - package): Lastkraftwagen ?t hält derzeit Paket ?p
(plane-at ?a - plane ?l - location): Flugzeug ?a befindet sich an Standort ?l

Beispiele generierter Aktionen:

load_truck(?p - package, ?t - truck, ?l - location)
  Vorbedingung: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Effekt: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Experimentelle Erkenntnisse

  1. Prompt-Empfindlichkeit: LLMs sind hochgradig empfindlich gegenüber Prompt-Design, erfordern standardisierte Prompt-Granularität
  2. Wert von Zwischendarstellungen: Verwendung von JSON, Python und anderen Zwischendarstellungen kann Genauigkeit und Konsistenz verbessern
  3. Bedeutung von Validatoren: Integration externer Validierungswerkzeuge (VAL, FastDownward usw.) ist entscheidend für Qualitätssicherung
  4. Rolle von Domänenwissen: Explizite Prädikatmengen-Spezifikationen sind wichtig für Bewertung über verschiedene Methoden hinweg
  5. Notwendigkeit von Mensch-Maschine-Zusammenarbeit: Komplexe Domänen erfordern typischerweise menschliche Interaktion zur Gewährleistung der Ausrichtung

Verwandte Arbeiten

1. Andere Paradigmen von LLM+Planung

LLMs-as-Planners:

  • Direkte Generierung von Aktionssequenzen (Zhang et al., 2024c; Lin et al., 2023)
  • Planverfeinerung durch Nachbearbeitungsmethoden (Gundawar et al., 2024)
  • Einschränkungen: Keine Garantie für Korrektheit und Optimalität

LLMs-as-Heuristics:

  • Verbesserung der Sucheffizienz durch heuristische Führung (Silver et al., 2022; Hirsch et al., 2024)
  • Bereitstellung von Suchrichtung, aber keine direkte Plangenerierung

2. Verwandte Übersichten

  • Huang et al. (2024c): Hochabstraktes LLM-verbessertes Planungsagenten
  • Pallagani et al. (2024): Breitere Konstruktion über traditionelle AP hinaus
  • Zhao et al. (2024): Umfassende Übersicht von LLM-TAMP-Anwendungen
  • Li et al. (2024a): Hauptfokus auf LLMs-as-Planners, komplementär zu diesem Papier

3. Klassische Planungsmodellakquisition

  • Traditionelle Methoden verlassen sich auf manuelle Expertenwissenstechnik
  • Lernmethoden extrahieren Modelle aus Demonstrationen
  • LLM-Methoden in diesem Papier bieten neue Automatisierungswege

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. LLMs-as-Formalizers ist ein vielversprechendes Paradigma: Kombination der Fähigkeiten von LLMs zur Verarbeitung natürlicher Sprache mit strukturiertem Denken klassischer Planer
  2. Aufgabenmodellierung ist relativ reif: Bestehende Methoden können Aufgabenspezifikationen unter expliziten Beschreibungen effektiv generieren
  3. Domänenmodellierung bleibt herausfordernd: Erfordert iterative Methoden, Multi-Kandidaten-Generierung und externe Validierung
  4. Hybridmodellierung erfordert systematische Ansätze: Modulares Design und Fehlertoleranz-Mechanismen sind entscheidend
  5. Benchmark-Tests erfordern kontinuierliche Verbesserung: Datenlecks und Bewertungsstandardisierung sind Schlüsselprobleme

Einschränkungen

  1. Umfang der Übersicht:
    • Hauptfokus auf PDDL-Konstruktionsrahmen
    • Aufgrund von Platzbeschränkungen ist die technische Analyse jeder Arbeit prägnant
    • Kann verwandte Forschung aus anderen Konferenzen/Zeitschriften übersehen
  2. Aktuelle Einschränkungen der L2P-Bibliothek:
    • Unterstützt nur grundlegende PDDL-Extraktionswerkzeuge für vollständig beobachtbare deterministische Planung
    • Enthält noch keine Werkzeuge für fortgeschrittene Domänen wie zeitliche Planung
  3. Methodische Einschränkungen:
    • Die meisten Methoden verlassen sich auf explizite NL-zu-PDDL-Code-Zuordnung
    • Begrenzte Fähigkeit, vollständige Spezifikationen aus spärlichen Eingaben abzuleiten
    • Semantische Fehlerbehandlung bleibt schwierig

Zukünftige Richtungen

Adressierung von RQ1 (Zielausrichtung):

  1. Verbesserte Interpretierbarkeit: Entwicklung interpretierbarer Planungssysteme, die robuste, transparente und korrigierbare Ausgaben erzeugen
  2. Korrektur-Feedback-Schleifen: Verbesserung der Mechanismen zur Behandlung von Aktionsvorbedingungsfehlern und Ausführungsfehlern
  3. Mensch-Maschine-Zusammenarbeit: Gewährleistung der Ausrichtung durch Vorverarbeitungsschritte und Mensch-Maschine-Feedback-Schleifen
  4. Semantische Korrektheitsprüfung: Analyse der semantischen Korrektheit generierter Pläne als Feedback zur Verfeinerung von PDDL-Spezifikationen

Adressierung von RQ2 (Beschreibungsgranularität):

  1. Minimale Beschreibungsverarbeitung: Entwicklung von Methoden, die vollständige PDDL-Spezifikationen aus spärlichen Eingaben ableiten können
  2. Integration von Common-Sense-Denken: Nutzung der Common-Sense-Fähigkeiten von LLMs zur Erfassung potenzieller Annahmen und Einschränkungen
  3. Standardisierte Prompting: Etablierung standardisierter Prompt-Granularität für initiale Generierung und iteratives Feedback
  4. Automatische Beschreibungsgenerierung: Entwicklung von Werkzeugen zur automatischen Generierung von PDDL-Beschreibungen (z.B. Nabizada et al., 2024)

Technische Richtungen:

  1. Modulare Architektur: Unterstützung adaptiverer Systeme mit dynamischer Integration von Typen und Prädikaten
  2. Multi-Kandidaten-Strategien: Generierung und Bewertung mehrerer Kandidatenmodelle zur Unsicherheitsbehandlung
  3. Nachbearbeitungskorrekturen: Automatische Identifikation semantischer Inkonsistenzen durch Metriken oder menschliche Bewertung
  4. Dynamische Benchmarks: Etablierung gemeinschaftsgestützter dynamischer Benchmark-Standards zur Verhinderung von Datenlecks
  5. Erweiterung auf fortgeschrittene Planung: Erweiterung von Methoden auf zeitliche Planung, probabilistische Planung usw.

Anwendungsrichtungen:

  1. Praktische Bereitstellung: Tests in realen Szenarien wie Robotik, Spiele-KI, Notfallreaktion
  2. Domänenübertragung: Verbesserung der Generalisierungsfähigkeit über Domänen hinweg
  3. Multimodale Integration: Kombination von visuellen, sprachlichen und anderen Modalitätsinformationen

Tiefgreifende Bewertung

Stärken

  1. Umfassendheit und Systematik:
    • Erste umfassende Übersicht, die sich auf das LLMs-as-Formalizers-Paradigma konzentriert
    • Abdeckung von etwa 80 verwandten Arbeiten mit klarer Klassifizierung
    • Bietet vollständige Perspektive von Aufgabenmodellierung über Domänenmodellierung bis Hybridmodellierung
  2. Hoher praktischer Wert:
    • Bereitstellung der Open-Source-L2P-Bibliothek mit Implementierung mehrerer Landmark-Methoden
    • Modulares Design unterstützt schnelle Experimente und Vergleiche durch Forscher
    • Enthält detaillierte Codebeispiele und Verwendungsanweisungen
  3. Problemorientiert:
    • Klare Formulierung zweier Kernforschungsfragen RQ1 und RQ2
    • Jede Unterdomäne bietet "Summary and Future Directions"
    • Bietet klare Roadmap für zukünftige Forschung
  4. Technische Tiefe:
    • Detaillierte Analyse technischer Details verschiedener Methoden
    • Vergleich verschiedener Prompt-Strategien, Feedback-Mechanismen und Validierungsmethoden
    • Bereitstellung von PDDL-Grundlagen und Blocksworld-Beispielen
  5. Kritisches Denken:
    • Objektive Darstellung von Methodeneinschränkungen
    • Diskussion kritischer Probleme wie Datenlecks und Bewertungsstandards
    • Betonung des Unterschieds zwischen semantischer und syntaktischer Korrektheit

Mängel

  1. Begrenzte empirische Analyse:
    • Als Übersichtspapier fehlt systematischer Experimentvergleich unter einheitlichem Rahmen
    • Verschiedene Methoden verwenden unterschiedliche Datensätze und Bewertungsmetriken, schwer direkt vergleichbar
    • Keine quantitative Leistungsvergleichstabelle für verschiedene Methoden bereitgestellt
  2. Reife der L2P-Bibliothek:
    • Derzeit nur teilweise Reproduktion von Landmark-Methoden
    • Unterstützt nur grundlegende PDDL, nicht zeitliche oder probabilistische Varianten
    • Erfordert kontinuierliche Gemeinschaftsbeiträge zur Aktualisierung
  3. Unzureichende theoretische Analyse:
    • Mangel an theoretischer Erklärung, warum LLMs bei bestimmten Planungsaufgaben fehlschlagen
    • Begrenzte Analyse von Unterschieden zwischen verschiedenen Architekturen (GPT vs. LLaMA usw.)
    • Begrenzte theoretische Grundlagen für Prompt-Engineering-Diskussion
  4. Bewertungsmethodik:
    • Trotz Benchmark-Diskussion fehlt einheitlicher Bewertungsrahmen
    • Mangel an klarer Definition von "was ist ein gutes PDDL-Modell"
    • Standards und Prozesse für menschliche Bewertung nicht ausreichend detailliert
  5. Anwendungsszenario-Diskussion:
    • Begrenzte Diskussion von Herausforderungen bei praktischer Bereitstellung (Rechenkosten, Latenz usw.)
    • Mangel an szenariospezifischer Analyse für verschiedene Anwendungen (Robotik, Spiele, Planung usw.)
    • Unzureichende Diskussion von Hindernissen und Lösungen für industrielle Adoption

Auswirkungen

  1. Akademische Beiträge:
    • Brückenbau zwischen NLP- und AI-Planungs-Communities
    • Klare Definition des LLMs-as-Formalizers-Paradigmas, Kontrast zu anderen Paradigmen
    • Etablierung systematischer Klassifizierung und Terminologie für das Feld
  2. Praktischer Wert:
    • L2P-Bibliothek senkt Forschungseinstiegshürden, fördert Reproduzierbarkeit
    • Bietet Forschern schnelle Prototyping-Werkzeuge
    • Kann Forschungsfortschritt im LLM+Planungsfeld beschleunigen
  3. Gemeinschaftsaufbau:
    • Integration verstreuter Literatur, Bereitstellung einheitlicher Perspektive
    • Identifikation kritischer Herausforderungen und Forschungslücken
    • Kann neue Forschungsrichtungen und Zusammenarbeit inspirieren
  4. Potenzielle Auswirkungen:
    • Wahrscheinlich Standardreferenz für das Feld
    • L2P-Bibliothek hat Potenzial, Community-Standard-Werkzeug zu werden
    • Vorgeschlagene Forschungsfragen können zukünftige Forschung über Jahre lenken

Anwendbare Szenarien

  1. Forscher:
    • Einstiegsleitfaden für Eintritt in LLM+Planungsfeld
    • Suche nach Forschungslücken und zukünftigen Richtungen
    • Vergleich und Bewertung verschiedener Methoden
  2. Ingenieure:
    • Auswahl geeigneter LLM+Planungsmethoden für spezifische Anwendungen
    • Schnelle Prototypentwicklung mit L2P-Bibliothek
    • Verständnis von Vor- und Nachteilen verschiedener Methoden und Anwendungsszenarien
  3. Bildungszwecke:
    • Lehrmaterial für LLM+Planungskurse
    • Umfangreiche Literatur- und Coderessourcen
    • Klare PDDL-Einführungsbeispiele
  4. Spezifische Anwendungsdomänen:
    • Robotik: Generierung von Roboter-Aufgabenplanung aus natürlichsprachlichen Anweisungen
    • Spiele-KI: Generierung von NPC-Verhaltensplanungsmodellen
    • Notfallreaktion: Generierung von Notfalloperationsplänen aus Richtliniendokumenten
    • Logistik: Generierung von Planungs- und Routingmodellen aus Geschäftsbeschreibungen

Referenzen

Diese Übersicht deckt etwa 80 verwandte Arbeiten ab, Schlüsselreferenzen umfassen:

Grundlegende Methoden:

  • Liu et al. (2023a): LLM+P - Verbesserung von LLMs mit optimalen Planungsfähigkeiten
  • Guan et al. (2023): LLM+DM - Nutzung vortrainierter LLMs zur Konstruktion von Weltmodellen
  • Kambhampati et al. (2024): LLM-Modulo-Rahmen - LLMs können nicht planen, aber können beim Planen helfen

Benchmark-Tests:

  • Valmeekam et al. (2023a): PlanBench - Bewertung von LLM-Planungsfähigkeiten
  • Zuo et al. (2024): Planetarium - Bewertung der PDDL-Problemgenerierung
  • Hu et al. (2025): Text2World - Domänen-Generierungs-Benchmark

Domänenmodellierung:

  • Wong et al. (2023): ADA - Action Domain Acquisition
  • Oswald et al. (2024): Bewertung operationaler Äquivalenz
  • Zhang et al. (2024b): PROC2PDDL - Von Text zu PDDL

Anwendungssysteme:

  • Gestrin et al. (2024): NL2Plan - Domänenunabhängiges End-to-End-System
  • Kelly et al. (2023): PDDL-Extraktion für narrative Planung
  • Ye et al. (2024): MORPHeus - Mensch-Maschine-Zusammenarbeit bei langfristiger Planung

Gesamtbewertung: Dies ist ein hochqualitatives, zeitnahes und praktisches Übersichtspapier, das systematisch den aktuellen Forschungsstand von LLMs als Planungsformalisierungswerkzeuge zusammenfasst. Die Klassifizierung des Papiers ist klar, die Analyse tiefgreifend, und besonders die Beitrag der Open-Source-L2P-Bibliothek macht es nicht nur eine Literaturübersicht, sondern ein praktisches Forschungswerkzeug. Obwohl es Raum für Verbesserungen in empirischer Vergleichbarkeit und theoretischer Analyse gibt, ist sein akademischer Wert und praktischer Wert als erste umfassende Übersicht in diesem Bereich hoch und wird wahrscheinlich zu einer wichtigen Referenz im LLM+Automated Planning-Feld.