LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
Les LLMs comme formalisateurs de planification : Une enquête sur l'exploitation des grands modèles de langage pour construire des modèles de planification automatisée
Les grands modèles de langage (LLMs) démontrent des performances exceptionnelles dans diverses tâches de traitement du langage naturel, mais rencontrent des difficultés dans les problèmes de planification à long terme nécessitant un raisonnement structuré. Cet article fournit une enquête opportune qui analyse systématiquement l'état actuel de la recherche positionnant les LLMs comme outils de formalisation et de raffinement des spécifications de planification, afin de soutenir les systèmes de planification automatisée (AP) fiables et prêts à l'emploi. L'article procède à un examen systématique d'environ 80 travaux connexes, met en évidence les méthodologies, identifie les défis clés et les orientations futures, et fournit une bibliothèque Python open-source Language-to-Plan (L2P) pour promouvoir la recherche dans ce domaine.
Bien que les LLMs excellent dans les tâches de traitement du langage naturel, ils fonctionnent mal dans les tâches de planification à long terme et de raisonnement, produisant fréquemment des plans peu fiables. L'utilisation directe des LLMs comme planificateurs (LLM-as-Planner) ne peut garantir la correction, l'optimalité et la fiabilité des résultats.
Nature de la planification : La planification est un élément essentiel de la cognition de Système II, nécessitant un raisonnement structuré, tandis que les LLMs excellent dans les tâches de Système I
Goulot d'étranglement des applications pratiques : L'extraction de modèles de planification a longtemps été un obstacle majeur à l'adoption généralisée des technologies de planification
Exigences de fiabilité : Les applications pratiques nécessitent des solutions de planification vérifiables, interprétables et robustes
Approches de planification directe : Lorsque les LLMs génèrent directement des séquences d'actions, les performances diminuent avec les retours itératifs
Absence de garanties structurées : Les LLMs ne peuvent pas fournir de garanties de correction comme les systèmes de planification classiques
Problèmes de dépendances à long terme : À mesure que l'échelle augmente, les LLMs échouent souvent à considérer les effets et les conditions préalables des actions
Cet article propose le paradigme LLMs-as-Formalizers : exploiter les avantages des LLMs (extraction, interprétation et raffinement des spécifications de modèles de planification à partir du langage naturel), combinés aux avantages des systèmes de planification automatisée classiques (représentations structurées, logique et méthodes de recherche), pour construire un cadre neuro-symbolique complémentaire.
Taxonomie systématique : Propose le premier système de classification complet pour la construction de modèles de planification automatisée pilotée par LLM, incluant :
Génération de modèles (Model Generation) : modélisation des tâches, modélisation des domaines, modélisation hybride
Édition de modèles (Model Editing) : raffinement du code et correction d'erreurs
Références de modèles (Model Benchmarks) : cadres d'évaluation et ensembles de données
Résumé des méthodes techniques : Synthèse systématique des approches techniques partagées et innovantes pour intégrer les LLMs dans les cadres de planification IA et de leurs limitations
Cadre de questions de recherche : Propose deux questions de recherche fondamentales (RQ) :
RQ1 : Comment les LLMs peuvent-ils aligner avec précision les objectifs humains, en veillant à ce que les spécifications du modèle de planification représentent correctement les attentes et les objectifs souhaités ?
RQ2 : Dans quelle mesure et à quel niveau de granularité les instructions en langage naturel peuvent-elles être efficacement converties en définitions précises de modèles de planification ?
Bibliothèque d'outils open-source : Fournit la bibliothèque Python open-source Language-to-Plan (L2P), implémentant les méthodes des articles phares couverts par l'enquête, supportant :
Suite complète d'outils d'extraction et de raffinement PDDL
Conception modulaire supportant des styles de prompts flexibles et des pipelines personnalisés
Capacités de pipeline end-to-end entièrement autonomes
Orientations futures : Identifie les défis clés et esquisse les orientations futures de la recherche dans ce domaine
Cette enquête se concentre sur le paradigme LLMs-as-Formalizers, c'est-à-dire l'utilisation des LLMs pour construire des spécifications de modèles de planification automatisée (AP) (principalement au format PDDL), qui sont ensuite résolues par des planificateurs indépendants du domaine. Ceci contraste avec les paradigmes suivants :
LLMs-as-Planners : Les LLMs génèrent directement des séquences d'actions
LLMs-as-Heuristics : Les LLMs améliorent l'efficacité de la recherche par des heuristiques de guidage
Représentations géométriques pour la planification des tâches et des mouvements
Logique temporelle (TSL, STL, LTL)
Définitions de fonctions Python pour l'espace de recherche
1.2 Modélisation des domaines (Domain Modeling)
Approches à requête unique :
CLLaMP : extraction de modèles d'actions PDDL à partir de descriptions CVE
PROC2PDDL : conception de prompts Zone of Proximal Development
Méthodes de filtrage des candidats (Huang et al., 2024b ; Athalye et al., 2024)
Méthodes de génération itérative :
LLM+DM : adopte une approche « générer-tester-critiquer », construisant progressivement les composants de domaine par plusieurs appels LLM
LLM+AL : génération de langage d'action BC+ syntaxe
LAMP : série d'algorithmes pour l'apprentissage de modèles de domaine PDDL abstraits
Cadres en boucle fermée :
ADA : génération de décompositions de tâches symboliques candidates, prompts itératifs pour les actions non définies
COWP : traitement des situations inattendues dans la planification en monde ouvert
LASP : identification des erreurs potentielles à partir des observations environnementales
1.3 Modélisation hybride (Hybrid Modeling)
Génération de modèles complets combinant les systèmes de domaine et de problème PDDL :
Approches de base : Kelly et al. (2023) extraient la planification narrative à partir d'histoires d'entrée, traitant itérativement les messages d'erreur du planificateur
Approches de représentation intermédiaire :
NL2Plan : premier système de planification NL end-to-end indépendant du domaine hors ligne
Génération de balises JSON, vérification de cohérence et boucles de correction d'erreurs
Analyse d'accessibilité et analyse de dépendances
Applications pratiques :
MORPHeus : planification à long terme collaborative homme-machine, mécanismes de détection d'anomalies
InterPret : apprentissage des prédicats PDDL par retours linguistiques interactifs des utilisateurs
AgentGen : utilisation des LLMs pour synthétiser des tâches PDDL diversifiées pour l'entraînement
Cadre LLM-Modulo : assure la correction par raffinement itératif de plans via des validateurs externes, déplaçant l'accent de la planification directe à la génération PDDL avec validateurs intégrés
Représentations intermédiaires : utilisation de représentations intermédiaires plus faciles à traiter par les LLMs (ASP, Python, JSON), puis conversion en PDDL
Génération multi-candidats : génération de plusieurs candidats de domaine ou composants spécifiques (comme les définitions de prédicats), pour mieux s'adapter à l'ambiguïté et l'incertitude dans les intentions de l'utilisateur
Collaboration homme-machine : amélioration de la qualité du modèle par des étapes de prétraitement et des boucles de retour interactif homme-machine
Conception modulaire : support de l'intégration dynamique de types et de prédicats, permettant des systèmes de planification plus adaptatifs et tolérants aux erreurs aux étapes ultérieures de la génération
L'article montre comment utiliser la bibliothèque L2P pour réimplémenter la génération de prédicats et d'actions du domaine Logistics :
Exemples de prédicats générés :
(truck-at ?t - truck ?l - location): Le camion ?t est actuellement au lieu ?l
(package-at ?p - package ?l - location): Le paquet ?p est actuellement au lieu ?l
(truck-holding ?t - truck ?p - package): Le camion ?t tient actuellement le paquet ?p
(plane-at ?a - plane ?l - location): L'avion ?a est au lieu ?l
Sensibilité aux prompts : Les LLMs sont hautement sensibles à la conception des prompts, nécessitant une granularité de prompts standardisée
Valeur des représentations intermédiaires : L'utilisation de représentations intermédiaires (JSON, Python, etc.) peut améliorer la précision et la cohérence
Importance des validateurs : L'intégration d'outils de validation externes (VAL, FastDownward, etc.) est essentielle pour assurer la qualité
Rôle des connaissances du domaine : Une spécification explicite de l'ensemble de prédicats est cruciale pour l'évaluation cohérente entre différentes méthodes
Nécessité de la collaboration homme-machine : Les domaines complexes nécessitent généralement une interaction homme-machine pour assurer l'alignement
LLMs-as-Formalizers est un paradigme prometteur : combinant la capacité de compréhension du langage naturel des LLMs et la capacité de raisonnement structuré des planificateurs classiques
La modélisation des tâches est relativement mature : les méthodes existantes peuvent générer efficacement des spécifications de tâches sous des descriptions explicites
La modélisation des domaines reste difficile : nécessite des méthodes itératives, une génération multi-candidats et une validation externe
La modélisation hybride nécessite une approche systématique : la conception modulaire et les mécanismes de tolérance aux erreurs sont essentiels
Les tests de référence nécessitent une amélioration continue : les fuites de données et la standardisation des évaluations sont des problèmes clés
Amélioration de l'interprétabilité : développer des systèmes de planification interprétables produisant des résultats robustes, transparents et corrigeables
Boucles de retour correctives : améliorer les mécanismes de traitement des erreurs de conditions préalables d'actions et des échecs d'exécution
Collaboration homme-machine : assurer l'alignement par des étapes de prétraitement et des boucles de retour interactif homme-machine
Vérification de la correction sémantique : analyser la correction sémantique des plans générés, utilisée comme retour pour raffiner les spécifications PDDL
Cette enquête couvre environ 80 travaux connexes, les références clés incluent :
Méthodes de base :
Liu et al. (2023a) : LLM+P - Amélioration des LLMs avec des capacités de planification optimale
Guan et al. (2023) : LLM+DM - Construction de modèles du monde utilisant des LLMs pré-entraînés
Kambhampati et al. (2024) : Cadre LLM-Modulo - Les LLMs ne peuvent pas planifier mais peuvent aider à la planification
Tests de référence :
Valmeekam et al. (2023a) : PlanBench - Évaluation des capacités de planification des LLMs
Zuo et al. (2024) : Planetarium - Évaluation de la génération de problèmes PDDL
Hu et al. (2025) : Text2World - Référence de génération de domaine
Modélisation des domaines :
Wong et al. (2023) : ADA - Acquisition de domaine d'action
Oswald et al. (2024) : Évaluation de l'équivalence opérationnelle
Zhang et al. (2024b) : PROC2PDDL - De texte à PDDL
Systèmes d'application :
Gestrin et al. (2024) : NL2Plan - Système end-to-end indépendant du domaine
Kelly et al. (2023) : Extraction PDDL pour la planification narrative
Ye et al. (2024) : MORPHeus - Planification à long terme collaborative homme-machine
Évaluation globale : Ceci est un article d'enquête de haute qualité, opportun et pratique qui synthétise systématiquement l'état actuel de la recherche sur les LLMs en tant qu'outils de formalisation de la planification. La classification de l'article est claire, l'analyse approfondie, et en particulier la contribution de la bibliothèque L2P open-source en fait non seulement une synthèse de littérature, mais aussi un outil de recherche opérationnel. Bien qu'il y ait de la place pour amélioration dans les comparaisons empiriques et l'analyse théorique, en tant que première enquête complète dans ce domaine, sa valeur académique et pratique est élevée, et elle est susceptible de devenir une référence importante dans le domaine LLM+Planification automatisée.