2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

Les LLMs comme formalisateurs de planification : Une enquête sur l'exploitation des grands modèles de langage pour construire des modèles de planification automatisée

Informations de base

  • ID de l'article : 2503.18971
  • Titre : LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • Auteurs : Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Université Queen's)
  • Classification : cs.AI
  • Date de publication : Mars 2025 (arXiv v2 : 25 octobre 2025)
  • Lien de l'article : https://arxiv.org/abs/2503.18971v2

Résumé

Les grands modèles de langage (LLMs) démontrent des performances exceptionnelles dans diverses tâches de traitement du langage naturel, mais rencontrent des difficultés dans les problèmes de planification à long terme nécessitant un raisonnement structuré. Cet article fournit une enquête opportune qui analyse systématiquement l'état actuel de la recherche positionnant les LLMs comme outils de formalisation et de raffinement des spécifications de planification, afin de soutenir les systèmes de planification automatisée (AP) fiables et prêts à l'emploi. L'article procède à un examen systématique d'environ 80 travaux connexes, met en évidence les méthodologies, identifie les défis clés et les orientations futures, et fournit une bibliothèque Python open-source Language-to-Plan (L2P) pour promouvoir la recherche dans ce domaine.

Contexte et motivation de la recherche

1. Problème fondamental

Bien que les LLMs excellent dans les tâches de traitement du langage naturel, ils fonctionnent mal dans les tâches de planification à long terme et de raisonnement, produisant fréquemment des plans peu fiables. L'utilisation directe des LLMs comme planificateurs (LLM-as-Planner) ne peut garantir la correction, l'optimalité et la fiabilité des résultats.

2. Importance du problème

  • Nature de la planification : La planification est un élément essentiel de la cognition de Système II, nécessitant un raisonnement structuré, tandis que les LLMs excellent dans les tâches de Système I
  • Goulot d'étranglement des applications pratiques : L'extraction de modèles de planification a longtemps été un obstacle majeur à l'adoption généralisée des technologies de planification
  • Exigences de fiabilité : Les applications pratiques nécessitent des solutions de planification vérifiables, interprétables et robustes

3. Limitations des approches existantes

  • Approches de planification directe : Lorsque les LLMs génèrent directement des séquences d'actions, les performances diminuent avec les retours itératifs
  • Absence de garanties structurées : Les LLMs ne peuvent pas fournir de garanties de correction comme les systèmes de planification classiques
  • Problèmes de dépendances à long terme : À mesure que l'échelle augmente, les LLMs échouent souvent à considérer les effets et les conditions préalables des actions

4. Motivation de la recherche

Cet article propose le paradigme LLMs-as-Formalizers : exploiter les avantages des LLMs (extraction, interprétation et raffinement des spécifications de modèles de planification à partir du langage naturel), combinés aux avantages des systèmes de planification automatisée classiques (représentations structurées, logique et méthodes de recherche), pour construire un cadre neuro-symbolique complémentaire.

Contributions principales

  1. Taxonomie systématique : Propose le premier système de classification complet pour la construction de modèles de planification automatisée pilotée par LLM, incluant :
    • Génération de modèles (Model Generation) : modélisation des tâches, modélisation des domaines, modélisation hybride
    • Édition de modèles (Model Editing) : raffinement du code et correction d'erreurs
    • Références de modèles (Model Benchmarks) : cadres d'évaluation et ensembles de données
  2. Résumé des méthodes techniques : Synthèse systématique des approches techniques partagées et innovantes pour intégrer les LLMs dans les cadres de planification IA et de leurs limitations
  3. Cadre de questions de recherche : Propose deux questions de recherche fondamentales (RQ) :
    • RQ1 : Comment les LLMs peuvent-ils aligner avec précision les objectifs humains, en veillant à ce que les spécifications du modèle de planification représentent correctement les attentes et les objectifs souhaités ?
    • RQ2 : Dans quelle mesure et à quel niveau de granularité les instructions en langage naturel peuvent-elles être efficacement converties en définitions précises de modèles de planification ?
  4. Bibliothèque d'outils open-source : Fournit la bibliothèque Python open-source Language-to-Plan (L2P), implémentant les méthodes des articles phares couverts par l'enquête, supportant :
    • Suite complète d'outils d'extraction et de raffinement PDDL
    • Conception modulaire supportant des styles de prompts flexibles et des pipelines personnalisés
    • Capacités de pipeline end-to-end entièrement autonomes
  5. Orientations futures : Identifie les défis clés et esquisse les orientations futures de la recherche dans ce domaine

Détails des méthodes

Définition des tâches

Cette enquête se concentre sur le paradigme LLMs-as-Formalizers, c'est-à-dire l'utilisation des LLMs pour construire des spécifications de modèles de planification automatisée (AP) (principalement au format PDDL), qui sont ensuite résolues par des planificateurs indépendants du domaine. Ceci contraste avec les paradigmes suivants :

  • LLMs-as-Planners : Les LLMs génèrent directement des séquences d'actions
  • LLMs-as-Heuristics : Les LLMs améliorent l'efficacité de la recherche par des heuristiques de guidage

Classification du cadre fondamental

1. Génération de modèles (Model Generation)

Extraction et formalisation des spécifications de planification à partir d'entrées en langage naturel, divisées en trois sous-catégories :

1.1 Modélisation des tâches (Task Modeling)

  • Approches de spécification d'objectifs :
    • Few-shot prompting (Collins et al., 2022 ; Grover & Mohan, 2024)
    • Prompting Chain-of-Thought (CoT) (Lyu et al., 2023)
    • Traitement de différents degrés d'ambiguïté (Xie et al., 2023)
  • Spécification complète des tâches :
    • Systèmes en boucle ouverte : LLM+P utilise des exemples contextuels pour générer des fichiers de problèmes PDDL complets
    • Systèmes en boucle fermée : Auto-GPT+P génère l'état initial basé sur la perception visuelle, avec une boucle de correction d'erreurs automatique
    • Collaboration multi-agents : DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • Représentations alternatives :
    • Représentations géométriques pour la planification des tâches et des mouvements
    • Logique temporelle (TSL, STL, LTL)
    • Définitions de fonctions Python pour l'espace de recherche

1.2 Modélisation des domaines (Domain Modeling)

  • Approches à requête unique :
    • CLLaMP : extraction de modèles d'actions PDDL à partir de descriptions CVE
    • PROC2PDDL : conception de prompts Zone of Proximal Development
    • Méthodes de filtrage des candidats (Huang et al., 2024b ; Athalye et al., 2024)
  • Méthodes de génération itérative :
    • LLM+DM : adopte une approche « générer-tester-critiquer », construisant progressivement les composants de domaine par plusieurs appels LLM
    • LLM+AL : génération de langage d'action BC+ syntaxe
    • LAMP : série d'algorithmes pour l'apprentissage de modèles de domaine PDDL abstraits
  • Cadres en boucle fermée :
    • ADA : génération de décompositions de tâches symboliques candidates, prompts itératifs pour les actions non définies
    • COWP : traitement des situations inattendues dans la planification en monde ouvert
    • LASP : identification des erreurs potentielles à partir des observations environnementales

1.3 Modélisation hybride (Hybrid Modeling) Génération de modèles complets combinant les systèmes de domaine et de problème PDDL :

  • Approches de base : Kelly et al. (2023) extraient la planification narrative à partir d'histoires d'entrée, traitant itérativement les messages d'erreur du planificateur
  • Approches de représentation intermédiaire :
    • NL2Plan : premier système de planification NL end-to-end indépendant du domaine hors ligne
    • Génération de balises JSON, vérification de cohérence et boucles de correction d'erreurs
    • Analyse d'accessibilité et analyse de dépendances
  • Applications pratiques :
    • MORPHeus : planification à long terme collaborative homme-machine, mécanismes de détection d'anomalies
    • InterPret : apprentissage des prédicats PDDL par retours linguistiques interactifs des utilisateurs
    • AgentGen : utilisation des LLMs pour synthétiser des tâches PDDL diversifiées pour l'entraînement

2. Édition de modèles (Model Editing)

Les LLMs comme outils auxiliaires plutôt que comme solutions de génération entièrement autonomes :

  • Gragera & Pozanco (2023) : étudient les limitations des LLMs dans la correction des tâches insolubles
  • Patil (2024) : les LLMs excellent dans la correction syntaxique mais sont peu fiables pour les incohérences sémantiques
  • Sikes et al. (2024a) : résolvent les problèmes de variables d'état sémantiquement équivalentes mais syntaxiquement différentes
  • Caglar et al. (2024) : évaluent l'efficacité des LLMs à générer des éditions de modèles raisonnables

3. Références de modèles (Model Benchmarks)

Évaluation des capacités des LLMs dans les tâches de planification et de la qualité des spécifications de planification générées :

3.1 Références LLMs-as-Planner :

  • Mystery Blocksworld : version confuse du Blocksworld classique pour détecter les fuites de données d'entraînement
  • ALFWorld & Household : environnements domestiques réels utilisant la sémantique PDDL
  • TravelPlanner & Natural Plan : références de planification de voyage et d'ordonnancement réaliste
  • PlanBench : évaluation systématique de la planification à coût optimal et de la vérification de plans
  • ACPBench : évaluation standardisée avec tâches et métriques, couvrant 13 domaines et 22 modèles SOTA

3.2 Références LLMs-as-Planning-Formalizers :

  • Planetarium : évalue les tâches/problèmes PDDL générés par LLM, mettant l'accent sur deux questions clés :
    • Les LLMs peuvent produire du code valide mais incohérent avec la description NL originale
    • Les descriptions NL de l'ensemble d'évaluation sont trop similaires aux valeurs réelles
  • Text2World :
    • Pipeline d'extraction de domaine automatisé
    • Métriques multi-critères : exécutabilité, similarité structurelle, score F1 au niveau des composants
    • Limitation : dépendance de l'exécutabilité comme métrique de contrôle

Points d'innovation technique

  1. Cadre LLM-Modulo : assure la correction par raffinement itératif de plans via des validateurs externes, déplaçant l'accent de la planification directe à la génération PDDL avec validateurs intégrés
  2. Représentations intermédiaires : utilisation de représentations intermédiaires plus faciles à traiter par les LLMs (ASP, Python, JSON), puis conversion en PDDL
  3. Génération multi-candidats : génération de plusieurs candidats de domaine ou composants spécifiques (comme les définitions de prédicats), pour mieux s'adapter à l'ambiguïté et l'incertitude dans les intentions de l'utilisateur
  4. Collaboration homme-machine : amélioration de la qualité du modèle par des étapes de prétraitement et des boucles de retour interactif homme-machine
  5. Conception modulaire : support de l'intégration dynamique de types et de prédicats, permettant des systèmes de planification plus adaptatifs et tolérants aux erreurs aux étapes ultérieures de la génération

Configuration expérimentale

Ensembles de données

Cet article, en tant que document d'enquête, couvre plusieurs ensembles de données et domaines utilisés dans environ 80 travaux de recherche :

Domaines de planification classiques :

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

Environnements du monde réel :

  • ALFWorld : interaction dans un environnement domestique
  • Household : scénarios typiques de maison
  • TravelPlanner : scénarios de planification de voyage

Domaines spécialisés :

  • CVE (Common Vulnerabilities and Exposures) : cybersécurité
  • Emergency Operation Plans (EOPs) : prise de décision d'urgence

Métriques d'évaluation

Métriques de qualité de planification :

  • Correction du plan
  • Optimalité des coûts
  • Exécutabilité

Métriques de qualité de modèle :

  • Similarité structurelle : comparaison structurelle avec la valeur réelle
  • Score F1 au niveau des composants : précision et rappel des composants (prédicats, actions, etc.)
  • Équivalence opérationnelle : le domaine reconstruit se comporte-t-il de la même manière que le domaine original
  • Correction sémantique : le code généré s'aligne-t-il avec la description NL originale

Métriques de performance du système :

  • Taux de succès de génération
  • Nombre d'itérations
  • Besoin d'intervention humaine

Méthodes de comparaison

Catégories principales de méthodes couvertes par l'enquête :

  1. Méthodes de génération directe : appel LLM unique générant un PDDL complet
  2. Méthodes de raffinement itératif : appels multiples et boucles de retour
  3. Méthodes hybrides : combinaison de LLM et d'outils de validation traditionnels
  4. Méthodes d'ajustement fin : ajustement fin des LLMs sur des ensembles de données spécifiques

Résultats expérimentaux

Principales conclusions

1. La modélisation des tâches est relativement simple

  • Les descriptions hautement explicites améliorent significativement la précision de traduction (Liu et al., 2023a)
  • L'utilisation d'exemples few-shot et de chaînes de raisonnement peut améliorer la spécification d'objectifs (Lyu et al., 2023)
  • TIC utilisant des représentations intermédiaires atteint une précision proche de 100% sur GPT-3.5 Turbo dans le domaine de la planification LLM+P

2. La modélisation des domaines est plus difficile

  • La génération unique d'un domaine PDDL entièrement fonctionnel n'est pas pratique (Kambhampati et al., 2024)
  • Les méthodes itératives (comme « générer-tester-critiquer » de LLM+DM) améliorent significativement la qualité
  • Les exemples contextuels surpassent les prompts CoT (Oates et al., 2024)
  • Les méthodes de génération multi-candidats gèrent mieux l'ambiguïté dans les intentions de l'utilisateur

3. Complexité de la modélisation hybride

  • La complexité apparaît lors de la coordination du domaine et du problème correspondant
  • Les pipelines linéaires risquent des erreurs en cascade
  • Les étapes de prétraitement (utilisant des outils externes comme FastDownward, VAL) améliorent le taux de succès
  • La collaboration homme-machine améliore significativement la qualité du modèle

4. Efficacité de l'édition de modèles

  • Les LLMs excellent dans la correction syntaxique
  • Moins fiables pour les incohérences sémantiques (Patil, 2024)
  • Nécessité de développer des stratégies de correction post-hoc

5. Défis des tests de référence

  • Les fuites de données d'entraînement sont un problème majeur (Hu et al., 2025 rapportent un taux de contamination élevé)
  • Besoin de normes de référence dynamiques
  • La similarité des descriptions NL de l'ensemble d'évaluation avec les valeurs réelles affecte la difficulté d'évaluation

Études de cas

Réimplémentation de l'algorithme « action-by-action » (Guan et al., 2023) avec la bibliothèque L2P

L'article montre comment utiliser la bibliothèque L2P pour réimplémenter la génération de prédicats et d'actions du domaine Logistics :

Exemples de prédicats générés :

(truck-at ?t - truck ?l - location): Le camion ?t est actuellement au lieu ?l
(package-at ?p - package ?l - location): Le paquet ?p est actuellement au lieu ?l
(truck-holding ?t - truck ?p - package): Le camion ?t tient actuellement le paquet ?p
(plane-at ?a - plane ?l - location): L'avion ?a est au lieu ?l

Exemples d'actions générées :

load_truck(?p - package, ?t - truck, ?l - location)
  Préconditions: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Effets: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Résultats expérimentaux

  1. Sensibilité aux prompts : Les LLMs sont hautement sensibles à la conception des prompts, nécessitant une granularité de prompts standardisée
  2. Valeur des représentations intermédiaires : L'utilisation de représentations intermédiaires (JSON, Python, etc.) peut améliorer la précision et la cohérence
  3. Importance des validateurs : L'intégration d'outils de validation externes (VAL, FastDownward, etc.) est essentielle pour assurer la qualité
  4. Rôle des connaissances du domaine : Une spécification explicite de l'ensemble de prédicats est cruciale pour l'évaluation cohérente entre différentes méthodes
  5. Nécessité de la collaboration homme-machine : Les domaines complexes nécessitent généralement une interaction homme-machine pour assurer l'alignement

Travaux connexes

1. Autres paradigmes LLM+Planification

LLMs-as-Planners :

  • Génération directe de séquences d'actions (Zhang et al., 2024c ; Lin et al., 2023)
  • Raffinement des plans par des méthodes post-hoc (Gundawar et al., 2024)
  • Limitations : impossible de garantir la correction et l'optimalité

LLMs-as-Heuristics :

  • Amélioration de l'efficacité de la recherche par guidage heuristique (Silver et al., 2022 ; Hirsch et al., 2024)
  • Fournit une direction de recherche mais ne génère pas directement de plans

2. Enquêtes connexes

  • Huang et al. (2024c) : agents de planification améliorés par LLM à haut niveau d'abstraction
  • Pallagani et al. (2024) : construction plus large au-delà de l'AP traditionnel
  • Zhao et al. (2024) : aperçu complet des applications LLM-TAMP
  • Li et al. (2024a) : accent principal sur LLMs-as-Planners, complémentaire à cet article

3. Acquisition classique de modèles de planification

  • Les approches traditionnelles dépendent de l'ingénierie des connaissances d'experts humains
  • Les méthodes d'apprentissage extraient les modèles à partir de démonstrations
  • Les méthodes LLM abordées dans cet article offrent une nouvelle voie d'automatisation

Conclusion et discussion

Conclusions principales

  1. LLMs-as-Formalizers est un paradigme prometteur : combinant la capacité de compréhension du langage naturel des LLMs et la capacité de raisonnement structuré des planificateurs classiques
  2. La modélisation des tâches est relativement mature : les méthodes existantes peuvent générer efficacement des spécifications de tâches sous des descriptions explicites
  3. La modélisation des domaines reste difficile : nécessite des méthodes itératives, une génération multi-candidats et une validation externe
  4. La modélisation hybride nécessite une approche systématique : la conception modulaire et les mécanismes de tolérance aux erreurs sont essentiels
  5. Les tests de référence nécessitent une amélioration continue : les fuites de données et la standardisation des évaluations sont des problèmes clés

Limitations

  1. Portée de l'enquête :
    • Accent principal sur les cadres de construction PDDL
    • Analyse technique de chaque travail brève en raison des contraintes d'espace
    • Peut omettre les travaux pertinents d'autres conférences/revues
  2. Limitations actuelles de la bibliothèque L2P :
    • Supporte uniquement les outils d'extraction PDDL de base pour la planification déterministe entièrement observable
    • N'inclut pas encore les outils pour les domaines avancés comme la planification temporelle
  3. Limitations des méthodes :
    • La plupart des méthodes dépendent de mappages explicites NL-to-PDDL
    • Capacité limitée à déduire des spécifications complètes à partir d'entrées éparses
    • La gestion des erreurs sémantiques reste difficile

Orientations futures

Pour RQ1 (Alignement des objectifs) :

  1. Amélioration de l'interprétabilité : développer des systèmes de planification interprétables produisant des résultats robustes, transparents et corrigeables
  2. Boucles de retour correctives : améliorer les mécanismes de traitement des erreurs de conditions préalables d'actions et des échecs d'exécution
  3. Collaboration homme-machine : assurer l'alignement par des étapes de prétraitement et des boucles de retour interactif homme-machine
  4. Vérification de la correction sémantique : analyser la correction sémantique des plans générés, utilisée comme retour pour raffiner les spécifications PDDL

Pour RQ2 (Granularité de description) :

  1. Traitement de descriptions minimales : développer des méthodes capables de déduire des spécifications PDDL complètes à partir d'entrées éparses
  2. Intégration du raisonnement de sens commun : exploiter les capacités de sens commun des LLMs pour capturer les hypothèses et contraintes potentielles
  3. Standardisation des prompts : établir une granularité de prompts standardisée pour la génération initiale et les retours itératifs
  4. Génération automatique de descriptions : développer des outils pour générer automatiquement des descriptions PDDL (comme Nabizada et al., 2024)

Directions techniques :

  1. Architecture modulaire : systèmes plus adaptatifs supportant l'intégration dynamique de types et de prédicats
  2. Stratégies multi-candidats : générer et évaluer plusieurs modèles candidats pour gérer l'incertitude
  3. Correction post-hoc : identifier automatiquement les incohérences sémantiques par des métriques automatiques ou une évaluation humaine
  4. Références dynamiques : établir des normes de référence dynamiques pilotées par la communauté pour prévenir les fuites de données
  5. Extension à la planification avancée : étendre les méthodes à la planification temporelle, probabiliste, etc.

Directions d'application :

  1. Déploiement pratique : tester dans des scénarios réels (robotique, IA de jeu, réponse d'urgence, etc.)
  2. Transfert de domaine : améliorer la capacité de généralisation entre domaines
  3. Intégration multimodale : combiner les informations visuelles, linguistiques et autres modalités

Évaluation approfondie

Points forts

  1. Exhaustivité et systématicité :
    • Première enquête complète se concentrant sur le paradigme LLMs-as-Formalizers
    • Couvre environ 80 travaux connexes avec une classification claire
    • Fournit une perspective complète de la modélisation des tâches à la modélisation des domaines en passant par la modélisation hybride
  2. Valeur pratique élevée :
    • Fournit la bibliothèque L2P open-source implémentant plusieurs méthodes phares
    • La conception modulaire supporte l'expérimentation et la comparaison rapides des chercheurs
    • Inclut des exemples de code détaillés et des instructions d'utilisation
  3. Orientation vers les problèmes :
    • Propose clairement deux questions de recherche fondamentales RQ1 et RQ2
    • Fournit « Summary and Future Directions » pour chaque sous-domaine
    • Fournit une feuille de route claire pour la recherche future
  4. Profondeur technique :
    • Analyse détaillée des détails techniques de diverses méthodes
    • Compare différentes stratégies de prompts, mécanismes de retour et méthodes de validation
    • Fournit des connaissances fondamentales PDDL et des exemples Blocksworld
  5. Pensée critique :
    • Identifie objectivement les limitations de chaque méthode
    • Discute des problèmes clés comme les fuites de données et la standardisation des évaluations
    • Souligne la distinction entre correction sémantique et correction syntaxique

Insuffisances

  1. Analyse empirique limitée :
    • En tant qu'article d'enquête, manque de comparaisons expérimentales systématiques dans un cadre unifié
    • Différentes méthodes utilisent différents ensembles de données et métriques d'évaluation, rendant la comparaison directe difficile
    • N'a pas fourni de tableau de comparaison de performance quantitative pour chaque méthode
  2. Maturité de la bibliothèque L2P :
    • Réimplémente actuellement seulement certaines méthodes phares
    • Supporte uniquement le PDDL de base, pas les caractéristiques avancées comme la temporalité et la probabilité
    • Nécessite des contributions communautaires continues pour rester à jour
  3. Analyse théorique insuffisante :
    • Manque d'explications théoriques sur les raisons pour lesquelles les LLMs échouent dans certaines tâches de planification
    • N'analyse pas en profondeur les différences entre architectures (GPT vs LLaMA, etc.)
    • Discussion limitée des fondements théoriques de l'ingénierie des prompts
  4. Méthodologie d'évaluation :
    • Bien que les tests de référence soient discutés, aucun cadre d'évaluation unifié n'est proposé
    • Manque de définition claire de « qu'est-ce qu'un bon modèle PDDL »
    • Les normes et procédures d'évaluation humaine ne sont pas suffisamment détaillées
  5. Discussion des scénarios d'application :
    • Discussion limitée des défis du déploiement pratique (coût de calcul, latence, etc.)
    • Manque d'analyse ciblée pour différents scénarios d'application (robotique, jeux, ordonnancement, etc.)
    • Discussion insuffisante des obstacles à l'adoption industrielle et des solutions

Impact

  1. Contributions académiques :
    • Construit un pont entre les communautés NLP et AI Planning
    • Définit clairement le paradigme LLMs-as-Formalizers, le distinguant des autres paradigmes
    • Établit une taxonomie systématique et un système de terminologie pour le domaine
  2. Valeur pratique :
    • La bibliothèque L2P abaisse les barrières à l'entrée et promeut la reproductibilité
    • Fournit aux chercheurs un outil de prototypage rapide
    • Peut accélérer la progression de la recherche dans le domaine LLM+Planning
  3. Construction communautaire :
    • Intègre la littérature dispersée, fournissant une perspective unifiée
    • Identifie les défis clés et les lacunes de recherche
    • Peut inspirer de nouvelles directions de recherche et collaborations
  4. Impact potentiel :
    • Peut devenir une référence standard dans le domaine
    • La bibliothèque L2P a le potentiel de devenir un outil standard communautaire
    • Les questions de recherche proposées peuvent guider la recherche pendant de nombreuses années

Scénarios d'application

  1. Chercheurs :
    • Guide d'introduction pour entrer dans le domaine LLM+Planning
    • Trouver des lacunes de recherche et des orientations futures
    • Comparer et évaluer différentes méthodes
  2. Ingénieurs :
    • Sélectionner les méthodes LLM+Planning appropriées pour des applications spécifiques
    • Utiliser la bibliothèque L2P pour le prototypage rapide
    • Comprendre les avantages, inconvénients et scénarios d'application de différentes méthodes
  3. Utilisation pédagogique :
    • Comme matériel pédagogique pour les cours LLM+Planning
    • Fournir des ressources riches en littérature et en code
    • Inclure des exemples PDDL clairs pour les débutants
  4. Domaines d'application spécifiques :
    • Robotique : générer la planification des tâches robotiques à partir d'instructions en langage naturel
    • IA de jeu : générer des modèles de planification du comportement des PNJ
    • Réponse d'urgence : générer des plans d'opération d'urgence à partir de documents politiques
    • Logistique : générer des modèles de planification et d'ordonnancement à partir de descriptions commerciales

Références

Cette enquête couvre environ 80 travaux connexes, les références clés incluent :

Méthodes de base :

  • Liu et al. (2023a) : LLM+P - Amélioration des LLMs avec des capacités de planification optimale
  • Guan et al. (2023) : LLM+DM - Construction de modèles du monde utilisant des LLMs pré-entraînés
  • Kambhampati et al. (2024) : Cadre LLM-Modulo - Les LLMs ne peuvent pas planifier mais peuvent aider à la planification

Tests de référence :

  • Valmeekam et al. (2023a) : PlanBench - Évaluation des capacités de planification des LLMs
  • Zuo et al. (2024) : Planetarium - Évaluation de la génération de problèmes PDDL
  • Hu et al. (2025) : Text2World - Référence de génération de domaine

Modélisation des domaines :

  • Wong et al. (2023) : ADA - Acquisition de domaine d'action
  • Oswald et al. (2024) : Évaluation de l'équivalence opérationnelle
  • Zhang et al. (2024b) : PROC2PDDL - De texte à PDDL

Systèmes d'application :

  • Gestrin et al. (2024) : NL2Plan - Système end-to-end indépendant du domaine
  • Kelly et al. (2023) : Extraction PDDL pour la planification narrative
  • Ye et al. (2024) : MORPHeus - Planification à long terme collaborative homme-machine

Évaluation globale : Ceci est un article d'enquête de haute qualité, opportun et pratique qui synthétise systématiquement l'état actuel de la recherche sur les LLMs en tant qu'outils de formalisation de la planification. La classification de l'article est claire, l'analyse approfondie, et en particulier la contribution de la bibliothèque L2P open-source en fait non seulement une synthèse de littérature, mais aussi un outil de recherche opérationnel. Bien qu'il y ait de la place pour amélioration dans les comparaisons empiriques et l'analyse théorique, en tant que première enquête complète dans ce domaine, sa valeur académique et pratique est élevée, et elle est susceptible de devenir une référence importante dans le domaine LLM+Planification automatisée.