LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLMs como Formalizadores de Planificación: Una Encuesta para Aprovechar Modelos de Lenguaje Grande en la Construcción de Modelos de Planificación Automatizada
Los modelos de lenguaje grande (LLMs) demuestran un desempeño excepcional en diversas tareas de procesamiento de lenguaje natural, pero aún enfrentan dificultades en problemas de planificación a largo plazo que requieren razonamiento estructurado. Este artículo proporciona una encuesta oportuna que analiza sistemáticamente el estado actual de la investigación sobre cómo posicionar los LLMs como herramientas para formalizar y refinar especificaciones de planificación, con el fin de respaldar sistemas de planificación automatizada (AP) confiables y listos para usar. El artículo revisa sistemáticamente aproximadamente 80 trabajos relacionados, destaca metodologías, identifica desafíos clave y direcciones futuras, y proporciona una biblioteca Python de código abierto Language-to-Plan (L2P) para promover la investigación en este campo.
A pesar del desempeño excepcional de los LLMs en tareas de procesamiento de lenguaje natural, presentan un rendimiento deficiente en tareas de planificación a largo plazo y razonamiento, generando frecuentemente planes no confiables. El uso directo de LLMs como planificadores (LLM-as-Planner) no puede garantizar la corrección, optimalidad y confiabilidad de los resultados.
Naturaleza de la Planificación: La planificación es un componente esencial de la cognición del Sistema II, requiriendo razonamiento estructurado, mientras que los LLMs son más competentes en tareas del Sistema I
Cuello de Botella en Aplicaciones Prácticas: La extracción de modelos de planificación ha sido históricamente el principal obstáculo para la adopción generalizada de tecnologías de planificación
Requisitos de Confiabilidad: Las aplicaciones prácticas requieren soluciones de planificación verificables, interpretables y robustas
Métodos de Planificación Directa: Cuando los LLMs generan directamente secuencias de acciones, el rendimiento disminuye con retroalimentación iterativa
Falta de Garantías Estructuradas: Los LLMs no pueden proporcionar garantías de corrección como los sistemas de planificación clásicos
Problemas de Dependencias a Largo Plazo: Conforme aumenta la escala, los LLMs frecuentemente no logran considerar los efectos y precondiciones de las acciones
Este artículo propone el paradigma LLMs-as-Formalizers: aprovechar las fortalezas de los LLMs (extracción, interpretación y refinamiento de especificaciones de modelos de planificación a partir del lenguaje natural), combinadas con las fortalezas de los sistemas de planificación automatizada clásicos (representación estructurada, métodos lógicos y de búsqueda), para construir un marco neuro-simbólico complementario.
Taxonomía Sistemática: Propone el primer sistema de clasificación integral para la construcción de modelos de planificación automatizada impulsada por LLMs, que incluye:
Generación de Modelos (Model Generation): modelado de tareas, modelado de dominios, modelado híbrido
Edición de Modelos (Model Editing): refinamiento de código y corrección de errores
Puntos de Referencia de Modelos (Model Benchmarks): marcos de evaluación y conjuntos de datos
Resumen de Métodos Técnicos: Sistematiza los métodos técnicos compartidos e innovadores para integrar LLMs en marcos de planificación de IA y sus limitaciones
Marco de Preguntas de Investigación: Propone dos preguntas de investigación centrales (RQ):
RQ1: ¿Cómo pueden los LLMs alinearse con precisión con los objetivos humanos, asegurando que las especificaciones del modelo de planificación representen correctamente las expectativas y objetivos deseados?
RQ2: ¿En qué medida y granularidad pueden las instrucciones en lenguaje natural transformarse efectivamente en definiciones precisas de modelos de planificación?
Biblioteca de Herramientas de Código Abierto: Proporciona la biblioteca Python de código abierto Language-to-Plan (L2P), que implementa métodos de trabajos emblemáticos cubiertos en la encuesta, con soporte para:
Suite integral de herramientas de extracción y refinamiento de PDDL
Diseño modular que soporta estilos de prompts flexibles y canalizaciones personalizadas
Capacidades de canalización de extremo a extremo completamente autónomas
Orientación de Direcciones Futuras: Identifica desafíos clave y esboza direcciones de investigación futuras para el campo
Esta encuesta se enfoca en el paradigma LLMs-as-Formalizers, es decir, usar LLMs para construir especificaciones de modelos de planificación automatizada (AP) (principalmente en formato PDDL), que luego son resueltas por planificadores independientes del dominio. Esto contrasta con los siguientes paradigmas:
LLMs-as-Planners: Los LLMs generan directamente secuencias de acciones
LLMs-as-Heuristics: Los LLMs mejoran la eficiencia de búsqueda mediante orientación heurística
Marco LLM-Modulo: Asegura corrección a través de refinamiento iterativo de planes con validadores externos, desplazando el enfoque de planificación directa a generación de PDDL con validadores integrados
Representación Intermedia: Utiliza representaciones intermedias más fáciles de procesar para LLMs como ASP, Python, JSON, que luego se convierten a PDDL
Generación de Múltiples Candidatos: Genera múltiples candidatos de dominio o componentes específicos (como definiciones de predicados) para adaptarse mejor a la ambigüedad e incertidumbre en la intención del usuario
Colaboración Humano-Máquina: Mejora la calidad del modelo a través de pasos de preprocesamiento y ciclos de retroalimentación interactiva humano-máquina
Diseño Modular: Soporta integración dinámica de tipos y predicados, permitiendo sistemas de planificación más adaptables y tolerantes a fallos en etapas posteriores de generación
El artículo demuestra cómo usar la biblioteca L2P para reproducir la generación de predicados y acciones en el dominio de Logistics:
Ejemplo de Predicados Generados:
(truck-at ?t - truck ?l - location): El camión ?t está actualmente en la ubicación ?l
(package-at ?p - package ?l - location): El paquete ?p está actualmente en la ubicación ?l
(truck-holding ?t - truck ?p - package): El camión ?t actualmente sostiene el paquete ?p
(plane-at ?a - plane ?l - location): El avión ?a está en la ubicación ?l
Sensibilidad a Prompts: Los LLMs son altamente sensibles al diseño de prompts, requiriendo granularidad de prompts estandarizada
Valor de Representaciones Intermedias: El uso de representaciones intermedias como JSON, Python puede mejorar la precisión y consistencia
Importancia de Validadores: La integración de herramientas de validación externa (VAL, FastDownward, etc.) es clave para asegurar calidad
Rol del Conocimiento del Dominio: La especificación explícita de conjuntos de predicados es crítica para evaluación consistente entre diferentes métodos
Necesidad de Colaboración Humano-Máquina: Los dominios complejos típicamente requieren interacción humano-máquina para asegurar alineación
LLMs-as-Formalizers es un Paradigma Prometedor: Combina la capacidad de comprensión de lenguaje natural de los LLMs con la capacidad de razonamiento estructurado de los planificadores clásicos
El Modelado de Tareas es Relativamente Maduro: Los métodos existentes pueden generar efectivamente especificaciones de tareas bajo descripciones explícitas
El Modelado de Dominios Sigue Siendo Desafiante: Requiere métodos iterativos, generación de múltiples candidatos y validación externa
El Modelado Híbrido Requiere Enfoques Sistemáticos: El diseño modular y los mecanismos de tolerancia a fallos son críticos
Las Pruebas de Referencia Requieren Mejora Continua: La fuga de datos y la estandarización de evaluación son problemas clave
Mejora de Interpretabilidad: Desarrollar sistemas de planificación interpretables que produzcan salidas robustas, transparentes y corregibles
Ciclos de Retroalimentación de Corrección: Mejorar mecanismos para manejar errores de precondiciones de acciones y fallos de ejecución
Colaboración Humano-Máquina: Asegurar alineación a través de pasos de preprocesamiento y ciclos de retroalimentación interactiva humano-máquina
Verificación de Corrección Semántica: Analizar corrección semántica de planes generados, usándola como retroalimentación para refinar especificaciones PDDL
Esta encuesta cubre aproximadamente 80 trabajos relacionados, con referencias clave incluyendo:
Métodos Base:
Liu et al. (2023a): LLM+P - Mejora de LLMs con capacidades de planificación óptima
Guan et al. (2023): LLM+DM - Construcción de modelos del mundo utilizando LLMs preentrenados
Kambhampati et al. (2024): Marco LLM-Modulo - Los LLMs no pueden planificar pero pueden ayudar a planificar
Pruebas de Referencia:
Valmeekam et al. (2023a): PlanBench - Evaluación de capacidades de planificación de LLMs
Zuo et al. (2024): Planetarium - Evaluación de generación de problemas PDDL
Hu et al. (2025): Text2World - Punto de referencia de generación de dominio
Modelado de Dominios:
Wong et al. (2023): ADA - Adquisición de dominio de acciones
Oswald et al. (2024): Evaluación de equivalencia operacional
Zhang et al. (2024b): PROC2PDDL - De texto a PDDL
Sistemas de Aplicación:
Gestrin et al. (2024): NL2Plan - Sistema de extremo a extremo independiente del dominio
Kelly et al. (2023): Extracción PDDL para planificación narrativa
Ye et al. (2024): MORPHeus - Planificación a largo plazo colaborativa humano-máquina
Evaluación General: Este es un artículo de encuesta de alta calidad, oportuno y práctico que sistematiza el estado actual de la investigación sobre LLMs como herramientas de formalización de planificación. La clasificación del artículo es clara, el análisis es profundo, y particularmente la contribución de la biblioteca L2P de código abierto hace que sea no solo una encuesta de literatura, sino también una herramienta de investigación operativa. Aunque hay espacio para mejora en comparación empírica y análisis teórico, como la primera encuesta integral en este campo, su valor académico y práctico son altos, y probablemente se convertirá en una referencia importante en el campo de LLM+Planificación Automatizada.