2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

LLMs como Formalizadores de Planificación: Una Encuesta para Aprovechar Modelos de Lenguaje Grande en la Construcción de Modelos de Planificación Automatizada

Información Básica

  • ID del Artículo: 2503.18971
  • Título: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • Autores: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
  • Clasificación: cs.AI
  • Fecha de Publicación: Marzo de 2025 (arXiv v2: 25 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2503.18971v2

Resumen

Los modelos de lenguaje grande (LLMs) demuestran un desempeño excepcional en diversas tareas de procesamiento de lenguaje natural, pero aún enfrentan dificultades en problemas de planificación a largo plazo que requieren razonamiento estructurado. Este artículo proporciona una encuesta oportuna que analiza sistemáticamente el estado actual de la investigación sobre cómo posicionar los LLMs como herramientas para formalizar y refinar especificaciones de planificación, con el fin de respaldar sistemas de planificación automatizada (AP) confiables y listos para usar. El artículo revisa sistemáticamente aproximadamente 80 trabajos relacionados, destaca metodologías, identifica desafíos clave y direcciones futuras, y proporciona una biblioteca Python de código abierto Language-to-Plan (L2P) para promover la investigación en este campo.

Contexto de Investigación y Motivación

1. Problema Central

A pesar del desempeño excepcional de los LLMs en tareas de procesamiento de lenguaje natural, presentan un rendimiento deficiente en tareas de planificación a largo plazo y razonamiento, generando frecuentemente planes no confiables. El uso directo de LLMs como planificadores (LLM-as-Planner) no puede garantizar la corrección, optimalidad y confiabilidad de los resultados.

2. Importancia del Problema

  • Naturaleza de la Planificación: La planificación es un componente esencial de la cognición del Sistema II, requiriendo razonamiento estructurado, mientras que los LLMs son más competentes en tareas del Sistema I
  • Cuello de Botella en Aplicaciones Prácticas: La extracción de modelos de planificación ha sido históricamente el principal obstáculo para la adopción generalizada de tecnologías de planificación
  • Requisitos de Confiabilidad: Las aplicaciones prácticas requieren soluciones de planificación verificables, interpretables y robustas

3. Limitaciones de Métodos Existentes

  • Métodos de Planificación Directa: Cuando los LLMs generan directamente secuencias de acciones, el rendimiento disminuye con retroalimentación iterativa
  • Falta de Garantías Estructuradas: Los LLMs no pueden proporcionar garantías de corrección como los sistemas de planificación clásicos
  • Problemas de Dependencias a Largo Plazo: Conforme aumenta la escala, los LLMs frecuentemente no logran considerar los efectos y precondiciones de las acciones

4. Motivación de la Investigación

Este artículo propone el paradigma LLMs-as-Formalizers: aprovechar las fortalezas de los LLMs (extracción, interpretación y refinamiento de especificaciones de modelos de planificación a partir del lenguaje natural), combinadas con las fortalezas de los sistemas de planificación automatizada clásicos (representación estructurada, métodos lógicos y de búsqueda), para construir un marco neuro-simbólico complementario.

Contribuciones Principales

  1. Taxonomía Sistemática: Propone el primer sistema de clasificación integral para la construcción de modelos de planificación automatizada impulsada por LLMs, que incluye:
    • Generación de Modelos (Model Generation): modelado de tareas, modelado de dominios, modelado híbrido
    • Edición de Modelos (Model Editing): refinamiento de código y corrección de errores
    • Puntos de Referencia de Modelos (Model Benchmarks): marcos de evaluación y conjuntos de datos
  2. Resumen de Métodos Técnicos: Sistematiza los métodos técnicos compartidos e innovadores para integrar LLMs en marcos de planificación de IA y sus limitaciones
  3. Marco de Preguntas de Investigación: Propone dos preguntas de investigación centrales (RQ):
    • RQ1: ¿Cómo pueden los LLMs alinearse con precisión con los objetivos humanos, asegurando que las especificaciones del modelo de planificación representen correctamente las expectativas y objetivos deseados?
    • RQ2: ¿En qué medida y granularidad pueden las instrucciones en lenguaje natural transformarse efectivamente en definiciones precisas de modelos de planificación?
  4. Biblioteca de Herramientas de Código Abierto: Proporciona la biblioteca Python de código abierto Language-to-Plan (L2P), que implementa métodos de trabajos emblemáticos cubiertos en la encuesta, con soporte para:
    • Suite integral de herramientas de extracción y refinamiento de PDDL
    • Diseño modular que soporta estilos de prompts flexibles y canalizaciones personalizadas
    • Capacidades de canalización de extremo a extremo completamente autónomas
  5. Orientación de Direcciones Futuras: Identifica desafíos clave y esboza direcciones de investigación futuras para el campo

Explicación Detallada de Métodos

Definición de Tareas

Esta encuesta se enfoca en el paradigma LLMs-as-Formalizers, es decir, usar LLMs para construir especificaciones de modelos de planificación automatizada (AP) (principalmente en formato PDDL), que luego son resueltas por planificadores independientes del dominio. Esto contrasta con los siguientes paradigmas:

  • LLMs-as-Planners: Los LLMs generan directamente secuencias de acciones
  • LLMs-as-Heuristics: Los LLMs mejoran la eficiencia de búsqueda mediante orientación heurística

Clasificación del Marco Central

1. Generación de Modelos (Model Generation)

Extrae y formaliza especificaciones de planificación a partir de entrada en lenguaje natural, dividida en tres subcategorías:

1.1 Modelado de Tareas (Task Modeling)

  • Métodos de Especificación de Objetivos:
    • Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
    • Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
    • Manejo de diferentes grados de ambigüedad (Xie et al., 2023)
  • Especificación Completa de Tareas:
    • Sistemas de Bucle Abierto: LLM+P utiliza ejemplos en contexto para generar archivos de problemas PDDL completos
    • Sistemas de Bucle Cerrado: Auto-GPT+P genera el estado inicial basado en percepción visual, con ciclos de corrección automática de errores
    • Colaboración Multiagente: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • Representaciones Alternativas:
    • Representaciones geométricas para planificación de tareas y movimiento
    • Lógica temporal (TSL, STL, LTL)
    • Definiciones de funciones Python para espacios de búsqueda

1.2 Modelado de Dominios (Domain Modeling)

  • Métodos de Consulta Única:
    • CLLaMP: Extrae modelos de acciones PDDL de descripciones de CVE
    • PROC2PDDL: Diseño de prompts con Zona de Desarrollo Próximo
    • Métodos de filtrado de candidatos (Huang et al., 2024b; Athalye et al., 2024)
  • Métodos de Generación Iterativa:
    • LLM+DM: Adopta el enfoque "generar-probar-criticar", construyendo incrementalmente componentes de dominio a través de múltiples llamadas a LLM
    • LLM+AL: Genera lenguaje de acciones con BC+ sintaxis
    • LAMP: Serie de algoritmos para aprender modelos de dominio PDDL abstractos
  • Marcos de Bucle Cerrado:
    • ADA: Genera descomposiciones de tareas simbólicas candidatas, iterativamente solicita acciones no definidas
    • COWP: Maneja situaciones inesperadas en planificación de mundo abierto
    • LASP: Identifica errores potenciales a partir de observaciones del entorno

1.3 Modelado Híbrido (Hybrid Modeling) Combina sistemas de dominio y problema PDDL para generación de modelos completos:

  • Métodos Base: Kelly et al. (2023) extrae planificación narrativa de historias de entrada, manejando iterativamente mensajes de error del planificador
  • Métodos de Representación Intermedia:
    • NL2Plan: Primer sistema de planificación NL de extremo a extremo independiente del dominio
    • Generación de etiquetas JSON, verificación de consistencia y ciclos de corrección de errores
    • Análisis de alcanzabilidad y análisis de dependencias
  • Aplicaciones Prácticas:
    • MORPHeus: Planificación a largo plazo colaborativa humano-máquina, mecanismos de detección de anomalías
    • InterPret: Aprende predicados PDDL a través de retroalimentación de lenguaje interactivo del usuario
    • AgentGen: Utiliza LLMs para sintetizar tareas PDDL diversas para entrenamiento

2. Edición de Modelos (Model Editing)

Los LLMs actúan como herramientas auxiliares en lugar de soluciones completamente autónomas:

  • Gragera & Pozanco (2023): Investiga las limitaciones de los LLMs en la reparación de tareas no resolubles
  • Patil (2024): Los LLMs sobresalen en corrección sintáctica pero son poco confiables en inconsistencias semánticas
  • Sikes et al. (2024a): Aborda problemas de variables de estado semánticamente equivalentes pero sintácticamente diferentes
  • Caglar et al. (2024): Evalúa la efectividad de los LLMs en la generación de ediciones de modelos razonables

3. Puntos de Referencia de Modelos (Model Benchmarks)

Evalúa las capacidades de los LLMs en tareas de planificación y la calidad de las especificaciones de planificación generadas:

3.1 Puntos de Referencia de LLMs-as-Planner:

  • Mystery Blocksworld: Confunde el Blocksworld clásico para detectar fugas de datos de entrenamiento
  • ALFWorld & Household: Utiliza semántica PDDL en entornos domésticos reales
  • TravelPlanner & Natural Plan: Puntos de referencia de planificación de viajes y programación realista
  • PlanBench: Evaluación sistemática de planificación de costo óptimo y verificación de planes
  • ACPBench: Evaluación estandarizada de tareas e indicadores, cubriendo 13 dominios y 22 modelos SOTA

3.2 Puntos de Referencia de LLMs-as-Planning-Formalizers:

  • Planetarium: Evalúa tareas/problemas PDDL generados por LLM, enfatizando dos problemas clave:
    • Los LLMs pueden producir código válido pero inconsistente con la descripción NL original
    • Las descripciones NL del conjunto de evaluación son demasiado similares a los valores verdaderos
  • Text2World:
    • Canalización de extracción de dominio automatizada
    • Métricas multicriterio: ejecutabilidad, similitud estructural, puntuación F1 a nivel de componentes
    • Limitación: depende de ejecutabilidad como métrica de control

Puntos de Innovación Técnica

  1. Marco LLM-Modulo: Asegura corrección a través de refinamiento iterativo de planes con validadores externos, desplazando el enfoque de planificación directa a generación de PDDL con validadores integrados
  2. Representación Intermedia: Utiliza representaciones intermedias más fáciles de procesar para LLMs como ASP, Python, JSON, que luego se convierten a PDDL
  3. Generación de Múltiples Candidatos: Genera múltiples candidatos de dominio o componentes específicos (como definiciones de predicados) para adaptarse mejor a la ambigüedad e incertidumbre en la intención del usuario
  4. Colaboración Humano-Máquina: Mejora la calidad del modelo a través de pasos de preprocesamiento y ciclos de retroalimentación interactiva humano-máquina
  5. Diseño Modular: Soporta integración dinámica de tipos y predicados, permitiendo sistemas de planificación más adaptables y tolerantes a fallos en etapas posteriores de generación

Configuración Experimental

Conjuntos de Datos

Como artículo de encuesta, este trabajo cubre múltiples conjuntos de datos y dominios utilizados en aproximadamente 80 trabajos de investigación:

Dominios de Planificación Clásica:

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

Entornos del Mundo Real:

  • ALFWorld: Interacción en entornos domésticos
  • Household: Escenarios típicos del hogar
  • TravelPlanner: Escenarios de planificación de viajes

Dominios Especializados:

  • CVE (Common Vulnerabilities and Exposures): Ciberseguridad
  • Emergency Operation Plans (EOPs): Toma de decisiones de emergencia

Métricas de Evaluación

Indicadores de Calidad de Planificación:

  • Corrección del plan
  • Optimalidad de costo
  • Ejecutabilidad

Indicadores de Calidad del Modelo:

  • Similitud Estructural: Comparación estructural con valores verdaderos
  • Puntuación F1 a Nivel de Componentes: Precisión y recuperación de componentes como predicados y acciones
  • Equivalencia Operacional: Si el dominio reconstruido se comporta igual que el dominio original
  • Corrección Semántica: Si el código generado se alinea con la descripción NL original

Indicadores de Rendimiento del Sistema:

  • Tasa de éxito de generación
  • Número de iteraciones
  • Requisitos de intervención humana

Métodos de Comparación

Las principales categorías de métodos cubiertos en la encuesta:

  1. Métodos de Generación Directa: Generación de PDDL completo mediante una única llamada a LLM
  2. Métodos de Refinamiento Iterativo: Múltiples llamadas y ciclos de retroalimentación
  3. Métodos Híbridos: Combinación de LLM y herramientas de validación tradicionales
  4. Métodos de Ajuste Fino: Ajuste fino de LLMs en conjuntos de datos específicos

Resultados Experimentales

Hallazgos Principales

1. El Modelado de Tareas es Relativamente Simple

  • Las descripciones altamente explícitas mejoran significativamente la precisión de traducción (Liu et al., 2023a)
  • El uso de ejemplos few-shot y cadenas de razonamiento puede mejorar la especificación de objetivos (Lyu et al., 2023)
  • TIC logra precisión cercana al 100% en GPT-3.5 Turbo utilizando representación intermedia en el dominio de planificación LLM+P

2. El Modelado de Dominios es Más Desafiante

  • La generación única de un dominio PDDL completamente funcional es impráctica (Kambhampati et al., 2024)
  • Los métodos iterativos (como "generar-probar-criticar" de LLM+DM) mejoran significativamente la calidad
  • Los ejemplos en contexto superan al prompting CoT (Oates et al., 2024)
  • Los métodos de generación de múltiples candidatos pueden manejar mejor la ambigüedad en la intención del usuario

3. Complejidad del Modelado Híbrido

  • Surgen complejidades al coordinar el dominio y los problemas correspondientes
  • Las canalizaciones lineales presentan riesgo de errores en cascada
  • Los pasos de preprocesamiento (utilizando herramientas externas como FastDownward, VAL) mejoran la tasa de éxito
  • La colaboración humano-máquina mejora significativamente la calidad del modelo

4. Efectividad de la Edición de Modelos

  • Los LLMs demuestran excelencia en corrección sintáctica
  • Son menos confiables en inconsistencias semánticas (Patil, 2024)
  • Se necesita desarrollar estrategias de corrección posterior

5. Desafíos en Pruebas de Referencia

  • La fuga de datos de entrenamiento es un problema importante (Hu et al., 2025 reporta alta tasa de contaminación)
  • Se necesitan estándares de referencia dinámicos
  • La similitud entre descripciones NL del conjunto de evaluación y valores verdaderos afecta la dificultad de evaluación

Análisis de Casos

Reproducción del Algoritmo "action-by-action" (Guan et al., 2023) con la Biblioteca L2P

El artículo demuestra cómo usar la biblioteca L2P para reproducir la generación de predicados y acciones en el dominio de Logistics:

Ejemplo de Predicados Generados:

(truck-at ?t - truck ?l - location): El camión ?t está actualmente en la ubicación ?l
(package-at ?p - package ?l - location): El paquete ?p está actualmente en la ubicación ?l
(truck-holding ?t - truck ?p - package): El camión ?t actualmente sostiene el paquete ?p
(plane-at ?a - plane ?l - location): El avión ?a está en la ubicación ?l

Ejemplo de Acciones Generadas:

load_truck(?p - package, ?t - truck, ?l - location)
  Precondiciones: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Efectos: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Hallazgos Experimentales

  1. Sensibilidad a Prompts: Los LLMs son altamente sensibles al diseño de prompts, requiriendo granularidad de prompts estandarizada
  2. Valor de Representaciones Intermedias: El uso de representaciones intermedias como JSON, Python puede mejorar la precisión y consistencia
  3. Importancia de Validadores: La integración de herramientas de validación externa (VAL, FastDownward, etc.) es clave para asegurar calidad
  4. Rol del Conocimiento del Dominio: La especificación explícita de conjuntos de predicados es crítica para evaluación consistente entre diferentes métodos
  5. Necesidad de Colaboración Humano-Máquina: Los dominios complejos típicamente requieren interacción humano-máquina para asegurar alineación

Trabajo Relacionado

1. Otros Paradigmas de LLM+Planificación

LLMs-as-Planners:

  • Generación directa de secuencias de acciones (Zhang et al., 2024c; Lin et al., 2023)
  • Refinamiento de planes a través de métodos posteriores (Gundawar et al., 2024)
  • Limitaciones: No pueden garantizar corrección y optimalidad

LLMs-as-Heuristics:

  • Mejora de eficiencia de búsqueda mediante orientación heurística (Silver et al., 2022; Hirsch et al., 2024)
  • Proporciona dirección de búsqueda pero no genera planes directamente

2. Encuestas Relacionadas

  • Huang et al. (2024c): Agentes de planificación mejorados por LLM con abstracción de alto nivel
  • Pallagani et al. (2024): Construcción más amplia más allá de AP tradicional
  • Zhao et al. (2024): Descripción general amplia de aplicaciones LLM-TAMP
  • Li et al. (2024a): Enfoque principal en LLMs-as-Planners, complementario a este artículo

3. Adquisición de Modelos de Planificación Clásica

  • Los métodos tradicionales dependen de ingeniería de conocimiento manual por expertos
  • Los métodos de aprendizaje extraen modelos de demostraciones
  • Los métodos de LLM enfocados en este artículo proporcionan una nueva vía de automatización

Conclusiones y Discusión

Conclusiones Principales

  1. LLMs-as-Formalizers es un Paradigma Prometedor: Combina la capacidad de comprensión de lenguaje natural de los LLMs con la capacidad de razonamiento estructurado de los planificadores clásicos
  2. El Modelado de Tareas es Relativamente Maduro: Los métodos existentes pueden generar efectivamente especificaciones de tareas bajo descripciones explícitas
  3. El Modelado de Dominios Sigue Siendo Desafiante: Requiere métodos iterativos, generación de múltiples candidatos y validación externa
  4. El Modelado Híbrido Requiere Enfoques Sistemáticos: El diseño modular y los mecanismos de tolerancia a fallos son críticos
  5. Las Pruebas de Referencia Requieren Mejora Continua: La fuga de datos y la estandarización de evaluación son problemas clave

Limitaciones

  1. Alcance de la Encuesta:
    • Se enfoca principalmente en marcos de construcción PDDL
    • El análisis técnico de cada trabajo es breve debido a limitaciones de espacio
    • Puede haber omitido investigaciones relevantes de otras conferencias/revistas
  2. Limitaciones Actuales de la Biblioteca L2P:
    • Solo soporta herramientas básicas de extracción PDDL para planificación determinista completamente observable
    • Aún no incluye herramientas para dominios avanzados como planificación temporal
  3. Limitaciones de Métodos:
    • La mayoría de métodos dependen de mapeos explícitos de NL a código PDDL
    • Capacidad limitada para inferir especificaciones completas a partir de entrada escasa
    • El manejo de errores semánticos sigue siendo difícil

Direcciones Futuras

Dirigidas a RQ1 (Alineación de Objetivos):

  1. Mejora de Interpretabilidad: Desarrollar sistemas de planificación interpretables que produzcan salidas robustas, transparentes y corregibles
  2. Ciclos de Retroalimentación de Corrección: Mejorar mecanismos para manejar errores de precondiciones de acciones y fallos de ejecución
  3. Colaboración Humano-Máquina: Asegurar alineación a través de pasos de preprocesamiento y ciclos de retroalimentación interactiva humano-máquina
  4. Verificación de Corrección Semántica: Analizar corrección semántica de planes generados, usándola como retroalimentación para refinar especificaciones PDDL

Dirigidas a RQ2 (Granularidad de Descripción):

  1. Manejo de Descripciones Mínimas: Desarrollar métodos capaces de inferir especificaciones PDDL completas a partir de entrada escasa
  2. Integración de Razonamiento de Sentido Común: Aprovechar capacidades de sentido común de LLMs para capturar suposiciones y restricciones potenciales
  3. Prompts Estandarizados: Establecer granularidad de prompts estandarizada para generación inicial y retroalimentación iterativa
  4. Generación Automática de Descripciones: Desarrollar herramientas para generar automáticamente descripciones PDDL (como Nabizada et al., 2024)

Direcciones Técnicas:

  1. Arquitectura Modular: Sistemas más adaptables que soporten integración dinámica de tipos y predicados
  2. Estrategia de Múltiples Candidatos: Generar y evaluar múltiples modelos candidatos para manejar incertidumbre
  3. Corrección Posterior: Identificar automáticamente inconsistencias semánticas a través de métricas automáticas o evaluación humana
  4. Puntos de Referencia Dinámicos: Establecer estándares de referencia dinámicos impulsados por la comunidad para prevenir fugas de datos
  5. Extensión a Planificación Avanzada: Extender métodos a planificación temporal, planificación probabilística, etc.

Direcciones de Aplicación:

  1. Despliegue Práctico: Prueba en escenarios reales como robótica, IA de juegos, respuesta a emergencias
  2. Transferencia de Dominio: Mejorar capacidades de generalización entre dominios
  3. Integración Multimodal: Combinar información visual, de lenguaje y otras modalidades

Evaluación Profunda

Fortalezas

  1. Comprensividad y Sistematicidad:
    • Primera encuesta integral enfocada en el paradigma LLMs-as-Formalizers
    • Cubre aproximadamente 80 trabajos relacionados con clasificación clara
    • Proporciona perspectiva completa desde modelado de tareas hasta modelado de dominios hasta modelado híbrido
  2. Alto Valor Práctico:
    • Proporciona biblioteca L2P de código abierto que implementa múltiples métodos emblemáticos
    • El diseño modular soporta experimentación rápida y comparación por investigadores
    • Incluye ejemplos de código detallados e instrucciones de uso
  3. Orientación a Problemas:
    • Propone claramente dos preguntas de investigación centrales RQ1 y RQ2
    • Cada subdominio proporciona "Resumen y Direcciones Futuras"
    • Proporciona hoja de ruta clara para investigación futura
  4. Profundidad Técnica:
    • Analiza en detalle los detalles técnicos de varios métodos
    • Compara diferentes estrategias de prompting, mecanismos de retroalimentación y métodos de validación
    • Proporciona conocimiento fundamental de PDDL y ejemplos de Blocksworld
  5. Pensamiento Crítico:
    • Señala objetivamente las limitaciones de cada método
    • Discute problemas clave como fugas de datos y estandarización de evaluación
    • Enfatiza la distinción entre corrección semántica vs. sintáctica

Deficiencias

  1. Análisis Empírico Limitado:
    • Como artículo de encuesta, carece de comparación experimental sistemática bajo marco unificado
    • Diferentes métodos utilizan diferentes conjuntos de datos e indicadores de evaluación, dificultando comparación directa
    • No proporciona tabla de comparación de rendimiento cuantitativo de cada método
  2. Madurez de la Biblioteca L2P:
    • Actualmente solo reproduce algunos métodos emblemáticos
    • Solo soporta PDDL básico, no soporta características avanzadas como temporal, probabilístico
    • Requiere contribuciones comunitarias continuas para mantener actualización
  3. Análisis Teórico Insuficiente:
    • Carece de explicación teórica de por qué los LLMs fallan en ciertas tareas de planificación
    • No analiza profundamente diferencias entre arquitecturas (GPT vs LLaMA, etc.)
    • La discusión sobre fundamentos teóricos de ingeniería de prompts es limitada
  4. Metodología de Evaluación:
    • A pesar de discutir pruebas de referencia, no propone marco de evaluación unificado
    • Carece de definición clara de "qué es un buen modelo PDDL"
    • Los estándares y procedimientos de evaluación humana no son suficientemente detallados
  5. Discusión de Escenarios de Aplicación:
    • Discusión limitada sobre desafíos en despliegue práctico (costo computacional, latencia, etc.)
    • Carece de análisis específico para diferentes escenarios de aplicación (robótica, juegos, programación, etc.)
    • Discusión insuficiente sobre obstáculos para adopción industrial y soluciones

Impacto

  1. Contribución Académica:
    • Construye puente entre comunidades de PNL y planificación de IA
    • Define claramente el paradigma LLMs-as-Formalizers, contrastando con otros paradigmas
    • Establece sistema de clasificación y terminología sistemática para el campo
  2. Valor Práctico:
    • La biblioteca L2P reduce barreras de entrada, promoviendo reproducibilidad
    • Proporciona herramientas de prototipado rápido para investigadores
    • Puede acelerar progreso de investigación en el campo LLM+Planificación
  3. Construcción Comunitaria:
    • Integra literatura dispersa, proporcionando perspectiva unificada
    • Identifica desafíos clave y espacios de investigación
    • Puede inspirar nuevas direcciones de investigación y colaboraciones
  4. Impacto Potencial:
    • Probablemente se convertirá en referencia estándar del campo
    • La biblioteca L2P tiene potencial de convertirse en herramienta estándar comunitaria
    • Las preguntas de investigación propuestas pueden guiar investigación durante años

Escenarios Aplicables

  1. Investigadores:
    • Guía de introducción para entrar en el campo LLM+Planificación
    • Búsqueda de espacios de investigación y direcciones futuras
    • Comparación y evaluación de diferentes métodos
  2. Ingenieros:
    • Selección de método LLM+Planificación apropiado para aplicación específica
    • Uso de biblioteca L2P para prototipado rápido
    • Comprensión de ventajas, desventajas y escenarios aplicables de diferentes métodos
  3. Propósitos Educativos:
    • Material de enseñanza para cursos LLM+Planificación
    • Proporciona recursos de literatura y código abundantes
    • Incluye ejemplos PDDL claros para introducción
  4. Dominios de Aplicación Específicos:
    • Robótica: Generación de planificación de tareas robóticas a partir de instrucciones en lenguaje natural
    • IA de Juegos: Generación de modelos de planificación de comportamiento de NPC
    • Respuesta a Emergencias: Generación de planes de operación de emergencia a partir de documentos de política
    • Logística: Generación de planificación de programación y enrutamiento a partir de descripciones comerciales

Referencias

Esta encuesta cubre aproximadamente 80 trabajos relacionados, con referencias clave incluyendo:

Métodos Base:

  • Liu et al. (2023a): LLM+P - Mejora de LLMs con capacidades de planificación óptima
  • Guan et al. (2023): LLM+DM - Construcción de modelos del mundo utilizando LLMs preentrenados
  • Kambhampati et al. (2024): Marco LLM-Modulo - Los LLMs no pueden planificar pero pueden ayudar a planificar

Pruebas de Referencia:

  • Valmeekam et al. (2023a): PlanBench - Evaluación de capacidades de planificación de LLMs
  • Zuo et al. (2024): Planetarium - Evaluación de generación de problemas PDDL
  • Hu et al. (2025): Text2World - Punto de referencia de generación de dominio

Modelado de Dominios:

  • Wong et al. (2023): ADA - Adquisición de dominio de acciones
  • Oswald et al. (2024): Evaluación de equivalencia operacional
  • Zhang et al. (2024b): PROC2PDDL - De texto a PDDL

Sistemas de Aplicación:

  • Gestrin et al. (2024): NL2Plan - Sistema de extremo a extremo independiente del dominio
  • Kelly et al. (2023): Extracción PDDL para planificación narrativa
  • Ye et al. (2024): MORPHeus - Planificación a largo plazo colaborativa humano-máquina

Evaluación General: Este es un artículo de encuesta de alta calidad, oportuno y práctico que sistematiza el estado actual de la investigación sobre LLMs como herramientas de formalización de planificación. La clasificación del artículo es clara, el análisis es profundo, y particularmente la contribución de la biblioteca L2P de código abierto hace que sea no solo una encuesta de literatura, sino también una herramienta de investigación operativa. Aunque hay espacio para mejora en comparación empírica y análisis teórico, como la primera encuesta integral en este campo, su valor académico y práctico son altos, y probablemente se convertirá en una referencia importante en el campo de LLM+Planificación Automatizada.