LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLM come Formalizzatori di Pianificazione: Un'Indagine per Sfruttare i Modelli di Linguaggio di Grandi Dimensioni per Costruire Modelli di Pianificazione Automatizzata
I modelli di linguaggio di grandi dimensioni (LLM) mostrano eccellenti prestazioni in vari compiti di elaborazione del linguaggio naturale, ma rimangono difficili nei problemi di pianificazione a lungo termine che richiedono ragionamento strutturato. Questo articolo fornisce un'indagine tempestiva che analizza sistematicamente lo stato attuale della ricerca nel posizionare gli LLM come strumenti di formalizzazione e raffinamento delle specifiche di pianificazione, al fine di supportare sistemi di pianificazione automatizzata (AP) affidabili e pronti all'uso. L'articolo esamina sistematicamente circa 80 lavori correlati, evidenzia le metodologie, identifica le sfide chiave e le direzioni future, e fornisce una libreria Python open-source Language-to-Plan (L2P) per promuovere la ricerca in questo campo.
Sebbene gli LLM eccellano nei compiti di elaborazione del linguaggio naturale, mostrano prestazioni scadenti nei compiti di pianificazione a lungo termine e ragionamento, generando frequentemente piani inaffidabili. L'uso diretto degli LLM come pianificatori (LLM-as-Planner) non può garantire la correttezza, l'ottimalità e l'affidabilità dell'output.
Natura della pianificazione: La pianificazione è una componente essenziale della cognizione di Sistema II, richiedendo ragionamento strutturato, mentre gli LLM eccellono nei compiti di Sistema I
Collo di bottiglia delle applicazioni pratiche: L'estrazione dei modelli di pianificazione è stata a lungo il principale ostacolo all'ampia applicazione della tecnologia di pianificazione
Requisiti di affidabilità: Le applicazioni pratiche richiedono soluzioni di pianificazione verificabili, interpretabili e robuste
Metodi di pianificazione diretta: Quando gli LLM generano direttamente sequenze di azioni, le prestazioni diminuiscono con il feedback iterativo
Mancanza di garanzie strutturate: Gli LLM non possono fornire garanzie di correttezza come i sistemi di pianificazione classici
Problemi di dipendenza a lungo termine: Con la crescita della scala, gli LLM spesso non riescono a considerare gli effetti e i prerequisiti delle azioni
Questo articolo propone il paradigma LLMs-as-Formalizers: sfruttare i vantaggi degli LLM (estrazione, interpretazione e raffinamento delle specifiche dei modelli di pianificazione dal linguaggio naturale), combinati con i vantaggi dei sistemi di pianificazione automatizzata classici (rappresentazione strutturata, logica e metodi di ricerca), per costruire un framework neuro-simbolico complementare.
Tassonomia Sistematica: Propone il primo sistema di classificazione completo per la costruzione di modelli di pianificazione automatizzata guidati da LLM, includendo:
Generazione di Modelli (Model Generation): modellazione dei compiti, modellazione del dominio, modellazione ibrida
Modifica di Modelli (Model Editing): raffinamento del codice e correzione degli errori
Benchmark di Modelli (Model Benchmarks): framework di valutazione e dataset
Riepilogo dei Metodi Tecnici: Sistematizza i metodi tecnici condivisi e innovativi per integrare gli LLM nei framework di pianificazione AI e le loro limitazioni
Framework di Questioni di Ricerca: Propone due questioni di ricerca fondamentali (RQ):
RQ1: Come possono gli LLM allinearsi accuratamente agli obiettivi umani, garantendo che le specifiche del modello di pianificazione rappresentino correttamente le aspettative e gli obiettivi desiderati?
RQ2: In quale misura e granularità le istruzioni in linguaggio naturale possono essere efficacemente convertite in definizioni accurate di modelli di pianificazione?
Libreria di Strumenti Open-Source: Fornisce la libreria Python open-source Language-to-Plan (L2P), che implementa i metodi dei lavori emblematici coperti dall'indagine, supportando:
Suite completa di strumenti di estrazione e raffinamento PDDL
Design modulare che supporta stili di prompt flessibili e pipeline personalizzate
Capacità di pipeline end-to-end completamente autonome
Guida alle Direzioni Future: Identifica le sfide chiave e delinea le direzioni di ricerca future per il campo
Questa indagine si concentra sul paradigma LLMs-as-Formalizers, ovvero l'uso degli LLM per costruire specifiche di modelli di pianificazione automatizzata (principalmente in formato PDDL), che vengono poi risolte da pianificatori indipendenti dal dominio. Questo contrasta con i seguenti paradigmi:
LLMs-as-Planners: Gli LLM generano direttamente sequenze di azioni
LLMs-as-Heuristics: Gli LLM migliorano l'efficienza della ricerca attraverso euristiche di guida
Rappresentazioni geometriche per pianificazione di compiti e movimento
Logica temporale (TSL, STL, LTL)
Definizioni di funzioni Python per lo spazio di ricerca
1.2 Modellazione del Dominio (Domain Modeling)
Metodi di Query Singola:
CLLaMP: estrae modelli di azioni PDDL da descrizioni CVE
PROC2PDDL: design di prompt con Zona di Sviluppo Prossimale
Metodi di filtraggio dei candidati (Huang et al., 2024b; Athalye et al., 2024)
Metodi di Generazione Iterativa:
LLM+DM: adotta un approccio "genera-testa-critica", costruendo incrementalmente componenti di dominio attraverso molteplici chiamate LLM
LLM+AL: genera linguaggio di azioni con BC+ sintassi
LAMP: serie di algoritmi per l'apprendimento di modelli di dominio PDDL astratti
Framework ad Anello Chiuso:
ADA: genera decomposizioni di compiti simbolici candidate, iterativamente richiede azioni non definite
COWP: gestisce situazioni impreviste nella pianificazione di mondo aperto
LASP: identifica potenziali errori dalle osservazioni ambientali
1.3 Modellazione Ibrida (Hybrid Modeling)
Combina la generazione di modelli completi di sistemi di dominio e problemi PDDL:
Metodi Fondamentali: Kelly et al. (2023) estrae pianificazione narrativa da storie di input, gestendo iterativamente i messaggi di errore del pianificatore
Metodi di Rappresentazione Intermedia:
NL2Plan: primo sistema di pianificazione NL end-to-end indipendente dal dominio offline
Generazione di tag JSON, controllo di coerenza e cicli di correzione degli errori
Analisi di raggiungibilità e analisi di dipendenza
Applicazioni Pratiche:
MORPHeus: pianificazione a lungo termine collaborativa uomo-macchina, meccanismi di rilevamento anomalie
InterPret: apprendimento di predicati PDDL attraverso feedback linguistico interattivo dell'utente
AgentGen: utilizza LLM per sintetizzare compiti PDDL diversificati per l'addestramento
Framework LLM-Modulo: assicura la correttezza attraverso il raffinamento iterativo del piano con validatori esterni, spostando il focus dalla pianificazione diretta alla generazione PDDL con validatori integrati
Rappresentazione Intermedia: utilizza rappresentazioni intermedie come ASP, Python, JSON più facili da elaborare per gli LLM, quindi convertite in PDDL
Generazione Multi-Candidato: genera molteplici candidati di dominio o componenti specifici (come definizioni di predicati) per adattarsi meglio all'ambiguità e all'incertezza negli intenti dell'utente
Collaborazione Uomo-Macchina: migliora la qualità del modello attraverso fasi di pre-elaborazione e cicli di feedback interattivo uomo-macchina
Design Modulare: supporta l'integrazione dinamica di tipi e predicati, consentendo sistemi di pianificazione più adattabili e tolleranti ai guasti nelle fasi successive della generazione
L'articolo dimostra come utilizzare la libreria L2P per ricreate la generazione di predicati e azioni nel dominio Logistics:
Esempi di Predicati Generati:
(truck-at ?t - truck ?l - location): il camion ?t è attualmente nella posizione ?l
(package-at ?p - package ?l - location): il pacco ?p è attualmente nella posizione ?l
(truck-holding ?t - truck ?p - package): il camion ?t sta attualmente tenendo il pacco ?p
(plane-at ?a - plane ?l - location): l'aereo ?a è nella posizione ?l
LLMs-as-Formalizers è un Paradigma Promettente: combina la capacità di comprensione del linguaggio naturale degli LLM con la capacità di ragionamento strutturato dei pianificatori classici
La Modellazione dei Compiti è Relativamente Matura: i metodi esistenti possono generare efficacemente specifiche di compiti con descrizioni esplicite
La Modellazione del Dominio Rimane Impegnativa: richiede metodi iterativi, generazione multi-candidato e validazione esterna
La Modellazione Ibrida Richiede Approcci Sistematici: il design modulare e i meccanismi di tolleranza agli errori sono fondamentali
I Test di Benchmark Richiedono Miglioramenti Continui: la perdita di dati e la standardizzazione della valutazione sono questioni chiave
Interpretabilità Migliorata: sviluppare sistemi di pianificazione interpretabili che producono output robusti, trasparenti e correggibili
Cicli di Feedback Correttivi: migliorare i meccanismi per gestire errori di precondizioni di azioni e fallimenti di esecuzione
Collaborazione Uomo-Macchina: garantire l'allineamento attraverso fasi di pre-elaborazione e cicli di feedback interattivo uomo-macchina
Verifica della Correttezza Semantica: analizzare la correttezza semantica dei piani generati, utilizzandola come feedback per il raffinamento delle specifiche PDDL
Gestione di Descrizioni Minime: sviluppare metodi in grado di inferire specifiche PDDL complete da input sparsi
Integrazione del Ragionamento di Senso Comune: sfruttare le capacità di ragionamento di senso comune degli LLM per catturare ipotesi e vincoli potenziali
Standardizzazione del Prompt: stabilire granularità standardizzate del prompt per la generazione iniziale e il feedback iterativo
Generazione Automatica di Descrizioni: sviluppare strumenti per generare automaticamente descrizioni PDDL (come Nabizada et al., 2024)
Questa indagine copre circa 80 lavori correlati, con riferimenti chiave includenti:
Metodi Fondamentali:
Liu et al. (2023a): LLM+P - Potenziamento degli LLM con capacità di pianificazione ottimale
Guan et al. (2023): LLM+DM - Utilizzo di LLM pre-addestrati per costruire modelli del mondo
Kambhampati et al. (2024): Framework LLM-Modulo - Gli LLM non possono pianificare ma possono aiutare la pianificazione
Test di Benchmark:
Valmeekam et al. (2023a): PlanBench - Valutazione delle capacità di pianificazione degli LLM
Zuo et al. (2024): Planetarium - Valutazione della generazione di problemi PDDL
Hu et al. (2025): Text2World - Benchmark di generazione del dominio
Modellazione del Dominio:
Wong et al. (2023): ADA - Acquisizione del dominio di azione
Oswald et al. (2024): Valutazione dell'equivalenza operazionale
Zhang et al. (2024b): PROC2PDDL - Da testo a PDDL
Sistemi Applicativi:
Gestrin et al. (2024): NL2Plan - Sistema end-to-end indipendente dal dominio
Kelly et al. (2023): Estrazione PDDL per pianificazione narrativa
Ye et al. (2024): MORPHeus - Pianificazione a lungo termine collaborativa uomo-macchina
Valutazione Complessiva: Questo è un articolo di indagine di alta qualità, tempestivo e pratico che sistematicamente esamina lo stato attuale della ricerca su LLM come strumenti di formalizzazione della pianificazione. La classificazione dell'articolo è chiara, l'analisi è approfondita, e in particolare il contributo della libreria L2P open-source rende questo non solo una rassegna letteraria, ma uno strumento di ricerca operativo. Sebbene ci sia spazio per miglioramenti nel confronto empirico e nell'analisi teorica, come prima indagine completa in questo campo, il suo valore accademico e pratico sono elevati, e ha il potenziale di diventare un documento di riferimento importante nel campo LLM+Automated Planning.