2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

LLM come Formalizzatori di Pianificazione: Un'Indagine per Sfruttare i Modelli di Linguaggio di Grandi Dimensioni per Costruire Modelli di Pianificazione Automatizzata

Informazioni Fondamentali

  • ID Articolo: 2503.18971
  • Titolo: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • Autori: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
  • Classificazione: cs.AI
  • Data di Pubblicazione: Marzo 2025 (arXiv v2: 25 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2503.18971v2

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) mostrano eccellenti prestazioni in vari compiti di elaborazione del linguaggio naturale, ma rimangono difficili nei problemi di pianificazione a lungo termine che richiedono ragionamento strutturato. Questo articolo fornisce un'indagine tempestiva che analizza sistematicamente lo stato attuale della ricerca nel posizionare gli LLM come strumenti di formalizzazione e raffinamento delle specifiche di pianificazione, al fine di supportare sistemi di pianificazione automatizzata (AP) affidabili e pronti all'uso. L'articolo esamina sistematicamente circa 80 lavori correlati, evidenzia le metodologie, identifica le sfide chiave e le direzioni future, e fornisce una libreria Python open-source Language-to-Plan (L2P) per promuovere la ricerca in questo campo.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Sebbene gli LLM eccellano nei compiti di elaborazione del linguaggio naturale, mostrano prestazioni scadenti nei compiti di pianificazione a lungo termine e ragionamento, generando frequentemente piani inaffidabili. L'uso diretto degli LLM come pianificatori (LLM-as-Planner) non può garantire la correttezza, l'ottimalità e l'affidabilità dell'output.

2. Importanza del Problema

  • Natura della pianificazione: La pianificazione è una componente essenziale della cognizione di Sistema II, richiedendo ragionamento strutturato, mentre gli LLM eccellono nei compiti di Sistema I
  • Collo di bottiglia delle applicazioni pratiche: L'estrazione dei modelli di pianificazione è stata a lungo il principale ostacolo all'ampia applicazione della tecnologia di pianificazione
  • Requisiti di affidabilità: Le applicazioni pratiche richiedono soluzioni di pianificazione verificabili, interpretabili e robuste

3. Limitazioni degli Approcci Esistenti

  • Metodi di pianificazione diretta: Quando gli LLM generano direttamente sequenze di azioni, le prestazioni diminuiscono con il feedback iterativo
  • Mancanza di garanzie strutturate: Gli LLM non possono fornire garanzie di correttezza come i sistemi di pianificazione classici
  • Problemi di dipendenza a lungo termine: Con la crescita della scala, gli LLM spesso non riescono a considerare gli effetti e i prerequisiti delle azioni

4. Motivazione della Ricerca

Questo articolo propone il paradigma LLMs-as-Formalizers: sfruttare i vantaggi degli LLM (estrazione, interpretazione e raffinamento delle specifiche dei modelli di pianificazione dal linguaggio naturale), combinati con i vantaggi dei sistemi di pianificazione automatizzata classici (rappresentazione strutturata, logica e metodi di ricerca), per costruire un framework neuro-simbolico complementare.

Contributi Principali

  1. Tassonomia Sistematica: Propone il primo sistema di classificazione completo per la costruzione di modelli di pianificazione automatizzata guidati da LLM, includendo:
    • Generazione di Modelli (Model Generation): modellazione dei compiti, modellazione del dominio, modellazione ibrida
    • Modifica di Modelli (Model Editing): raffinamento del codice e correzione degli errori
    • Benchmark di Modelli (Model Benchmarks): framework di valutazione e dataset
  2. Riepilogo dei Metodi Tecnici: Sistematizza i metodi tecnici condivisi e innovativi per integrare gli LLM nei framework di pianificazione AI e le loro limitazioni
  3. Framework di Questioni di Ricerca: Propone due questioni di ricerca fondamentali (RQ):
    • RQ1: Come possono gli LLM allinearsi accuratamente agli obiettivi umani, garantendo che le specifiche del modello di pianificazione rappresentino correttamente le aspettative e gli obiettivi desiderati?
    • RQ2: In quale misura e granularità le istruzioni in linguaggio naturale possono essere efficacemente convertite in definizioni accurate di modelli di pianificazione?
  4. Libreria di Strumenti Open-Source: Fornisce la libreria Python open-source Language-to-Plan (L2P), che implementa i metodi dei lavori emblematici coperti dall'indagine, supportando:
    • Suite completa di strumenti di estrazione e raffinamento PDDL
    • Design modulare che supporta stili di prompt flessibili e pipeline personalizzate
    • Capacità di pipeline end-to-end completamente autonome
  5. Guida alle Direzioni Future: Identifica le sfide chiave e delinea le direzioni di ricerca future per il campo

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Questa indagine si concentra sul paradigma LLMs-as-Formalizers, ovvero l'uso degli LLM per costruire specifiche di modelli di pianificazione automatizzata (principalmente in formato PDDL), che vengono poi risolte da pianificatori indipendenti dal dominio. Questo contrasta con i seguenti paradigmi:

  • LLMs-as-Planners: Gli LLM generano direttamente sequenze di azioni
  • LLMs-as-Heuristics: Gli LLM migliorano l'efficienza della ricerca attraverso euristiche di guida

Classificazione del Framework Centrale

1. Generazione di Modelli (Model Generation)

Estrae e formalizza le specifiche di pianificazione dall'input in linguaggio naturale, divise in tre sottocategorie:

1.1 Modellazione dei Compiti (Task Modeling)

  • Metodi di Specifica degli Obiettivi:
    • Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
    • Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
    • Gestione di diversi gradi di ambiguità (Xie et al., 2023)
  • Specifica Completa dei Compiti:
    • Sistemi ad anello aperto: LLM+P utilizza esempi di contesto per generare file di problemi PDDL completi
    • Sistemi ad anello chiuso: Auto-GPT+P genera lo stato iniziale basato sulla percezione visiva, con cicli di autocorrezione degli errori
    • Collaborazione multi-agente: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • Rappresentazioni Alternative:
    • Rappresentazioni geometriche per pianificazione di compiti e movimento
    • Logica temporale (TSL, STL, LTL)
    • Definizioni di funzioni Python per lo spazio di ricerca

1.2 Modellazione del Dominio (Domain Modeling)

  • Metodi di Query Singola:
    • CLLaMP: estrae modelli di azioni PDDL da descrizioni CVE
    • PROC2PDDL: design di prompt con Zona di Sviluppo Prossimale
    • Metodi di filtraggio dei candidati (Huang et al., 2024b; Athalye et al., 2024)
  • Metodi di Generazione Iterativa:
    • LLM+DM: adotta un approccio "genera-testa-critica", costruendo incrementalmente componenti di dominio attraverso molteplici chiamate LLM
    • LLM+AL: genera linguaggio di azioni con BC+ sintassi
    • LAMP: serie di algoritmi per l'apprendimento di modelli di dominio PDDL astratti
  • Framework ad Anello Chiuso:
    • ADA: genera decomposizioni di compiti simbolici candidate, iterativamente richiede azioni non definite
    • COWP: gestisce situazioni impreviste nella pianificazione di mondo aperto
    • LASP: identifica potenziali errori dalle osservazioni ambientali

1.3 Modellazione Ibrida (Hybrid Modeling) Combina la generazione di modelli completi di sistemi di dominio e problemi PDDL:

  • Metodi Fondamentali: Kelly et al. (2023) estrae pianificazione narrativa da storie di input, gestendo iterativamente i messaggi di errore del pianificatore
  • Metodi di Rappresentazione Intermedia:
    • NL2Plan: primo sistema di pianificazione NL end-to-end indipendente dal dominio offline
    • Generazione di tag JSON, controllo di coerenza e cicli di correzione degli errori
    • Analisi di raggiungibilità e analisi di dipendenza
  • Applicazioni Pratiche:
    • MORPHeus: pianificazione a lungo termine collaborativa uomo-macchina, meccanismi di rilevamento anomalie
    • InterPret: apprendimento di predicati PDDL attraverso feedback linguistico interattivo dell'utente
    • AgentGen: utilizza LLM per sintetizzare compiti PDDL diversificati per l'addestramento

2. Modifica di Modelli (Model Editing)

Gli LLM come strumenti ausiliari piuttosto che soluzioni completamente autonome:

  • Gragera & Pozanco (2023): studia le limitazioni degli LLM nel riparare compiti irrisolvibili
  • Patil (2024): gli LLM eccellono nella correzione sintattica ma sono inaffidabili nelle incoerenze semantiche
  • Sikes et al. (2024a): affronta il problema delle variabili di stato semanticamente equivalenti ma sintatticamente diverse
  • Caglar et al. (2024): valuta l'efficacia degli LLM nel generare modifiche ragionevoli ai modelli

3. Benchmark di Modelli (Model Benchmarks)

Valuta le capacità degli LLM nei compiti di pianificazione e la qualità delle specifiche di pianificazione generate:

3.1 Benchmark LLMs-as-Planner:

  • Mystery Blocksworld: confonde il classico Blocksworld per rilevare perdite di dati di addestramento
  • ALFWorld & Household: utilizza semantica PDDL in ambienti domestici reali
  • TravelPlanner & Natural Plan: benchmark di pianificazione di viaggi e pianificazione realistica
  • PlanBench: valutazione sistematica della pianificazione a costo ottimale e verifica del piano
  • ACPBench: valutazione standardizzata di compiti e metriche, coprendo 13 domini e 22 modelli SOTA

3.2 Benchmark LLMs-as-Planning-Formalizers:

  • Planetarium: valuta i compiti/problemi PDDL generati da LLM, enfatizzando due questioni chiave:
    • Gli LLM possono produrre codice valido ma incoerente con la descrizione NL originale
    • La descrizione NL dell'insieme di valutazione è troppo simile ai valori di verità
  • Text2World:
    • Pipeline di estrazione del dominio automatizzata
    • Metriche multi-criterio: eseguibilità, somiglianza strutturale, punteggio F1 a livello di componente
    • Limitazione: dipende dall'eseguibilità come metrica di gating

Punti di Innovazione Tecnica

  1. Framework LLM-Modulo: assicura la correttezza attraverso il raffinamento iterativo del piano con validatori esterni, spostando il focus dalla pianificazione diretta alla generazione PDDL con validatori integrati
  2. Rappresentazione Intermedia: utilizza rappresentazioni intermedie come ASP, Python, JSON più facili da elaborare per gli LLM, quindi convertite in PDDL
  3. Generazione Multi-Candidato: genera molteplici candidati di dominio o componenti specifici (come definizioni di predicati) per adattarsi meglio all'ambiguità e all'incertezza negli intenti dell'utente
  4. Collaborazione Uomo-Macchina: migliora la qualità del modello attraverso fasi di pre-elaborazione e cicli di feedback interattivo uomo-macchina
  5. Design Modulare: supporta l'integrazione dinamica di tipi e predicati, consentendo sistemi di pianificazione più adattabili e tolleranti ai guasti nelle fasi successive della generazione

Configurazione Sperimentale

Dataset

Questo articolo, come articolo di indagine, copre molteplici dataset e domini utilizzati in circa 80 lavori di ricerca:

Domini di Pianificazione Classici:

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

Ambienti del Mondo Reale:

  • ALFWorld: interazione in ambienti domestici
  • Household: scenari tipici di casa
  • TravelPlanner: scenari di pianificazione di viaggi

Domini Specializzati:

  • CVE (Common Vulnerabilities and Exposures): sicurezza informatica
  • Emergency Operation Plans (EOPs): decisioni di emergenza

Metriche di Valutazione

Metriche di Qualità della Pianificazione:

  • Correttezza del piano
  • Ottimalità dei costi
  • Eseguibilità

Metriche di Qualità del Modello:

  • Somiglianza Strutturale: confronto strutturale con il valore di verità
  • Punteggio F1 a Livello di Componente: precisione e richiamo di componenti come predicati e azioni
  • Equivalenza Operazionale: se il dominio ricostruito si comporta come il dominio originale
  • Correttezza Semantica: se il codice generato si allinea con la descrizione NL originale

Metriche di Prestazione del Sistema:

  • Tasso di successo della generazione
  • Numero di iterazioni
  • Requisiti di intervento umano

Metodi di Confronto

Categorie di metodi principali coperte dall'indagine:

  1. Metodi di Generazione Diretta: singola chiamata LLM per generare PDDL completo
  2. Metodi di Raffinamento Iterativo: molteplici chiamate e cicli di feedback
  3. Metodi Ibridi: combinazione di LLM e strumenti di validazione tradizionali
  4. Metodi di Fine-Tuning: fine-tuning di LLM su dataset specifici

Risultati Sperimentali

Scoperte Principali

1. La Modellazione dei Compiti è Relativamente Semplice

  • Descrizioni altamente esplicite migliorano significativamente l'accuratezza della traduzione (Liu et al., 2023a)
  • L'uso di esempi few-shot e catene di ragionamento può migliorare la specifica degli obiettivi (Lyu et al., 2023)
  • TIC raggiunge un'accuratezza quasi del 100% su GPT-3.5 Turbo utilizzando rappresentazioni intermedie nel dominio della pianificazione LLM+P

2. La Modellazione del Dominio è Più Impegnativa

  • La generazione singola di un dominio PDDL completamente funzionale non è pratica (Kambhampati et al., 2024)
  • I metodi iterativi (come "genera-testa-critica" di LLM+DM) migliorano significativamente la qualità
  • Gli esempi di contesto superano il prompt CoT (Oates et al., 2024)
  • I metodi di generazione multi-candidato possono gestire meglio l'ambiguità negli intenti dell'utente

3. Complessità della Modellazione Ibrida

  • Emergono complessità nel coordinamento del dominio e dei corrispondenti problemi
  • Le pipeline lineari presentano rischi di errori a cascata
  • Le fasi di pre-elaborazione (utilizzando strumenti esterni come FastDownward, VAL) aumentano il tasso di successo
  • La collaborazione uomo-macchina migliora significativamente la qualità del modello

4. Efficacia della Modifica di Modelli

  • Gli LLM mostrano eccellenti prestazioni nella correzione sintattica
  • Sono meno affidabili nelle incoerenze semantiche (Patil, 2024)
  • È necessario sviluppare strategie di correzione post-hoc

5. Sfide nei Test di Benchmark

  • La perdita di dati di addestramento è un problema principale (Hu et al., 2025 riporta alti tassi di contaminazione)
  • Sono necessari standard di benchmark dinamici
  • La somiglianza tra la descrizione NL dell'insieme di valutazione e il valore di verità influisce sulla difficoltà di valutazione

Analisi di Casi

Algoritmo "action-by-action" Ricreato dalla Libreria L2P (Guan et al., 2023)

L'articolo dimostra come utilizzare la libreria L2P per ricreate la generazione di predicati e azioni nel dominio Logistics:

Esempi di Predicati Generati:

(truck-at ?t - truck ?l - location): il camion ?t è attualmente nella posizione ?l
(package-at ?p - package ?l - location): il pacco ?p è attualmente nella posizione ?l
(truck-holding ?t - truck ?p - package): il camion ?t sta attualmente tenendo il pacco ?p
(plane-at ?a - plane ?l - location): l'aereo ?a è nella posizione ?l

Esempi di Azioni Generati:

load_truck(?p - package, ?t - truck, ?l - location)
  Precondizioni: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Effetti: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Scoperte Sperimentali

  1. Sensibilità al Prompt: Gli LLM sono altamente sensibili al design del prompt, richiedendo granularità standardizzata del prompt
  2. Valore della Rappresentazione Intermedia: L'uso di rappresentazioni intermedie come JSON, Python può migliorare l'accuratezza e la coerenza
  3. Importanza dei Validatori: L'integrazione di strumenti di validazione esterni (VAL, FastDownward, ecc.) è fondamentale per garantire la qualità
  4. Ruolo della Conoscenza del Dominio: Una specifica esplicita dell'insieme di predicati è fondamentale per la valutazione coerente tra diversi metodi
  5. Necessità della Collaborazione Uomo-Macchina: I domini complessi di solito richiedono interazione uomo-macchina per garantire l'allineamento

Lavori Correlati

1. Altri Paradigmi di LLM+Pianificazione

LLMs-as-Planners:

  • Generazione diretta di sequenze di azioni (Zhang et al., 2024c; Lin et al., 2023)
  • Raffinamento del piano attraverso metodi post-hoc (Gundawar et al., 2024)
  • Limitazioni: impossibile garantire correttezza e ottimalità

LLMs-as-Heuristics:

  • Miglioramento dell'efficienza della ricerca attraverso guida euristica (Silver et al., 2022; Hirsch et al., 2024)
  • Fornisce direzione di ricerca ma non genera direttamente il piano

2. Indagini Correlate

  • Huang et al. (2024c): astrazione di alto livello degli agenti di pianificazione potenziati da LLM
  • Pallagani et al. (2024): costruzione più ampia oltre l'AP tradizionale
  • Zhao et al. (2024): ampia panoramica delle applicazioni LLM-TAMP
  • Li et al. (2024a): focus principale su LLMs-as-Planners, complementare a questo articolo

3. Acquisizione Classica di Modelli di Pianificazione

  • I metodi tradizionali si basano sull'ingegneria delle conoscenze di esperti umani
  • I metodi di apprendimento estraggono modelli da dimostrazioni
  • I metodi LLM discussi in questo articolo forniscono una nuova via di automazione

Conclusioni e Discussione

Conclusioni Principali

  1. LLMs-as-Formalizers è un Paradigma Promettente: combina la capacità di comprensione del linguaggio naturale degli LLM con la capacità di ragionamento strutturato dei pianificatori classici
  2. La Modellazione dei Compiti è Relativamente Matura: i metodi esistenti possono generare efficacemente specifiche di compiti con descrizioni esplicite
  3. La Modellazione del Dominio Rimane Impegnativa: richiede metodi iterativi, generazione multi-candidato e validazione esterna
  4. La Modellazione Ibrida Richiede Approcci Sistematici: il design modulare e i meccanismi di tolleranza agli errori sono fondamentali
  5. I Test di Benchmark Richiedono Miglioramenti Continui: la perdita di dati e la standardizzazione della valutazione sono questioni chiave

Limitazioni

  1. Ambito dell'Indagine:
    • Focus principale su framework di costruzione PDDL
    • L'analisi tecnica di ogni lavoro è breve a causa dei vincoli di spazio
    • Potrebbe perdere ricerche correlate da altre conferenze/riviste
  2. Limitazioni Attuali della Libreria L2P:
    • Supporta solo strumenti di estrazione PDDL di base per pianificazione deterministica completamente osservabile
    • Non include ancora strumenti per domini avanzati come la pianificazione temporale
  3. Limitazioni dei Metodi:
    • La maggior parte dei metodi si basa su mappature esplicite da NL a codice PDDL
    • Capacità limitata di inferire specifiche complete da input sparsi
    • La gestione degli errori semantici rimane difficile

Direzioni Future

Per RQ1 (Allineamento degli Obiettivi):

  1. Interpretabilità Migliorata: sviluppare sistemi di pianificazione interpretabili che producono output robusti, trasparenti e correggibili
  2. Cicli di Feedback Correttivi: migliorare i meccanismi per gestire errori di precondizioni di azioni e fallimenti di esecuzione
  3. Collaborazione Uomo-Macchina: garantire l'allineamento attraverso fasi di pre-elaborazione e cicli di feedback interattivo uomo-macchina
  4. Verifica della Correttezza Semantica: analizzare la correttezza semantica dei piani generati, utilizzandola come feedback per il raffinamento delle specifiche PDDL

Per RQ2 (Granularità della Descrizione):

  1. Gestione di Descrizioni Minime: sviluppare metodi in grado di inferire specifiche PDDL complete da input sparsi
  2. Integrazione del Ragionamento di Senso Comune: sfruttare le capacità di ragionamento di senso comune degli LLM per catturare ipotesi e vincoli potenziali
  3. Standardizzazione del Prompt: stabilire granularità standardizzate del prompt per la generazione iniziale e il feedback iterativo
  4. Generazione Automatica di Descrizioni: sviluppare strumenti per generare automaticamente descrizioni PDDL (come Nabizada et al., 2024)

Direzioni Tecniche:

  1. Architettura Modulare: sistemi più adattabili che supportano l'integrazione dinamica di tipi e predicati
  2. Strategie Multi-Candidato: generare e valutare molteplici modelli candidati per gestire l'incertezza
  3. Correzione Post-Hoc: identificare automaticamente incoerenze semantiche attraverso metriche automatiche o valutazione umana
  4. Benchmark Dinamici: stabilire standard di benchmark dinamici guidati dalla comunità per prevenire perdite di dati
  5. Estensione a Pianificazione Avanzata: estendere i metodi a pianificazione temporale, pianificazione probabilistica, ecc.

Direzioni Applicative:

  1. Distribuzione Pratica: testare in scenari reali come robotica, gioco AI, risposta di emergenza
  2. Trasferimento tra Domini: migliorare la capacità di generalizzazione tra domini
  3. Integrazione Multimodale: combinare informazioni visive, linguistiche e altre modalità

Valutazione Approfondita

Punti di Forza

  1. Completezza e Sistematicità:
    • Prima indagine completa focalizzata sul paradigma LLMs-as-Formalizers
    • Copre circa 80 lavori correlati con classificazione chiara
    • Fornisce una prospettiva completa dalla modellazione dei compiti alla modellazione del dominio alla modellazione ibrida
  2. Alto Valore Pratico:
    • Fornisce la libreria L2P open-source che implementa molteplici metodi emblematici
    • Il design modulare supporta ricercatori nel rapido esperimento e confronto
    • Include esempi di codice dettagliati e istruzioni di utilizzo
  3. Orientamento ai Problemi:
    • Propone chiaramente due questioni di ricerca fondamentali RQ1 e RQ2
    • Ogni sotto-campo fornisce "Summary and Future Directions"
    • Fornisce una chiara roadmap per la ricerca futura
  4. Profondità Tecnica:
    • Analizza in dettaglio i dettagli tecnici di vari metodi
    • Confronta diverse strategie di prompt, meccanismi di feedback e metodi di validazione
    • Fornisce conoscenze di base PDDL e esempi di Blocksworld
  5. Pensiero Critico:
    • Indica obiettivamente le limitazioni di ogni metodo
    • Discute questioni chiave come perdita di dati, standard di valutazione
    • Enfatizza la distinzione tra correttezza semantica e sintattica

Insufficienze

  1. Analisi Empirica Limitata:
    • Come articolo di indagine, manca il confronto sistematico degli esperimenti sotto un framework unificato
    • Diversi metodi utilizzano diversi dataset e metriche di valutazione, rendendo difficili i confronti diretti
    • Non fornisce tabelle di confronto delle prestazioni quantitative di ogni metodo
  2. Maturità della Libreria L2P:
    • Attualmente ricrea solo alcuni metodi emblematici
    • Supporta solo PDDL di base, non supporta caratteristiche avanzate come temporale, probabilistico
    • Richiede contributi continui della comunità per rimanere aggiornato
  3. Analisi Teorica Insufficiente:
    • Manca spiegazione teorica del perché gli LLM falliscono in alcuni compiti di pianificazione
    • Non analizza in profondità le differenze tra diverse architetture (GPT vs LLaMA, ecc.)
    • La discussione sui fondamenti teorici dell'ingegneria del prompt è limitata
  4. Metodologia di Valutazione:
    • Sebbene discuta i test di benchmark, non propone un framework di valutazione unificato
    • Manca una definizione esplicita di "cosa sia un buon modello PDDL"
    • Gli standard e i processi di valutazione umana non sono sufficientemente dettagliati
  5. Discussione degli Scenari Applicativi:
    • La discussione sulle sfide nella distribuzione pratica (come costo computazionale, latenza) è limitata
    • Manca analisi mirata per diversi scenari applicativi (robotica, gioco, pianificazione, ecc.)
    • La discussione sugli ostacoli all'adozione industriale e sulle soluzioni è insufficiente

Impatto

  1. Contributo Accademico:
    • Costruisce un ponte tra le comunità NLP e AI Planning
    • Definisce chiaramente il paradigma LLMs-as-Formalizers, contrastando con altri paradigmi
    • Stabilisce una tassonomia sistematica e un sistema di terminologia per il campo
  2. Valore Pratico:
    • La libreria L2P abbassa le barriere di ricerca, promuovendo la riproducibilità
    • Fornisce ai ricercatori strumenti di prototipazione rapida
    • Potrebbe accelerare il progresso della ricerca nel campo LLM+Planning
  3. Costruzione della Comunità:
    • Integra la letteratura dispersa, fornendo una prospettiva unificata
    • Identifica sfide chiave e spazi di ricerca
    • Potrebbe ispirare nuove direzioni di ricerca e collaborazioni
  4. Impatto Potenziale:
    • Potrebbe diventare il documento di riferimento standard per il campo
    • La libreria L2P ha il potenziale di diventare uno strumento standard della comunità
    • Le questioni di ricerca proposte potrebbero guidare la ricerca per molti anni a venire

Scenari Applicabili

  1. Ricercatori:
    • Guida introduttiva per entrare nel campo LLM+Planning
    • Ricerca di spazi di ricerca e direzioni future
    • Confronto e valutazione di diversi metodi
  2. Ingegneri:
    • Selezione del metodo LLM+Planning appropriato per applicazioni specifiche
    • Utilizzo della libreria L2P per lo sviluppo rapido di prototipi
    • Comprensione dei vantaggi e degli svantaggi di diversi metodi e scenari applicabili
  3. Uso Educativo:
    • Come materiale didattico per corsi su LLM+Planning
    • Fornisce risorse ricche di letteratura e codice
    • Include chiari esempi introduttivi di PDDL
  4. Domini Applicativi Specifici:
    • Robotica: generazione di pianificazione di compiti robotici da istruzioni in linguaggio naturale
    • Gioco AI: generazione di modelli di pianificazione del comportamento dei NPC
    • Risposta di Emergenza: generazione di piani operativi di emergenza da documenti di politica
    • Logistica: generazione di pianificazione di pianificazione e routing da descrizioni aziendali

Bibliografia

Questa indagine copre circa 80 lavori correlati, con riferimenti chiave includenti:

Metodi Fondamentali:

  • Liu et al. (2023a): LLM+P - Potenziamento degli LLM con capacità di pianificazione ottimale
  • Guan et al. (2023): LLM+DM - Utilizzo di LLM pre-addestrati per costruire modelli del mondo
  • Kambhampati et al. (2024): Framework LLM-Modulo - Gli LLM non possono pianificare ma possono aiutare la pianificazione

Test di Benchmark:

  • Valmeekam et al. (2023a): PlanBench - Valutazione delle capacità di pianificazione degli LLM
  • Zuo et al. (2024): Planetarium - Valutazione della generazione di problemi PDDL
  • Hu et al. (2025): Text2World - Benchmark di generazione del dominio

Modellazione del Dominio:

  • Wong et al. (2023): ADA - Acquisizione del dominio di azione
  • Oswald et al. (2024): Valutazione dell'equivalenza operazionale
  • Zhang et al. (2024b): PROC2PDDL - Da testo a PDDL

Sistemi Applicativi:

  • Gestrin et al. (2024): NL2Plan - Sistema end-to-end indipendente dal dominio
  • Kelly et al. (2023): Estrazione PDDL per pianificazione narrativa
  • Ye et al. (2024): MORPHeus - Pianificazione a lungo termine collaborativa uomo-macchina

Valutazione Complessiva: Questo è un articolo di indagine di alta qualità, tempestivo e pratico che sistematicamente esamina lo stato attuale della ricerca su LLM come strumenti di formalizzazione della pianificazione. La classificazione dell'articolo è chiara, l'analisi è approfondita, e in particolare il contributo della libreria L2P open-source rende questo non solo una rassegna letteraria, ma uno strumento di ricerca operativo. Sebbene ci sia spazio per miglioramenti nel confronto empirico e nell'analisi teorica, come prima indagine completa in questo campo, il suo valore accademico e pratico sono elevati, e ha il potenziale di diventare un documento di riferimento importante nel campo LLM+Automated Planning.