LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLMs as Planning Formalizers: एक सर्वेक्षण बड़े भाषा मॉडल का उपयोग करके स्वचालित योजना मॉडल का निर्माण
बड़े भाषा मॉडल (LLMs) विभिन्न प्राकृतिक भाषा कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन संरचित तर्क की आवश्यकता वाली दीर्घकालीन योजना समस्याओं में कठिनाई का सामना करते हैं। यह पेपर एक समयोचित सर्वेक्षण प्रदान करता है जो वर्तमान में LLMs को औपचारिकता और योजना विनिर्देशों को परिष्कृत करने के उपकरण के रूप में स्थापित करने के अनुसंधान की स्थिति का व्यवस्थित विश्लेषण करता है, जो विश्वसनीय तैयार स्वचालित योजना (AP) प्रणालियों का समर्थन करता है। पेपर लगभग 80 संबंधित कार्यों की व्यवस्थित समीक्षा के माध्यम से, पद्धतिविज्ञान को उजागर करता है, मुख्य चुनौतियों और भविष्य की दिशाओं की पहचान करता है, और इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए ओपन-सोर्स Python लाइब्रेरी Language-to-Plan (L2P) प्रदान करता है।
यद्यपि LLMs प्राकृतिक भाषा प्रसंस्करण कार्यों में उत्कृष्ट प्रदर्शन करते हैं, वे दीर्घकालीन योजना और तर्क कार्यों में खराब प्रदर्शन करते हैं, अक्सर अविश्वसनीय योजनाएं उत्पन्न करते हैं। LLMs को सीधे योजनाकार के रूप में उपयोग करना (LLM-as-Planner) आउटपुट की सही्ता, इष्टतमता और विश्वसनीयता की गारंटी नहीं दे सकता।
योजना की प्रकृति: योजना System II संज्ञान का एक महत्वपूर्ण घटक है, जिसमें संरचित तर्क की आवश्यकता होती है, जबकि LLMs System I कार्यों में अधिक कुशल हैं
व्यावहारिक अनुप्रयोग बाधा: योजना मॉडल निष्कर्षण लंबे समय से योजना तकनीक के व्यापक अनुप्रयोग में मुख्य बाधा रहा है
विश्वसनीयता आवश्यकता: व्यावहारिक अनुप्रयोगों को सत्यापनीय, व्याख्यायोग्य और मजबूत योजना समाधान की आवश्यकता होती है
यह पेपर LLMs-as-Formalizers प्रतिमान प्रस्तावित करता है: LLMs की शक्तियों का उपयोग (प्राकृतिक भाषा से योजना मॉडल विनिर्देशों को निकालना, व्याख्या करना और परिष्कृत करना), शास्त्रीय स्वचालित योजना प्रणालियों की शक्तियों के साथ संयुक्त (संरचित प्रतिनिधित्व, तर्क और खोज विधियां), पारस्परिक पूरक तंत्रिका-प्रतीकात्मक ढांचा बनाने के लिए।
व्यवस्थित वर्गीकरण: LLM-संचालित स्वचालित योजना मॉडल निर्माण का पहला व्यापक वर्गीकरण प्रणाली प्रस्तावित करता है, जिसमें शामिल हैं:
मॉडल जनरेशन (Model Generation): कार्य मॉडलिंग, डोमेन मॉडलिंग, हाइब्रिड मॉडलिंग
मॉडल संपादन (Model Editing): कोड परिष्कार और त्रुटि सुधार
मॉडल बेंचमार्क (Model Benchmarks): मूल्यांकन ढांचा और डेटासेट
तकनीकी विधियों का सारांश: LLMs को AI योजना ढांचे में एकीकृत करने के लिए साझा और नवीन तकनीकी विधियों और उनकी सीमाओं को व्यवस्थित रूप से सारांशित करता है
अनुसंधान प्रश्न ढांचा: दो मुख्य अनुसंधान प्रश्न (RQ) प्रस्तावित करता है:
RQ1: LLMs मानव उद्देश्यों के साथ सही तरीके से कैसे संरेखित हो सकते हैं, यह सुनिश्चित करते हुए कि योजना मॉडल विनिर्देश सही तरीके से अपेक्षित अपेक्षाओं और लक्ष्यों का प्रतिनिधित्व करते हैं?
RQ2: प्राकृतिक भाषा निर्देशों को किस हद तक और किस अनाज पर सटीक योजना मॉडल परिभाषाओं में प्रभावी ढंग से परिवर्तित किया जा सकता है?
ओपन-सोर्स टूल लाइब्रेरी: Language-to-Plan (L2P) ओपन-सोर्स Python लाइब्रेरी प्रदान करता है, जो सर्वेक्षण में शामिल प्रतीकात्मक पेपर विधियों को लागू करता है, समर्थन करता है:
व्यापक PDDL निष्कर्षण और परिष्कार उपकरण सूट
मॉड्यूलर डिज़ाइन, लचीले प्रॉम्प्ट शैलियों और कस्टम पाइपलाइनों का समर्थन करता है
पूरी तरह से स्वायत्त अंत-से-अंत पाइपलाइन क्षमता
भविष्य की दिशा निर्देश: मुख्य चुनौतियों की पहचान करता है और इस क्षेत्र के भविष्य के अनुसंधान दिशाओं की रूपरेखा देता है
यह सर्वेक्षण LLMs-as-Formalizers प्रतिमान पर केंद्रित है, अर्थात् स्वचालित योजना (AP) मॉडल विनिर्देशों (मुख्य रूप से PDDL प्रारूप) का निर्माण करने के लिए LLMs का उपयोग करना, फिर डोमेन-स्वतंत्र योजनाकार द्वारा समाधान उत्पन्न किया जाता है। यह निम्नलिखित प्रतिमानों के साथ विरोधाभास करता है:
LLMs-as-Planners: LLMs सीधे कार्य अनुक्रम उत्पन्न करते हैं
LLMs-as-Heuristics: LLMs अनुमानी मार्गदर्शन के माध्यम से खोज दक्षता को बढ़ाते हैं
LLM-Modulo ढांचा: बाहरी सत्यापनकर्ताओं के माध्यम से पुनरावृत्ति योजना परिष्कार के माध्यम से सही्ता सुनिश्चित करता है, प्रत्यक्ष योजना से एकीकृत सत्यापनकर्ताओं के साथ PDDL जनरेशन पर ध्यान केंद्रित करता है
मध्यवर्ती प्रतिनिधित्व: ASP, Python, JSON आदि जैसे अधिक आसानी से LLMs द्वारा संभाले जाने वाले मध्यवर्ती प्रतिनिधित्व का उपयोग करता है, फिर PDDL में परिवर्तित करता है
बहु-उम्मीदवार जनरेशन: कई उम्मीदवार डोमेन या विशिष्ट घटकों (जैसे विधेय परिभाषाएं) उत्पन्न करता है, उपयोगकर्ता इरादे में अस्पष्टता और अनिश्चितता के अनुकूल बेहतर अनुकूलन के लिए
मानव-मशीन सहयोग: पूर्व-प्रसंस्करण चरणों और मानव-मशीन इंटरैक्टिव प्रतिक्रिया लूप के माध्यम से मॉडल गुणवत्ता को बढ़ाता है
मॉड्यूलर डिज़ाइन: गतिशील एकीकरण प्रकार और विधेय का समर्थन करता है, जनरेशन के बाद के चरणों में अधिक अनुकूलनीय और त्रुटि-सहिष्णु योजना प्रणाली को सक्षम करता है
पेपर Logistics डोमेन के विधेय और कार्य जनरेशन के लिए L2P लाइब्रेरी का उपयोग कैसे करें यह दिखाता है:
उत्पन्न विधेय उदाहरण:
(truck-at ?t - truck ?l - location): ट्रक ?t वर्तमान में स्थान ?l पर है
(package-at ?p - package ?l - location): पैकेज ?p वर्तमान में स्थान ?l पर है
(truck-holding ?t - truck ?p - package): ट्रक ?t वर्तमान में पैकेज ?p को पकड़ रहा है
(plane-at ?a - plane ?l - location): विमान ?a स्थान ?l पर है
व्याख्यात्मकता वृद्धि: व्याख्यायोग्य योजना प्रणाली विकसित करता है, मजबूत, पारदर्शी और सुधारने योग्य आउटपुट उत्पन्न करता है
सुधार प्रतिक्रिया लूप: कार्य पूर्वशर्त त्रुटियों और निष्पादन विफलताओं को संभालने के तंत्र में सुधार करता है
मानव-मशीन सहयोग: पूर्व-प्रसंस्करण चरणों और मानव-मशीन प्रतिक्रिया लूप के माध्यम से संरेखण सुनिश्चित करता है
शब्दार्थ सही्ता सत्यापन: उत्पन्न योजनाओं की शब्दार्थ सही्ता का विश्लेषण करता है, PDDL विनिर्देशों को परिष्कृत करने के लिए प्रतिक्रिया के रूप में उपयोग करता है
यह सर्वेक्षण लगभग 80 संबंधित कार्यों को कवर करता है, मुख्य संदर्भ साहित्य में शामिल हैं:
बुनियादी विधियां:
Liu et al. (2023a): LLM+P - इष्टतम योजना क्षमता के साथ LLMs को बढ़ाता है
Guan et al. (2023): LLM+DM - पूर्व-प्रशिक्षित LLMs का उपयोग करके विश्व मॉडल बनाता है
Kambhampati et al. (2024): LLM-Modulo ढांचा - LLMs योजना नहीं बना सकते लेकिन योजना में मदद कर सकते हैं
बेंचमार्क परीक्षण:
Valmeekam et al. (2023a): PlanBench - LLMs योजना क्षमता का मूल्यांकन करता है
Zuo et al. (2024): Planetarium - PDDL समस्या जनरेशन का मूल्यांकन करता है
Hu et al. (2025): Text2World - डोमेन जनरेशन बेंचमार्क
डोमेन मॉडलिंग:
Wong et al. (2023): ADA - कार्य डोमेन अधिग्रहण
Oswald et al. (2024): संचालन समकक्षता मूल्यांकन
Zhang et al. (2024b): PROC2PDDL - पाठ से PDDL
अनुप्रयोग प्रणाली:
Gestrin et al. (2024): NL2Plan - डोमेन-स्वतंत्र अंत-से-अंत प्रणाली
Kelly et al. (2023): कथा योजना के लिए PDDL निष्कर्षण
Ye et al. (2024): MORPHeus - मानव-मशीन सहयोग दीर्घकालीन योजना
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता, समयोचित और व्यावहारिक सर्वेक्षण पेपर है, जो LLMs को योजना औपचारिकता उपकरण के रूप में अनुसंधान की स्थिति को व्यवस्थित रूप से सारांशित करता है। पेपर का वर्गीकरण स्पष्ट है, विश्लेषण गहन है, विशेष रूप से L2P ओपन-सोर्स लाइब्रेरी का योगदान इसे केवल साहित्य सर्वेक्षण नहीं बल्कि एक संचालनीय अनुसंधान उपकरण बनाता है। यद्यपि अनुभवजन्य तुलना और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन इस क्षेत्र के पहले व्यापक सर्वेक्षण के रूप में, इसका शैक्षणिक मूल्य और व्यावहारिक मूल्य दोनों बहुत अधिक हैं, और यह LLM+स्वचालित योजना क्षेत्र का एक महत्वपूर्ण संदर्भ साहित्य बनने की संभावना है।