2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

LLMs as Planning Formalizers: एक सर्वेक्षण बड़े भाषा मॉडल का उपयोग करके स्वचालित योजना मॉडल का निर्माण

बुनियादी जानकारी

  • पेपर ID: 2503.18971
  • शीर्षक: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • लेखक: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
  • वर्गीकरण: cs.AI
  • प्रकाशन समय: 2025 मार्च (arXiv v2: 2025 अक्टूबर 25)
  • पेपर लिंक: https://arxiv.org/abs/2503.18971v2

सारांश

बड़े भाषा मॉडल (LLMs) विभिन्न प्राकृतिक भाषा कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन संरचित तर्क की आवश्यकता वाली दीर्घकालीन योजना समस्याओं में कठिनाई का सामना करते हैं। यह पेपर एक समयोचित सर्वेक्षण प्रदान करता है जो वर्तमान में LLMs को औपचारिकता और योजना विनिर्देशों को परिष्कृत करने के उपकरण के रूप में स्थापित करने के अनुसंधान की स्थिति का व्यवस्थित विश्लेषण करता है, जो विश्वसनीय तैयार स्वचालित योजना (AP) प्रणालियों का समर्थन करता है। पेपर लगभग 80 संबंधित कार्यों की व्यवस्थित समीक्षा के माध्यम से, पद्धतिविज्ञान को उजागर करता है, मुख्य चुनौतियों और भविष्य की दिशाओं की पहचान करता है, और इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए ओपन-सोर्स Python लाइब्रेरी Language-to-Plan (L2P) प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

यद्यपि LLMs प्राकृतिक भाषा प्रसंस्करण कार्यों में उत्कृष्ट प्रदर्शन करते हैं, वे दीर्घकालीन योजना और तर्क कार्यों में खराब प्रदर्शन करते हैं, अक्सर अविश्वसनीय योजनाएं उत्पन्न करते हैं। LLMs को सीधे योजनाकार के रूप में उपयोग करना (LLM-as-Planner) आउटपुट की सही्ता, इष्टतमता और विश्वसनीयता की गारंटी नहीं दे सकता।

2. समस्या की महत्ता

  • योजना की प्रकृति: योजना System II संज्ञान का एक महत्वपूर्ण घटक है, जिसमें संरचित तर्क की आवश्यकता होती है, जबकि LLMs System I कार्यों में अधिक कुशल हैं
  • व्यावहारिक अनुप्रयोग बाधा: योजना मॉडल निष्कर्षण लंबे समय से योजना तकनीक के व्यापक अनुप्रयोग में मुख्य बाधा रहा है
  • विश्वसनीयता आवश्यकता: व्यावहारिक अनुप्रयोगों को सत्यापनीय, व्याख्यायोग्य और मजबूत योजना समाधान की आवश्यकता होती है

3. मौजूदा विधियों की सीमाएं

  • प्रत्यक्ष योजना विधि: जब LLMs सीधे कार्य अनुक्रम उत्पन्न करते हैं, तो पुनरावृत्ति प्रतिक्रिया के साथ प्रदर्शन में गिरावट आती है
  • संरचित गारंटी की कमी: LLMs शास्त्रीय योजना प्रणालियों की तरह सही्ता गारंटी प्रदान नहीं कर सकते
  • दीर्घकालीन निर्भरता समस्या: आकार बढ़ने के साथ, LLMs अक्सर कार्यों के प्रभाव और पूर्वशर्तों पर विचार करने में विफल रहते हैं

4. अनुसंधान प्रेरणा

यह पेपर LLMs-as-Formalizers प्रतिमान प्रस्तावित करता है: LLMs की शक्तियों का उपयोग (प्राकृतिक भाषा से योजना मॉडल विनिर्देशों को निकालना, व्याख्या करना और परिष्कृत करना), शास्त्रीय स्वचालित योजना प्रणालियों की शक्तियों के साथ संयुक्त (संरचित प्रतिनिधित्व, तर्क और खोज विधियां), पारस्परिक पूरक तंत्रिका-प्रतीकात्मक ढांचा बनाने के लिए।

मुख्य योगदान

  1. व्यवस्थित वर्गीकरण: LLM-संचालित स्वचालित योजना मॉडल निर्माण का पहला व्यापक वर्गीकरण प्रणाली प्रस्तावित करता है, जिसमें शामिल हैं:
    • मॉडल जनरेशन (Model Generation): कार्य मॉडलिंग, डोमेन मॉडलिंग, हाइब्रिड मॉडलिंग
    • मॉडल संपादन (Model Editing): कोड परिष्कार और त्रुटि सुधार
    • मॉडल बेंचमार्क (Model Benchmarks): मूल्यांकन ढांचा और डेटासेट
  2. तकनीकी विधियों का सारांश: LLMs को AI योजना ढांचे में एकीकृत करने के लिए साझा और नवीन तकनीकी विधियों और उनकी सीमाओं को व्यवस्थित रूप से सारांशित करता है
  3. अनुसंधान प्रश्न ढांचा: दो मुख्य अनुसंधान प्रश्न (RQ) प्रस्तावित करता है:
    • RQ1: LLMs मानव उद्देश्यों के साथ सही तरीके से कैसे संरेखित हो सकते हैं, यह सुनिश्चित करते हुए कि योजना मॉडल विनिर्देश सही तरीके से अपेक्षित अपेक्षाओं और लक्ष्यों का प्रतिनिधित्व करते हैं?
    • RQ2: प्राकृतिक भाषा निर्देशों को किस हद तक और किस अनाज पर सटीक योजना मॉडल परिभाषाओं में प्रभावी ढंग से परिवर्तित किया जा सकता है?
  4. ओपन-सोर्स टूल लाइब्रेरी: Language-to-Plan (L2P) ओपन-सोर्स Python लाइब्रेरी प्रदान करता है, जो सर्वेक्षण में शामिल प्रतीकात्मक पेपर विधियों को लागू करता है, समर्थन करता है:
    • व्यापक PDDL निष्कर्षण और परिष्कार उपकरण सूट
    • मॉड्यूलर डिज़ाइन, लचीले प्रॉम्प्ट शैलियों और कस्टम पाइपलाइनों का समर्थन करता है
    • पूरी तरह से स्वायत्त अंत-से-अंत पाइपलाइन क्षमता
  5. भविष्य की दिशा निर्देश: मुख्य चुनौतियों की पहचान करता है और इस क्षेत्र के भविष्य के अनुसंधान दिशाओं की रूपरेखा देता है

विधि विवरण

कार्य परिभाषा

यह सर्वेक्षण LLMs-as-Formalizers प्रतिमान पर केंद्रित है, अर्थात् स्वचालित योजना (AP) मॉडल विनिर्देशों (मुख्य रूप से PDDL प्रारूप) का निर्माण करने के लिए LLMs का उपयोग करना, फिर डोमेन-स्वतंत्र योजनाकार द्वारा समाधान उत्पन्न किया जाता है। यह निम्नलिखित प्रतिमानों के साथ विरोधाभास करता है:

  • LLMs-as-Planners: LLMs सीधे कार्य अनुक्रम उत्पन्न करते हैं
  • LLMs-as-Heuristics: LLMs अनुमानी मार्गदर्शन के माध्यम से खोज दक्षता को बढ़ाते हैं

मुख्य ढांचा वर्गीकरण

1. मॉडल जनरेशन (Model Generation)

प्राकृतिक भाषा इनपुट से योजना विनिर्देशों को निकालना और औपचारिकता, तीन उप-श्रेणियों में विभाजित:

1.1 कार्य मॉडलिंग (Task Modeling)

  • लक्ष्य विनिर्देश विधि:
    • Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
    • Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
    • विभिन्न स्तरों की अस्पष्टता को संभालना (Xie et al., 2023)
  • पूर्ण कार्य विनिर्देश:
    • ओपन-लूप सिस्टम: LLM+P संदर्भ उदाहरणों का उपयोग करके पूर्ण PDDL समस्या फ़ाइल उत्पन्न करता है
    • क्लोज्ड-लूप सिस्टम: Auto-GPT+P दृश्य धारणा के आधार पर प्रारंभिक स्थिति उत्पन्न करता है, और स्वचालित त्रुटि सुधार लूप के साथ
    • बहु-एजेंट सहयोग: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • वैकल्पिक प्रतिनिधित्व:
    • कार्य और गति योजना के लिए ज्यामितीय प्रतिनिधित्व
    • अस्थायी तर्क (TSL, STL, LTL)
    • Python फ़ंक्शन परिभाषा खोज स्थान

1.2 डोमेन मॉडलिंग (Domain Modeling)

  • एकल-प्रश्न विधि:
    • CLLaMP: CVE विवरणों से PDDL कार्य मॉडल निकालता है
    • PROC2PDDL: Zone of Proximal Development प्रॉम्प्ट डिज़ाइन
    • उम्मीदवार फ़िल्टरिंग विधि (Huang et al., 2024b; Athalye et al., 2024)
  • पुनरावृत्ति जनरेशन विधि:
    • LLM+DM: "जनरेट-टेस्ट-क्रिटिक" विधि अपनाता है, कई LLM कॉल के माध्यम से वृद्धिशील रूप से डोमेन घटकों का निर्माण करता है
    • LLM+AL: BC+ भाषा के साथ कार्य भाषा उत्पन्न करता है
    • LAMP: अमूर्त PDDL डोमेन मॉडल सीखने के लिए एल्गोरिदम श्रृंखला
  • क्लोज्ड-लूप ढांचा:
    • ADA: प्रतीकात्मक कार्य अपघटन के उम्मीदवार उत्पन्न करता है, अपरिभाषित कार्यों के लिए पुनरावृत्ति प्रॉम्प्ट करता है
    • COWP: खुली दुनिया योजना में अप्रत्याशित परिस्थितियों को संभालता है
    • LASP: पर्यावरण अवलोकन से संभावित त्रुटियों की पहचान करता है

1.3 हाइब्रिड मॉडलिंग (Hybrid Modeling) PDDL डोमेन और समस्या प्रणाली के पूर्ण मॉडल जनरेशन को संयोजित करता है:

  • बुनियादी विधि: Kelly et al. (2023) इनपुट कहानी से कथा योजना निकालता है, योजनाकार त्रुटि संदेशों को पुनरावृत्ति रूप से संभालता है
  • मध्यवर्ती प्रतिनिधित्व विधि:
    • NL2Plan: पहली डोमेन-स्वतंत्र ऑफ़लाइन अंत-से-अंत NL योजना प्रणाली
    • JSON टैग जनरेशन, सामंजस्य जांच और त्रुटि सुधार लूप
    • पहुंच विश्लेषण और निर्भरता विश्लेषण
  • व्यावहारिक अनुप्रयोग:
    • MORPHeus: मानव-मशीन सहयोग दीर्घकालीन योजना, विसंगति पहचान तंत्र
    • InterPret: उपयोगकर्ता इंटरैक्टिव भाषा प्रतिक्रिया के माध्यम से PDDL विधेय सीखता है
    • AgentGen: प्रशिक्षण के लिए विविध PDDL कार्यों को संश्लेषित करने के लिए LLMs का उपयोग करता है

2. मॉडल संपादन (Model Editing)

LLMs पूरी तरह से स्वायत्त जनरेशन समाधान के बजाय सहायक उपकरण के रूप में:

  • Gragera & Pozanco (2023): अनसुलझे कार्यों को ठीक करने में LLMs की सीमाओं का अध्ययन करता है
  • Patil (2024): LLMs वाक्य रचना सुधार में उत्कृष्ट हैं लेकिन शब्दार्थ असंगतियों में अविश्वसनीय हैं
  • Sikes et al. (2024a): शब्दार्थ समकक्ष लेकिन वाक्य रचना में भिन्न स्थिति चर समस्याओं को संबोधित करता है
  • Caglar et al. (2024): LLMs द्वारा उचित मॉडल संपादन उत्पन्न करने की प्रभावशीलता का मूल्यांकन करता है

3. मॉडल बेंचमार्क (Model Benchmarks)

योजना कार्यों में LLMs की क्षमताओं और उत्पन्न योजना विनिर्देशों की गुणवत्ता का मूल्यांकन:

3.1 LLMs-as-Planner बेंचमार्क:

  • Mystery Blocksworld: प्रशिक्षण डेटा रिसाव का पता लगाने के लिए शास्त्रीय Blocksworld को भ्रमित करता है
  • ALFWorld & Household: PDDL शब्दार्थ का उपयोग करके वास्तविक घरेलू वातावरण
  • TravelPlanner & Natural Plan: यात्रा योजना और वास्तविक अनुसूचन बेंचमार्क
  • PlanBench: लागत-इष्टतम योजना और योजना सत्यापन का व्यवस्थित मूल्यांकन
  • ACPBench: मानकीकृत मूल्यांकन कार्य और मेट्रिक्स, 13 डोमेन और 22 SOTA मॉडल को कवर करता है

3.2 LLMs-as-Planning-Formalizers बेंचमार्क:

  • Planetarium: LLM-उत्पन्न PDDL कार्य/समस्याओं का मूल्यांकन करता है, दो मुख्य समस्याओं पर जोर देता है:
    • LLMs ऐसा कोड उत्पन्न कर सकते हैं जो वैध है लेकिन मूल NL विवरण के साथ असंगत है
    • मूल्यांकन सेट का NL विवरण वास्तविक मूल्य के साथ बहुत समान है
  • Text2World:
    • स्वचालित डोमेन निष्कर्षण पाइपलाइन
    • बहु-मानदंड मेट्रिक्स: निष्पादनीयता, संरचनात्मक समानता, घटक-स्तर F1 स्कोर
    • सीमा: निष्पादनीयता को गेटिंग मेट्रिक के रूप में निर्भर करता है

तकनीकी नवाचार बिंदु

  1. LLM-Modulo ढांचा: बाहरी सत्यापनकर्ताओं के माध्यम से पुनरावृत्ति योजना परिष्कार के माध्यम से सही्ता सुनिश्चित करता है, प्रत्यक्ष योजना से एकीकृत सत्यापनकर्ताओं के साथ PDDL जनरेशन पर ध्यान केंद्रित करता है
  2. मध्यवर्ती प्रतिनिधित्व: ASP, Python, JSON आदि जैसे अधिक आसानी से LLMs द्वारा संभाले जाने वाले मध्यवर्ती प्रतिनिधित्व का उपयोग करता है, फिर PDDL में परिवर्तित करता है
  3. बहु-उम्मीदवार जनरेशन: कई उम्मीदवार डोमेन या विशिष्ट घटकों (जैसे विधेय परिभाषाएं) उत्पन्न करता है, उपयोगकर्ता इरादे में अस्पष्टता और अनिश्चितता के अनुकूल बेहतर अनुकूलन के लिए
  4. मानव-मशीन सहयोग: पूर्व-प्रसंस्करण चरणों और मानव-मशीन इंटरैक्टिव प्रतिक्रिया लूप के माध्यम से मॉडल गुणवत्ता को बढ़ाता है
  5. मॉड्यूलर डिज़ाइन: गतिशील एकीकरण प्रकार और विधेय का समर्थन करता है, जनरेशन के बाद के चरणों में अधिक अनुकूलनीय और त्रुटि-सहिष्णु योजना प्रणाली को सक्षम करता है

प्रायोगिक सेटअप

डेटासेट

यह पेपर एक सर्वेक्षण पेपर के रूप में, लगभग 80 अनुसंधान कार्यों में उपयोग किए जाने वाले कई डेटासेट और डोमेन को कवर करता है:

शास्त्रीय योजना डोमेन:

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

वास्तविक दुनिया वातावरण:

  • ALFWorld: घरेलू वातावरण इंटरैक्शन
  • Household: विशिष्ट घरेलू परिदृश्य
  • TravelPlanner: यात्रा योजना परिदृश्य

विशेषज्ञ डोमेन:

  • CVE (Common Vulnerabilities and Exposures): साइबर सुरक्षा
  • Emergency Operation Plans (EOPs): आपातकालीन निर्णय

मूल्यांकन मेट्रिक्स

योजना गुणवत्ता मेट्रिक्स:

  • योजना सही्ता
  • लागत इष्टतमता
  • निष्पादनीयता

मॉडल गुणवत्ता मेट्रिक्स:

  • संरचनात्मक समानता: वास्तविक मूल्य के साथ संरचनात्मक तुलना
  • घटक-स्तर F1 स्कोर: विधेय, कार्य आदि घटकों की सटीकता और रिकॉल दर
  • संचालन समकक्षता: पुनर्निर्मित डोमेन मूल डोमेन के साथ समान व्यवहार करता है या नहीं
  • शब्दार्थ सही्ता: उत्पन्न कोड मूल NL विवरण के साथ संरेखित है या नहीं

सिस्टम प्रदर्शन मेट्रिक्स:

  • जनरेशन सफलता दर
  • पुनरावृत्ति संख्या
  • मानव हस्तक्षेप आवश्यकता

तुलना विधियां

सर्वेक्षण में शामिल मुख्य विधि श्रेणियां:

  1. प्रत्यक्ष जनरेशन विधि: एकल LLM कॉल पूर्ण PDDL उत्पन्न करता है
  2. पुनरावृत्ति परिष्कार विधि: कई कॉल और प्रतिक्रिया लूप
  3. हाइब्रिड विधि: LLM और पारंपरिक सत्यापन उपकरणों को संयोजित करता है
  4. सूक्ष्म-ट्यूनिंग विधि: विशिष्ट डेटासेट पर LLMs को सूक्ष्म-ट्यून करता है

प्रायोगिक परिणाम

मुख्य निष्कर्ष

1. कार्य मॉडलिंग अपेक्षाकृत सरल है

  • अत्यधिक स्पष्ट विवरण अनुवाद सटीकता में महत्वपूर्ण सुधार करते हैं (Liu et al., 2023a)
  • Few-shot उदाहरणों और तर्क श्रृंखला का उपयोग करके लक्ष्य विनिर्देश को बढ़ाया जा सकता है (Lyu et al., 2023)
  • TIC GPT-3.5 Turbo पर मध्यवर्ती प्रतिनिधित्व का उपयोग करके LLM+P योजना डोमेन में लगभग 100% सटीकता प्राप्त करता है

2. डोमेन मॉडलिंग अधिक चुनौतीपूर्ण है

  • एकल जनरेशन पूरी तरह कार्यात्मक PDDL डोमेन अव्यावहारिक है (Kambhampati et al., 2024)
  • पुनरावृत्ति विधियां (जैसे LLM+DM की "जनरेट-टेस्ट-क्रिटिक") गुणवत्ता में महत्वपूर्ण सुधार करती हैं
  • संदर्भ उदाहरण CoT प्रॉम्प्टिंग से बेहतर हैं (Oates et al., 2024)
  • बहु-उम्मीदवार जनरेशन विधियां उपयोगकर्ता इरादे में अस्पष्टता को बेहतर तरीके से संभाल सकती हैं

3. हाइब्रिड मॉडलिंग की जटिलता

  • डोमेन और संबंधित समस्याओं को समन्वय करते समय जटिलता उत्पन्न होती है
  • रैखिक पाइपलाइन में कैस्केडिंग त्रुटि का जोखिम होता है
  • पूर्व-प्रसंस्करण चरण (FastDownward, VAL आदि बाहरी उपकरणों का उपयोग करके) सफलता दर में सुधार करते हैं
  • मानव-मशीन सहयोग मॉडल गुणवत्ता में महत्वपूर्ण सुधार करता है

4. मॉडल संपादन की प्रभावशीलता

  • LLMs वाक्य रचना सुधार में उत्कृष्ट प्रदर्शन करते हैं
  • शब्दार्थ असंगतियों में कम विश्वसनीय हैं (Patil, 2024)
  • पोस्ट-हॉक सुधार रणनीतियों को विकसित करने की आवश्यकता है

5. बेंचमार्क परीक्षण चुनौतियां

  • प्रशिक्षण डेटा रिसाव एक मुख्य समस्या है (Hu et al., 2025 उच्च प्रदूषण दर की रिपोर्ट करता है)
  • गतिशील बेंचमार्क मानकों की आवश्यकता है
  • मूल्यांकन सेट का NL विवरण वास्तविक मूल्य की समानता मूल्यांकन कठिनाई को प्रभावित करती है

केस अध्ययन

L2P लाइब्रेरी द्वारा पुनर्निर्मित "action-by-action" एल्गोरिदम (Guan et al., 2023)

पेपर Logistics डोमेन के विधेय और कार्य जनरेशन के लिए L2P लाइब्रेरी का उपयोग कैसे करें यह दिखाता है:

उत्पन्न विधेय उदाहरण:

(truck-at ?t - truck ?l - location): ट्रक ?t वर्तमान में स्थान ?l पर है
(package-at ?p - package ?l - location): पैकेज ?p वर्तमान में स्थान ?l पर है
(truck-holding ?t - truck ?p - package): ट्रक ?t वर्तमान में पैकेज ?p को पकड़ रहा है
(plane-at ?a - plane ?l - location): विमान ?a स्थान ?l पर है

उत्पन्न कार्य उदाहरण:

load_truck(?p - package, ?t - truck, ?l - location)
  पूर्वशर्त: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  प्रभाव: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

प्रायोगिक निष्कर्ष

  1. प्रॉम्प्ट संवेदनशीलता: LLMs प्रॉम्प्ट डिज़ाइन के प्रति अत्यधिक संवेदनशील हैं, मानकीकृत प्रॉम्प्ट अनाज की आवश्यकता है
  2. मध्यवर्ती प्रतिनिधित्व का मूल्य: JSON, Python आदि जैसे मध्यवर्ती प्रतिनिधित्व का उपयोग करके सटीकता और सामंजस्य में सुधार किया जा सकता है
  3. सत्यापनकर्ता की महत्ता: बाहरी सत्यापन उपकरणों (VAL, FastDownward आदि) को एकीकृत करना गुणवत्ता सुनिश्चित करने की कुंजी है
  4. डोमेन ज्ञान की भूमिका: स्पष्ट विधेय सेट विनिर्देश विभिन्न विधियों में मूल्यांकन के लिए महत्वपूर्ण है
  5. मानव-मशीन सहयोग की आवश्यकता: जटिल डोमेन आमतौर पर संरेखण सुनिश्चित करने के लिए मानव-मशीन इंटरैक्शन की आवश्यकता होती है

संबंधित कार्य

1. LLM+योजना के अन्य प्रतिमान

LLMs-as-Planners:

  • सीधे कार्य अनुक्रम उत्पन्न करता है (Zhang et al., 2024c; Lin et al., 2023)
  • पोस्ट-हॉक विधियों के माध्यम से योजना को परिष्कृत करता है (Gundawar et al., 2024)
  • सीमा: सही्ता और इष्टतमता की गारंटी नहीं दे सकते

LLMs-as-Heuristics:

  • अनुमानी मार्गदर्शन के माध्यम से खोज दक्षता को बढ़ाता है (Silver et al., 2022; Hirsch et al., 2024)
  • खोज दिशा प्रदान करता है लेकिन सीधे योजना उत्पन्न नहीं करता

2. संबंधित सर्वेक्षण

  • Huang et al. (2024c): उच्च-स्तरीय अमूर्तता के LLM-वर्धित योजना एजेंट
  • Pallagani et al. (2024): पारंपरिक AP से परे व्यापक निर्माण
  • Zhao et al. (2024): LLM-TAMP अनुप्रयोगों का व्यापक अवलोकन
  • Li et al. (2024a): मुख्य रूप से LLMs-as-Planners पर केंद्रित, इस पेपर के साथ पूरक

3. शास्त्रीय योजना मॉडल अधिग्रहण

  • पारंपरिक विधियां मानव विशेषज्ञ ज्ञान इंजीनियरिंग पर निर्भर करती हैं
  • सीखने की विधियां प्रदर्शन से मॉडल निकालती हैं
  • इस पेपर द्वारा केंद्रित LLM विधि स्वचालन का एक नया मार्ग प्रदान करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. LLMs-as-Formalizers एक आशाजनक प्रतिमान है: LLMs की प्राकृतिक भाषा समझ क्षमता और शास्त्रीय योजनाकार की संरचित तर्क क्षमता को संयोजित करता है
  2. कार्य मॉडलिंग अपेक्षाकृत परिपक्व है: मौजूदा विधियां स्पष्ट विवरण के तहत प्रभावी ढंग से कार्य विनिर्देश उत्पन्न कर सकती हैं
  3. डोमेन मॉडलिंग अभी भी चुनौतीपूर्ण है: पुनरावृत्ति विधियों, बहु-उम्मीदवार जनरेशन और बाहरी सत्यापन की आवश्यकता है
  4. हाइब्रिड मॉडलिंग को व्यवस्थित दृष्टिकोण की आवश्यकता है: मॉड्यूलर डिज़ाइन और त्रुटि-सहिष्णु तंत्र महत्वपूर्ण हैं
  5. बेंचमार्क परीक्षण में सुधार की आवश्यकता है: डेटा रिसाव और मूल्यांकन मानकीकरण मुख्य समस्याएं हैं

सीमाएं

  1. सर्वेक्षण का दायरा:
    • मुख्य रूप से PDDL निर्माण ढांचे पर केंद्रित है
    • पृष्ठ सीमा के कारण, प्रत्येक कार्य का तकनीकी विश्लेषण संक्षिप्त है
    • अन्य सम्मेलन/पत्रिकाओं के संबंधित अनुसंधान को छोड़ सकता है
  2. L2P लाइब्रेरी की वर्तमान सीमाएं:
    • पूरी तरह से अवलोकनीय नियतात्मक योजना के लिए केवल बुनियादी PDDL निष्कर्षण उपकरण का समर्थन करता है
    • अभी तक अस्थायी योजना आदि उन्नत डोमेन के उपकरण शामिल नहीं हैं
  3. विधि सीमाएं:
    • अधिकांश विधियां स्पष्ट NL से PDDL कोड मैपिंग पर निर्भर करती हैं
    • विरल इनपुट से पूर्ण विनिर्देश अनुमान करने की क्षमता सीमित है
    • शब्दार्थ त्रुटि हैंडलिंग अभी भी कठिन है

भविष्य की दिशाएं

RQ1 (लक्ष्य संरेखण) के लिए:

  1. व्याख्यात्मकता वृद्धि: व्याख्यायोग्य योजना प्रणाली विकसित करता है, मजबूत, पारदर्शी और सुधारने योग्य आउटपुट उत्पन्न करता है
  2. सुधार प्रतिक्रिया लूप: कार्य पूर्वशर्त त्रुटियों और निष्पादन विफलताओं को संभालने के तंत्र में सुधार करता है
  3. मानव-मशीन सहयोग: पूर्व-प्रसंस्करण चरणों और मानव-मशीन प्रतिक्रिया लूप के माध्यम से संरेखण सुनिश्चित करता है
  4. शब्दार्थ सही्ता सत्यापन: उत्पन्न योजनाओं की शब्दार्थ सही्ता का विश्लेषण करता है, PDDL विनिर्देशों को परिष्कृत करने के लिए प्रतिक्रिया के रूप में उपयोग करता है

RQ2 (विवरण अनाज) के लिए:

  1. न्यूनतम विवरण हैंडलिंग: विरल इनपुट से पूर्ण PDDL विनिर्देश अनुमान करने में सक्षम विधियां विकसित करता है
  2. सामान्य ज्ञान तर्क एकीकरण: संभावित धारणाओं और बाधाओं को कैप्चर करने के लिए LLMs की सामान्य ज्ञान क्षमता का लाभ उठाता है
  3. मानकीकृत प्रॉम्प्टिंग: प्रारंभिक जनरेशन और पुनरावृत्ति प्रतिक्रिया के लिए मानकीकृत प्रॉम्प्ट अनाज स्थापित करता है
  4. स्वचालित विवरण जनरेशन: PDDL विवरण उत्पन्न करने के लिए स्वचालित उपकरण विकसित करता है (जैसे Nabizada et al., 2024)

तकनीकी दिशाएं:

  1. मॉड्यूलर आर्किटेक्चर: प्रकार और विधेय के गतिशील एकीकरण का समर्थन करने वाली अधिक अनुकूलनीय प्रणाली
  2. बहु-उम्मीदवार रणनीति: अनिश्चितता को संभालने के लिए कई उम्मीदवार मॉडल उत्पन्न और मूल्यांकन करता है
  3. पोस्ट-हॉक सुधार: स्वचालित मेट्रिक्स या मानव मूल्यांकन के माध्यम से शब्दार्थ असंगतियों की पहचान करता है
  4. गतिशील बेंचमार्क: डेटा रिसाव को रोकने के लिए सामुदायिक-संचालित गतिशील बेंचमार्क मानक स्थापित करता है
  5. उन्नत योजना तक विस्तार: अस्थायी योजना, संभाव्य योजना आदि तक विधियों को विस्तारित करता है

अनुप्रयोग दिशाएं:

  1. व्यावहारिक तैनाती: रोबोटिक्स, गेम AI, आपातकालीन प्रतिक्रिया आदि व्यावहारिक परिदृश्यों में परीक्षण करता है
  2. डोमेन स्थानांतरण: डोमेन-पार सामान्यीकरण क्षमता में सुधार करता है
  3. मल्टीमॉडल एकीकरण: दृश्य, भाषा और अन्य मोडल जानकारी को संयोजित करता है

गहन मूल्यांकन

शक्तियां

  1. व्यापकता और व्यवस्थितता:
    • LLMs-as-Formalizers प्रतिमान पर केंद्रित पहला व्यापक सर्वेक्षण
    • लगभग 80 संबंधित कार्यों को कवर करता है, स्पष्ट वर्गीकरण
    • कार्य मॉडलिंग से डोमेन मॉडलिंग तक हाइब्रिड मॉडलिंग का पूर्ण दृष्टिकोण प्रदान करता है
  2. उच्च व्यावहारिक मूल्य:
    • ओपन-सोर्स L2P लाइब्रेरी प्रदान करता है, कई प्रतीकात्मक विधियों को लागू करता है
    • मॉड्यूलर डिज़ाइन शोधकर्ताओं को तेजी से प्रयोग और तुलना करने का समर्थन करता है
    • विस्तृत कोड उदाहरण और उपयोग निर्देश शामिल हैं
  3. समस्या-उन्मुख:
    • स्पष्ट रूप से RQ1 और RQ2 दो मुख्य अनुसंधान प्रश्न प्रस्तावित करता है
    • प्रत्येक उप-क्षेत्र "सारांश और भविष्य दिशाएं" प्रदान करता है
    • भविष्य के अनुसंधान के लिए स्पष्ट रोडमैप प्रदान करता है
  4. तकनीकी गहराई:
    • विभिन्न विधियों की तकनीकी विस्तार से विश्लेषण करता है
    • विभिन्न प्रॉम्प्ट रणनीतियों, प्रतिक्रिया तंत्रों और सत्यापन विधियों की तुलना करता है
    • PDDL बुनियादी ज्ञान और Blocksworld उदाहरण प्रदान करता है
  5. आलोचनात्मक सोच:
    • वस्तुनिष्ठ रूप से विभिन्न विधियों की सीमाओं को इंगित करता है
    • डेटा रिसाव, मूल्यांकन मानकों आदि मुख्य समस्याओं पर चर्चा करता है
    • शब्दार्थ सही्ता बनाम वाक्य रचना सही्ता के अंतर पर जोर देता है

कमियां

  1. सीमित अनुभवजन्य विश्लेषण:
    • सर्वेक्षण पेपर के रूप में, एकीकृत ढांचे के तहत व्यवस्थित प्रायोगिक तुलना की कमी है
    • विभिन्न विधियां विभिन्न डेटासेट और मूल्यांकन मेट्रिक्स का उपयोग करती हैं, सीधी तुलना करना कठिन है
    • विभिन्न विधियों के मात्रात्मक प्रदर्शन तुलना तालिका प्रदान नहीं करता है
  2. L2P लाइब्रेरी की परिपक्वता:
    • वर्तमान में केवल कुछ प्रतीकात्मक विधियों को पुनर्निर्मित करता है
    • केवल बुनियादी PDDL का समर्थन करता है, अस्थायी, संभाव्य आदि उन्नत विशेषताओं का समर्थन नहीं करता है
    • सामुदायिक योगदान के माध्यम से अपडेट रखने की आवश्यकता है
  3. अपर्याप्त सैद्धांतिक विश्लेषण:
    • LLMs कुछ योजना कार्यों में विफल क्यों होते हैं इसका सैद्धांतिक व्याख्या की कमी है
    • विभिन्न आर्किटेक्चर (GPT बनाम LLaMA आदि) के अंतर का गहन विश्लेषण नहीं करता है
    • प्रॉम्प्ट इंजीनियरिंग के सैद्धांतिक आधार पर चर्चा सीमित है
  4. मूल्यांकन पद्धति:
    • बेंचमार्क परीक्षण पर चर्चा के बावजूद, एकीकृत मूल्यांकन ढांचा प्रस्तावित नहीं करता है
    • "अच्छा PDDL मॉडल क्या है" की स्पष्ट परिभाषा की कमी है
    • मानव मूल्यांकन के मानक और प्रक्रिया पर्याप्त विस्तृत नहीं हैं
  5. अनुप्रयोग परिदृश्य चर्चा:
    • वास्तविक तैनाती में चुनौतियों (जैसे कम्प्यूटेशनल लागत, विलंबता आदि) पर कम चर्चा है
    • विभिन्न अनुप्रयोग परिदृश्यों (रोबोटिक्स, गेम, शेड्यूलिंग आदि) के लिए लक्षित विश्लेषण की कमी है
    • औद्योगिक अपनाने की बाधाओं और समाधानों पर अपर्याप्त चर्चा है

प्रभाव

  1. शैक्षणिक योगदान:
    • NLP और AI योजना समुदायों के बीच पुल बनाता है
    • LLMs-as-Formalizers प्रतिमान को स्पष्ट रूप से परिभाषित करता है, अन्य प्रतिमानों से अलग करता है
    • इस क्षेत्र के लिए व्यवस्थित वर्गीकरण और शब्दावली प्रणाली स्थापित करता है
  2. व्यावहारिक मूल्य:
    • L2P लाइब्रेरी अनुसंधान बाधा को कम करता है, पुनरुत्पादनीयता को बढ़ावा देता है
    • शोधकर्ताओं को तेजी से प्रोटोटाइप विकास उपकरण प्रदान करता है
    • LLM+योजना क्षेत्र में अनुसंधान प्रगति को तेजी ला सकता है
  3. समुदाय निर्माण:
    • बिखरे हुए साहित्य को एकीकृत करता है, एकीकृत दृष्टिकोण प्रदान करता है
    • मुख्य चुनौतियों और अनुसंधान अंतराल की पहचान करता है
    • नई अनुसंधान दिशाओं और सहयोग को प्रेरित कर सकता है
  4. संभावित प्रभाव:
    • इस क्षेत्र का मानक संदर्भ साहित्य बन सकता है
    • L2P लाइब्रेरी सामुदायिक मानक उपकरण बनने की संभावना रखती है
    • प्रस्तावित अनुसंधान प्रश्न भविष्य के कई वर्षों के अनुसंधान को निर्देशित कर सकते हैं

लागू परिदृश्य

  1. शोधकर्ता:
    • LLM+योजना क्षेत्र में प्रवेश के लिए परिचयात्मक मार्गदर्शिका
    • अनुसंधान अंतराल और भविष्य दिशाएं खोजता है
    • विभिन्न विधियों की तुलना और मूल्यांकन करता है
  2. इंजीनियर:
    • विशिष्ट अनुप्रयोगों के लिए उपयुक्त LLM+योजना विधि चुनता है
    • L2P लाइब्रेरी का उपयोग करके तेजी से प्रोटोटाइप विकास करता है
    • विभिन्न विधियों के फायदे, नुकसान और लागू परिदृश्य समझता है
  3. शैक्षणिक उपयोग:
    • LLM+योजना पाठ्यक्रम के लिए पाठ्य सामग्री के रूप में
    • समृद्ध साहित्य और कोड संसाधन प्रदान करता है
    • स्पष्ट PDDL परिचय उदाहरण शामिल हैं
  4. विशिष्ट अनुप्रयोग क्षेत्र:
    • रोबोटिक्स: प्राकृतिक भाषा निर्देशों से रोबोट कार्य योजना उत्पन्न करता है
    • गेम AI: NPC व्यवहार योजना मॉडल उत्पन्न करता है
    • आपातकालीन प्रतिक्रिया: नीति दस्तावेजों से आपातकालीन संचालन योजना उत्पन्न करता है
    • लॉजिस्टिक्स: व्यावसायिक विवरण से शेड्यूलिंग और रूटिंग योजना उत्पन्न करता है

संदर्भ

यह सर्वेक्षण लगभग 80 संबंधित कार्यों को कवर करता है, मुख्य संदर्भ साहित्य में शामिल हैं:

बुनियादी विधियां:

  • Liu et al. (2023a): LLM+P - इष्टतम योजना क्षमता के साथ LLMs को बढ़ाता है
  • Guan et al. (2023): LLM+DM - पूर्व-प्रशिक्षित LLMs का उपयोग करके विश्व मॉडल बनाता है
  • Kambhampati et al. (2024): LLM-Modulo ढांचा - LLMs योजना नहीं बना सकते लेकिन योजना में मदद कर सकते हैं

बेंचमार्क परीक्षण:

  • Valmeekam et al. (2023a): PlanBench - LLMs योजना क्षमता का मूल्यांकन करता है
  • Zuo et al. (2024): Planetarium - PDDL समस्या जनरेशन का मूल्यांकन करता है
  • Hu et al. (2025): Text2World - डोमेन जनरेशन बेंचमार्क

डोमेन मॉडलिंग:

  • Wong et al. (2023): ADA - कार्य डोमेन अधिग्रहण
  • Oswald et al. (2024): संचालन समकक्षता मूल्यांकन
  • Zhang et al. (2024b): PROC2PDDL - पाठ से PDDL

अनुप्रयोग प्रणाली:

  • Gestrin et al. (2024): NL2Plan - डोमेन-स्वतंत्र अंत-से-अंत प्रणाली
  • Kelly et al. (2023): कथा योजना के लिए PDDL निष्कर्षण
  • Ye et al. (2024): MORPHeus - मानव-मशीन सहयोग दीर्घकालीन योजना

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता, समयोचित और व्यावहारिक सर्वेक्षण पेपर है, जो LLMs को योजना औपचारिकता उपकरण के रूप में अनुसंधान की स्थिति को व्यवस्थित रूप से सारांशित करता है। पेपर का वर्गीकरण स्पष्ट है, विश्लेषण गहन है, विशेष रूप से L2P ओपन-सोर्स लाइब्रेरी का योगदान इसे केवल साहित्य सर्वेक्षण नहीं बल्कि एक संचालनीय अनुसंधान उपकरण बनाता है। यद्यपि अनुभवजन्य तुलना और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन इस क्षेत्र के पहले व्यापक सर्वेक्षण के रूप में, इसका शैक्षणिक मूल्य और व्यावहारिक मूल्य दोनों बहुत अधिक हैं, और यह LLM+स्वचालित योजना क्षेत्र का एक महत्वपूर्ण संदर्भ साहित्य बनने की संभावना है।