LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLMs as Planning Formalizers: একটি সমীক্ষা বড় ভাষা মডেলগুলিকে স্বয়ংক্রিয় পরিকল্পনা মডেল তৈরি করতে ব্যবহার করার জন্য
বড় ভাষা মডেলগুলি (LLMs) বিভিন্ন প্রাকৃতিক ভাষা কাজে উৎকর্ষতা প্রদর্শন করে, কিন্তু কাঠামোগত যুক্তির প্রয়োজন এমন দীর্ঘমেয়াদী পরিকল্পনা সমস্যায় এখনও অসুবিধার সম্মুখীন। এই পেপারটি একটি সময়োপযোগী সমীক্ষা প্রদান করে যা বর্তমানে LLMগুলিকে পরিকল্পনা বিশেষ্যতা আনুষ্ঠানিকীকরণ এবং পরিমার্জনের সরঞ্জাম হিসাবে অবস্থান করার গবেষণা অবস্থা পদ্ধতিগতভাবে বিশ্লেষণ করে, যা নির্ভরযোগ্য অফ-দ্য-শেল্ফ স্বয়ংক্রিয় পরিকল্পনা (AP) সিস্টেমকে সমর্থন করে। পেপারটি প্রায় ৮০টি সম্পর্কিত কাজের পদ্ধতিগত পর্যালোচনার মাধ্যমে পদ্ধতিগুলি হাইলাইট করে, মূল চ্যালেঞ্জগুলি এবং ভবিষ্যত দিকনির্দেশনা চিহ্নিত করে এবং এই ক্ষেত্রের গবেষণা সহজতর করার জন্য ওপেন সোর্স পাইথন লাইব্রেরি Language-to-Plan (L2P) প্রদান করে।
যদিও LLMগুলি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে উৎকর্ষতা প্রদর্শন করে, তারা দীর্ঘমেয়াদী পরিকল্পনা এবং যুক্তি কাজে দুর্বল পারফরম্যান্স প্রদর্শন করে, প্রায়শই অবিশ্বাস্য পরিকল্পনা তৈরি করে। LLMগুলিকে সরাসরি পরিকল্পনাকারী হিসাবে ব্যবহার করা (LLM-as-Planner) আউটপুটের সঠিকতা, সর্বোত্তমতা এবং নির্ভরযোগ্যতার গ্যারান্টি দিতে পারে না।
এই পেপারটি LLMs-as-Formalizers প্যারাডাইম প্রস্তাব করে: LLMগুলির শক্তিগুলি ব্যবহার করা (প্রাকৃতিক ভাষা থেকে পরিকল্পনা মডেল বিশেষ্যতা নিষ্কাশন, ব্যাখ্যা এবং পরিমার্জন), ক্লাসিক্যাল স্বয়ংক্রিয় পরিকল্পনা সিস্টেমের শক্তিগুলির সাথে মিলিত (কাঠামোগত প্রতিনিধিত্ব, যুক্তি এবং অনুসন্ধান পদ্ধতি), পরিপূরক স্নায়ু-প্রতীকী কাঠামো তৈরি করতে।
১. পদ্ধতিগত শ্রেণীবিভাগ: LLM-চালিত স্বয়ংক্রিয় পরিকল্পনা মডেল নির্মাণের প্রথম ব্যাপক শ্রেণীবিভাগ ব্যবস্থা প্রস্তাব করা হয়েছে, যার মধ্যে রয়েছে:
মডেল প্রজন্ম (Model Generation): কাজ মডেলিং, ডোমেইন মডেলিং, হাইব্রিড মডেলিং
মডেল সম্পাদনা (Model Editing): কোড পরিমার্জন এবং ত্রুটি সংশোধন
মডেল বেঞ্চমার্ক (Model Benchmarks): মূল্যায়ন কাঠামো এবং ডেটাসেট
२. প্রযুক্তিগত পদ্ধতি সারসংক্ষেপ: AI পরিকল্পনা কাঠামোতে LLMগুলি একীভূত করার ভাগ করা এবং উদ্ভাবনী প্রযুক্তিগত পদ্ধতি এবং তাদের সীমাবদ্ধতাগুলি পদ্ধতিগতভাবে সংকলন করা হয়েছে
३. গবেষণা প্রশ্ন কাঠামো: দুটি মূল গবেষণা প্রশ্ন (RQ) প্রস্তাব করা হয়েছে:
RQ1: LLMগুলি কীভাবে মানব লক্ষ্যগুলির সাথে সঠিকভাবে সারিবদ্ধ হতে পারে, নিশ্চিত করে যে পরিকল্পনা মডেল বিশেষ্যতা প্রত্যাশিত প্রত্যাশা এবং লক্ষ্যগুলি সঠিকভাবে প্রতিনিধিত্ব করে?
RQ2: প্রাকৃতিক ভাষা নির্দেশাবলী কত পরিমাণে এবং কত দানাদারিতায় সঠিক পরিকল্পনা মডেল সংজ্ঞায় কার্যকরভাবে রূপান্তরিত হতে পারে?
४. ওপেন সোর্স টুলকিট: Language-to-Plan (L2P) ওপেন সোর্স পাইথন লাইব্রেরি প্রদান করা হয়েছে, যা সমীক্ষায় অন্তর্ভুক্ত স্বাক্ষর পেপার পদ্ধতিগুলি প্রয়োগ করে, সমর্থন করে:
ব্যাপক PDDL নিষ্কাশন এবং পরিমার্জন সরঞ্জাম স্যুট
মডুলার ডিজাইন, নমনীয় প্রম্পটিং শৈলী এবং কাস্টম পাইপলাইন সমর্থন করে
সম্পূর্ণ স্বায়ত্তশাসিত এন্ড-টু-এন্ড পাইপলাইন ক্ষমতা
५. ভবিষ্যত দিকনির্দেশনা নির্দেশিকা: মূল চ্যালেঞ্জগুলি চিহ্নিত করা হয়েছে এবং এই ক্ষেত্রের ভবিষ্যত গবেষণা দিকনির্দেশনা রূপরেখা দেওয়া হয়েছে
এই সমীক্ষা LLMs-as-Formalizers প্যারাডাইমে ফোকাস করে, অর্থাৎ স্বয়ংক্রিয় পরিকল্পনা (AP) মডেল বিশেষ্যতা (প্রধানত PDDL ফর্ম্যাট) তৈরি করতে LLMগুলি ব্যবহার করা, তারপর ডোমেইন-স্বাধীন পরিকল্পনাকারীরা সমাধান তৈরি করে। এটি নিম্নলিখিত প্যারাডাইমগুলির সাথে বৈপরীত্য:
LLMs-as-Planners: LLMগুলি সরাসরি ক্রিয়া ক্রম তৈরি করে
LLMs-as-Heuristics: LLMগুলি হিউরিস্টিক নির্দেশনার মাধ্যমে অনুসন্ধান দক্ষতা বৃদ্ধি করে
१. LLM-Modulo কাঠামো: বাহ্যিক যাচাইকারীর মাধ্যমে পুনরাবৃত্তিমূলক পরিকল্পনা পরিমার্জন সঠিকতা নিশ্চিত করতে, সরাসরি পরিকল্পনা থেকে একীভূত যাচাইকারীর সাথে PDDL প্রজন্মে ফোকাস স্থানান্তর
२. মধ্যবর্তী প্রতিনিধিত্ব: ASP, পাইথন, JSON ইত্যাদি আরও সহজে LLMগুলি দ্বারা পরিচালিত মধ্যবর্তী প্রতিনিধিত্ব ব্যবহার করা, তারপর PDDL-এ রূপান্তর
३. মাল্টি-প্রার্থী প্রজন্ম: একাধিক প্রার্থী ডোমেইন বা নির্দিষ্ট উপাদান (যেমন প্রেডিকেট সংজ্ঞা) তৈরি করা, ব্যবহারকারী অভিপ্রায়ে অস্পষ্টতা এবং অনিশ্চয়তার সাথে আরও ভালভাবে খাপ খাইয়ে নিতে
४. মানব-মেশিন সহযোগিতা: পূর্ব-প্রক্রিয়াকরণ পদক্ষেপ এবং মানব-মেশিন ইন্টারেক্টিভ প্রতিক্রিয়া লুপের মাধ্যমে মডেল গুণমান উন্নত করা
५. মডুলার ডিজাইন: গতিশীল প্রকার এবং প্রেডিকেট একীকরণ সমর্থন করে, প্রজন্মের পরবর্তী পর্যায়ে আরও অভিযোজনযোগ্য এবং ত্রুটি-সহনশীল পরিকল্পনা সিস্টেম সক্ষম করে
१. সরাসরি প্রজন্ম পদ্ধতি: একক LLM কল সম্পূর্ণ PDDL তৈরি করে
२. পুনরাবৃত্তিমূলক পরিমার্জন পদ্ধতি: একাধিক কল এবং প্রতিক্রিয়া লুপ
३. হাইব্রিড পদ্ধতি: LLM এবং ঐতিহ্যবাহী যাচাইকরণ সরঞ্জাম একত্রিত করা
४. সূক্ষ্ম-সুর পদ্ধতি: নির্দিষ্ট ডেটাসেটে LLMগুলি সূক্ষ্ম-সুর করা
পেপারটি Logistics ডোমেইনের প্রেডিকেট এবং ক্রিয়া প্রজন্মের জন্য L2P লাইব্রেরি কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করে:
উৎপাদিত প্রেডিকেট উদাহরণ:
(truck-at ?t - truck ?l - location): ট্রাক ?t বর্তমানে অবস্থান ?l এ আছে
(package-at ?p - package ?l - location): প্যাকেজ ?p বর্তমানে অবস্থান ?l এ আছে
(truck-holding ?t - truck ?p - package): ট্রাক ?t বর্তমানে প্যাকেজ ?p ধারণ করছে
(plane-at ?a - plane ?l - location): বিমান ?a অবস্থান ?l এ আছে
१. LLMs-as-Formalizers একটি প্রতিশ্রুতিশীল প্যারাডাইম: LLMগুলির প্রাকৃতিক ভাষা বোঝার ক্ষমতা এবং ক্লাসিক্যাল পরিকল্পনাকারীর কাঠামোগত যুক্তি ক্ষমতা একত্রিত করা
२. কাজ মডেলিং অপেক্ষাকৃত পরিপক্ক: বিদ্যমান পদ্ধতি স্পষ্ট বর্ণনার অধীনে কার্যকরভাবে কাজ বিশেষ্যতা তৈরি করতে পারে
३. ডোমেইন মডেলিং এখনও চ্যালেঞ্জিং: পুনরাবৃত্তিমূলক পদ্ধতি, মাল্টি-প্রার্থী প্রজন্ম এবং বাহ্যিক যাচাইকরণ প্রয়োজন
४. হাইব্রিড মডেলিং পদ্ধতিগত পদ্ধতি প্রয়োজন: মডুলার ডিজাইন এবং ত্রুটি সহনশীলতা প্রক্রিয়া গুরুত্বপূর্ণ
५. বেঞ্চমার্ক পরীক্ষা ক্রমাগত উন্নতি প্রয়োজন: ডেটা ফাঁস এবং মূল্যায়ন মান-নিয়ন্ত্রণ মূল সমস্যা
१. ব্যাখ্যাযোগ্যতা বৃদ্ধি: স্বচ্ছ, শক্তিশালী এবং সংশোধনযোগ্য আউটপুট উৎপাদনকারী ব্যাখ্যাযোগ্য পরিকল্পনা সিস্টেম উন্নয়ন
२. সংশোধন প্রতিক্রিয়া লুপ: ক্রিয়া পূর্বশর্ত ত্রুটি এবং সম্পাদন ব্যর্থতা পরিচালনার প্রক্রিয়া উন্নত করা
३. মানব-মেশিন সহযোগিতা: পূর্ব-প্রক্রিয়াকরণ পদক্ষেপ এবং মানব প্রতিক্রিয়া লুপের মাধ্যমে সারিবদ্ধতা নিশ্চিত করা
४. শব্দার্থগত সঠিকতা যাচাইকরণ: উৎপাদিত পরিকল্পনার শব্দার্থগত সঠিকতা বিশ্লেষণ, PDDL বিশেষ্যতা পরিমার্জনের প্রতিক্রিয়া হিসাবে ব্যবহার
१. ন্যূনতম বর্ণনা প্রক্রিয়াকরণ: বিরল ইনপুট থেকে সম্পূর্ণ PDDL বিশেষ্যতা অনুমান করতে সক্ষম পদ্ধতি উন্নয়ন
२. সাধারণ জ্ঞান যুক্তি একীকরণ: সম্ভাব্য অনুমান এবং সীমাবদ্ধতা ক্যাপচার করতে LLMগুলির সাধারণ জ্ঞান ক্ষমতা ব্যবহার
३. মান-নিয়ন্ত্রিত প্রম্পটিং: প্রাথমিক প্রজন্ম এবং পুনরাবৃত্তিমূলক প্রতিক্রিয়ার জন্য মান-নিয়ন্ত্রিত প্রম্পট দানাদারিতা প্রতিষ্ঠা
४. স্বয়ংক্রিয় বর্ণনা প্রজন্ম: PDDL বর্ণনা স্বয়ংক্রিয়ভাবে তৈরি করার সরঞ্জাম উন্নয়ন (যেমন Nabizada et al., 2024)
१. মডুলার স্থাপত্য: গতিশীল প্রকার এবং প্রেডিকেট একীকরণ সমর্থন করে আরও অভিযোজনযোগ্য সিস্টেম
२. মাল্টি-প্রার্থী কৌশল: অনিশ্চয়তা পরিচালনা করতে একাধিক প্রার্থী মডেল উৎপাদন এবং মূল্যায়ন
३. পরবর্তী সংশোধন: স্বয়ংক্রিয় মেট্রিক্স বা মানব মূল্যায়নের মাধ্যমে সিস্টেম শব্দার্থগত অসামঞ্জস্য চিহ্নিত করা
४. গতিশীল বেঞ্চমার্ক: সম্প্রদায়-চালিত গতিশীল বেঞ্চমার্ক মান প্রতিষ্ঠা, ডেটা ফাঁস প্রতিরোধ
५. উন্নত পরিকল্পনায় সম্প্রসারণ: সময়গত পরিকল্পনা, সম্ভাব্য পরিকল্পনা ইত্যাদিতে পদ্ধতি সম্প্রসারণ
१. ব্যবহারিক স্থাপনা: রোবোটিক্স, গেম AI, জরুরি প্রতিক্রিয়া ইত্যাদি ব্যবহারিক দৃশ্যে পরীক্ষা করা
२. ডোমেইন স্থানান্তর: ক্রস-ডোমেইন সাধারণীকরণ ক্ষমতা উন্নত করা
३. মাল্টি-মোডাল একীকরণ: ভিজ্যুয়াল, ভাষা এবং অন্যান্য মোডাল তথ্য একত্রিত করা
এটি একটি উচ্চ-মানের, সময়োপযোগী এবং ব্যবহারিক সমীক্ষা পেপার যা LLMগুলিকে পরিকল্পনা আনুষ্ঠানিকীকরণ সরঞ্জাম হিসাবে ব্যবহার করার গবেষণা অবস্থা পদ্ধতিগতভাবে সংকলন করে। পেপারটির শ্রেণীবিভাগ স্পষ্ট, বিশ্লেষণ গভীর, বিশেষত L2P ওপেন সোর্স লাইব্রেরির অবদান এটিকে শুধুমাত্র একটি সাহিত্য সমীক্ষা নয় বরং একটি অপারেশনাল গবেষণা সরঞ্জাম করে তোলে। যদিও অভিজ্ঞতামূলক তুলনা এবং তাত্ত্বিক বিশ্লেষণে উন্নতির জায়গা রয়েছে, কিন্তু এই ক্ষেত্রের প্রথম ব্যাপক সমীক্ষা হিসাবে, এর একাডেমিক মূল্য এবং ব্যবহারিক মূল্য উভয়ই অত্যন্ত বেশি এবং LLM+স্বয়ংক্রিয় পরিকল্পনা ক্ষেত্রের একটি গুরুত্বপূর্ণ রেফারেন্স সাহিত্য হয়ে উঠতে সম্ভাব্য।