2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

LLMs as Planning Formalizers: একটি সমীক্ষা বড় ভাষা মডেলগুলিকে স্বয়ংক্রিয় পরিকল্পনা মডেল তৈরি করতে ব্যবহার করার জন্য

মৌলিক তথ্য

পেপার আইডি: 2503.18971
শিরোনাম: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
লেখক: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
শ্রেণীবিভাগ: cs.AI
প্রকাশের সময়: ২০২৫ সালের মার্চ (arXiv v2: ২০২৫ সালের অক্টোবর ২৫ তারিখ)
পেপার লিঙ্ক: https://arxiv.org/abs/2503.18971v2

সারসংক্ষেপ

বড় ভাষা মডেলগুলি (LLMs) বিভিন্ন প্রাকৃতিক ভাষা কাজে উৎকর্ষতা প্রদর্শন করে, কিন্তু কাঠামোগত যুক্তির প্রয়োজন এমন দীর্ঘমেয়াদী পরিকল্পনা সমস্যায় এখনও অসুবিধার সম্মুখীন। এই পেপারটি একটি সময়োপযোগী সমীক্ষা প্রদান করে যা বর্তমানে LLMগুলিকে পরিকল্পনা বিশেষ্যতা আনুষ্ঠানিকীকরণ এবং পরিমার্জনের সরঞ্জাম হিসাবে অবস্থান করার গবেষণা অবস্থা পদ্ধতিগতভাবে বিশ্লেষণ করে, যা নির্ভরযোগ্য অফ-দ্য-শেল্ফ স্বয়ংক্রিয় পরিকল্পনা (AP) সিস্টেমকে সমর্থন করে। পেপারটি প্রায় ৮০টি সম্পর্কিত কাজের পদ্ধতিগত পর্যালোচনার মাধ্যমে পদ্ধতিগুলি হাইলাইট করে, মূল চ্যালেঞ্জগুলি এবং ভবিষ্যত দিকনির্দেশনা চিহ্নিত করে এবং এই ক্ষেত্রের গবেষণা সহজতর করার জন্য ওপেন সোর্স পাইথন লাইব্রেরি Language-to-Plan (L2P) প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

১. মূল সমস্যা

যদিও LLMগুলি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে উৎকর্ষতা প্রদর্শন করে, তারা দীর্ঘমেয়াদী পরিকল্পনা এবং যুক্তি কাজে দুর্বল পারফরম্যান্স প্রদর্শন করে, প্রায়শই অবিশ্বাস্য পরিকল্পনা তৈরি করে। LLMগুলিকে সরাসরি পরিকল্পনাকারী হিসাবে ব্যবহার করা (LLM-as-Planner) আউটপুটের সঠিকতা, সর্বোত্তমতা এবং নির্ভরযোগ্যতার গ্যারান্টি দিতে পারে না।

২. সমস্যার গুরুত্ব

পরিকল্পনার সারমর্ম: পরিকল্পনা সিস্টেম II জ্ঞানের একটি গুরুত্বপূর্ণ উপাদান, যা কাঠামোগত যুক্তির প্রয়োজন, যখন LLMগুলি সিস্টেম I কাজে আরও দক্ষ
ব্যবহারিক প্রয়োগের বাধা: পরিকল্পনা মডেল নিষ্কাশন দীর্ঘকাল ধরে পরিকল্পনা প্রযুক্তির ব্যাপক প্রয়োগের প্রধান বাধা
নির্ভরযোগ্যতার প্রয়োজনীয়তা: ব্যবহারিক প্রয়োগের জন্য যাচাইযোগ্য, ব্যাখ্যাযোগ্য এবং শক্তিশালী পরিকল্পনা সমাধান প্রয়োজন

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

সরাসরি পরিকল্পনা পদ্ধতি: LLMগুলি সরাসরি ক্রিয়া ক্রম তৈরি করার সময়, পুনরাবৃত্তিমূলক প্রতিক্রিয়ার সাথে কর্মক্ষমতা হ্রাস পায়
কাঠামোগত গ্যারান্টির অভাব: LLMগুলি ক্লাসিক্যাল পরিকল্পনা সিস্টেমের মতো সঠিকতা গ্যারান্টি প্রদান করতে পারে না
দীর্ঘমেয়াদী নির্ভরতা সমস্যা: স্কেল বৃদ্ধির সাথে, LLMগুলি প্রায়শই ক্রিয়াগুলির প্রভাব এবং পূর্বশর্তগুলি বিবেচনা করতে ব্যর্থ হয়

৪. গবেষণা প্রেরণা

এই পেপারটি LLMs-as-Formalizers প্যারাডাইম প্রস্তাব করে: LLMগুলির শক্তিগুলি ব্যবহার করা (প্রাকৃতিক ভাষা থেকে পরিকল্পনা মডেল বিশেষ্যতা নিষ্কাশন, ব্যাখ্যা এবং পরিমার্জন), ক্লাসিক্যাল স্বয়ংক্রিয় পরিকল্পনা সিস্টেমের শক্তিগুলির সাথে মিলিত (কাঠামোগত প্রতিনিধিত্ব, যুক্তি এবং অনুসন্ধান পদ্ধতি), পরিপূরক স্নায়ু-প্রতীকী কাঠামো তৈরি করতে।

মূল অবদান

১. পদ্ধতিগত শ্রেণীবিভাগ: LLM-চালিত স্বয়ংক্রিয় পরিকল্পনা মডেল নির্মাণের প্রথম ব্যাপক শ্রেণীবিভাগ ব্যবস্থা প্রস্তাব করা হয়েছে, যার মধ্যে রয়েছে:

মডেল প্রজন্ম (Model Generation): কাজ মডেলিং, ডোমেইন মডেলিং, হাইব্রিড মডেলিং
মডেল সম্পাদনা (Model Editing): কোড পরিমার্জন এবং ত্রুটি সংশোধন
মডেল বেঞ্চমার্ক (Model Benchmarks): মূল্যায়ন কাঠামো এবং ডেটাসেট

२. প্রযুক্তিগত পদ্ধতি সারসংক্ষেপ: AI পরিকল্পনা কাঠামোতে LLMগুলি একীভূত করার ভাগ করা এবং উদ্ভাবনী প্রযুক্তিগত পদ্ধতি এবং তাদের সীমাবদ্ধতাগুলি পদ্ধতিগতভাবে সংকলন করা হয়েছে

३. গবেষণা প্রশ্ন কাঠামো: দুটি মূল গবেষণা প্রশ্ন (RQ) প্রস্তাব করা হয়েছে:

RQ1: LLMগুলি কীভাবে মানব লক্ষ্যগুলির সাথে সঠিকভাবে সারিবদ্ধ হতে পারে, নিশ্চিত করে যে পরিকল্পনা মডেল বিশেষ্যতা প্রত্যাশিত প্রত্যাশা এবং লক্ষ্যগুলি সঠিকভাবে প্রতিনিধিত্ব করে?
RQ2: প্রাকৃতিক ভাষা নির্দেশাবলী কত পরিমাণে এবং কত দানাদারিতায় সঠিক পরিকল্পনা মডেল সংজ্ঞায় কার্যকরভাবে রূপান্তরিত হতে পারে?

४. ওপেন সোর্স টুলকিট: Language-to-Plan (L2P) ওপেন সোর্স পাইথন লাইব্রেরি প্রদান করা হয়েছে, যা সমীক্ষায় অন্তর্ভুক্ত স্বাক্ষর পেপার পদ্ধতিগুলি প্রয়োগ করে, সমর্থন করে:

ব্যাপক PDDL নিষ্কাশন এবং পরিমার্জন সরঞ্জাম স্যুট
মডুলার ডিজাইন, নমনীয় প্রম্পটিং শৈলী এবং কাস্টম পাইপলাইন সমর্থন করে
সম্পূর্ণ স্বায়ত্তশাসিত এন্ড-টু-এন্ড পাইপলাইন ক্ষমতা

५. ভবিষ্যত দিকনির্দেশনা নির্দেশিকা: মূল চ্যালেঞ্জগুলি চিহ্নিত করা হয়েছে এবং এই ক্ষেত্রের ভবিষ্যত গবেষণা দিকনির্দেশনা রূপরেখা দেওয়া হয়েছে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই সমীক্ষা LLMs-as-Formalizers প্যারাডাইমে ফোকাস করে, অর্থাৎ স্বয়ংক্রিয় পরিকল্পনা (AP) মডেল বিশেষ্যতা (প্রধানত PDDL ফর্ম্যাট) তৈরি করতে LLMগুলি ব্যবহার করা, তারপর ডোমেইন-স্বাধীন পরিকল্পনাকারীরা সমাধান তৈরি করে। এটি নিম্নলিখিত প্যারাডাইমগুলির সাথে বৈপরীত্য:

LLMs-as-Planners: LLMগুলি সরাসরি ক্রিয়া ক্রম তৈরি করে
LLMs-as-Heuristics: LLMগুলি হিউরিস্টিক নির্দেশনার মাধ্যমে অনুসন্ধান দক্ষতা বৃদ্ধি করে

মূল কাঠামো শ্রেণীবিভাগ

১. মডেল প্রজন্ম (Model Generation)

প্রাকৃতিক ভাষা ইনপুট থেকে পরিকল্পনা বিশেষ্যতা নিষ্কাশন এবং আনুষ্ঠানিকীকরণ, তিনটি উপ-বিভাগে বিভক্ত:

১.१ কাজ মডেলিং (Task Modeling)

লক্ষ্য বিশেষ্যতা পদ্ধতি:
- Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
- Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
- বিভিন্ন স্তরের অস্পষ্টতা পরিচালনা (Xie et al., 2023)
সম্পূর্ণ কাজ বিশেষ্যতা:
- ওপেন-লুপ সিস্টেম: LLM+P প্রসঙ্গ উদাহরণ ব্যবহার করে সম্পূর্ণ PDDL সমস্যা ফাইল তৈরি করে
- ক্লোজড-লুপ সিস্টেম: Auto-GPT+P ভিজ্যুয়াল উপলব্ধি থেকে প্রাথমিক অবস্থা তৈরি করে, স্বয়ংক্রিয় ত্রুটি সংশোধন লুপ সহ
- মাল্টি-এজেন্ট সহযোগিতা: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
বিকল্প প্রতিনিধিত্ব:
- কাজ এবং গতি পরিকল্পনার জন্য জ্যামিতিক প্রতিনিধিত্ব
- সময়গত যুক্তি (TSL, STL, LTL)
- পাইথন ফাংশন সংজ্ঞা অনুসন্ধান স্থান

१.२ ডোমেইন মডেলিং (Domain Modeling)

একক-প্রশ্ন পদ্ধতি:
- CLLaMP: CVE বর্ণনা থেকে PDDL ক্রিয়া মডেল নিষ্কাশন
- PROC2PDDL: প্রক্সিমাল উন্নয়ন অঞ্চল প্রম্পটিং ডিজাইন
- প্রার্থী ফিল্টারিং পদ্ধতি (Huang et al., 2024b; Athalye et al., 2024)
পুনরাবৃত্তিমূলক প্রজন্ম পদ্ধতি:
- LLM+DM: "উৎপাদন-পরীক্ষা-সমালোচনা" পদ্ধতি গ্রহণ করে, একাধিক LLM কল মাধ্যমে ক্রমবর্ধমান ডোমেইন উপাদান নির্মাণ
- LLM+AL: BC+ ভাষার ক্রিয়া ভাষা উৎপাদন
- LAMP: বিমূর্ত PDDL ডোমেইন মডেল শেখার অ্যালগরিদম সিরিজ
ক্লোজড-লুপ কাঠামো:
- ADA: প্রার্থী প্রতীকী কাজ বিয়োজন উৎপাদন, অসংজ্ঞায়িত ক্রিয়াগুলির জন্য পুনরাবৃত্তিমূলক প্রম্পটিং
- COWP: খোলা বিশ্ব পরিকল্পনায় অপ্রত্যাশিত পরিস্থিতি পরিচালনা
- LASP: পরিবেশ পর্যবেক্ষণ থেকে সম্ভাব্য ত্রুটি চিহ্নিত করা

१.३ হাইব্রিড মডেলিং (Hybrid Modeling) PDDL ডোমেইন এবং সমস্যা সিস্টেমের সম্পূর্ণ মডেল প্রজন্ম একত্রিত করা:

ভিত্তি পদ্ধতি: Kelly et al. (2023) ইনপুট গল্প থেকে বর্ণনামূলক পরিকল্পনা নিষ্কাশন, পরিকল্পনাকারী ত্রুটি বার্তা পুনরাবৃত্তিমূলক পরিচালনা
মধ্যবর্তী প্রতিনিধিত্ব পদ্ধতি:
- NL2Plan: প্রথম ডোমেইন-স্বাধীন অফলাইন এন্ড-টু-এন্ড NL পরিকল্পনা সিস্টেম
- JSON টোকেন প্রজন্ম, সামঞ্জস্য পরীক্ষা এবং ত্রুটি সংশোধন লুপ
- পৌঁছানোযোগ্যতা বিশ্লেষণ এবং নির্ভরতা বিশ্লেষণ
ব্যবহারিক প্রয়োগ:
- MORPHeus: মানব-মেশিন সহযোগিতা দীর্ঘমেয়াদী পরিকল্পনা, অসামান্য সনাক্তকরণ প্রক্রিয়া
- InterPret: ব্যবহারকারী ইন্টারেক্টিভ ভাষা প্রতিক্রিয়ার মাধ্যমে PDDL প্রেডিকেট শেখা
- AgentGen: প্রশিক্ষণের জন্য বৈচিত্র্যময় PDDL কাজ সংশ্লেষণ করতে LLMগুলি ব্যবহার করা

२. মডেল সম্পাদনা (Model Editing)

LLMগুলি সম্পূর্ণ স্বায়ত্তশাসিত প্রজন্ম সমাধানের পরিবর্তে সহায়ক সরঞ্জাম হিসাবে:

Gragera & Pozanco (2023): অসমাধানযোগ্য কাজ মেরামত করতে LLMগুলির সীমাবদ্ধতা অধ্যয়ন
Patil (2024): LLMগুলি বাক্য গঠন সংশোধনে দক্ষ কিন্তু শব্দার্থগত অসামঞ্জস্যে অনির্ভরযোগ্য
Sikes et al. (2024a): শব্দার্থগতভাবে সমতুল্য কিন্তু বাক্য গঠনগতভাবে ভিন্ন অবস্থা পরিবর্তনশীল সমস্যা সমাধান
Caglar et al. (2024): যুক্তিসঙ্গত মডেল সম্পাদনা তৈরি করতে LLMগুলির কার্যকারিতা মূল্যায়ন

३. মডেল বেঞ্চমার্ক (Model Benchmarks)

পরিকল্পনা কাজে LLMগুলির ক্ষমতা এবং উৎপাদিত পরিকল্পনা বিশেষ্যতার গুণমান মূল্যায়ন:

३.१ LLMs-as-Planner বেঞ্চমার্ক:

Mystery Blocksworld: প্রশিক্ষণ ডেটা ফাঁস সনাক্ত করতে ক্লাসিক্যাল Blocksworld বিভ্রান্ত করা
ALFWorld & Household: PDDL শব্দার্থ ব্যবহার করে বাস্তব গৃহ পরিবেশ
TravelPlanner & Natural Plan: ভ্রমণ পরিকল্পনা এবং বাস্তব সময়সূচী বেঞ্চমার্ক
PlanBench: খরচ-সর্বোত্তম পরিকল্পনা এবং পরিকল্পনা যাচাইকরণের পদ্ধতিগত মূল্যায়ন
ACPBench: মান-নিয়ন্ত্রিত মূল্যায়ন কাজ এবং মেট্রিক্স, ১३টি ডোমেইন এবং २२টি SOTA মডেল কভার করে

३.२ LLMs-as-Planning-Formalizers বেঞ্চমার্ক:

Planetarium: LLM-উৎপাদিত PDDL কাজ/সমস্যা মূল্যায়ন, দুটি মূল সমস্যা জোর দেয়:
- LLMগুলি মূল NL বর্ণনার সাথে সামঞ্জস্যপূর্ণ কিন্তু বৈধ কোড তৈরি করতে পারে
- মূল্যায়ন সেটের NL বর্ণনা সত্য মানের সাথে অত্যন্ত সমান
Text2World:
- স্বয়ংক্রিয় ডোমেইন নিষ্কাশন পাইপলাইন
- মাল্টি-মানদণ্ড মেট্রিক্স: সম্পাদনযোগ্যতা, কাঠামোগত সাদৃশ্য, উপাদান-স্তরের F1 স্কোর
- সীমাবদ্ধতা: সম্পাদনযোগ্যতার উপর গেটিং মেট্রিক হিসাবে নির্ভর করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. LLM-Modulo কাঠামো: বাহ্যিক যাচাইকারীর মাধ্যমে পুনরাবৃত্তিমূলক পরিকল্পনা পরিমার্জন সঠিকতা নিশ্চিত করতে, সরাসরি পরিকল্পনা থেকে একীভূত যাচাইকারীর সাথে PDDL প্রজন্মে ফোকাস স্থানান্তর

२. মধ্যবর্তী প্রতিনিধিত্ব: ASP, পাইথন, JSON ইত্যাদি আরও সহজে LLMগুলি দ্বারা পরিচালিত মধ্যবর্তী প্রতিনিধিত্ব ব্যবহার করা, তারপর PDDL-এ রূপান্তর

३. মাল্টি-প্রার্থী প্রজন্ম: একাধিক প্রার্থী ডোমেইন বা নির্দিষ্ট উপাদান (যেমন প্রেডিকেট সংজ্ঞা) তৈরি করা, ব্যবহারকারী অভিপ্রায়ে অস্পষ্টতা এবং অনিশ্চয়তার সাথে আরও ভালভাবে খাপ খাইয়ে নিতে

४. মানব-মেশিন সহযোগিতা: পূর্ব-প্রক্রিয়াকরণ পদক্ষেপ এবং মানব-মেশিন ইন্টারেক্টিভ প্রতিক্রিয়া লুপের মাধ্যমে মডেল গুণমান উন্নত করা

५. মডুলার ডিজাইন: গতিশীল প্রকার এবং প্রেডিকেট একীকরণ সমর্থন করে, প্রজন্মের পরবর্তী পর্যায়ে আরও অভিযোজনযোগ্য এবং ত্রুটি-সহনশীল পরিকল্পনা সিস্টেম সক্ষম করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

এই পেপারটি একটি সমীক্ষা পেপার হিসাবে, প্রায় ৮০টি গবেষণা কাজে ব্যবহৃত বিভিন্ন ডেটাসেট এবং ডোমেইন কভার করে:

ক্লাসিক্যাল পরিকল্পনা ডোমেইন:

Blocksworld
Gripper
Logistics
Floor Tile

বাস্তব বিশ্ব পরিবেশ:

ALFWorld: গৃহ পরিবেশ ইন্টারঅ্যাকশন
Household: সাধারণ গৃহ দৃশ্য
TravelPlanner: ভ্রমণ পরিকল্পনা দৃশ্য

বিশেষায়িত ডোমেইন:

CVE (Common Vulnerabilities and Exposures): সাইবার নিরাপত্তা
Emergency Operation Plans (EOPs): জরুরি সিদ্ধান্ত

মূল্যায়ন মেট্রিক্স

পরিকল্পনা গুণমান মেট্রিক্স:

পরিকল্পনা সঠিকতা
খরচ সর্বোত্তমতা
সম্পাদনযোগ্যতা

মডেল গুণমান মেট্রিক্স:

কাঠামোগত সাদৃশ্য: সত্য মানের সাথে কাঠামোগত তুলনা
উপাদান-স্তরের F1 স্কোর: প্রেডিকেট, ক্রিয়া ইত্যাদি উপাদানের নির্ভুলতা এবং স্মরণ
অপারেশনাল সমতা: পুনর্নির্মাণ ডোমেইন মূল ডোমেইনের সাথে একই আচরণ করে কিনা
শব্দার্থগত সঠিকতা: উৎপাদিত কোড মূল NL বর্ণনার সাথে সারিবদ্ধ কিনা

সিস্টেম কর্মক্ষমতা মেট্রিক্স:

প্রজন্ম সাফল্যের হার
পুনরাবৃত্তি সংখ্যা
মানব হস্তক্ষেপের প্রয়োজনীয়তা

তুলনামূলক পদ্ধতি

সমীক্ষা দ্বারা কভার করা প্রধান পদ্ধতি বিভাগ:

१. সরাসরি প্রজন্ম পদ্ধতি: একক LLM কল সম্পূর্ণ PDDL তৈরি করে २. পুনরাবৃত্তিমূলক পরিমার্জন পদ্ধতি: একাধিক কল এবং প্রতিক্রিয়া লুপ ३. হাইব্রিড পদ্ধতি: LLM এবং ঐতিহ্যবাহী যাচাইকরণ সরঞ্জাম একত্রিত করা ४. সূক্ষ্ম-সুর পদ্ধতি: নির্দিষ্ট ডেটাসেটে LLMগুলি সূক্ষ্ম-সুর করা

পরীক্ষামূলক ফলাফল

প্রধান অনুসন্ধান

१. কাজ মডেলিং অপেক্ষাকৃত সহজ

অত্যন্ত স্পষ্ট বর্ণনা অনুবাদ নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করে (Liu et al., 2023a)
Few-shot উদাহরণ এবং যুক্তি শৃঙ্খল ব্যবহার লক্ষ্য বিশেষ্যতা উন্নত করতে পারে (Lyu et al., 2023)
TIC GPT-3.5 Turbo-তে মধ্যবর্তী প্রতিনিধিত্ব ব্যবহার করে LLM+P পরিকল্পনা ডোমেইনে প্রায় ১০০% নির্ভুলতা অর্জন করে

२. ডোমেইন মডেলিং আরও চ্যালেঞ্জিং

একক প্রজন্ম সম্পূর্ণ কার্যকরী PDDL ডোমেইন অব্যবহারিক (Kambhampati et al., 2024)
পুনরাবৃত্তিমূলক পদ্ধতি (যেমন LLM+DM এর "উৎপাদন-পরীক্ষা-সমালোচনা") গুণমান উল্লেখযোগ্যভাবে উন্নত করে
প্রসঙ্গ উদাহরণ CoT প্রম্পটিং থেকে উন্নত (Oates et al., 2024)
মাল্টি-প্রার্থী প্রজন্ম পদ্ধতি ব্যবহারকারী অভিপ্রায়ের অস্পষ্টতা আরও ভালভাবে পরিচালনা করতে পারে

३. হাইব্রিড মডেলিং জটিলতা

ডোমেইন এবং সংশ্লিষ্ট সমস্যা সমন্বয় করার সময় জটিলতা দেখা দেয়
রৈখিক পাইপলাইন ক্যাসকেডিং ত্রুটি ঝুঁকি আছে
পূর্ব-প্রক্রিয়াকরণ পদক্ষেপ (FastDownward, VAL ইত্যাদি বাহ্যিক সরঞ্জাম ব্যবহার করে) সাফল্যের হার উন্নত করে
মানব-মেশিন সহযোগিতা মডেল গুণমান উল্লেখযোগ্যভাবে উন্নত করে

४. মডেল সম্পাদনার কার্যকারিতা

LLMগুলি বাক্য গঠন সংশোধনে উৎকর্ষতা প্রদর্শন করে
শব্দার্থগত অসামঞ্জস্যে কম নির্ভরযোগ্য (Patil, 2024)
সংশোধন কৌশল পরবর্তী উন্নয়ন প্রয়োজন

५. বেঞ্চমার্ক পরীক্ষার চ্যালেঞ্জ

প্রশিক্ষণ ডেটা ফাঁস প্রধান সমস্যা (Hu et al., 2025 উচ্চ দূষণ হার রিপোর্ট করে)
গতিশীল বেঞ্চমার্ক মান প্রয়োজন
মূল্যায়ন সেটের NL বর্ণনা সত্য মানের সাদৃশ্য মূল্যায়ন কঠিনতা প্রভাবিত করে

কেস স্টাডি

L2P লাইব্রেরি পুনরুৎপাদিত "action-by-action" অ্যালগরিদম (Guan et al., 2023)

পেপারটি Logistics ডোমেইনের প্রেডিকেট এবং ক্রিয়া প্রজন্মের জন্য L2P লাইব্রেরি কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করে:

উৎপাদিত প্রেডিকেট উদাহরণ:

(truck-at ?t - truck ?l - location): ট্রাক ?t বর্তমানে অবস্থান ?l এ আছে
(package-at ?p - package ?l - location): প্যাকেজ ?p বর্তমানে অবস্থান ?l এ আছে
(truck-holding ?t - truck ?p - package): ট্রাক ?t বর্তমানে প্যাকেজ ?p ধারণ করছে
(plane-at ?a - plane ?l - location): বিমান ?a অবস্থান ?l এ আছে

উৎপাদিত ক্রিয়া উদাহরণ:

load_truck(?p - package, ?t - truck, ?l - location)
  পূর্বশর্ত: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  প্রভাব: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

পরীক্ষামূলক অনুসন্ধান

१. প্রম্পট সংবেদনশীলতা: LLMগুলি প্রম্পট ডিজাইনের প্রতি অত্যন্ত সংবেদনশীল, মান-নিয়ন্ত্রিত প্রম্পট দানাদারিতা প্রয়োজন

२. মধ্যবর্তী প্রতিনিধিত্বের মূল্য: JSON, পাইথন ইত্যাদি মধ্যবর্তী প্রতিনিধিত্ব ব্যবহার করে নির্ভুলতা এবং সামঞ্জস্য উন্নত করতে পারে

३. যাচাইকারীর গুরুত্ব: বাহ্যিক যাচাইকরণ সরঞ্জাম (VAL, FastDownward ইত্যাদি) একীকরণ গুণমান নিশ্চিত করার চাবিকাঠি

४. ডোমেইন জ্ঞানের ভূমিকা: স্পষ্ট প্রেডিকেট সেট বিশেষ্যতা বিভিন্ন পদ্ধতি জুড়ে মূল্যায়নের জন্য গুরুত্বপূর্ণ

५. মানব-মেশিন সহযোগিতার প্রয়োজনীয়তা: জটিল ডোমেইনগুলি সাধারণত সারিবদ্ধতা নিশ্চিত করতে মানব-মেশিন ইন্টারঅ্যাকশন প্রয়োজন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. LLMs-as-Formalizers একটি প্রতিশ্রুতিশীল প্যারাডাইম: LLMগুলির প্রাকৃতিক ভাষা বোঝার ক্ষমতা এবং ক্লাসিক্যাল পরিকল্পনাকারীর কাঠামোগত যুক্তি ক্ষমতা একত্রিত করা

२. কাজ মডেলিং অপেক্ষাকৃত পরিপক্ক: বিদ্যমান পদ্ধতি স্পষ্ট বর্ণনার অধীনে কার্যকরভাবে কাজ বিশেষ্যতা তৈরি করতে পারে

३. ডোমেইন মডেলিং এখনও চ্যালেঞ্জিং: পুনরাবৃত্তিমূলক পদ্ধতি, মাল্টি-প্রার্থী প্রজন্ম এবং বাহ্যিক যাচাইকরণ প্রয়োজন

४. হাইব্রিড মডেলিং পদ্ধতিগত পদ্ধতি প্রয়োজন: মডুলার ডিজাইন এবং ত্রুটি সহনশীলতা প্রক্রিয়া গুরুত্বপূর্ণ

५. বেঞ্চমার্ক পরীক্ষা ক্রমাগত উন্নতি প্রয়োজন: ডেটা ফাঁস এবং মূল্যায়ন মান-নিয়ন্ত্রণ মূল সমস্যা

সীমাবদ্ধতা

१. সমীক্ষা পরিধি:

প্রধানত PDDL নির্মাণ কাঠামোতে ফোকাস করে
পৃষ্ঠা সীমাবদ্ধতার কারণে প্রতিটি কাজের প্রযুক্তিগত বিশ্লেষণ সংক্ষিপ্ত
অন্যান্য সম্মেলন/জার্নালের সম্পর্কিত গবেষণা মিস করতে পারে

२. L2P লাইব্রেরির বর্তমান সীমাবদ্ধতা:

সম্পূর্ণভাবে পর্যবেক্ষণযোগ্য নির্ধারণীয় পরিকল্পনার জন্য শুধুমাত্র মৌলিক PDDL নিষ্কাশন সরঞ্জাম সমর্থন করে
সময়গত পরিকল্পনা ইত্যাদি উন্নত ডোমেইনের সরঞ্জাম এখনও অন্তর্ভুক্ত নয়

३. পদ্ধতি সীমাবদ্ধতা:

বেশিরভাগ পদ্ধতি স্পষ্ট NL থেকে PDDL কোড ম্যাপিং উপর নির্ভর করে
বিরল ইনপুট থেকে সম্পূর্ণ বিশেষ্যতা অনুমান করার ক্ষমতা সীমিত
শব্দার্থগত ত্রুটি পরিচালনা এখনও কঠিন

ভবিষ্যত দিকনির্দেশনা

RQ1 (লক্ষ্য সারিবদ্ধতা) এর জন্য:

१. ব্যাখ্যাযোগ্যতা বৃদ্ধি: স্বচ্ছ, শক্তিশালী এবং সংশোধনযোগ্য আউটপুট উৎপাদনকারী ব্যাখ্যাযোগ্য পরিকল্পনা সিস্টেম উন্নয়ন २. সংশোধন প্রতিক্রিয়া লুপ: ক্রিয়া পূর্বশর্ত ত্রুটি এবং সম্পাদন ব্যর্থতা পরিচালনার প্রক্রিয়া উন্নত করা ३. মানব-মেশিন সহযোগিতা: পূর্ব-প্রক্রিয়াকরণ পদক্ষেপ এবং মানব প্রতিক্রিয়া লুপের মাধ্যমে সারিবদ্ধতা নিশ্চিত করা ४. শব্দার্থগত সঠিকতা যাচাইকরণ: উৎপাদিত পরিকল্পনার শব্দার্থগত সঠিকতা বিশ্লেষণ, PDDL বিশেষ্যতা পরিমার্জনের প্রতিক্রিয়া হিসাবে ব্যবহার

RQ2 (বর্ণনা দানাদারিতা) এর জন্য:

१. ন্যূনতম বর্ণনা প্রক্রিয়াকরণ: বিরল ইনপুট থেকে সম্পূর্ণ PDDL বিশেষ্যতা অনুমান করতে সক্ষম পদ্ধতি উন্নয়ন २. সাধারণ জ্ঞান যুক্তি একীকরণ: সম্ভাব্য অনুমান এবং সীমাবদ্ধতা ক্যাপচার করতে LLMগুলির সাধারণ জ্ঞান ক্ষমতা ব্যবহার ३. মান-নিয়ন্ত্রিত প্রম্পটিং: প্রাথমিক প্রজন্ম এবং পুনরাবৃত্তিমূলক প্রতিক্রিয়ার জন্য মান-নিয়ন্ত্রিত প্রম্পট দানাদারিতা প্রতিষ্ঠা ४. স্বয়ংক্রিয় বর্ণনা প্রজন্ম: PDDL বর্ণনা স্বয়ংক্রিয়ভাবে তৈরি করার সরঞ্জাম উন্নয়ন (যেমন Nabizada et al., 2024)

প্রযুক্তিগত দিকনির্দেশনা:

१. মডুলার স্থাপত্য: গতিশীল প্রকার এবং প্রেডিকেট একীকরণ সমর্থন করে আরও অভিযোজনযোগ্য সিস্টেম २. মাল্টি-প্রার্থী কৌশল: অনিশ্চয়তা পরিচালনা করতে একাধিক প্রার্থী মডেল উৎপাদন এবং মূল্যায়ন ३. পরবর্তী সংশোধন: স্বয়ংক্রিয় মেট্রিক্স বা মানব মূল্যায়নের মাধ্যমে সিস্টেম শব্দার্থগত অসামঞ্জস্য চিহ্নিত করা ४. গতিশীল বেঞ্চমার্ক: সম্প্রদায়-চালিত গতিশীল বেঞ্চমার্ক মান প্রতিষ্ঠা, ডেটা ফাঁস প্রতিরোধ ५. উন্নত পরিকল্পনায় সম্প্রসারণ: সময়গত পরিকল্পনা, সম্ভাব্য পরিকল্পনা ইত্যাদিতে পদ্ধতি সম্প্রসারণ

প্রয়োগ দিকনির্দেশনা:

१. ব্যবহারিক স্থাপনা: রোবোটিক্স, গেম AI, জরুরি প্রতিক্রিয়া ইত্যাদি ব্যবহারিক দৃশ্যে পরীক্ষা করা २. ডোমেইন স্থানান্তর: ক্রস-ডোমেইন সাধারণীকরণ ক্ষমতা উন্নত করা ३. মাল্টি-মোডাল একীকরণ: ভিজ্যুয়াল, ভাষা এবং অন্যান্য মোডাল তথ্য একত্রিত করা

গভীর মূল্যায়ন

শক্তি

१. ব্যাপকতা এবং পদ্ধতিগততা:

LLMs-as-Formalizers প্যারাডাইমে ফোকাস করা প্রথম ব্যাপক সমীক্ষা
প্রায় ৮০টি সম্পর্কিত কাজ কভার করে, স্পষ্ট শ্রেণীবিভাগ
কাজ মডেলিং থেকে ডোমেইন মডেলিং থেকে হাইব্রিড মডেলিং পর্যন্ত সম্পূর্ণ দৃষ্টিভঙ্গি প্রদান করে

२. উচ্চ ব্যবহারিক মূল্য:

ওপেন সোর্স L2P লাইব্রেরি প্রদান করে, একাধিক স্বাক্ষর পদ্ধতি প্রয়োগ করে
মডুলার ডিজাইন গবেষকদের দ্রুত পরীক্ষা এবং তুলনা সমর্থন করে
বিস্তারিত কোড উদাহরণ এবং ব্যবহার নির্দেশাবলী অন্তর্ভুক্ত করে

३. সমস্যা-ভিত্তিক:

স্পষ্টভাবে RQ1 এবং RQ2 দুটি মূল গবেষণা প্রশ্ন প্রস্তাব করে
প্রতিটি উপ-ক্ষেত্র "সারসংক্ষেপ এবং ভবিষ্যত দিকনির্দেশনা" প্রদান করে
ভবিষ্যত গবেষণার জন্য স্পষ্ট রোডম্যাপ প্রদান করে

४. প্রযুক্তিগত গভীরতা:

বিভিন্ন পদ্ধতির প্রযুক্তিগত বিবরণ বিস্তারিত বিশ্লেষণ
বিভিন্ন প্রম্পটিং কৌশল, প্রতিক্রিয়া প্রক্রিয়া এবং যাচাইকরণ পদ্ধতি তুলনা
PDDL মৌলিক জ্ঞান এবং Blocksworld উদাহরণ প্রদান করে

५. সমালোচনামূলক চিন্তাভাবনা:

প্রতিটি পদ্ধতির সীমাবদ্ধতা উদ্দেশ্যমূলকভাবে নির্দেশ করে
ডেটা ফাঁস, মূল্যায়ন মান ইত্যাদি মূল সমস্যা আলোচনা করে
শব্দার্থগত সঠিকতা বনাম বাক্য গঠনগত সঠিকতার পার্থক্য জোর দেয়

অপূর্ণতা

१. সীমিত অভিজ্ঞতামূলক বিশ্লেষণ:

একটি সমীক্ষা পেপার হিসাবে, একীভূত কাঠামোর অধীনে পদ্ধতিগত পরীক্ষামূলক তুলনা অভাব
বিভিন্ন পদ্ধতি বিভিন্ন ডেটাসেট এবং মূল্যায়ন মেট্রিক্স ব্যবহার করে, সরাসরি তুলনা কঠিন
প্রতিটি পদ্ধতির পরিমাণগত কর্মক্ষমতা তুলনা টেবিল প্রদান করে না

२. L2P লাইব্রেরির পরিপক্কতা:

বর্তমানে শুধুমাত্র কিছু স্বাক্ষর পদ্ধতি পুনরুৎপাদন করে
শুধুমাত্র মৌলিক PDDL সমর্থন করে, সময়গত, সম্ভাব্য ইত্যাদি উন্নত বৈশিষ্ট্য সমর্থন করে না
সম্প্রদায় অবদান দ্বারা আপডেট রাখা প্রয়োজন

३. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ:

LLMগুলি কেন নির্দিষ্ট পরিকল্পনা কাজে ব্যর্থ হয় তার তাত্ত্বিক ব্যাখ্যা অভাব
বিভিন্ন স্থাপত্য (GPT বনাম LLaMA ইত্যাদি) পার্থক্য গভীর বিশ্লেষণ নেই
প্রম্পট প্রকৌশলের তাত্ত্বিক ভিত্তি আলোচনা সীমিত

४. মূল্যায়ন পদ্ধতিবিজ্ঞান:

বেঞ্চমার্ক পরীক্ষা আলোচনা করা সত্ত্বেও, একীভূত মূল্যায়ন কাঠামো প্রস্তাব করে না
"ভাল PDDL মডেল কী" এর স্পষ্ট সংজ্ঞা অভাব
মানব মূল্যায়নের মান এবং প্রক্রিয়া বিস্তারিত নয়

५. প্রয়োগ দৃশ্য আলোচনা:

ব্যবহারিক স্থাপনায় চ্যালেঞ্জ (যেমন গণনা খরচ, বিলম্ব) সম্পর্কে কম আলোচনা
বিভিন্ন প্রয়োগ দৃশ্য (রোবোটিক্স, গেম, সময়সূচী ইত্যাদি) লক্ষ্যবস্তু বিশ্লেষণ অভাব
শিল্প গ্রহণের বাধা এবং সমাধান সম্পর্কে আলোচনা অপর্যাপ্ত

প্রভাব

१. একাডেমিক অবদান:

NLP এবং AI পরিকল্পনা সম্প্রদায়ের মধ্যে সেতু তৈরি করে
LLMs-as-Formalizers প্যারাডাইম স্পষ্টভাবে সংজ্ঞায়িত করে, অন্যান্য প্যারাডাইমের সাথে বৈপরীত্য
ক্ষেত্রের জন্য পদ্ধতিগত শ্রেণীবিভাগ এবং পরিভাষা প্রতিষ্ঠা করে

२. ব্যবহারিক মূল্য:

L2P লাইব্রেরি গবেষণা প্রবেশের বাধা হ্রাস করে, পুনরুৎপাদনযোগ্যতা প্রচার করে
গবেষকদের দ্রুত প্রোটোটাইপ উন্নয়ন সরঞ্জাম প্রদান করে
LLM+পরিকল্পনা ক্ষেত্রে গবেষণা অগ্রগতি ত্বরান্বিত করতে পারে

३. সম্প্রদায় নির্মাণ:

বিচ্ছিন্ন সাহিত্য একীভূত করে, একীভূত দৃষ্টিভঙ্গি প্রদান করে
মূল চ্যালেঞ্জ এবং গবেষণা ফাঁক চিহ্নিত করে
নতুন গবেষণা দিকনির্দেশনা এবং সহযোগিতা অনুপ্রাণিত করতে পারে

४. সম্ভাব্য প্রভাব:

ক্ষেত্রের মান রেফারেন্স সাহিত্য হয়ে উঠতে পারে
L2P লাইব্রেরি সম্প্রদায় মান সরঞ্জাম হয়ে উঠতে পারে
প্রস্তাবিত গবেষণা প্রশ্নগুলি আসন্ন বছরের গবেষণা নির্দেশনা দিতে পারে

প্রযোজ্য দৃশ্য

१. গবেষকদের জন্য:

LLM+পরিকল্পনা ক্ষেত্রে প্রবেশের জন্য প্রবেশদ্বার গাইড
গবেষণা ফাঁক এবং ভবিষ্যত দিকনির্দেশনা খুঁজছেন
বিভিন্ন পদ্ধতি তুলনা এবং মূল্যায়ন

२. প্রকৌশলীদের জন্য:

নির্দিষ্ট প্রয়োগের জন্য উপযুক্ত LLM+পরিকল্পনা পদ্ধতি নির্বাচন
দ্রুত প্রোটোটাইপ উন্নয়নের জন্য L2P লাইব্রেরি ব্যবহার করা
বিভিন্ন পদ্ধতির সুবিধা এবং অসুবিধা এবং প্রযোজ্য দৃশ্য বোঝা

३. শিক্ষা ব্যবহারের জন্য:

LLM+পরিকল্পনা কোর্সের জন্য শিক্ষা উপকরণ হিসাবে
সমৃদ্ধ সাহিত্য এবং কোড সম্পদ প্রদান করে
স্পষ্ট PDDL প্রবেশ উদাহরণ অন্তর্ভুক্ত করে

४. নির্দিষ্ট প্রয়োগ ক্ষেত্রে:

রোবোটিক্স: প্রাকৃতিক ভাষা নির্দেশ থেকে রোবোট কাজ পরিকল্পনা তৈরি করা
গেম AI: NPC আচরণ পরিকল্পনা মডেল তৈরি করা
জরুরি প্রতিক্রিয়া: নীতি নথি থেকে জরুরি অপারেশন পরিকল্পনা তৈরি করা
লজিস্টিক্স: ব্যবসায়িক বর্ণনা থেকে সময়সূচী এবং রুটিং পরিকল্পনা তৈরি করা

সংক্ষিপ্ত সারসংক্ষেপ

এটি একটি উচ্চ-মানের, সময়োপযোগী এবং ব্যবহারিক সমীক্ষা পেপার যা LLMগুলিকে পরিকল্পনা আনুষ্ঠানিকীকরণ সরঞ্জাম হিসাবে ব্যবহার করার গবেষণা অবস্থা পদ্ধতিগতভাবে সংকলন করে। পেপারটির শ্রেণীবিভাগ স্পষ্ট, বিশ্লেষণ গভীর, বিশেষত L2P ওপেন সোর্স লাইব্রেরির অবদান এটিকে শুধুমাত্র একটি সাহিত্য সমীক্ষা নয় বরং একটি অপারেশনাল গবেষণা সরঞ্জাম করে তোলে। যদিও অভিজ্ঞতামূলক তুলনা এবং তাত্ত্বিক বিশ্লেষণে উন্নতির জায়গা রয়েছে, কিন্তু এই ক্ষেত্রের প্রথম ব্যাপক সমীক্ষা হিসাবে, এর একাডেমিক মূল্য এবং ব্যবহারিক মূল্য উভয়ই অত্যন্ত বেশি এবং LLM+স্বয়ংক্রিয় পরিকল্পনা ক্ষেত্রের একটি গুরুত্বপূর্ণ রেফারেন্স সাহিত্য হয়ে উঠতে সম্ভাব্য।