LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
نماذج اللغة الكبيرة كمُشكِّلات للتخطيط: مسح شامل للاستفادة من نماذج اللغة الكبيرة لبناء نماذج التخطيط الآلي
تُظهر نماذج اللغة الكبيرة (LLMs) تفوقاً في مختلف مهام معالجة اللغة الطبيعية، إلا أنها تواجه صعوبات في مشاكل التخطيط طويل الأجل التي تتطلب استدلالاً منظماً. تقدم هذه الورقة مسحاً شاملاً وفي الوقت المناسب يحلل بشكل منهجي الحالة الراهنة للأبحاث التي تضع نماذج اللغة الكبيرة كأدوات لتشكيل وتحسين مواصفات التخطيط لدعم أنظمة التخطيط الآلي (AP) الموثوقة والجاهزة للاستخدام. تبرز الورقة المنهجيات من خلال مراجعة منهجية لحوالي 80 عملاً ذا صلة، وتحدد التحديات الرئيسية والاتجاهات المستقبلية، وتوفر مكتبة Python مفتوحة المصدر باسم Language-to-Plan (L2P) لتعزيز البحث في هذا المجال.
على الرغم من تفوق نماذج اللغة الكبيرة في مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء في مهام التخطيط طويل الأجل والاستدلال، وغالباً ما تنتج خطط غير موثوقة. لا يمكن لاستخدام نماذج اللغة الكبيرة مباشرة كمخطط (LLM-as-Planner) أن يضمن صحة المخرجات أو أمثليتها أو موثوقيتها.
طبيعة التخطيط: التخطيط هو جزء حاسم من الإدراك من النوع الثاني (System II)، ويتطلب استدلالاً منظماً، بينما تتفوق نماذج اللغة الكبيرة في مهام النوع الأول (System I)
الاختناق في التطبيقات العملية: استخراج نماذج التخطيط كان طويلاً العائق الرئيسي أمام التطبيق الواسع لتقنيات التخطيط
تقترح هذه الورقة نموذج LLMs-as-Formalizers: الاستفادة من نقاط قوة نماذج اللغة الكبيرة (استخراج وتفسير وتحسين مواصفات نماذج التخطيط من اللغة الطبيعية)، مع دمج نقاط قوة أنظمة التخطيط الآلي الكلاسيكية (التمثيل المنظم والمنطق وطرق البحث)، لبناء إطار عمل عصبي-رمزي متكامل.
يركز هذا المسح على نموذج LLMs-as-Formalizers، أي استخدام نماذج اللغة الكبيرة لبناء مواصفات نموذج التخطيط الآلي (AP) (بشكل أساسي بصيغة PDDL)، والتي يتم بعد ذلك توليد الحلول من خلالها بواسطة مخطط مستقل عن المجال. هذا يتناقض مع الأنماط التالية:
LLMs-as-Planners: نماذج اللغة الكبيرة تنتج مباشرة تسلسلات الإجراءات
LLMs-as-Heuristics: نماذج اللغة الكبيرة تعزز كفاءة البحث من خلال إرشادات توجيهية
تعرض الورقة كيفية استخدام مكتبة L2P لإعادة إنتاج توليد المسندات والإجراءات في مجال Logistics:
أمثلة المسندات المولدة:
(truck-at ?t - truck ?l - location): الشاحنة ?t موجودة حالياً في الموقع ?l
(package-at ?p - package ?l - location): الحزمة ?p موجودة حالياً في الموقع ?l
(truck-holding ?t - truck ?p - package): الشاحنة ?t تحمل حالياً الحزمة ?p
(plane-at ?a - plane ?l - location): الطائرة ?a موجودة في الموقع ?l
يغطي هذا المسح حوالي 80 عملاً ذا صلة، تشمل المراجع الرئيسية:
الأساليب الأساسية:
Liu et al. (2023a): LLM+P - تعزيز نماذج اللغة الكبيرة بقدرات التخطيط الأمثل
Guan et al. (2023): LLM+DM - الاستفادة من نماذج اللغة الكبيرة المدربة مسبقاً لبناء نماذج العالم
Kambhampati et al. (2024): إطار عمل LLM-Modulo - نماذج اللغة الكبيرة لا يمكنها التخطيط لكن يمكنها المساعدة في التخطيط
الاختبار المعياري:
Valmeekam et al. (2023a): PlanBench - تقييم قدرات التخطيط لنماذج اللغة الكبيرة
Zuo et al. (2024): Planetarium - تقييم توليد مشاكل PDDL
Hu et al. (2025): Text2World - معيار توليد المجال
نمذجة المجال:
Wong et al. (2023): ADA - الحصول على مجال الإجراء
Oswald et al. (2024): تقييم التكافؤ التشغيلي
Zhang et al. (2024b): PROC2PDDL - من النص إلى PDDL
أنظمة التطبيق:
Gestrin et al. (2024): NL2Plan - نظام نهاية إلى نهاية مستقل عن المجال
Kelly et al. (2023): استخراج PDDL للتخطيط السردي
Ye et al. (2024): MORPHeus - التخطيط طويل الأجل للتعاون بين الإنسان والآلة
التقييم الشامل: هذه ورقة مسح عالية الجودة وفي الوقت المناسب وعملية جداً، تحلل بشكل منهجي الحالة الراهنة للبحث في استخدام نماذج اللغة الكبيرة كأدوات تشكيل للتخطيط. يتميز المسح بتصنيف واضح وتحليل عميق، وخاصة مساهمة مكتبة L2P مفتوحة المصدر التي تجعلها ليست مجرد مراجعة أدبية بل أداة بحثية قابلة للتشغيل. على الرغم من وجود مجال لتحسين المقارنة التجريبية والتحليل النظري، إلا أن قيمتها الأكاديمية والعملية عالية جداً كأول مسح شامل في هذا المجال، وقد تصبح مرجعاً معياراً مهماً في مجال LLM + التخطيط الآلي.