2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise

Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.

academic

نماذج اللغة الكبيرة كمُشكِّلات للتخطيط: مسح شامل للاستفادة من نماذج اللغة الكبيرة لبناء نماذج التخطيط الآلي

المعلومات الأساسية

معرّف الورقة: 2503.18971
العنوان: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
المؤلفون: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (جامعة Queen's)
التصنيف: cs.AI
تاريخ النشر: مارس 2025 (arXiv v2: 25 أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2503.18971v2

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) تفوقاً في مختلف مهام معالجة اللغة الطبيعية، إلا أنها تواجه صعوبات في مشاكل التخطيط طويل الأجل التي تتطلب استدلالاً منظماً. تقدم هذه الورقة مسحاً شاملاً وفي الوقت المناسب يحلل بشكل منهجي الحالة الراهنة للأبحاث التي تضع نماذج اللغة الكبيرة كأدوات لتشكيل وتحسين مواصفات التخطيط لدعم أنظمة التخطيط الآلي (AP) الموثوقة والجاهزة للاستخدام. تبرز الورقة المنهجيات من خلال مراجعة منهجية لحوالي 80 عملاً ذا صلة، وتحدد التحديات الرئيسية والاتجاهات المستقبلية، وتوفر مكتبة Python مفتوحة المصدر باسم Language-to-Plan (L2P) لتعزيز البحث في هذا المجال.

خلفية البحث والدافع

1. المشكلة الأساسية

على الرغم من تفوق نماذج اللغة الكبيرة في مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء في مهام التخطيط طويل الأجل والاستدلال، وغالباً ما تنتج خطط غير موثوقة. لا يمكن لاستخدام نماذج اللغة الكبيرة مباشرة كمخطط (LLM-as-Planner) أن يضمن صحة المخرجات أو أمثليتها أو موثوقيتها.

2. أهمية المشكلة

طبيعة التخطيط: التخطيط هو جزء حاسم من الإدراك من النوع الثاني (System II)، ويتطلب استدلالاً منظماً، بينما تتفوق نماذج اللغة الكبيرة في مهام النوع الأول (System I)
الاختناق في التطبيقات العملية: استخراج نماذج التخطيط كان طويلاً العائق الرئيسي أمام التطبيق الواسع لتقنيات التخطيط
متطلبات الموثوقية: تتطلب التطبيقات العملية حلول تخطيط قابلة للتحقق والتفسير والقوية

3. قيود الأساليب الموجودة

أساليب التخطيط المباشر: عندما تنتج نماذج اللغة الكبيرة مباشرة تسلسلات الإجراءات، ينخفض الأداء مع التغذية الراجعة التكرارية
غياب الضمانات المنظمة: لا يمكن لنماذج اللغة الكبيرة أن توفر ضمانات الصحة مثل أنظمة التخطيط الكلاسيكية
مشاكل التبعيات طويلة الأجل: مع نمو الحجم، غالباً ما تفشل نماذج اللغة الكبيرة في الأخذ في الاعتبار آثار الإجراءات والشروط المسبقة

4. الدافع للبحث

تقترح هذه الورقة نموذج LLMs-as-Formalizers: الاستفادة من نقاط قوة نماذج اللغة الكبيرة (استخراج وتفسير وتحسين مواصفات نماذج التخطيط من اللغة الطبيعية)، مع دمج نقاط قوة أنظمة التخطيط الآلي الكلاسيكية (التمثيل المنظم والمنطق وطرق البحث)، لبناء إطار عمل عصبي-رمزي متكامل.

المساهمات الأساسية

تصنيف منهجي: يقترح أول تصنيف شامل لبناء نماذج التخطيط الآلي المدفوعة بنماذج اللغة الكبيرة، يتضمن:
- توليد النموذج (Model Generation): نمذجة المهام، نمذجة المجال، النمذجة الهجينة
- تحرير النموذج (Model Editing): تحسين الكود وإصلاح الأخطاء
- معايير النموذج (Model Benchmarks): أطر التقييم والمجموعات البيانية
ملخص الأساليب التقنية: مراجعة منهجية للطرق التقنية المشتركة والمبتكرة لدمج نماذج اللغة الكبيرة في أطر عمل التخطيط الذكي وقيودها
إطار عمل أسئلة البحث: يقترح سؤالي بحث أساسيين (RQ):
- RQ1: كيف يمكن لنماذج اللغة الكبيرة أن تحاذي بدقة أهداف الإنسان، مما يضمن أن مواصفات نموذج التخطيط تمثل بشكل صحيح الآمال والأهداف المرغوبة؟
- RQ2: إلى أي مدى وحبيبية يمكن تحويل تعليمات اللغة الطبيعية بفعالية إلى تعريفات نموذج تخطيط دقيقة؟
مكتبة أدوات مفتوحة المصدر: توفير مكتبة Python مفتوحة المصدر Language-to-Plan (L2P)، تطبق أساليب الأوراق البارزة المغطاة في المسح، وتدعم:
- مجموعة أدوات شاملة لاستخراج وتحسين PDDL
- تصميم معياري يدعم أنماط الطلب المرن والأنابيب المخصصة
- قدرات خط أنابيب نهاية إلى نهاية مستقلة تماماً
إرشادات الاتجاهات المستقبلية: تحديد التحديات الرئيسية وتحديد الاتجاهات البحثية المستقبلية للمجال

شرح المنهجية

تعريف المهمة

يركز هذا المسح على نموذج LLMs-as-Formalizers، أي استخدام نماذج اللغة الكبيرة لبناء مواصفات نموذج التخطيط الآلي (AP) (بشكل أساسي بصيغة PDDL)، والتي يتم بعد ذلك توليد الحلول من خلالها بواسطة مخطط مستقل عن المجال. هذا يتناقض مع الأنماط التالية:

LLMs-as-Planners: نماذج اللغة الكبيرة تنتج مباشرة تسلسلات الإجراءات
LLMs-as-Heuristics: نماذج اللغة الكبيرة تعزز كفاءة البحث من خلال إرشادات توجيهية

تصنيف الإطار الأساسي

1. توليد النموذج (Model Generation)

استخراج وتشكيل مواصفات التخطيط من مدخلات اللغة الطبيعية، مقسمة إلى ثلاث فئات فرعية:

1.1 نمذجة المهام (Task Modeling)

أساليب مواصفات الأهداف:
- الطلب القليل الأمثلة (Few-shot prompting) (Collins et al., 2022; Grover & Mohan, 2024)
- طلب سلسلة الأفكار (Chain-of-Thought - CoT) (Lyu et al., 2023)
- التعامل مع درجات مختلفة من الغموض (Xie et al., 2023)
مواصفات المهام الكاملة:
- الأنظمة مفتوحة الحلقة: LLM+P يستخدم أمثلة السياق لتوليد ملفات مشاكل PDDL الكاملة
- الأنظمة مغلقة الحلقة: Auto-GPT+P يولد الحالة الأولية بناءً على الإدراك البصري، مع حلقات تصحيح أخطاء تلقائية
- التعاون متعدد الوكلاء: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
التمثيلات البديلة:
- التمثيلات الهندسية للمهام والتخطيط الحركي
- المنطق الزمني (TSL, STL, LTL)
- تعريفات دوال Python لفضاء البحث

1.2 نمذجة المجال (Domain Modeling)

أساليب الاستعلام الفردي:
- CLLaMP: استخراج نموذج إجراء PDDL من وصف CVE
- PROC2PDDL: تصميم الطلب لمنطقة التطور القريب
- أساليب تصفية المرشحين (Huang et al., 2024b; Athalye et al., 2024)
أساليب التوليد التكراري:
- LLM+DM: يعتمد على طريقة "التوليد-الاختبار-النقد"، بناء مكونات المجال بشكل تدريجي من خلال استدعاءات LLM متعددة
- LLM+AL: توليد لغة الإجراء BC+ بناء الجملة
- LAMP: سلسلة خوارزميات لتعلم نماذج مجال PDDL المجردة
أطر عمل الحلقة المغلقة:
- ADA: توليد مرشحي تحلل المهام الرمزية، طلب تكراري للإجراءات غير المحددة
- COWP: التعامل مع الحالات غير المتوقعة في التخطيط بالعالم المفتوح
- LASP: تحديد الأخطاء المحتملة من ملاحظات البيئة

1.3 النمذجة الهجينة (Hybrid Modeling) دمج نظام مجال وتعريف مشكلة PDDL الكاملة:

الأساليب الأساسية: Kelly et al. (2023) استخراج التخطيط السردي من قصص الإدخال، معالجة تكرارية لرسائل خطأ المخطط
أساليب التمثيل الوسيط:
- NL2Plan: أول نظام تخطيط NL نهاية إلى نهاية مستقل عن المجال
- توليد علامات JSON، فحوصات الاتساق وحلقات تصحيح الأخطاء
- تحليل الوصول والتحليل التبعي
التطبيقات العملية:
- MORPHeus: التخطيط طويل الأجل للتعاون بين الإنسان والآلة، آليات كشف الشذوذ
- InterPret: تعلم مسندات PDDL من خلال تغذية راجعة لغوية تفاعلية من المستخدم
- AgentGen: استخدام نماذج اللغة الكبيرة لتوليف مهام PDDL متنوعة للتدريب

2. تحرير النموذج (Model Editing)

نماذج اللغة الكبيرة كأدوات مساعدة وليس حلول توليد مستقلة تماماً:

Gragera & Pozanco (2023): دراسة قيود نماذج اللغة الكبيرة في إصلاح المهام غير القابلة للحل
Patil (2024): نماذج اللغة الكبيرة تتفوق في تصحيح بناء الجملة لكنها أقل موثوقية في عدم الاتساق الدلالي
Sikes et al. (2024a): معالجة مشاكل متغيرات الحالة المكافئة دلالياً لكن مختلفة نحوياً
Caglar et al. (2024): تقييم فعالية نماذج اللغة الكبيرة في توليد تحريرات نموذج معقولة

3. معايير النموذج (Model Benchmarks)

تقييم قدرات نماذج اللغة الكبيرة في مهام التخطيط وجودة مواصفات التخطيط المولدة:

3.1 معايير LLMs-as-Planner:

Mystery Blocksworld: نسخة مربكة من Blocksworld الكلاسيكي لكشف تسرب بيانات التدريب
ALFWorld & Household: استخدام دلالات PDDL في بيئات منزلية حقيقية
TravelPlanner & Natural Plan: معايير تخطيط السفر والجدولة الواقعية
PlanBench: تقييم منهجي للتخطيط الأمثل من حيث التكلفة والتحقق من الخطط
ACPBench: تقييم موحد للمهام والمقاييس، يغطي 13 مجالاً و22 نموذج حالة فنية

3.2 معايير LLMs-as-Planning-Formalizers:

Planetarium: تقييم مهام/مشاكل PDDL المولدة بواسطة LLM، مع التركيز على سؤالين رئيسيين:
- قد تنتج نماذج اللغة الكبيرة كوداً صحيحاً لكن غير متسق مع وصف NL الأصلي
- وصف NL لمجموعة التقييم قد يكون متشابهاً جداً مع القيم الحقيقية
Text2World:
- خط أنابيب استخراج مجال آلي
- مقاييس متعددة المعايير: القابلية للتنفيذ، التشابه الهيكلي، درجة F1 على مستوى المكون
- القيود: الاعتماد على القابلية للتنفيذ كمقياس بوابة

نقاط الابتكار التقني

إطار عمل LLM-Modulo: تحسين خطط تكراري من خلال محققات خارجية لضمان الصحة، نقل التركيز من التخطيط المباشر إلى توليد PDDL مع محققات متكاملة
التمثيل الوسيط: استخدام تمثيلات وسيطة أسهل لمعالجة نماذج اللغة الكبيرة مثل ASP و Python و JSON، ثم التحويل إلى PDDL
توليد مرشحين متعددين: توليد مرشحين متعددين للمجال أو مكونات محددة (مثل تعريفات المسندات)، للتكيف بشكل أفضل مع الغموض وعدم اليقين في نية المستخدم
التعاون بين الإنسان والآلة: تحسين جودة النموذج من خلال خطوات المعالجة المسبقة وحلقات التغذية الراجعة التفاعلية بين الإنسان والآلة
التصميم المعياري: دعم التكامل الديناميكي للأنواع والمسندات، مما يحقق أنظمة تخطيط أكثر قابلية للتكيف وتحمل الأخطاء في مراحل التوليد اللاحقة

إعداد التجارب

مجموعات البيانات

كورقة مسح، تغطي هذه الورقة مجموعات بيانات ومجالات متعددة مستخدمة في حوالي 80 عمل بحثي:

مجالات التخطيط الكلاسيكية:

Blocksworld
Gripper
Logistics
Floor Tile

البيئات الحقيقية:

ALFWorld: تفاعل البيئة المنزلية
Household: سيناريوهات منزلية نموذجية
TravelPlanner: سيناريوهات تخطيط السفر

المجالات المتخصصة:

CVE (Common Vulnerabilities and Exposures): الأمن السيبراني
Emergency Operation Plans (EOPs): صنع القرار في حالات الطوارئ

مقاييس التقييم

مقاييس جودة التخطيط:

صحة الخطة
أمثلية التكلفة
القابلية للتنفيذ

مقاييس جودة النموذج:

التشابه الهيكلي: المقارنة الهيكلية مع القيم الحقيقية
درجة F1 على مستوى المكون: الدقة والاستدعاء لمكونات المسندات والإجراءات وما إلى ذلك
التكافؤ التشغيلي: ما إذا كان المجال المعاد بناؤه يتصرف بنفس طريقة المجال الأصلي
الصحة الدلالية: ما إذا كان الكود المولد متوافقاً مع وصف NL الأصلي

مقاييس أداء النظام:

معدل نجاح التوليد
عدد التكرارات
متطلبات التدخل اليدوي

طرق المقارنة

فئات الأساليب الرئيسية المغطاة في المسح:

طرق التوليد المباشر: استدعاء LLM واحد لتوليد PDDL كاملة
طرق التحسين التكراري: استدعاءات متعددة وحلقات تغذية راجعة
الطرق الهجينة: دمج LLM وأدوات التحقق التقليدية
طرق الضبط الدقيق: ضبط دقيق لنماذج اللغة الكبيرة على مجموعات بيانات محددة

نتائج التجارب

النتائج الرئيسية

1. نمذجة المهام نسبياً بسيطة

الأوصاف الواضحة جداً تحسن بشكل كبير دقة الترجمة (Liu et al., 2023a)
استخدام أمثلة قليلة الأمثلة وسلاسل الاستدلال يمكن أن يعزز مواصفات الأهداف (Lyu et al., 2023)
TIC باستخدام التمثيل الوسيط على GPT-3.5 Turbo يحقق دقة قريبة من 100% في مجال التخطيط LLM+P

2. نمذجة المجال أكثر تحدياً

التوليد الفردي لمجال PDDL وظيفي تماماً غير عملي (Kambhampati et al., 2024)
تحسن الأساليب التكرارية (مثل "التوليد-الاختبار-النقد" في LLM+DM) الجودة بشكل كبير
الأمثلة السياقية أفضل من طلب CoT (Oates et al., 2024)
يمكن لطرق توليد المرشحين المتعددين التعامل بشكل أفضل مع الغموض في نية المستخدم

3. تعقيد النمذجة الهجينة

يظهر التعقيد عند تنسيق المجال والمشكلة المقابلة
خطوط الأنابيب الخطية تحمل خطر أخطاء متسلسلة
خطوات المعالجة المسبقة (باستخدام أدوات خارجية مثل FastDownward و VAL) تحسن معدل النجاح
التعاون بين الإنسان والآلة يحسن بشكل كبير جودة النموذج

4. فعالية تحرير النموذج

نماذج اللغة الكبيرة تتفوق في تصحيح بناء الجملة
أقل موثوقية في عدم الاتساق الدلالي (Patil, 2024)
الحاجة إلى تطوير استراتيجيات تصحيح لاحقة

5. تحديات الاختبار المعياري

تسرب بيانات التدريب مشكلة رئيسية (Hu et al., 2025 يبلغ عن معدل تلوث مرتفع)
الحاجة إلى معايير اختبار ديناميكية
تشابه وصف NL لمجموعة التقييم مع القيم الحقيقية يؤثر على صعوبة التقييم

دراسات الحالة

إعادة إنتاج خوارزمية "action-by-action" (Guan et al., 2023) باستخدام مكتبة L2P

تعرض الورقة كيفية استخدام مكتبة L2P لإعادة إنتاج توليد المسندات والإجراءات في مجال Logistics:

أمثلة المسندات المولدة:

(truck-at ?t - truck ?l - location): الشاحنة ?t موجودة حالياً في الموقع ?l
(package-at ?p - package ?l - location): الحزمة ?p موجودة حالياً في الموقع ?l
(truck-holding ?t - truck ?p - package): الشاحنة ?t تحمل حالياً الحزمة ?p
(plane-at ?a - plane ?l - location): الطائرة ?a موجودة في الموقع ?l

أمثلة الإجراءات المولدة:

load_truck(?p - package, ?t - truck, ?l - location)
  الشروط المسبقة: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  التأثيرات: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

نتائج التجارب

حساسية الطلب: نماذج اللغة الكبيرة حساسة جداً لتصميم الطلب، مما يتطلب توحيد حبيبية الطلب
قيمة التمثيل الوسيط: استخدام تمثيلات وسيطة مثل JSON و Python يمكن أن يحسن الدقة والاتساق
أهمية المحققات: دمج أدوات التحقق الخارجية (VAL و FastDownward وما إلى ذلك) أمر حاسم لضمان الجودة
دور المعرفة المجالية: مواصفات مجموعة المسندات الصريحة حاسمة للتقييم عبر الطرق المختلفة
ضرورة التعاون بين الإنسان والآلة: المجالات المعقدة عادة ما تتطلب تفاعلاً بين الإنسان والآلة لضمان التوافق

الأعمال ذات الصلة

1. أنماط أخرى من LLM+التخطيط

LLMs-as-Planners:

توليد مباشر لتسلسلات الإجراءات (Zhang et al., 2024c; Lin et al., 2023)
تحسين الخطط من خلال طرق لاحقة (Gundawar et al., 2024)
القيود: لا يمكن ضمان الصحة والأمثلية

LLMs-as-Heuristics:

تعزيز كفاءة البحث من خلال إرشادات توجيهية (Silver et al., 2022; Hirsch et al., 2024)
توفير اتجاه البحث لكن لا توليد الخطط مباشرة

2. المسوحات ذات الصلة

Huang et al. (2024c): وكلاء التخطيط المحسنة بنماذج اللغة الكبيرة على مستوى تجريدي أعلى
Pallagani et al. (2024): بناء أوسع يتجاوز AP التقليدي
Zhao et al. (2024): نظرة عامة واسعة على تطبيقات LLM-TAMP
Li et al. (2024a): التركيز الرئيسي على LLMs-as-Planners، مكمل لهذه الورقة

3. الحصول على نموذج التخطيط الكلاسيكي

الطرق التقليدية تعتمد على هندسة المعرفة اليدوية من قبل الخبراء
طرق التعلم استخراج النماذج من العروض التوضيحية
طرق LLM التي يركز عليها هذا المسح توفر مسار أتمتة جديد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نموذج LLMs-as-Formalizers واعد: دمج قدرات فهم اللغة الطبيعية لنماذج اللغة الكبيرة مع قدرات الاستدلال المنظم لمخططات التخطيط الكلاسيكية
نمذجة المهام نسبياً ناضجة: يمكن للطرق الموجودة أن تولد بفعالية مواصفات المهام تحت الأوصاف الواضحة
نمذجة المجال لا تزال تحديات: تتطلب طرق تكرارية وتوليد مرشحين متعددين والتحقق الخارجي
النمذجة الهجينة تتطلب نهج منهجي: التصميم المعياري وآليات تحمل الأخطاء حاسمة
الاختبار المعياري يتطلب تحسين مستمر: تسرب البيانات وتوحيد معايير التقييم مشاكل رئيسية

القيود

نطاق المسح:
- يركز بشكل أساسي على أطر عمل بناء PDDL
- التحليل التقني لكل عمل موجز بسبب قيود المساحة
- قد يفتقد البحث ذي الصلة من المؤتمرات/المجلات الأخرى
القيود الحالية لمكتبة L2P:
- تدعم فقط أدوات استخراج PDDL الأساسية للتخطيط الحتمي القابل للملاحظة بالكامل
- لم تتضمن بعد أدوات للمجالات المتقدمة مثل التخطيط الزمني
قيود الطريقة:
- تعتمد معظم الطرق على تعيين صريح من NL إلى كود PDDL
- القدرة على استنتاج مواصفات كاملة من مدخلات قليلة محدودة
- معالجة الأخطاء الدلالية لا تزال صعبة

الاتجاهات المستقبلية

بخصوص RQ1 (محاذاة الأهداف):

تحسين القابلية للتفسير: تطوير أنظمة تخطيط قابلة للتفسير تنتج مخرجات قوية وشفافة وقابلة للتصحيح
حلقات التغذية الراجعة التصحيحية: تحسين آليات التعامل مع أخطاء الشروط المسبقة للإجراء وأخطاء التنفيذ
التعاون بين الإنسان والآلة: ضمان المحاذاة من خلال خطوات المعالجة المسبقة وحلقات التغذية الراجعة التفاعلية
التحقق من الصحة الدلالية: تحليل الصحة الدلالية للخطط المولدة، استخدامها كتغذية راجعة لتحسين مواصفات PDDL

بخصوص RQ2 (حبيبية الوصف):

معالجة الأوصاف الدنيا: تطوير طرق قادرة على استنتاج مواصفات PDDL الكاملة من مدخلات قليلة
دمج الاستدلال الحس السليم: الاستفادة من قدرات الحس السليم لنماذج اللغة الكبيرة لالتقاط الافتراضات والقيود المحتملة
توحيد الطلب: إنشاء حبيبية طلب موحدة للتوليد الأولي والتغذية الراجعة التكرارية
توليد الوصف التلقائي: تطوير أدوات لتوليد أوصاف PDDL تلقائياً (مثل Nabizada et al., 2024)

الاتجاهات التقنية:

الهندسة المعمارية المعيارية: أنظمة أكثر قابلية للتكيف تدعم التكامل الديناميكي للأنواع والمسندات
استراتيجيات المرشحين المتعددين: توليد وتقييم نماذج مرشحة متعددة للتعامل مع عدم اليقين
التصحيح اللاحق: تحديد عدم الاتساق الدلالي من خلال مقاييس تلقائية أو تقييم بشري
المعايير الديناميكية: إنشاء معايير ديناميكية مدفوعة بالمجتمع لمنع تسرب البيانات
التوسع إلى التخطيط المتقدم: توسيع الطرق إلى التخطيط الزمني والتخطيط الاحتمالي وما إلى ذلك

اتجاهات التطبيق:

النشر العملي: اختبار في سيناريوهات حقيقية مثل الروبوتات وذكاء اللعبة والاستجابة للطوارئ
نقل المجال: تحسين القدرة على التعميم عبر المجالات
التكامل متعدد الأنماط: دمج المعلومات البصرية واللغوية والأنماط الأخرى

المراجع

يغطي هذا المسح حوالي 80 عملاً ذا صلة، تشمل المراجع الرئيسية:

الأساليب الأساسية:

Liu et al. (2023a): LLM+P - تعزيز نماذج اللغة الكبيرة بقدرات التخطيط الأمثل
Guan et al. (2023): LLM+DM - الاستفادة من نماذج اللغة الكبيرة المدربة مسبقاً لبناء نماذج العالم
Kambhampati et al. (2024): إطار عمل LLM-Modulo - نماذج اللغة الكبيرة لا يمكنها التخطيط لكن يمكنها المساعدة في التخطيط

الاختبار المعياري:

Valmeekam et al. (2023a): PlanBench - تقييم قدرات التخطيط لنماذج اللغة الكبيرة
Zuo et al. (2024): Planetarium - تقييم توليد مشاكل PDDL
Hu et al. (2025): Text2World - معيار توليد المجال

نمذجة المجال:

Wong et al. (2023): ADA - الحصول على مجال الإجراء
Oswald et al. (2024): تقييم التكافؤ التشغيلي
Zhang et al. (2024b): PROC2PDDL - من النص إلى PDDL

أنظمة التطبيق:

Gestrin et al. (2024): NL2Plan - نظام نهاية إلى نهاية مستقل عن المجال
Kelly et al. (2023): استخراج PDDL للتخطيط السردي
Ye et al. (2024): MORPHeus - التخطيط طويل الأجل للتعاون بين الإنسان والآلة

التقييم الشامل: هذه ورقة مسح عالية الجودة وفي الوقت المناسب وعملية جداً، تحلل بشكل منهجي الحالة الراهنة للبحث في استخدام نماذج اللغة الكبيرة كأدوات تشكيل للتخطيط. يتميز المسح بتصنيف واضح وتحليل عميق، وخاصة مساهمة مكتبة L2P مفتوحة المصدر التي تجعلها ليست مجرد مراجعة أدبية بل أداة بحثية قابلة للتشغيل. على الرغم من وجود مجال لتحسين المقارنة التجريبية والتحليل النظري، إلا أن قيمتها الأكاديمية والعملية عالية جداً كأول مسح شامل في هذا المجال، وقد تصبح مرجعاً معياراً مهماً في مجال LLM + التخطيط الآلي.