2025-11-28T21:52:20.176299

LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models

Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic

LLMs как формализаторы планирования: Обзор использования больших языковых моделей для построения моделей автоматизированного планирования

Основная информация

  • ID статьи: 2503.18971
  • Название: LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
  • Авторы: Marcus Tantakoun, Christian Muise, Xiaodan Zhu (Queen's University)
  • Категория: cs.AI
  • Дата публикации: Март 2025 г. (arXiv v2: 25 октября 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2503.18971v2

Аннотация

Большие языковые модели (LLMs) демонстрируют превосходные результаты в различных задачах обработки естественного языка, однако испытывают затруднения с долгосрочными задачами планирования, требующими структурированного рассуждения. В данной статье представлен своевременный обзор, систематически анализирующий современное состояние исследований по позиционированию LLMs в качестве инструментов формализации и уточнения спецификаций планирования для поддержки надежных готовых систем автоматизированного планирования (AP). Статья проводит систематический обзор примерно 80 связанных работ, выделяя методологии, определяя ключевые вызовы и будущие направления, а также предоставляет библиотеку с открытым исходным кодом Language-to-Plan (L2P) на Python для содействия исследованиям в этой области.

Исследовательский контекст и мотивация

1. Основная проблема

Несмотря на превосходные результаты LLMs в задачах обработки естественного языка, они показывают неудовлетворительные результаты в долгосрочных задачах планирования и рассуждения, часто создавая ненадежные планы. Прямое использование LLMs в качестве планировщиков (LLM-as-Planner) не гарантирует корректность, оптимальность и надежность выходных данных.

2. Значимость проблемы

  • Сущность планирования: Планирование является важной составляющей когнитивной системы II, требующей структурированного рассуждения, тогда как LLMs более искусны в задачах системы I
  • Узкое место практического применения: Извлечение моделей планирования долгое время было основным препятствием для широкого применения технологий планирования
  • Требования надежности: Практические приложения требуют проверяемых, интерпретируемых и надежных решений планирования

3. Ограничения существующих методов

  • Методы прямого планирования: При прямом создании LLMs последовательности действий производительность снижается с итеративной обратной связью
  • Отсутствие структурированных гарантий: LLMs не могут обеспечить гарантии корректности, как классические системы планирования
  • Проблемы долгосрочной зависимости: По мере увеличения масштаба LLMs часто не могут учитывать эффекты действий и предусловия

4. Исследовательская мотивация

В статье предлагается парадигма LLMs-as-Formalizers: использование преимуществ LLMs (извлечение, интерпретация и уточнение спецификаций моделей планирования из естественного языка) в сочетании с преимуществами классических систем автоматизированного планирования (структурированное представление, логика и методы поиска) для построения взаимодополняющей нейросимволической структуры.

Основные вклады

  1. Систематическая классификация: Предложена первая комплексная система классификации для построения моделей автоматизированного планирования, управляемых LLMs, включающая:
    • Генерация моделей (Model Generation): моделирование задач, моделирование предметной области, гибридное моделирование
    • Редактирование моделей (Model Editing): уточнение кода и исправление ошибок
    • Эталоны моделей (Model Benchmarks): структуры оценки и наборы данных
  2. Резюме технических методов: Систематическое обобщение общих и инновационных технических методов интеграции LLMs в структуры планирования AI и их ограничений
  3. Структура исследовательских вопросов: Предложены два основных исследовательских вопроса (RQ):
    • RQ1: Как LLMs могут точно согласовать человеческие цели, обеспечивая правильное представление ожиданий и целей в спецификациях моделей планирования?
    • RQ2: В какой степени и с какой детализацией инструкции на естественном языке могут быть эффективно преобразованы в точные определения моделей планирования?
  4. Библиотека с открытым исходным кодом: Предоставляется библиотека Language-to-Plan (L2P) на Python, реализующая методы из знаковых статей, охватываемых обзором, поддерживающая:
    • Комплексный набор инструментов для извлечения и уточнения PDDL
    • Модульный дизайн, поддерживающий гибкие стили подсказок и пользовательские конвейеры
    • Возможности полностью автономного сквозного конвейера
  5. Руководство по будущим направлениям: Определены ключевые вызовы и обозначены будущие направления исследований в этой области

Подробное описание методов

Определение задачи

Данный обзор сосредоточен на парадигме LLMs-as-Formalizers, то есть использовании LLMs для построения спецификаций моделей автоматизированного планирования (AP) (в основном в формате PDDL), которые затем используются независимыми от предметной области планировщиками для создания решений. Это контрастирует со следующими парадигмами:

  • LLMs-as-Planners: LLMs напрямую генерируют последовательности действий
  • LLMs-as-Heuristics: LLMs улучшают эффективность поиска через эвристическое руководство

Классификация основной структуры

1. Генерация моделей (Model Generation)

Извлечение и формализация спецификаций планирования из входных данных на естественном языке, разделенные на три подкатегории:

1.1 Моделирование задач (Task Modeling)

  • Методы спецификации целей:
    • Few-shot prompting (Collins et al., 2022; Grover & Mohan, 2024)
    • Chain-of-Thought (CoT) prompting (Lyu et al., 2023)
    • Обработка различных степеней неоднозначности (Xie et al., 2023)
  • Полная спецификация задачи:
    • Системы с разомкнутым контуром: LLM+P использует контекстные примеры для генерации полных файлов проблем PDDL
    • Системы с замкнутым контуром: Auto-GPT+P генерирует начальное состояние на основе визуального восприятия с автоматическим циклом исправления ошибок
    • Многоагентное сотрудничество: DaTAPlan, PlanCollabNL, TwoStep, LaMMA-P
  • Альтернативные представления:
    • Геометрические представления для планирования задач и движения
    • Временная логика (TSL, STL, LTL)
    • Определения функций Python для поискового пространства

1.2 Моделирование предметной области (Domain Modeling)

  • Методы однократного запроса:
    • CLLaMP: извлечение модели действий PDDL из описаний CVE
    • PROC2PDDL: проектирование подсказок зоны ближайшего развития
    • Методы фильтрации кандидатов (Huang et al., 2024b; Athalye et al., 2024)
  • Методы итеративной генерации:
    • LLM+DM: применяет подход "генерация-тестирование-критика", постепенно строя компоненты предметной области через несколько вызовов LLM
    • LLM+AL: генерация языка действий BC+ синтаксиса
    • LAMP: семейство алгоритмов для изучения абстрактных моделей предметной области PDDL
  • Структуры с замкнутым контуром:
    • ADA: генерирует кандидаты символической декомпозиции задач, итеративно подсказывая неопределенные действия
    • COWP: обработка непредвиденных обстоятельств в планировании открытого мира
    • LASP: определение потенциальных ошибок из наблюдений окружающей среды

1.3 Гибридное моделирование (Hybrid Modeling) Объединение полной генерации моделей систем предметной области и проблем PDDL:

  • Базовые методы: Kelly et al. (2023) извлекают нарративное планирование из входных рассказов, итеративно обрабатывая сообщения об ошибках планировщика
  • Методы промежуточного представления:
    • NL2Plan: первая независимая от предметной области автономная система планирования NL
    • Генерация JSON-разметки, проверка согласованности и цикл исправления ошибок
    • Анализ достижимости и анализ зависимостей
  • Практические приложения:
    • MORPHeus: долгосрочное планирование человеко-машинного сотрудничества с механизмом обнаружения аномалий
    • InterPret: изучение предикатов PDDL через интерактивную обратную связь пользователя на естественном языке
    • AgentGen: использование LLMs для синтеза разнообразных задач PDDL для обучения

2. Редактирование моделей (Model Editing)

LLMs как вспомогательные инструменты, а не полностью автономные решения для генерации:

  • Gragera & Pozanco (2023): исследование ограничений LLMs при исправлении неразрешимых задач
  • Patil (2024): LLMs превосходны в синтаксическом исправлении, но ненадежны в семантических несоответствиях
  • Sikes et al. (2024a): решение проблем переменных состояния, которые семантически эквивалентны, но синтаксически различны
  • Caglar et al. (2024): оценка эффективности LLMs в генерировании разумных редактирований моделей

3. Эталоны моделей (Model Benchmarks)

Оценка возможностей LLMs в задачах планирования и качества генерируемых спецификаций планирования:

3.1 Эталоны LLMs-as-Planner:

  • Mystery Blocksworld: запутанная версия классического Blocksworld для обнаружения утечек данных обучения
  • ALFWorld & Household: реальные домашние среды с семантикой PDDL
  • TravelPlanner & Natural Plan: эталоны планирования путешествий и реального планирования
  • PlanBench: систематическая оценка планирования с минимальной стоимостью и проверки плана
  • ACPBench: стандартизированная оценка задач и метрик, охватывающая 13 предметных областей и 22 модели SOTA

3.2 Эталоны LLMs-as-Planning-Formalizers:

  • Planetarium: оценка задач/проблем PDDL, генерируемых LLMs, подчеркивающая два ключевых вопроса:
    • LLMs могут создавать действительный, но несогласованный с исходным описанием NL код
    • Описания NL в наборе оценки слишком похожи на истинные значения
  • Text2World:
    • Автоматизированный конвейер извлечения предметной области
    • Многокритериальные метрики: исполняемость, структурное сходство, F1-оценка на уровне компонентов
    • Ограничения: зависимость от исполняемости как метрики-шлюза

Технические инновации

  1. Структура LLM-Modulo: итеративное уточнение плана через внешние валидаторы для обеспечения корректности, смещение фокуса с прямого планирования на генерацию PDDL с интегрированными валидаторами
  2. Промежуточные представления: использование ASP, Python, JSON и других промежуточных представлений, более удобных для обработки LLMs, с последующим преобразованием в PDDL
  3. Генерация множественных кандидатов: создание нескольких кандидатов предметной области или конкретных компонентов (например, определений предикатов) для лучшей адаптации к неоднозначности и неопределенности в намерениях пользователя
  4. Человеко-машинное сотрудничество: улучшение качества модели через этапы предварительной обработки и циклы обратной связи человеко-машинного взаимодействия
  5. Модульный дизайн: поддержка динамической интеграции типов и предикатов, обеспечивающая более адаптивные и отказоустойчивые системы планирования на поздних этапах генерации

Экспериментальная установка

Наборы данных

Данная статья как обзорная работа охватывает множество наборов данных и предметных областей, используемых примерно в 80 исследовательских работах:

Классические предметные области планирования:

  • Blocksworld
  • Gripper
  • Logistics
  • Floor Tile

Реальные окружающие среды:

  • ALFWorld: взаимодействие в домашней среде
  • Household: типичные домашние сценарии
  • TravelPlanner: сценарии планирования путешествий

Специализированные предметные области:

  • CVE (Common Vulnerabilities and Exposures): кибербезопасность
  • Emergency Operation Plans (EOPs): принятие решений в чрезвычайных ситуациях

Метрики оценки

Метрики качества планирования:

  • Корректность плана
  • Оптимальность стоимости
  • Исполняемость

Метрики качества модели:

  • Структурное сходство: сравнение структуры с истинными значениями
  • F1-оценка на уровне компонентов: точность и полнота предикатов, действий и других компонентов
  • Операционная эквивалентность: ведет ли восстановленная предметная область себя так же, как исходная
  • Семантическая корректность: соответствует ли генерируемый код исходному описанию NL

Метрики производительности системы:

  • Коэффициент успешной генерации
  • Количество итераций
  • Требования к человеческому вмешательству

Методы сравнения

Основные категории методов, охватываемые обзором:

  1. Методы прямой генерации: однократный вызов LLM для генерации полного PDDL
  2. Методы итеративного уточнения: несколько вызовов и циклы обратной связи
  3. Гибридные методы: объединение LLM и традиционных инструментов валидации
  4. Методы тонкой настройки: тонкая настройка LLMs на конкретных наборах данных

Результаты экспериментов

Основные выводы

1. Моделирование задач относительно простое

  • Высокоточные описания значительно повышают точность перевода (Liu et al., 2023a)
  • Использование примеров few-shot и цепочек рассуждений может улучшить спецификацию целей (Lyu et al., 2023)
  • TIC достигает почти 100% точности на GPT-3.5 Turbo с использованием промежуточного представления в области планирования LLM+P

2. Моделирование предметной области более сложно

  • Однократная генерация полностью функциональной предметной области PDDL нецелесообразна (Kambhampati et al., 2024)
  • Итеративные методы (такие как "генерация-тестирование-критика" LLM+DM) значительно повышают качество
  • Контекстные примеры превосходят подсказки CoT (Oates et al., 2024)
  • Методы генерации множественных кандидатов лучше справляются с неоднозначностью в намерениях пользователя

3. Сложность гибридного моделирования

  • При координации предметной области и соответствующей проблемы возникает сложность
  • Линейные конвейеры подвергаются риску каскадных ошибок
  • Этапы предварительной обработки (использование внешних инструментов FastDownward, VAL и т.д.) повышают коэффициент успеха
  • Человеко-машинное сотрудничество значительно улучшает качество модели

4. Эффективность редактирования моделей

  • LLMs показывают отличные результаты в синтаксическом исправлении
  • Менее надежны в отношении семантических несоответствий (Patil, 2024)
  • Требуется разработка стратегий постфактум исправления

5. Проблемы тестирования

  • Утечка данных обучения является основной проблемой (Hu et al., 2025 сообщают о высокой степени загрязнения)
  • Требуются динамические стандарты эталонов
  • Сходство описаний NL в наборе оценки с истинными значениями влияет на сложность оценки

Анализ случаев

Переиспользование алгоритма "action-by-action" библиотекой L2P (Guan et al., 2023)

Статья демонстрирует, как использовать библиотеку L2P для переиспользования генерации предикатов и действий в предметной области Logistics:

Примеры генерируемых предикатов:

(truck-at ?t - truck ?l - location): грузовик ?t в настоящее время находится в местоположении ?l
(package-at ?p - package ?l - location): пакет ?p в настоящее время находится в местоположении ?l
(truck-holding ?t - truck ?p - package): грузовик ?t в настоящее время держит пакет ?p
(plane-at ?a - plane ?l - location): самолет ?a находится в местоположении ?l

Примеры генерируемых действий:

load_truck(?p - package, ?t - truck, ?l - location)
  Предусловия: (truck-at ?t ?l) ∧ (package-at ?p ?l) ∧ (truck-has-space ?t)
  Эффекты: ¬(package-at ?p ?l) ∧ (truck-holding ?t ?p)

Экспериментальные находки

  1. Чувствительность к подсказкам: LLMs высокочувствительны к проектированию подсказок, требуя стандартизации детализации подсказок
  2. Ценность промежуточных представлений: использование JSON, Python и других промежуточных представлений может повысить точность и согласованность
  3. Важность валидаторов: интеграция внешних инструментов валидации (VAL, FastDownward и т.д.) является ключом к обеспечению качества
  4. Роль знаний предметной области: явная спецификация набора предикатов критична для оценки в различных методах
  5. Необходимость человеко-машинного сотрудничества: сложные предметные области обычно требуют взаимодействия человека и машины для обеспечения согласованности

Связанные работы

1. Другие парадигмы LLM+планирования

LLMs-as-Planners:

  • Прямая генерация последовательностей действий (Zhang et al., 2024c; Lin et al., 2023)
  • Уточнение планов через методы постфактум (Gundawar et al., 2024)
  • Ограничения: невозможно гарантировать корректность и оптимальность

LLMs-as-Heuristics:

  • Улучшение эффективности поиска через эвристическое руководство (Silver et al., 2022; Hirsch et al., 2024)
  • Обеспечение направления поиска, но не прямая генерация плана

2. Связанные обзоры

  • Huang et al. (2024c): высокоуровневая абстракция агентов планирования, улучшенных LLM
  • Pallagani et al. (2024): более широкое построение за пределами традиционного AP
  • Zhao et al. (2024): широкий обзор приложений LLM-TAMP
  • Li et al. (2024a): в основном сосредоточен на LLMs-as-Planners, дополняет данную работу

3. Классическое получение моделей планирования

  • Традиционные методы полагаются на инженерию знаний человеческих экспертов
  • Методы обучения извлекают модели из демонстраций
  • Методы LLM, на которых сосредоточена данная работа, предоставляют новый путь автоматизации

Заключение и обсуждение

Основные выводы

  1. LLMs-as-Formalizers - многообещающая парадигма: объединение способности LLMs к пониманию естественного языка и структурированного рассуждения классических планировщиков
  2. Моделирование задач относительно зрелое: существующие методы могут эффективно генерировать спецификации задач при четких описаниях
  3. Моделирование предметной области остается сложным: требуются итеративные методы, генерация множественных кандидатов и внешняя валидация
  4. Гибридное моделирование требует систематического подхода: модульный дизайн и механизмы отказоустойчивости критичны
  5. Тестирование требует постоянного улучшения: утечка данных и стандартизация оценки - ключевые проблемы

Ограничения

  1. Область охвата обзора:
    • Основное внимание уделяется структурам построения PDDL
    • Из-за ограничений по объему, технический анализ каждой работы краток
    • Могут быть пропущены соответствующие исследования из других конференций/журналов
  2. Текущие ограничения библиотеки L2P:
    • Поддерживает только базовые инструменты извлечения PDDL для полностью наблюдаемого детерминированного планирования
    • Еще не включает инструменты для продвинутых предметных областей, таких как временное планирование
  3. Ограничения методов:
    • Большинство методов полагаются на явное отображение NL в код PDDL
    • Ограниченная способность выводить полные спецификации из разреженных входных данных
    • Обработка семантических ошибок остается сложной

Будущие направления

Для RQ1 (согласованность целей):

  1. Улучшение интерпретируемости: разработка интерпретируемых систем планирования, создающих надежные, прозрачные и исправляемые выходные данные
  2. Циклы исправляющей обратной связи: улучшение механизмов обработки ошибок в предусловиях действий и отказов при выполнении
  3. Человеко-машинное сотрудничество: обеспечение согласованности через этапы предварительной обработки и циклы обратной связи человеко-машинного взаимодействия
  4. Валидация семантической корректности: анализ семантической корректности генерируемых планов, используемый как обратная связь для уточнения спецификаций PDDL

Для RQ2 (детализация описания):

  1. Обработка минимальных описаний: разработка методов, способных выводить полные спецификации PDDL из разреженных входных данных
  2. Интеграция здравого смысла: использование способности LLMs к здравому смыслу для захвата потенциальных предположений и ограничений
  3. Стандартизация подсказок: установление стандартизированной детализации подсказок для начальной генерации и итеративной обратной связи
  4. Автоматическая генерация описаний: разработка инструментов для автоматической генерации описаний PDDL (например, Nabizada et al., 2024)

Технические направления:

  1. Модульная архитектура: более адаптивные системы, поддерживающие динамическую интеграцию типов и предикатов
  2. Стратегии множественных кандидатов: генерация и оценка нескольких кандидатов моделей для обработки неопределенности
  3. Постфактум исправление: автоматическое выявление семантических несоответствий через автоматические метрики или человеческую оценку
  4. Динамические эталоны: установление управляемых сообществом динамических стандартов эталонов для предотвращения утечек данных
  5. Расширение на продвинутое планирование: расширение методов на временное планирование, вероятностное планирование и т.д.

Направления приложений:

  1. Практическое развертывание: тестирование в реальных сценариях робототехники, игровых AI, реагирования на чрезвычайные ситуации и т.д.
  2. Трансфер между предметными областями: повышение способности обобщения между предметными областями
  3. Мультимодальная интеграция: объединение визуальной, языковой и другой модальной информации

Глубокая оценка

Сильные стороны

  1. Полнота и систематичность:
    • Первый комплексный обзор, сосредоточенный на парадигме LLMs-as-Formalizers
    • Охватывает примерно 80 связанных работ с четкой классификацией
    • Предоставляет полный взгляд от моделирования задач к моделированию предметной области и гибридному моделированию
  2. Высокая практическая ценность:
    • Предоставляет библиотеку с открытым исходным кодом L2P, реализующую несколько знаковых методов
    • Модульный дизайн позволяет исследователям быстро экспериментировать и сравнивать
    • Включает подробные примеры кода и инструкции по использованию
  3. Ориентированность на проблемы:
    • Четко определены два основных исследовательских вопроса RQ1 и RQ2
    • Каждая подобласть предоставляет "Summary and Future Directions"
    • Предоставляет четкую дорожную карту для будущих исследований
  4. Техническая глубина:
    • Подробный анализ технических деталей различных методов
    • Сравнение различных стратегий подсказок, механизмов обратной связи и методов валидации
    • Предоставляет основы PDDL и примеры Blocksworld
  5. Критическое мышление:
    • Объективно указывает на ограничения каждого метода
    • Обсуждает ключевые проблемы, такие как утечка данных и стандартизация оценки
    • Подчеркивает различие между семантической корректностью и синтаксической корректностью

Недостатки

  1. Ограниченный эмпирический анализ:
    • Как обзорная работа, отсутствует систематическое сравнение экспериментов в единой структуре
    • Различные методы используют различные наборы данных и метрики оценки, что затрудняет прямое сравнение
    • Не предоставляет таблицу количественного сравнения производительности различных методов
  2. Зрелость библиотеки L2P:
    • В настоящее время переиспользует только часть знаковых методов
    • Поддерживает только базовый PDDL, не поддерживает продвинутые функции, такие как временное и вероятностное планирование
    • Требует постоянного вклада сообщества для поддержания актуальности
  3. Недостаточный теоретический анализ:
    • Отсутствует теоретическое объяснение того, почему LLMs не справляются с определенными задачами планирования
    • Не глубоко анализирует различия между различными архитектурами (GPT vs LLaMA и т.д.)
    • Ограниченное обсуждение теоретических основ инженерии подсказок
  4. Методология оценки:
    • Несмотря на обсуждение тестирования, не предлагает единую структуру оценки
    • Отсутствует четкое определение "что такое хорошая модель PDDL"
    • Стандарты и процедуры человеческой оценки недостаточно детальны
  5. Обсуждение сценариев приложений:
    • Меньше обсуждения проблем практического развертывания (вычислительные затраты, задержка и т.д.)
    • Отсутствует целевой анализ различных сценариев приложений (робототехника, игры, планирование и т.д.)
    • Недостаточное обсуждение препятствий и решений для принятия промышленностью

Влияние

  1. Академический вклад:
    • Строит мост между сообществами NLP и AI планирования
    • Четко определяет парадигму LLMs-as-Formalizers, контрастирующую с другими парадигмами
    • Устанавливает систематическую классификацию и терминологию для этой области
  2. Практическая ценность:
    • Библиотека L2P снижает барьеры входа, способствуя воспроизводимости
    • Предоставляет исследователям инструмент быстрого прототипирования
    • Может ускорить прогресс исследований в области LLM+планирования
  3. Построение сообщества:
    • Интегрирует рассеянную литературу, предоставляя единый взгляд
    • Определяет ключевые проблемы и исследовательские пробелы
    • Может вдохновить новые направления исследований и сотрудничество
  4. Потенциальное влияние:
    • Может стать стандартным справочником в этой области
    • Библиотека L2P имеет потенциал стать стандартным инструментом сообщества
    • Предложенные исследовательские вопросы могут направлять исследования на многие годы вперед

Применимые сценарии

  1. Исследователи:
    • Введение в область LLM+планирования
    • Поиск исследовательских пробелов и будущих направлений
    • Сравнение и оценка различных методов
  2. Инженеры:
    • Выбор подходящего метода LLM+планирования для конкретного приложения
    • Использование библиотеки L2P для быстрого прототипирования
    • Понимание преимуществ и недостатков различных методов и применимых сценариев
  3. Образовательные цели:
    • Использование как учебного материала для курсов LLM+планирования
    • Предоставление богатых ресурсов литературы и кода
    • Включение четких примеров введения в PDDL
  4. Конкретные области приложений:
    • Робототехника: генерация планирования робототехнических задач из инструкций на естественном языке
    • Игровой AI: генерация моделей планирования поведения NPC
    • Реагирование на чрезвычайные ситуации: генерация планов операций в чрезвычайных ситуациях из документов политики
    • Логистика: генерация планирования расписания и маршрутизации из описаний бизнеса

Библиография

Данный обзор охватывает примерно 80 связанных работ, ключевые ссылки включают:

Базовые методы:

  • Liu et al. (2023a): LLM+P - улучшение LLMs с возможностями оптимального планирования
  • Guan et al. (2023): LLM+DM - использование предварительно обученных LLMs для построения моделей мира
  • Kambhampati et al. (2024): структура LLM-Modulo - LLMs не могут планировать, но могут помочь в планировании

Тестирование:

  • Valmeekam et al. (2023a): PlanBench - оценка способностей LLMs к планированию
  • Zuo et al. (2024): Planetarium - оценка генерации проблем PDDL
  • Hu et al. (2025): Text2World - эталон генерации предметной области

Моделирование предметной области:

  • Wong et al. (2023): ADA - получение предметной области действия
  • Oswald et al. (2024): оценка операционной эквивалентности
  • Zhang et al. (2024b): PROC2PDDL - от текста к PDDL

Системы приложений:

  • Gestrin et al. (2024): NL2Plan - независимая от предметной области сквозная система
  • Kelly et al. (2023): извлечение PDDL для нарративного планирования
  • Ye et al. (2024): MORPHeus - долгосрочное планирование человеко-машинного сотрудничества

Общая оценка: Это высококачественная, своевременная и практичная обзорная статья, систематически обобщающая современное состояние исследований LLMs как инструментов формализации планирования. Классификация статьи четкая, анализ глубокий, особенно ценен вклад библиотеки L2P с открытым исходным кодом, которая делает ее не просто обзором литературы, но и практичным исследовательским инструментом. Хотя есть место для улучшения в эмпирическом сравнении и теоретическом анализе, как первый комплексный обзор в этой области, его академическая ценность и практическая ценность высоки, и он, вероятно, станет важным справочником в области LLM+автоматизированного планирования.