LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models
Tantakoun, Zhu, Muise
Large Language Models (LLMs) excel in various natural language tasks but often struggle with long-horizon planning problems requiring structured reasoning. This limitation has drawn interest in integrating neuro-symbolic approaches within the Automated Planning (AP) and Natural Language Processing (NLP) communities. However, identifying optimal AP deployment frameworks can be daunting and introduces new challenges. This paper aims to provide a timely survey of the current research with an in-depth analysis, positioning LLMs as tools for formalizing and refining planning specifications to support reliable off-the-shelf AP planners. By systematically reviewing the current state of research, we highlight methodologies, and identify critical challenges and future directions, hoping to contribute to the joint research on NLP and Automated Planning.
academic
LLMs как формализаторы планирования: Обзор использования больших языковых моделей для построения моделей автоматизированного планирования
Большие языковые модели (LLMs) демонстрируют превосходные результаты в различных задачах обработки естественного языка, однако испытывают затруднения с долгосрочными задачами планирования, требующими структурированного рассуждения. В данной статье представлен своевременный обзор, систематически анализирующий современное состояние исследований по позиционированию LLMs в качестве инструментов формализации и уточнения спецификаций планирования для поддержки надежных готовых систем автоматизированного планирования (AP). Статья проводит систематический обзор примерно 80 связанных работ, выделяя методологии, определяя ключевые вызовы и будущие направления, а также предоставляет библиотеку с открытым исходным кодом Language-to-Plan (L2P) на Python для содействия исследованиям в этой области.
Несмотря на превосходные результаты LLMs в задачах обработки естественного языка, они показывают неудовлетворительные результаты в долгосрочных задачах планирования и рассуждения, часто создавая ненадежные планы. Прямое использование LLMs в качестве планировщиков (LLM-as-Planner) не гарантирует корректность, оптимальность и надежность выходных данных.
Сущность планирования: Планирование является важной составляющей когнитивной системы II, требующей структурированного рассуждения, тогда как LLMs более искусны в задачах системы I
Узкое место практического применения: Извлечение моделей планирования долгое время было основным препятствием для широкого применения технологий планирования
Требования надежности: Практические приложения требуют проверяемых, интерпретируемых и надежных решений планирования
В статье предлагается парадигма LLMs-as-Formalizers: использование преимуществ LLMs (извлечение, интерпретация и уточнение спецификаций моделей планирования из естественного языка) в сочетании с преимуществами классических систем автоматизированного планирования (структурированное представление, логика и методы поиска) для построения взаимодополняющей нейросимволической структуры.
Систематическая классификация: Предложена первая комплексная система классификации для построения моделей автоматизированного планирования, управляемых LLMs, включающая:
Генерация моделей (Model Generation): моделирование задач, моделирование предметной области, гибридное моделирование
Редактирование моделей (Model Editing): уточнение кода и исправление ошибок
Эталоны моделей (Model Benchmarks): структуры оценки и наборы данных
Резюме технических методов: Систематическое обобщение общих и инновационных технических методов интеграции LLMs в структуры планирования AI и их ограничений
Структура исследовательских вопросов: Предложены два основных исследовательских вопроса (RQ):
RQ1: Как LLMs могут точно согласовать человеческие цели, обеспечивая правильное представление ожиданий и целей в спецификациях моделей планирования?
RQ2: В какой степени и с какой детализацией инструкции на естественном языке могут быть эффективно преобразованы в точные определения моделей планирования?
Библиотека с открытым исходным кодом: Предоставляется библиотека Language-to-Plan (L2P) на Python, реализующая методы из знаковых статей, охватываемых обзором, поддерживающая:
Комплексный набор инструментов для извлечения и уточнения PDDL
Модульный дизайн, поддерживающий гибкие стили подсказок и пользовательские конвейеры
Возможности полностью автономного сквозного конвейера
Руководство по будущим направлениям: Определены ключевые вызовы и обозначены будущие направления исследований в этой области
Данный обзор сосредоточен на парадигме LLMs-as-Formalizers, то есть использовании LLMs для построения спецификаций моделей автоматизированного планирования (AP) (в основном в формате PDDL), которые затем используются независимыми от предметной области планировщиками для создания решений. Это контрастирует со следующими парадигмами:
LLMs-as-Planners: LLMs напрямую генерируют последовательности действий
LLMs-as-Heuristics: LLMs улучшают эффективность поиска через эвристическое руководство
Структура LLM-Modulo: итеративное уточнение плана через внешние валидаторы для обеспечения корректности, смещение фокуса с прямого планирования на генерацию PDDL с интегрированными валидаторами
Промежуточные представления: использование ASP, Python, JSON и других промежуточных представлений, более удобных для обработки LLMs, с последующим преобразованием в PDDL
Генерация множественных кандидатов: создание нескольких кандидатов предметной области или конкретных компонентов (например, определений предикатов) для лучшей адаптации к неоднозначности и неопределенности в намерениях пользователя
Человеко-машинное сотрудничество: улучшение качества модели через этапы предварительной обработки и циклы обратной связи человеко-машинного взаимодействия
Модульный дизайн: поддержка динамической интеграции типов и предикатов, обеспечивающая более адаптивные и отказоустойчивые системы планирования на поздних этапах генерации
Статья демонстрирует, как использовать библиотеку L2P для переиспользования генерации предикатов и действий в предметной области Logistics:
Примеры генерируемых предикатов:
(truck-at ?t - truck ?l - location): грузовик ?t в настоящее время находится в местоположении ?l
(package-at ?p - package ?l - location): пакет ?p в настоящее время находится в местоположении ?l
(truck-holding ?t - truck ?p - package): грузовик ?t в настоящее время держит пакет ?p
(plane-at ?a - plane ?l - location): самолет ?a находится в местоположении ?l
Чувствительность к подсказкам: LLMs высокочувствительны к проектированию подсказок, требуя стандартизации детализации подсказок
Ценность промежуточных представлений: использование JSON, Python и других промежуточных представлений может повысить точность и согласованность
Важность валидаторов: интеграция внешних инструментов валидации (VAL, FastDownward и т.д.) является ключом к обеспечению качества
Роль знаний предметной области: явная спецификация набора предикатов критична для оценки в различных методах
Необходимость человеко-машинного сотрудничества: сложные предметные области обычно требуют взаимодействия человека и машины для обеспечения согласованности
LLMs-as-Formalizers - многообещающая парадигма: объединение способности LLMs к пониманию естественного языка и структурированного рассуждения классических планировщиков
Моделирование задач относительно зрелое: существующие методы могут эффективно генерировать спецификации задач при четких описаниях
Моделирование предметной области остается сложным: требуются итеративные методы, генерация множественных кандидатов и внешняя валидация
Гибридное моделирование требует систематического подхода: модульный дизайн и механизмы отказоустойчивости критичны
Тестирование требует постоянного улучшения: утечка данных и стандартизация оценки - ключевые проблемы
Улучшение интерпретируемости: разработка интерпретируемых систем планирования, создающих надежные, прозрачные и исправляемые выходные данные
Циклы исправляющей обратной связи: улучшение механизмов обработки ошибок в предусловиях действий и отказов при выполнении
Человеко-машинное сотрудничество: обеспечение согласованности через этапы предварительной обработки и циклы обратной связи человеко-машинного взаимодействия
Валидация семантической корректности: анализ семантической корректности генерируемых планов, используемый как обратная связь для уточнения спецификаций PDDL
Данный обзор охватывает примерно 80 связанных работ, ключевые ссылки включают:
Базовые методы:
Liu et al. (2023a): LLM+P - улучшение LLMs с возможностями оптимального планирования
Guan et al. (2023): LLM+DM - использование предварительно обученных LLMs для построения моделей мира
Kambhampati et al. (2024): структура LLM-Modulo - LLMs не могут планировать, но могут помочь в планировании
Тестирование:
Valmeekam et al. (2023a): PlanBench - оценка способностей LLMs к планированию
Zuo et al. (2024): Planetarium - оценка генерации проблем PDDL
Hu et al. (2025): Text2World - эталон генерации предметной области
Моделирование предметной области:
Wong et al. (2023): ADA - получение предметной области действия
Oswald et al. (2024): оценка операционной эквивалентности
Zhang et al. (2024b): PROC2PDDL - от текста к PDDL
Системы приложений:
Gestrin et al. (2024): NL2Plan - независимая от предметной области сквозная система
Kelly et al. (2023): извлечение PDDL для нарративного планирования
Ye et al. (2024): MORPHeus - долгосрочное планирование человеко-машинного сотрудничества
Общая оценка: Это высококачественная, своевременная и практичная обзорная статья, систематически обобщающая современное состояние исследований LLMs как инструментов формализации планирования. Классификация статьи четкая, анализ глубокий, особенно ценен вклад библиотеки L2P с открытым исходным кодом, которая делает ее не просто обзором литературы, но и практичным исследовательским инструментом. Хотя есть место для улучшения в эмпирическом сравнении и теоретическом анализе, как первый комплексный обзор в этой области, его академическая ценность и практическая ценность высоки, и он, вероятно, станет важным справочником в области LLM+автоматизированного планирования.