LLM Agents Beyond Utility: An Open-Ended Perspective
Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic
Агенты LLM за пределами утилитарности: перспектива открытого конца
Недавние агенты LLM широко используют рассуждения с цепочкой мыслей и вызовы функций. По мере роста их возможностей возникает важный вопрос: может ли это программное обеспечение представлять не только умный инструмент решения проблем, но и самостоятельную сущность, которая может планировать, разрабатывать непосредственные задачи и рассуждать в направлении более широких, более неоднозначных целей? Для изучения этого вопроса мы применяем открытую экспериментальную установку, в которой мы дополняем предварительно обученного агента LLM способностью генерировать собственные задачи, накапливать знания и обширно взаимодействовать с окружающей средой. Мы качественно изучаем полученного агента открытого конца. Он может надежно следовать сложным многошаговым инструкциям, сохранять и повторно использовать информацию между запусками, а также предлагать и решать собственные задачи, хотя остается чувствительным к дизайну подсказок, склонным к повторяющемуся генерированию задач и неспособным формировать самопредставления. Эти результаты иллюстрируют как перспективы, так и текущие ограничения адаптации предварительно обученных LLM к открытому концу и указывают на будущие направления обучения агентов управлению памятью, продуктивному исследованию и преследованию абстрактных долгосрочных целей.
Данное исследование изучает фундаментальный вопрос: могут ли агенты больших языковых моделей выйти за пределы традиционной роли инструмента и стать автономными сущностями, способными планировать, разрабатывать непосредственные задачи и рассуждать в направлении более широких и неоднозначных целей?
Ключевой момент эволюции агентов: Текущие агенты LLM в основном решают конкретные задачи посредством рассуждений с цепочкой мыслей и вызовов функций, но остаются по сути инструментами
Качественный скачок в автономности: Переход от решения предопределенных задач к самостоятельному проектированию задач, непрерывному существованию и оставлению постоянных следов в окружающей среде
Исследование открытого интеллекта: Изучение поведения агентов в среде без фиксированного конечного состояния, области задач или терминальной цели
Авторы утверждают, что агенты открытого конца должны обладать характеристиками, отличными от текущих агентов, включая автономное исследование, способность формировать окружающую среду и автотелические (самогенерирующие цели) свойства.
Предложена структура агента LLM открытого конца: Расширение фреймворка ReAct с добавлением способности к автономному генерированию задач
Разработан механизм постоянного взаимодействия: Реализация накопления знаний и сохранения состояния между запусками через инструменты чтения-записи файлов
Реализована система кратковременной и долговременной памяти: Архитектура агента, различающая рабочую память и эпизодическую память
Проведен качественный экспериментальный анализ: Комплексная оценка границ возможностей и ограничений агента открытого конца
Предложены направления будущих исследований: Указаны конкретные пути обучения истинно открытых агентов
Агент открытого конца: Агент, способный к автономному исследованию, генерированию задач и непрерывному взаимодействию в среде без фиксированного конечного состояния, области задач или терминальной цели. Такой агент должен обладать:
1. Получение входных данных/обратной связи пользователя
2. Доступ к долговременной памяти
3. Генерирование задачи (автономное или на основе входных данных пользователя)
4-6. Цикл ReAct (планирование-действие-наблюдение)
7. Обновление долговременной памяти
Обработка задач с файлами: Способность открывать файлы, читать задачи, решать проблемы и записывать ответы в другой файл
Способность к самопроверке: Способность идентифицировать собственный файл шаблона подсказок, локализовать шаблон путем перечисления каталога и чтения main.py
Понимание кода: Способность найти программу агента, понять механизм хранения запросов пользователя и предсказать следующий запрос
Выявленные ограничения:
Плохая обработка неоднозначных задач: Часто не справляется с намеренно разработанными неоднозначными задачами
Отсутствие самопредставления: Неспособность распознать исходный код в окружающей среде как себя, отсутствие самопознания от первого лица
Недостаточное исследование: Недостаточно глубокое исследование окружающей среды при понимании неоднозначных подсказок
Чувствительность к подсказкам: Генерируемые задачи чрезвычайно чувствительны к дизайну подсказок, требуют тщательной инженерии подсказок
Проблема повторяемости: Легко попадает в цикл повторного генерирования одних и тех же задач
Зависимость от статистических закономерностей: Генерируемые задачи отражают статистические закономерности обучающих данных (например, калькуляторы, генераторы паролей, проверки простых чисел и т.д.)
Проблемы управления памятью:
Упущения при хранении: Иногда забывает сохранять информацию о завершении задач, что приводит к повторному генерированию
Неполная информация: Может сохранять только результаты, а не саму задачу
Потеря обратной связи пользователя: Не сохраняет активно обратную связь пользователя, что приводит к кратковременности корректировок
В данной работе цитируются важные работы в областях открытого обучения, автономных агентов, обучения, управляемого любопытством, и других смежных областях, включая:
Автотелические агенты: Обзор Colas et al. (2022) по обучению с подкреплением, обусловленному целями, с внутренней мотивацией
Обучение, управляемое любопытством: Исследование Burda et al. (2018) по крупномасштабному обучению, управляемому любопытством
Использование инструментов: Обзор Qin et al. (2024) по обучению инструментам в фундаментальных моделях
Фреймворк ReAct: Фреймворк Yao et al. (2023) по синергии рассуждения и действия языковых моделей
Voyager: Связанные работы Wang et al. (2023) по открытым воплощенным агентам
Общая оценка: Это исследовательская работа с дальновидным взглядом, которая, хотя и имеет ограничения в технической глубине и масштабе экспериментов, предоставляет важное предварительное исследование и глубокие инсайты для эволюции агентов LLM от инструментов к открытым автономным сущностям. Ценность статьи проявляется больше в постановке проблемы и указании направления, закладывая основу для последующих более глубоких исследований.