2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool

Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.

academic

LLM Agents Beyond Utility: An Open-Ended Perspective

基本信息

论文ID: 2510.14548
标题: LLM Agents Beyond Utility: An Open-Ended Perspective
作者: Asen Nachkov, Xi Wang, Luc Van Gool
机构: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
分类: cs.AI
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
论文链接: https://arxiv.org/abs/2510.14548

摘要

研究背景与动机

核心问题

该研究探讨了一个根本性问题：大语言模型智能体是否能够超越传统的工具角色，成为具有自主性的实体，能够规划、设计即时任务，并朝着更广泛、更模糊的目标进行推理？

研究重要性

智能体演进的关键节点：当前LLM智能体主要通过思维链推理和函数调用来解决特定任务，但仍然本质上是工具
自主性的质的飞跃：从解决预定义任务转向自主设计任务、持续存在并在环境中留下永久痕迹
开放式智能的探索：研究智能体在没有固定终止状态、任务范围或终端目标的环境中的行为

现有方法局限性

任务导向性：现有智能体仍然代表复杂但本质上的工具，用于特定任务解决
缺乏持续性：无法在任务完成后继续存在并积累经验
目标依赖性：无法自主生成和追求抽象的长期目标

研究动机

作者认为开放式智能体需要具备不同于当前智能体的特质，包括自主探索、环境塑造能力，以及自生成目标（autotelic）的特性。

核心贡献

提出了开放式LLM智能体框架：扩展ReAct框架，增加自主任务生成能力
设计了持久化交互机制：通过文件读写工具实现跨运行的知识积累和状态保持
实现了短期和长期记忆系统：区分工作记忆和情节记忆的智能体架构
进行了定性实验分析：全面评估开放式智能体的能力边界和局限性
提供了未来研究方向：为训练真正的开放式智能体指明了具体路径

方法详解

任务定义

开放式智能体：在没有固定结束状态、任务范围或终端目标的环境中，能够自主探索、生成任务并持续交互的智能体。该智能体应具备：

自主目标设定能力
跨运行的持续性
环境中的持久化影响
抽象目标的追求能力

模型架构

1. 基础智能体设置

基础模型：Qwen3-4B预训练指令调优模型
框架：ReAct（推理-行动）智能体框架，使用smolagents库
核心循环：计划-行动-观察（Plan-Act-Observe）迭代执行

2. 开放式扩展组件

目标生成模块：

在观察用户输入后、解决任务前生成目标
支持任务精炼、修改或完全替换
使用<task>...</task>标签进行结构化输出

记忆管理系统：

短期记忆：缓冲区存储当前运行中的所有交互消息
长期记忆：文件系统实现的持久化存储，智能体可按需写入

工具使用接口：

文件操作：读取、写入、列表功能
环境交互：检查工作目录、读取自身源代码
持久化机制：跨运行保存相关状态

3. 完整交互循环

1. 用户输入/反馈接收
2. 长期记忆访问
3. 任务生成（自主或基于用户输入）
4-6. ReAct循环（计划-行动-观察）
7. 长期记忆更新

技术创新点

自主目标生成：首次在ReAct框架中集成任务自生成能力
双重记忆架构：模拟人类工作记忆和情节记忆的分离设计
程序化好奇心：通过自然语言指令注入探索行为
环境持久化：通过简单文件操作实现复杂的持续性行为

实验设置

实验环境

运行环境：智能体在其实现代码的工作目录中运行
交互方式：支持预定义查询和命令行交互
工具集：文件读写、目录列表等基础操作

评价方法

采用定性分析方法，重点关注：

任务执行能力
自主行为表现
记忆管理效果
环境探索行为
自我认知能力

测试场景

单次运行用户任务：评估复杂指令执行能力
多次运行自生成任务：评估自主性和持续性
交互式反馈：评估可控性和适应性

实验结果

主要结果

单次运行表现（用户提供任务）

优势表现：

文件任务处理：能够打开文件、读取任务、解决问题并将答案写入另一文件
自我检查能力：能够识别自身的提示模板文件，通过列举目录、读取main.py来定位模板
代码理解：能够找到智能体程序，理解用户查询存储机制，并预测下一个查询

局限性发现：

模糊任务处理不佳：对于故意设计的模糊任务经常失败
自我表征缺失：无法将环境中的源代码识别为自身，缺乏第一人称自我认知
探索不足：在理解模糊提示时不够深入探索环境

多次运行表现（自生成任务）

任务生成特点：

提示敏感性：生成的任务对提示设计极其敏感，需要精心的提示工程
重复性问题：容易陷入重复生成相同任务的循环
统计模式依赖：生成的任务反映训练数据的统计模式（如计算器、密码生成器、质数检查器等）

记忆管理问题：

存储遗漏：有时忘记存储任务完成信息，导致重复生成
信息不完整：可能只存储结果而不存储任务本身
用户反馈丢失：不会主动存储用户反馈，导致调整效果短暂

成功案例分析

智能体展示了以下能力：

复杂指令执行：可靠地遵循详细的、逐步的指令
跨文件操作：能够处理涉及多个文件和操作的任务
任务适应性：能够根据用户反馈合理调整生成的任务

实验发现

关键洞察

预训练模型的局限：预训练LLM未针对任务生成进行训练，导致多种问题
记忆管理的重要性：长期记忆的设计直接影响任务多样性和连续性
提示工程的必要性：开放式行为高度依赖精心设计的系统提示
可控性保持：通过用户反馈机制可以影响智能体的任务选择

结论与讨论

主要结论

预训练LLM具备开放式智能体的基础能力，但存在显著局限
当前模型在任务生成、记忆管理和自我表征方面存在根本性缺陷
通过专门训练可能解决这些问题，实现真正的开放式智能体

局限性

提示敏感性：行为高度依赖提示设计，缺乏鲁棒性
重复性问题：容易陷入任务生成的循环模式
自我认知缺失：无法形成有效的自我表征
记忆管理不当：在信息存储和检索方面表现不佳

未来方向

专门训练：开发针对开放式决策制定的训练方法
记忆管理：改进长期记忆的设计和管理策略
探索策略：开发更有效的环境探索机制
抽象目标追求：训练智能体处理更抽象的长期目标

深度评价

优点

问题意识前瞻：提出了从工具向自主实体转变的重要问题
方法简洁有效：通过最小化的扩展实现了开放式行为的初步探索
实验设计合理：定性分析方法适合探索性研究的特点
诚实的局限性分析：客观地指出了当前方法的不足
清晰的未来方向：为后续研究提供了具体的改进路径

不足

评价方法主观：缺乏量化指标，主要依赖定性观察
实验规模有限：仅使用单一模型（Qwen3-4B），缺乏更广泛的验证
理论基础薄弱：对开放式智能体的理论框架阐述不够深入
对比实验缺失：没有与其他开放式智能体方法进行对比
安全性考虑不足：未充分讨论自主智能体的潜在风险

影响力

领域贡献：为LLM智能体的开放式研究开辟了新方向
实用价值：提供了可复现的基础框架
研究启发：为后续的专门训练研究奠定了基础
局限性认知：帮助领域认识到当前技术的边界

适用场景

研究原型：适合作为开放式智能体研究的起点
教育工具：可用于理解智能体自主性的概念
基础平台：为更复杂的开放式系统提供基础架构
概念验证：验证开放式智能体的可行性

参考文献

本文引用了开放式学习、自驱动智能体、好奇心驱动学习等领域的重要工作，包括：

Autotelic agents: Colas et al. (2022) 关于内在动机目标条件强化学习的综述
Curiosity-driven learning: Burda et al. (2018) 大规模好奇心驱动学习研究
Tool usage: Qin et al. (2024) 基础模型的工具学习综述
ReAct framework: Yao et al. (2023) 推理与行动协同的语言模型框架
Voyager: Wang et al. (2023) 开放式具身智能体的相关工作

总体评价：这是一篇具有前瞻性的探索性研究，虽然在技术深度和实验规模上有所限制，但为LLM智能体向开放式自主实体的演进提供了重要的初步探索和深刻洞察。论文的价值更多体现在问题的提出和方向的指引，为后续更深入的研究奠定了基础。