2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool

Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.

academic

Agentes LLM Más Allá de la Utilidad: Una Perspectiva Abierta

Información Básica

ID del Artículo: 2510.14548
Título: LLM Agents Beyond Utility: An Open-Ended Perspective
Autores: Asen Nachkov, Xi Wang, Luc Van Gool
Instituciones: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
Clasificación: cs.AI
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
Enlace del Artículo: https://arxiv.org/abs/2510.14548

Resumen

Los agentes LLM recientes han hecho un gran uso del razonamiento de cadena de pensamiento y llamadas de función. A medida que crecen sus capacidades, surge una pregunta importante: ¿puede este software representar no solo una herramienta inteligente de resolución de problemas, sino una entidad en sí misma, que pueda planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos? Para estudiar esta pregunta, adoptamos un entorno experimental abierto donde aumentamos un agente LLM preentrenado con la capacidad de generar sus propias tareas, acumular conocimiento e interactuar extensamente con su entorno. Estudiamos el agente abierto resultante cualitativamente. Puede seguir de manera confiable instrucciones complejas de múltiples pasos, almacenar y reutilizar información entre ejecuciones, y proponer y resolver sus propias tareas, aunque sigue siendo sensible al diseño de indicaciones, propenso a la generación repetitiva de tareas e incapaz de formar autorrepresentaciones. Estos hallazgos ilustran tanto la promesa como los límites actuales de adaptar LLMs preentrenados hacia la apertura, y señalan direcciones futuras para entrenar agentes que gestionen memoria, exploren productivamente y persigan objetivos abstractos a largo plazo.

Contexto de Investigación y Motivación

Pregunta Central

Esta investigación explora una pregunta fundamental: ¿pueden los agentes de modelos de lenguaje grande trascender el rol tradicional de herramienta y convertirse en entidades autónomas capaces de planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos?

Importancia de la Investigación

Punto clave en la evolución de agentes: Los agentes LLM actuales se basan principalmente en razonamiento de cadena de pensamiento y llamadas de función para resolver tareas específicas, pero siguen siendo esencialmente herramientas
Salto cualitativo en autonomía: Transición desde la resolución de tareas predefinidas hacia el diseño autónomo de tareas, existencia continua e impacto permanente en el entorno
Exploración de inteligencia abierta: Investigación del comportamiento de agentes en entornos sin estado terminal fijo, alcance de tareas u objetivo final definido

Limitaciones de Métodos Existentes

Orientación a tareas: Los agentes existentes siguen representando herramientas complejas pero esencialmente orientadas a la resolución de tareas específicas
Falta de persistencia: Incapacidad para continuar existiendo después de completar tareas y acumular experiencia
Dependencia de objetivos: Incapacidad para generar autónomamente y perseguir objetivos abstractos a largo plazo

Motivación de la Investigación

Los autores argumentan que los agentes de inteligencia abierta requieren características diferentes de los agentes actuales, incluyendo exploración autónoma, capacidad de moldear el entorno y características de objetivos autogenerados (autotélicos).

Contribuciones Principales

Propuesta de marco de agentes LLM abiertos: Extensión del marco ReAct con capacidad de generación autónoma de tareas
Diseño de mecanismo de interacción persistente: Implementación de acumulación de conocimiento entre ejecuciones y mantenimiento de estado mediante herramientas de lectura/escritura de archivos
Implementación de sistema de memoria a corto y largo plazo: Arquitectura de agente que diferencia entre memoria de trabajo y memoria episódica
Análisis experimental cualitativo: Evaluación integral de los límites de capacidad y limitaciones del agente abierto
Provisión de direcciones de investigación futuras: Indicación de caminos específicos para entrenar agentes verdaderamente abiertos

Explicación Detallada del Método

Definición de Tareas

Agente abierto: Agente capaz de exploración autónoma, generación de tareas e interacción continua en entornos sin estado final fijo, alcance de tareas o objetivo terminal definido. Este agente debe poseer:

Capacidad de establecimiento autónomo de objetivos
Persistencia entre ejecuciones
Impacto permanente en el entorno
Capacidad de perseguir objetivos abstractos

Arquitectura del Modelo

1. Configuración del Agente Base

Modelo base: Modelo Qwen3-4B preentrenado con ajuste de instrucciones
Marco: Marco ReAct (Razonamiento-Acción) de agentes, utilizando la biblioteca smolagents
Ciclo central: Ejecución iterativa de Planificación-Acción-Observación

2. Componentes de Extensión Abierta

Módulo de Generación de Objetivos:

Genera objetivos después de observar entrada del usuario pero antes de resolver tareas
Soporta refinamiento, modificación o reemplazo completo de tareas
Utiliza etiquetas <task>...</task> para salida estructurada

Sistema de Gestión de Memoria:

Memoria a corto plazo: Búfer que almacena todos los mensajes de interacción en la ejecución actual
Memoria a largo plazo: Almacenamiento persistente implementado mediante sistema de archivos, escribible bajo demanda por el agente

Interfaz de Uso de Herramientas:

Operaciones de archivo: Funcionalidades de lectura, escritura y listado
Interacción ambiental: Verificación del directorio de trabajo, lectura del código fuente propio
Mecanismo de persistencia: Guardado de estado relevante entre ejecuciones

3. Ciclo de Interacción Completo

1. Recepción de entrada/retroalimentación del usuario
2. Acceso a memoria a largo plazo
3. Generación de tareas (autónoma o basada en entrada del usuario)
4-6. Ciclo ReAct (Planificación-Acción-Observación)
7. Actualización de memoria a largo plazo

Puntos de Innovación Técnica

Generación autónoma de objetivos: Primera integración de capacidad de autogeneración de tareas en el marco ReAct
Arquitectura de memoria dual: Diseño que simula la separación entre memoria de trabajo y memoria episódica humana
Curiosidad programada: Inyección de comportamiento exploratorio mediante instrucciones en lenguaje natural
Persistencia ambiental: Implementación de comportamiento de continuidad complejo mediante operaciones simples de archivos

Configuración Experimental

Entorno Experimental

Entorno de ejecución: El agente se ejecuta en el directorio de trabajo de su código de implementación
Modo de interacción: Soporta consultas predefinidas e interacción por línea de comandos
Conjunto de herramientas: Operaciones básicas de lectura/escritura de archivos, listado de directorios, etc.

Método de Evaluación

Se adopta método de análisis cualitativo, enfocándose en:

Capacidad de ejecución de tareas
Desempeño de comportamiento autónomo
Efectividad de gestión de memoria
Comportamiento de exploración ambiental
Capacidad de autocognición

Escenarios de Prueba

Tareas de usuario en ejecución única: Evaluación de capacidad de ejecución de instrucciones complejas
Tareas autogeneradas en múltiples ejecuciones: Evaluación de autonomía y persistencia
Retroalimentación interactiva: Evaluación de controlabilidad y adaptabilidad

Resultados Experimentales

Resultados Principales

Desempeño en Ejecución Única (Tareas Proporcionadas por Usuario)

Desempeño Exitoso:

Procesamiento de tareas de archivo: Capacidad de abrir archivos, leer tareas, resolver problemas y escribir respuestas en otro archivo
Capacidad de autoverificación: Capacidad de identificar archivos de plantilla de indicaciones propias, localizar plantillas mediante enumeración de directorios y lectura de main.py
Comprensión de código: Capacidad de encontrar el programa del agente, comprender el mecanismo de almacenamiento de consultas de usuario y predecir la siguiente consulta

Hallazgos de Limitaciones:

Desempeño deficiente en tareas ambiguas: Falla frecuente en tareas deliberadamente diseñadas como ambiguas
Ausencia de autorrepresentación: Incapacidad de reconocer el código fuente en el entorno como a sí mismo, falta de autocognición en primera persona
Exploración insuficiente: Exploración ambiental no lo suficientemente profunda al comprender indicaciones ambiguas

Desempeño en Múltiples Ejecuciones (Tareas Autogeneradas)

Características de Generación de Tareas:

Sensibilidad a indicaciones: Las tareas generadas son extremadamente sensibles al diseño de indicaciones, requiriendo ingeniería de indicaciones cuidadosa
Problema de repetición: Tendencia a caer en ciclos de generación repetida de tareas idénticas
Dependencia de patrones estadísticos: Las tareas generadas reflejan patrones estadísticos de datos de entrenamiento (como calculadoras, generadores de contraseñas, verificadores de números primos, etc.)

Problemas de Gestión de Memoria:

Omisiones de almacenamiento: A veces olvida almacenar información de finalización de tareas, causando generación repetida
Información incompleta: Puede almacenar solo resultados sin almacenar las tareas mismas
Pérdida de retroalimentación del usuario: No almacena proactivamente retroalimentación del usuario, causando efectos de ajuste temporales

Análisis de Casos de Éxito

El agente demostró las siguientes capacidades:

Ejecución de instrucciones complejas: Seguimiento confiable de instrucciones detalladas y paso a paso
Operaciones entre archivos: Capacidad de manejar tareas que involucran múltiples archivos y operaciones
Adaptabilidad de tareas: Ajuste razonable de tareas generadas basado en retroalimentación del usuario

Hallazgos Experimentales

Perspectivas Clave

Limitaciones del modelo preentrenado: Los LLMs preentrenados no han sido entrenados para generación de tareas, causando múltiples problemas
Importancia de gestión de memoria: El diseño de memoria a largo plazo afecta directamente la diversidad y continuidad de tareas
Necesidad de ingeniería de indicaciones: El comportamiento abierto depende altamente de indicaciones de sistema cuidadosamente diseñadas
Mantenimiento de controlabilidad: El mecanismo de retroalimentación del usuario puede influir en la selección de tareas del agente

Trabajo Relacionado

Direcciones de Investigación Principales

Aprendizaje automotivado (Agentes Autotélicos): Aprendizaje por refuerzo condicionado por objetivos con motivación intrínseca
Aprendizaje impulsado por curiosidad: Métodos que promueven exploración mediante recompensas intrínsecas
Motivación intrínseca: Mecanismos para asignar recompensas intrínsecas a acciones individuales
Uso de herramientas: Capacidades de llamadas de función externa y ejecución de código de agentes LLM

Puntos de Innovación de Este Artículo

Abstracción de nivel superior: Generación directa de objetivos completos en lenguaje natural, en lugar de asignar recompensas a acciones individuales
Mecanismo de persistencia: Implementación de comportamiento de continuidad complejo mediante operaciones simples de archivos
Viabilidad práctica: Método práctico basado en modelos preentrenados existentes

Conclusiones y Discusión

Conclusiones Principales

Los LLMs preentrenados poseen capacidades fundamentales para agentes abiertos, pero con limitaciones significativas
Los modelos actuales tienen defectos fundamentales en generación de tareas, gestión de memoria y autorrepresentación
El entrenamiento especializado podría resolver estos problemas, realizando verdaderos agentes abiertos

Limitaciones

Sensibilidad a indicaciones: El comportamiento depende altamente del diseño de indicaciones, careciendo de robustez
Problema de repetición: Tendencia a caer en patrones cíclicos de generación de tareas
Ausencia de autocognición: Incapacidad de formar autorrepresentaciones efectivas
Gestión de memoria inadecuada: Desempeño deficiente en almacenamiento y recuperación de información

Direcciones Futuras

Entrenamiento especializado: Desarrollo de métodos de entrenamiento para toma de decisiones abierta
Gestión de memoria: Mejora del diseño y estrategias de gestión de memoria a largo plazo
Estrategias de exploración: Desarrollo de mecanismos de exploración ambiental más efectivos
Persecución de objetivos abstractos: Entrenamiento de agentes para manejar objetivos a largo plazo más abstractos

Evaluación Profunda

Fortalezas

Conciencia prospectiva del problema: Planteamiento de la importante pregunta sobre la transición de herramienta a entidad autónoma
Método simple y efectivo: Implementación de exploración inicial de comportamiento abierto mediante extensión mínima
Diseño experimental razonable: El método de análisis cualitativo es apropiado para características de investigación exploratoria
Análisis honesto de limitaciones: Identificación objetiva de insuficiencias del método actual
Direcciones futuras claras: Provisión de caminos de mejora específicos para investigación posterior

Deficiencias

Método de evaluación subjetivo: Carencia de métricas cuantitativas, dependencia principalmente de observación cualitativa
Escala experimental limitada: Uso de solo un modelo único (Qwen3-4B), carencia de validación más amplia
Fundamento teórico débil: Exposición insuficiente del marco teórico para agentes abiertos
Ausencia de experimentos comparativos: Falta de comparación con otros métodos de agentes abiertos
Consideración insuficiente de seguridad: Discusión inadecuada de riesgos potenciales de agentes autónomos

Impacto

Contribución al campo: Apertura de nueva dirección para investigación abierta de agentes LLM
Valor práctico: Provisión de marco base reproducible
Inspiración investigadora: Establecimiento de base para investigación posterior de entrenamiento especializado
Reconocimiento de limitaciones: Ayuda al campo a reconocer los límites de la tecnología actual

Escenarios Aplicables

Prototipo de investigación: Adecuado como punto de partida para investigación de agentes abiertos
Herramienta educativa: Utilizable para comprender conceptos de autonomía de agentes
Plataforma base: Provisión de infraestructura base para sistemas abiertos más complejos
Prueba de concepto: Verificación de viabilidad de agentes abiertos

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje abierto, agentes automotivados y aprendizaje impulsado por curiosidad, incluyendo:

Agentes autotélicos: Síntesis de Colas et al. (2022) sobre aprendizaje por refuerzo condicionado por objetivos con motivación intrínseca
Aprendizaje impulsado por curiosidad: Investigación de Burda et al. (2018) sobre aprendizaje a gran escala impulsado por curiosidad
Uso de herramientas: Síntesis de Qin et al. (2024) sobre aprendizaje de herramientas de modelos fundamentales
Marco ReAct: Marco de Yao et al. (2023) sobre sinergia de razonamiento y acción de modelos de lenguaje
Voyager: Trabajo relacionado de Wang et al. (2023) sobre agentes encarnados abiertos

Evaluación General: Este es un artículo de investigación exploratoria prospectiva que, aunque tiene limitaciones en profundidad técnica y escala experimental, proporciona exploración inicial importante y perspectivas profundas para la evolución de agentes LLM hacia entidades autónomas abiertas. El valor del artículo se manifiesta más en el planteamiento de problemas y orientación de direcciones, estableciendo base para investigación posterior más profunda.