LLM Agents Beyond Utility: An Open-Ended Perspective
Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic
Agentes LLM Más Allá de la Utilidad: Una Perspectiva Abierta
Los agentes LLM recientes han hecho un gran uso del razonamiento de cadena de pensamiento y llamadas de función. A medida que crecen sus capacidades, surge una pregunta importante: ¿puede este software representar no solo una herramienta inteligente de resolución de problemas, sino una entidad en sí misma, que pueda planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos? Para estudiar esta pregunta, adoptamos un entorno experimental abierto donde aumentamos un agente LLM preentrenado con la capacidad de generar sus propias tareas, acumular conocimiento e interactuar extensamente con su entorno. Estudiamos el agente abierto resultante cualitativamente. Puede seguir de manera confiable instrucciones complejas de múltiples pasos, almacenar y reutilizar información entre ejecuciones, y proponer y resolver sus propias tareas, aunque sigue siendo sensible al diseño de indicaciones, propenso a la generación repetitiva de tareas e incapaz de formar autorrepresentaciones. Estos hallazgos ilustran tanto la promesa como los límites actuales de adaptar LLMs preentrenados hacia la apertura, y señalan direcciones futuras para entrenar agentes que gestionen memoria, exploren productivamente y persigan objetivos abstractos a largo plazo.
Esta investigación explora una pregunta fundamental: ¿pueden los agentes de modelos de lenguaje grande trascender el rol tradicional de herramienta y convertirse en entidades autónomas capaces de planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos?
Punto clave en la evolución de agentes: Los agentes LLM actuales se basan principalmente en razonamiento de cadena de pensamiento y llamadas de función para resolver tareas específicas, pero siguen siendo esencialmente herramientas
Salto cualitativo en autonomía: Transición desde la resolución de tareas predefinidas hacia el diseño autónomo de tareas, existencia continua e impacto permanente en el entorno
Exploración de inteligencia abierta: Investigación del comportamiento de agentes en entornos sin estado terminal fijo, alcance de tareas u objetivo final definido
Orientación a tareas: Los agentes existentes siguen representando herramientas complejas pero esencialmente orientadas a la resolución de tareas específicas
Falta de persistencia: Incapacidad para continuar existiendo después de completar tareas y acumular experiencia
Dependencia de objetivos: Incapacidad para generar autónomamente y perseguir objetivos abstractos a largo plazo
Los autores argumentan que los agentes de inteligencia abierta requieren características diferentes de los agentes actuales, incluyendo exploración autónoma, capacidad de moldear el entorno y características de objetivos autogenerados (autotélicos).
Propuesta de marco de agentes LLM abiertos: Extensión del marco ReAct con capacidad de generación autónoma de tareas
Diseño de mecanismo de interacción persistente: Implementación de acumulación de conocimiento entre ejecuciones y mantenimiento de estado mediante herramientas de lectura/escritura de archivos
Implementación de sistema de memoria a corto y largo plazo: Arquitectura de agente que diferencia entre memoria de trabajo y memoria episódica
Análisis experimental cualitativo: Evaluación integral de los límites de capacidad y limitaciones del agente abierto
Provisión de direcciones de investigación futuras: Indicación de caminos específicos para entrenar agentes verdaderamente abiertos
Agente abierto: Agente capaz de exploración autónoma, generación de tareas e interacción continua en entornos sin estado final fijo, alcance de tareas o objetivo terminal definido. Este agente debe poseer:
Capacidad de establecimiento autónomo de objetivos
1. Recepción de entrada/retroalimentación del usuario
2. Acceso a memoria a largo plazo
3. Generación de tareas (autónoma o basada en entrada del usuario)
4-6. Ciclo ReAct (Planificación-Acción-Observación)
7. Actualización de memoria a largo plazo
Procesamiento de tareas de archivo: Capacidad de abrir archivos, leer tareas, resolver problemas y escribir respuestas en otro archivo
Capacidad de autoverificación: Capacidad de identificar archivos de plantilla de indicaciones propias, localizar plantillas mediante enumeración de directorios y lectura de main.py
Comprensión de código: Capacidad de encontrar el programa del agente, comprender el mecanismo de almacenamiento de consultas de usuario y predecir la siguiente consulta
Hallazgos de Limitaciones:
Desempeño deficiente en tareas ambiguas: Falla frecuente en tareas deliberadamente diseñadas como ambiguas
Ausencia de autorrepresentación: Incapacidad de reconocer el código fuente en el entorno como a sí mismo, falta de autocognición en primera persona
Exploración insuficiente: Exploración ambiental no lo suficientemente profunda al comprender indicaciones ambiguas
Sensibilidad a indicaciones: Las tareas generadas son extremadamente sensibles al diseño de indicaciones, requiriendo ingeniería de indicaciones cuidadosa
Problema de repetición: Tendencia a caer en ciclos de generación repetida de tareas idénticas
Dependencia de patrones estadísticos: Las tareas generadas reflejan patrones estadísticos de datos de entrenamiento (como calculadoras, generadores de contraseñas, verificadores de números primos, etc.)
Problemas de Gestión de Memoria:
Omisiones de almacenamiento: A veces olvida almacenar información de finalización de tareas, causando generación repetida
Información incompleta: Puede almacenar solo resultados sin almacenar las tareas mismas
Pérdida de retroalimentación del usuario: No almacena proactivamente retroalimentación del usuario, causando efectos de ajuste temporales
Este artículo cita trabajos importantes en los campos de aprendizaje abierto, agentes automotivados y aprendizaje impulsado por curiosidad, incluyendo:
Agentes autotélicos: Síntesis de Colas et al. (2022) sobre aprendizaje por refuerzo condicionado por objetivos con motivación intrínseca
Aprendizaje impulsado por curiosidad: Investigación de Burda et al. (2018) sobre aprendizaje a gran escala impulsado por curiosidad
Uso de herramientas: Síntesis de Qin et al. (2024) sobre aprendizaje de herramientas de modelos fundamentales
Marco ReAct: Marco de Yao et al. (2023) sobre sinergia de razonamiento y acción de modelos de lenguaje
Voyager: Trabajo relacionado de Wang et al. (2023) sobre agentes encarnados abiertos
Evaluación General: Este es un artículo de investigación exploratoria prospectiva que, aunque tiene limitaciones en profundidad técnica y escala experimental, proporciona exploración inicial importante y perspectivas profundas para la evolución de agentes LLM hacia entidades autónomas abiertas. El valor del artículo se manifiesta más en el planteamiento de problemas y orientación de direcciones, estableciendo base para investigación posterior más profunda.