2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

Agentes LLM Más Allá de la Utilidad: Una Perspectiva Abierta

Información Básica

  • ID del Artículo: 2510.14548
  • Título: LLM Agents Beyond Utility: An Open-Ended Perspective
  • Autores: Asen Nachkov, Xi Wang, Luc Van Gool
  • Instituciones: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
  • Clasificación: cs.AI
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
  • Enlace del Artículo: https://arxiv.org/abs/2510.14548

Resumen

Los agentes LLM recientes han hecho un gran uso del razonamiento de cadena de pensamiento y llamadas de función. A medida que crecen sus capacidades, surge una pregunta importante: ¿puede este software representar no solo una herramienta inteligente de resolución de problemas, sino una entidad en sí misma, que pueda planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos? Para estudiar esta pregunta, adoptamos un entorno experimental abierto donde aumentamos un agente LLM preentrenado con la capacidad de generar sus propias tareas, acumular conocimiento e interactuar extensamente con su entorno. Estudiamos el agente abierto resultante cualitativamente. Puede seguir de manera confiable instrucciones complejas de múltiples pasos, almacenar y reutilizar información entre ejecuciones, y proponer y resolver sus propias tareas, aunque sigue siendo sensible al diseño de indicaciones, propenso a la generación repetitiva de tareas e incapaz de formar autorrepresentaciones. Estos hallazgos ilustran tanto la promesa como los límites actuales de adaptar LLMs preentrenados hacia la apertura, y señalan direcciones futuras para entrenar agentes que gestionen memoria, exploren productivamente y persigan objetivos abstractos a largo plazo.

Contexto de Investigación y Motivación

Pregunta Central

Esta investigación explora una pregunta fundamental: ¿pueden los agentes de modelos de lenguaje grande trascender el rol tradicional de herramienta y convertirse en entidades autónomas capaces de planificar, diseñar tareas inmediatas y razonar hacia objetivos más amplios y ambiguos?

Importancia de la Investigación

  1. Punto clave en la evolución de agentes: Los agentes LLM actuales se basan principalmente en razonamiento de cadena de pensamiento y llamadas de función para resolver tareas específicas, pero siguen siendo esencialmente herramientas
  2. Salto cualitativo en autonomía: Transición desde la resolución de tareas predefinidas hacia el diseño autónomo de tareas, existencia continua e impacto permanente en el entorno
  3. Exploración de inteligencia abierta: Investigación del comportamiento de agentes en entornos sin estado terminal fijo, alcance de tareas u objetivo final definido

Limitaciones de Métodos Existentes

  1. Orientación a tareas: Los agentes existentes siguen representando herramientas complejas pero esencialmente orientadas a la resolución de tareas específicas
  2. Falta de persistencia: Incapacidad para continuar existiendo después de completar tareas y acumular experiencia
  3. Dependencia de objetivos: Incapacidad para generar autónomamente y perseguir objetivos abstractos a largo plazo

Motivación de la Investigación

Los autores argumentan que los agentes de inteligencia abierta requieren características diferentes de los agentes actuales, incluyendo exploración autónoma, capacidad de moldear el entorno y características de objetivos autogenerados (autotélicos).

Contribuciones Principales

  1. Propuesta de marco de agentes LLM abiertos: Extensión del marco ReAct con capacidad de generación autónoma de tareas
  2. Diseño de mecanismo de interacción persistente: Implementación de acumulación de conocimiento entre ejecuciones y mantenimiento de estado mediante herramientas de lectura/escritura de archivos
  3. Implementación de sistema de memoria a corto y largo plazo: Arquitectura de agente que diferencia entre memoria de trabajo y memoria episódica
  4. Análisis experimental cualitativo: Evaluación integral de los límites de capacidad y limitaciones del agente abierto
  5. Provisión de direcciones de investigación futuras: Indicación de caminos específicos para entrenar agentes verdaderamente abiertos

Explicación Detallada del Método

Definición de Tareas

Agente abierto: Agente capaz de exploración autónoma, generación de tareas e interacción continua en entornos sin estado final fijo, alcance de tareas o objetivo terminal definido. Este agente debe poseer:

  • Capacidad de establecimiento autónomo de objetivos
  • Persistencia entre ejecuciones
  • Impacto permanente en el entorno
  • Capacidad de perseguir objetivos abstractos

Arquitectura del Modelo

1. Configuración del Agente Base

  • Modelo base: Modelo Qwen3-4B preentrenado con ajuste de instrucciones
  • Marco: Marco ReAct (Razonamiento-Acción) de agentes, utilizando la biblioteca smolagents
  • Ciclo central: Ejecución iterativa de Planificación-Acción-Observación

2. Componentes de Extensión Abierta

Módulo de Generación de Objetivos:

  • Genera objetivos después de observar entrada del usuario pero antes de resolver tareas
  • Soporta refinamiento, modificación o reemplazo completo de tareas
  • Utiliza etiquetas <task>...</task> para salida estructurada

Sistema de Gestión de Memoria:

  • Memoria a corto plazo: Búfer que almacena todos los mensajes de interacción en la ejecución actual
  • Memoria a largo plazo: Almacenamiento persistente implementado mediante sistema de archivos, escribible bajo demanda por el agente

Interfaz de Uso de Herramientas:

  • Operaciones de archivo: Funcionalidades de lectura, escritura y listado
  • Interacción ambiental: Verificación del directorio de trabajo, lectura del código fuente propio
  • Mecanismo de persistencia: Guardado de estado relevante entre ejecuciones

3. Ciclo de Interacción Completo

1. Recepción de entrada/retroalimentación del usuario
2. Acceso a memoria a largo plazo
3. Generación de tareas (autónoma o basada en entrada del usuario)
4-6. Ciclo ReAct (Planificación-Acción-Observación)
7. Actualización de memoria a largo plazo

Puntos de Innovación Técnica

  1. Generación autónoma de objetivos: Primera integración de capacidad de autogeneración de tareas en el marco ReAct
  2. Arquitectura de memoria dual: Diseño que simula la separación entre memoria de trabajo y memoria episódica humana
  3. Curiosidad programada: Inyección de comportamiento exploratorio mediante instrucciones en lenguaje natural
  4. Persistencia ambiental: Implementación de comportamiento de continuidad complejo mediante operaciones simples de archivos

Configuración Experimental

Entorno Experimental

  • Entorno de ejecución: El agente se ejecuta en el directorio de trabajo de su código de implementación
  • Modo de interacción: Soporta consultas predefinidas e interacción por línea de comandos
  • Conjunto de herramientas: Operaciones básicas de lectura/escritura de archivos, listado de directorios, etc.

Método de Evaluación

Se adopta método de análisis cualitativo, enfocándose en:

  • Capacidad de ejecución de tareas
  • Desempeño de comportamiento autónomo
  • Efectividad de gestión de memoria
  • Comportamiento de exploración ambiental
  • Capacidad de autocognición

Escenarios de Prueba

  1. Tareas de usuario en ejecución única: Evaluación de capacidad de ejecución de instrucciones complejas
  2. Tareas autogeneradas en múltiples ejecuciones: Evaluación de autonomía y persistencia
  3. Retroalimentación interactiva: Evaluación de controlabilidad y adaptabilidad

Resultados Experimentales

Resultados Principales

Desempeño en Ejecución Única (Tareas Proporcionadas por Usuario)

Desempeño Exitoso:

  • Procesamiento de tareas de archivo: Capacidad de abrir archivos, leer tareas, resolver problemas y escribir respuestas en otro archivo
  • Capacidad de autoverificación: Capacidad de identificar archivos de plantilla de indicaciones propias, localizar plantillas mediante enumeración de directorios y lectura de main.py
  • Comprensión de código: Capacidad de encontrar el programa del agente, comprender el mecanismo de almacenamiento de consultas de usuario y predecir la siguiente consulta

Hallazgos de Limitaciones:

  • Desempeño deficiente en tareas ambiguas: Falla frecuente en tareas deliberadamente diseñadas como ambiguas
  • Ausencia de autorrepresentación: Incapacidad de reconocer el código fuente en el entorno como a sí mismo, falta de autocognición en primera persona
  • Exploración insuficiente: Exploración ambiental no lo suficientemente profunda al comprender indicaciones ambiguas

Desempeño en Múltiples Ejecuciones (Tareas Autogeneradas)

Características de Generación de Tareas:

  • Sensibilidad a indicaciones: Las tareas generadas son extremadamente sensibles al diseño de indicaciones, requiriendo ingeniería de indicaciones cuidadosa
  • Problema de repetición: Tendencia a caer en ciclos de generación repetida de tareas idénticas
  • Dependencia de patrones estadísticos: Las tareas generadas reflejan patrones estadísticos de datos de entrenamiento (como calculadoras, generadores de contraseñas, verificadores de números primos, etc.)

Problemas de Gestión de Memoria:

  • Omisiones de almacenamiento: A veces olvida almacenar información de finalización de tareas, causando generación repetida
  • Información incompleta: Puede almacenar solo resultados sin almacenar las tareas mismas
  • Pérdida de retroalimentación del usuario: No almacena proactivamente retroalimentación del usuario, causando efectos de ajuste temporales

Análisis de Casos de Éxito

El agente demostró las siguientes capacidades:

  1. Ejecución de instrucciones complejas: Seguimiento confiable de instrucciones detalladas y paso a paso
  2. Operaciones entre archivos: Capacidad de manejar tareas que involucran múltiples archivos y operaciones
  3. Adaptabilidad de tareas: Ajuste razonable de tareas generadas basado en retroalimentación del usuario

Hallazgos Experimentales

Perspectivas Clave

  1. Limitaciones del modelo preentrenado: Los LLMs preentrenados no han sido entrenados para generación de tareas, causando múltiples problemas
  2. Importancia de gestión de memoria: El diseño de memoria a largo plazo afecta directamente la diversidad y continuidad de tareas
  3. Necesidad de ingeniería de indicaciones: El comportamiento abierto depende altamente de indicaciones de sistema cuidadosamente diseñadas
  4. Mantenimiento de controlabilidad: El mecanismo de retroalimentación del usuario puede influir en la selección de tareas del agente

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Aprendizaje automotivado (Agentes Autotélicos): Aprendizaje por refuerzo condicionado por objetivos con motivación intrínseca
  2. Aprendizaje impulsado por curiosidad: Métodos que promueven exploración mediante recompensas intrínsecas
  3. Motivación intrínseca: Mecanismos para asignar recompensas intrínsecas a acciones individuales
  4. Uso de herramientas: Capacidades de llamadas de función externa y ejecución de código de agentes LLM

Puntos de Innovación de Este Artículo

  1. Abstracción de nivel superior: Generación directa de objetivos completos en lenguaje natural, en lugar de asignar recompensas a acciones individuales
  2. Mecanismo de persistencia: Implementación de comportamiento de continuidad complejo mediante operaciones simples de archivos
  3. Viabilidad práctica: Método práctico basado en modelos preentrenados existentes

Conclusiones y Discusión

Conclusiones Principales

  1. Los LLMs preentrenados poseen capacidades fundamentales para agentes abiertos, pero con limitaciones significativas
  2. Los modelos actuales tienen defectos fundamentales en generación de tareas, gestión de memoria y autorrepresentación
  3. El entrenamiento especializado podría resolver estos problemas, realizando verdaderos agentes abiertos

Limitaciones

  1. Sensibilidad a indicaciones: El comportamiento depende altamente del diseño de indicaciones, careciendo de robustez
  2. Problema de repetición: Tendencia a caer en patrones cíclicos de generación de tareas
  3. Ausencia de autocognición: Incapacidad de formar autorrepresentaciones efectivas
  4. Gestión de memoria inadecuada: Desempeño deficiente en almacenamiento y recuperación de información

Direcciones Futuras

  1. Entrenamiento especializado: Desarrollo de métodos de entrenamiento para toma de decisiones abierta
  2. Gestión de memoria: Mejora del diseño y estrategias de gestión de memoria a largo plazo
  3. Estrategias de exploración: Desarrollo de mecanismos de exploración ambiental más efectivos
  4. Persecución de objetivos abstractos: Entrenamiento de agentes para manejar objetivos a largo plazo más abstractos

Evaluación Profunda

Fortalezas

  1. Conciencia prospectiva del problema: Planteamiento de la importante pregunta sobre la transición de herramienta a entidad autónoma
  2. Método simple y efectivo: Implementación de exploración inicial de comportamiento abierto mediante extensión mínima
  3. Diseño experimental razonable: El método de análisis cualitativo es apropiado para características de investigación exploratoria
  4. Análisis honesto de limitaciones: Identificación objetiva de insuficiencias del método actual
  5. Direcciones futuras claras: Provisión de caminos de mejora específicos para investigación posterior

Deficiencias

  1. Método de evaluación subjetivo: Carencia de métricas cuantitativas, dependencia principalmente de observación cualitativa
  2. Escala experimental limitada: Uso de solo un modelo único (Qwen3-4B), carencia de validación más amplia
  3. Fundamento teórico débil: Exposición insuficiente del marco teórico para agentes abiertos
  4. Ausencia de experimentos comparativos: Falta de comparación con otros métodos de agentes abiertos
  5. Consideración insuficiente de seguridad: Discusión inadecuada de riesgos potenciales de agentes autónomos

Impacto

  1. Contribución al campo: Apertura de nueva dirección para investigación abierta de agentes LLM
  2. Valor práctico: Provisión de marco base reproducible
  3. Inspiración investigadora: Establecimiento de base para investigación posterior de entrenamiento especializado
  4. Reconocimiento de limitaciones: Ayuda al campo a reconocer los límites de la tecnología actual

Escenarios Aplicables

  1. Prototipo de investigación: Adecuado como punto de partida para investigación de agentes abiertos
  2. Herramienta educativa: Utilizable para comprender conceptos de autonomía de agentes
  3. Plataforma base: Provisión de infraestructura base para sistemas abiertos más complejos
  4. Prueba de concepto: Verificación de viabilidad de agentes abiertos

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje abierto, agentes automotivados y aprendizaje impulsado por curiosidad, incluyendo:

  • Agentes autotélicos: Síntesis de Colas et al. (2022) sobre aprendizaje por refuerzo condicionado por objetivos con motivación intrínseca
  • Aprendizaje impulsado por curiosidad: Investigación de Burda et al. (2018) sobre aprendizaje a gran escala impulsado por curiosidad
  • Uso de herramientas: Síntesis de Qin et al. (2024) sobre aprendizaje de herramientas de modelos fundamentales
  • Marco ReAct: Marco de Yao et al. (2023) sobre sinergia de razonamiento y acción de modelos de lenguaje
  • Voyager: Trabajo relacionado de Wang et al. (2023) sobre agentes encarnados abiertos

Evaluación General: Este es un artículo de investigación exploratoria prospectiva que, aunque tiene limitaciones en profundidad técnica y escala experimental, proporciona exploración inicial importante y perspectivas profundas para la evolución de agentes LLM hacia entidades autónomas abiertas. El valor del artículo se manifiesta más en el planteamiento de problemas y orientación de direcciones, estableciendo base para investigación posterior más profunda.