LLM Agents Beyond Utility: An Open-Ended Perspective
Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic
Agenti LLM Oltre l'Utilità: Una Prospettiva Aperta
Gli agenti LLM recenti hanno fatto ampio uso del ragionamento a catena di pensiero e della chiamata di funzioni. Con la crescita delle loro capacità, sorge una domanda importante: questo software può rappresentare non solo uno strumento intelligente per la risoluzione di problemi, ma un'entità a sé stante, che può pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui? Per studiare questa questione, adottiamo un'impostazione sperimentale aperta in cui aumentiamo un agente LLM pre-addestrato con la capacità di generare i propri compiti, accumulare conoscenze e interagire estesamente con il suo ambiente. Studiamo qualitativamente l'agente aperto risultante. Può seguire in modo affidabile istruzioni complesse multi-step, archiviare e riutilizzare informazioni tra esecuzioni, e proporre e risolvere i propri compiti, sebbene rimanga sensibile alla progettazione del prompt, incline alla generazione ripetitiva di compiti, e incapace di formare auto-rappresentazioni. Questi risultati illustrano sia le promesse che i limiti attuali dell'adattamento dei modelli LLM pre-addestrati verso l'apertura, e indicano direzioni future per l'addestramento di agenti per gestire la memoria, esplorare produttivamente e perseguire obiettivi astratti a lungo termine.
Questa ricerca esplora una questione fondamentale: gli agenti basati su modelli linguistici di grandi dimensioni possono andare oltre il ruolo tradizionale di strumento e diventare entità autonome, capaci di pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui?
Punto critico nell'evoluzione degli agenti: Gli attuali agenti LLM risolvono principalmente compiti specifici attraverso il ragionamento a catena di pensiero e la chiamata di funzioni, ma rimangono essenzialmente strumenti
Salto qualitativo nell'autonomia: Dalla risoluzione di compiti predefiniti alla progettazione autonoma di compiti, alla persistenza continua e all'impatto duraturo nell'ambiente
Esplorazione dell'intelligenza aperta: Studio del comportamento degli agenti in ambienti senza stati terminali fissi, ambiti di compiti o obiettivi finali
Gli autori sostengono che gli agenti aperti richiedono caratteristiche diverse dagli agenti attuali, inclusa l'esplorazione autonoma, la capacità di modellare l'ambiente e le caratteristiche autoteliche di auto-generazione degli obiettivi.
Propone un framework di agenti LLM aperti: Estende il framework ReAct con capacità di generazione autonoma di compiti
Progetta meccanismi di interazione persistenti: Implementa l'accumulo di conoscenze e il mantenimento dello stato tra esecuzioni attraverso strumenti di lettura/scrittura di file
Implementa sistemi di memoria a breve e lungo termine: Architettura di agenti che distingue tra memoria di lavoro e memoria episodica
Conduce analisi sperimentale qualitativa: Valutazione completa dei confini delle capacità e delle limitazioni degli agenti aperti
Fornisce direzioni di ricerca future: Indica percorsi specifici per l'addestramento di veri agenti aperti
Agente aperto: Un agente che, in un ambiente senza stati terminali fissi, ambiti di compiti o obiettivi finali, può esplorare autonomamente, generare compiti e interagire continuamente. Tale agente dovrebbe possedere:
1. Ricezione dell'input/feedback dell'utente
2. Accesso alla memoria a lungo termine
3. Generazione del compito (autonoma o basata sull'input dell'utente)
4-6. Ciclo ReAct (Pianifica-Agisci-Osserva)
7. Aggiornamento della memoria a lungo termine
Elaborazione di compiti su file: Capacità di aprire file, leggere compiti, risolvere problemi e scrivere risposte in un altro file
Capacità di auto-ispezione: Capacità di identificare il file del modello di prompt autonomo, individuare il modello attraverso l'elenco della directory e la lettura di main.py
Comprensione del codice: Capacità di trovare il programma dell'agente, comprendere il meccanismo di archiviazione delle query dell'utente e prevedere la query successiva
Limitazioni Riscontrate:
Scarsa gestione dei compiti ambigui: Spesso fallisce con compiti deliberatamente progettati per essere ambigui
Mancanza di auto-rappresentazione: Incapace di riconoscere il codice sorgente nell'ambiente come se stesso, mancanza di auto-consapevolezza in prima persona
Esplorazione insufficiente: Non esplora sufficientemente l'ambiente nel comprendere i prompt ambigui
Sensibilità al prompt: I compiti generati sono estremamente sensibili alla progettazione del prompt, richiedendo ingegneria del prompt attenta
Problema di ripetitività: Tende a rimanere intrappolato in cicli di generazione degli stessi compiti
Dipendenza da pattern statistici: I compiti generati riflettono pattern statistici nei dati di addestramento (come calcolatori, generatori di password, controllori di numeri primi, ecc.)
Problemi di Gestione della Memoria:
Omissioni di archiviazione: A volte dimentica di archiviare le informazioni di completamento dei compiti, causando rigenerazione
Informazioni incomplete: Potrebbe archiviare solo i risultati senza archiviare i compiti stessi
Perdita di feedback dell'utente: Non archivia proattivamente il feedback dell'utente, causando effetti di adattamento temporanei
Limitazioni dei modelli pre-addestrati: I modelli LLM pre-addestrati non sono stati addestrati per la generazione di compiti, causando vari problemi
Importanza della gestione della memoria: La progettazione della memoria a lungo termine influisce direttamente sulla diversità e continuità dei compiti
Necessità dell'ingegneria del prompt: Il comportamento aperto dipende altamente da prompt di sistema attentamente progettati
Mantenimento della controllabilità: Il meccanismo di feedback dell'utente può influenzare la scelta dei compiti dell'agente
Astrazione di livello superiore: Generazione diretta di obiettivi completi in linguaggio naturale, piuttosto che assegnazione di ricompense per singole azioni
Meccanismo di persistenza: Realizzazione di comportamenti di continuità complessi attraverso semplici operazioni su file
Fattibilità pratica: Metodo pratico basato su modelli pre-addestrati esistenti
Questo articolo cita lavori importanti nei campi dell'apprendimento aperto, degli agenti auto-guidati e dell'apprendimento guidato dalla curiosità, inclusi:
Agenti autotelic: Colas et al. (2022) Rassegna dell'apprendimento per rinforzo condizionato da obiettivi con motivazione intrinseca
Apprendimento guidato dalla curiosità: Burda et al. (2018) Ricerca su apprendimento guidato dalla curiosità su larga scala
Utilizzo di strumenti: Qin et al. (2024) Rassegna dell'apprendimento di strumenti per modelli fondamentali
Framework ReAct: Yao et al. (2023) Framework di modelli linguistici con ragionamento e azione coordinati
Voyager: Wang et al. (2023) Lavori correlati su agenti incarnati aperti
Valutazione Complessiva: Questo è uno studio esplorativo prospettico che, sebbene abbia limitazioni nella profondità tecnica e nella scala sperimentale, fornisce un'esplorazione iniziale importante e intuizioni profonde sull'evoluzione degli agenti LLM verso entità autonome aperte. Il valore dell'articolo si manifesta più nella proposizione del problema e nell'orientamento della direzione, gettando le basi per ricerche più approfondite successive.