2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool

Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.

academic

Agenti LLM Oltre l'Utilità: Una Prospettiva Aperta

Informazioni Fondamentali

ID Articolo: 2510.14548
Titolo: LLM Agents Beyond Utility: An Open-Ended Perspective
Autori: Asen Nachkov, Xi Wang, Luc Van Gool
Istituzioni: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
Classificazione: cs.AI
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
Link Articolo: https://arxiv.org/abs/2510.14548

Riassunto

Gli agenti LLM recenti hanno fatto ampio uso del ragionamento a catena di pensiero e della chiamata di funzioni. Con la crescita delle loro capacità, sorge una domanda importante: questo software può rappresentare non solo uno strumento intelligente per la risoluzione di problemi, ma un'entità a sé stante, che può pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui? Per studiare questa questione, adottiamo un'impostazione sperimentale aperta in cui aumentiamo un agente LLM pre-addestrato con la capacità di generare i propri compiti, accumulare conoscenze e interagire estesamente con il suo ambiente. Studiamo qualitativamente l'agente aperto risultante. Può seguire in modo affidabile istruzioni complesse multi-step, archiviare e riutilizzare informazioni tra esecuzioni, e proporre e risolvere i propri compiti, sebbene rimanga sensibile alla progettazione del prompt, incline alla generazione ripetitiva di compiti, e incapace di formare auto-rappresentazioni. Questi risultati illustrano sia le promesse che i limiti attuali dell'adattamento dei modelli LLM pre-addestrati verso l'apertura, e indicano direzioni future per l'addestramento di agenti per gestire la memoria, esplorare produttivamente e perseguire obiettivi astratti a lungo termine.

Contesto di Ricerca e Motivazione

Questione Centrale

Questa ricerca esplora una questione fondamentale: gli agenti basati su modelli linguistici di grandi dimensioni possono andare oltre il ruolo tradizionale di strumento e diventare entità autonome, capaci di pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui?

Importanza della Ricerca

Punto critico nell'evoluzione degli agenti: Gli attuali agenti LLM risolvono principalmente compiti specifici attraverso il ragionamento a catena di pensiero e la chiamata di funzioni, ma rimangono essenzialmente strumenti
Salto qualitativo nell'autonomia: Dalla risoluzione di compiti predefiniti alla progettazione autonoma di compiti, alla persistenza continua e all'impatto duraturo nell'ambiente
Esplorazione dell'intelligenza aperta: Studio del comportamento degli agenti in ambienti senza stati terminali fissi, ambiti di compiti o obiettivi finali

Limitazioni degli Approcci Esistenti

Orientamento ai compiti: Gli agenti attuali rappresentano ancora strumenti complessi ma essenzialmente orientati alla risoluzione di compiti specifici
Mancanza di persistenza: Incapacità di continuare a esistere dopo il completamento dei compiti e di accumulare esperienza
Dipendenza dagli obiettivi: Incapacità di generare autonomamente e perseguire obiettivi astratti a lungo termine

Motivazione della Ricerca

Gli autori sostengono che gli agenti aperti richiedono caratteristiche diverse dagli agenti attuali, inclusa l'esplorazione autonoma, la capacità di modellare l'ambiente e le caratteristiche autoteliche di auto-generazione degli obiettivi.

Contributi Principali

Propone un framework di agenti LLM aperti: Estende il framework ReAct con capacità di generazione autonoma di compiti
Progetta meccanismi di interazione persistenti: Implementa l'accumulo di conoscenze e il mantenimento dello stato tra esecuzioni attraverso strumenti di lettura/scrittura di file
Implementa sistemi di memoria a breve e lungo termine: Architettura di agenti che distingue tra memoria di lavoro e memoria episodica
Conduce analisi sperimentale qualitativa: Valutazione completa dei confini delle capacità e delle limitazioni degli agenti aperti
Fornisce direzioni di ricerca future: Indica percorsi specifici per l'addestramento di veri agenti aperti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Agente aperto: Un agente che, in un ambiente senza stati terminali fissi, ambiti di compiti o obiettivi finali, può esplorare autonomamente, generare compiti e interagire continuamente. Tale agente dovrebbe possedere:

Capacità di fissazione autonoma degli obiettivi
Persistenza tra esecuzioni
Impatto duraturo nell'ambiente
Capacità di perseguire obiettivi astratti

Architettura del Modello

1. Configurazione dell'Agente di Base

Modello di base: Modello Qwen3-4B pre-addestrato con sintonizzazione delle istruzioni
Framework: Framework ReAct (Reasoning-Acting), utilizzando la libreria smolagents
Ciclo centrale: Esecuzione iterativa Plan-Act-Observe (Pianifica-Agisci-Osserva)

2. Componenti di Estensione Aperta

Modulo di Generazione degli Obiettivi:

Genera obiettivi dopo l'osservazione dell'input dell'utente e prima della risoluzione dei compiti
Supporta il perfezionamento, la modifica o la sostituzione completa dei compiti
Utilizza tag strutturati <task>...</task> per l'output

Sistema di Gestione della Memoria:

Memoria a breve termine: Buffer che archivia tutti i messaggi di interazione nell'esecuzione corrente
Memoria a lungo termine: Archiviazione persistente implementata tramite file system, in cui l'agente può scrivere secondo necessità

Interfaccia di Utilizzo degli Strumenti:

Operazioni su file: Funzionalità di lettura, scrittura e elenco
Interazione con l'ambiente: Verifica della directory di lavoro, lettura del codice sorgente autonomo
Meccanismo di persistenza: Salvataggio dello stato rilevante tra esecuzioni

3. Ciclo di Interazione Completo

1. Ricezione dell'input/feedback dell'utente
2. Accesso alla memoria a lungo termine
3. Generazione del compito (autonoma o basata sull'input dell'utente)
4-6. Ciclo ReAct (Pianifica-Agisci-Osserva)
7. Aggiornamento della memoria a lungo termine

Punti di Innovazione Tecnica

Generazione autonoma degli obiettivi: Prima integrazione della capacità di auto-generazione dei compiti nel framework ReAct
Architettura a doppia memoria: Progettazione che simula la separazione tra memoria di lavoro e memoria episodica umana
Curiosità programmatica: Iniezione di comportamenti esplorativi attraverso istruzioni in linguaggio naturale
Persistenza ambientale: Realizzazione di comportamenti di continuità complessi attraverso semplici operazioni su file

Configurazione Sperimentale

Ambiente Sperimentale

Ambiente di esecuzione: L'agente viene eseguito nella directory di lavoro del suo codice di implementazione
Modalità di interazione: Supporta query predefinite e interazione da riga di comando
Set di strumenti: Lettura/scrittura di file, elenco di directory e altre operazioni di base

Metodo di Valutazione

Adotta il metodo di analisi qualitativa, con focus su:

Capacità di esecuzione dei compiti
Prestazioni comportamentali autonome
Efficacia della gestione della memoria
Comportamento di esplorazione ambientale
Capacità di auto-consapevolezza

Scenari di Test

Compiti utente in singola esecuzione: Valutazione della capacità di esecuzione di istruzioni complesse
Compiti auto-generati in esecuzioni multiple: Valutazione dell'autonomia e della persistenza
Feedback interattivo: Valutazione della controllabilità e dell'adattabilità

Risultati Sperimentali

Risultati Principali

Prestazioni in Singola Esecuzione (Compiti Forniti dall'Utente)

Prestazioni Positive:

Elaborazione di compiti su file: Capacità di aprire file, leggere compiti, risolvere problemi e scrivere risposte in un altro file
Capacità di auto-ispezione: Capacità di identificare il file del modello di prompt autonomo, individuare il modello attraverso l'elenco della directory e la lettura di main.py
Comprensione del codice: Capacità di trovare il programma dell'agente, comprendere il meccanismo di archiviazione delle query dell'utente e prevedere la query successiva

Limitazioni Riscontrate:

Scarsa gestione dei compiti ambigui: Spesso fallisce con compiti deliberatamente progettati per essere ambigui
Mancanza di auto-rappresentazione: Incapace di riconoscere il codice sorgente nell'ambiente come se stesso, mancanza di auto-consapevolezza in prima persona
Esplorazione insufficiente: Non esplora sufficientemente l'ambiente nel comprendere i prompt ambigui

Prestazioni in Esecuzioni Multiple (Compiti Auto-Generati)

Caratteristiche della Generazione di Compiti:

Sensibilità al prompt: I compiti generati sono estremamente sensibili alla progettazione del prompt, richiedendo ingegneria del prompt attenta
Problema di ripetitività: Tende a rimanere intrappolato in cicli di generazione degli stessi compiti
Dipendenza da pattern statistici: I compiti generati riflettono pattern statistici nei dati di addestramento (come calcolatori, generatori di password, controllori di numeri primi, ecc.)

Problemi di Gestione della Memoria:

Omissioni di archiviazione: A volte dimentica di archiviare le informazioni di completamento dei compiti, causando rigenerazione
Informazioni incomplete: Potrebbe archiviare solo i risultati senza archiviare i compiti stessi
Perdita di feedback dell'utente: Non archivia proattivamente il feedback dell'utente, causando effetti di adattamento temporanei

Analisi di Casi di Successo

L'agente ha dimostrato le seguenti capacità:

Esecuzione di istruzioni complesse: Segue in modo affidabile istruzioni dettagliate e passo dopo passo
Operazioni tra file: Capacità di gestire compiti che coinvolgono più file e operazioni
Adattabilità dei compiti: Capacità di adattare ragionevolmente i compiti generati in base al feedback dell'utente

Risultati Sperimentali

Intuizioni Chiave

Limitazioni dei modelli pre-addestrati: I modelli LLM pre-addestrati non sono stati addestrati per la generazione di compiti, causando vari problemi
Importanza della gestione della memoria: La progettazione della memoria a lungo termine influisce direttamente sulla diversità e continuità dei compiti
Necessità dell'ingegneria del prompt: Il comportamento aperto dipende altamente da prompt di sistema attentamente progettati
Mantenimento della controllabilità: Il meccanismo di feedback dell'utente può influenzare la scelta dei compiti dell'agente

Lavori Correlati

Principali Direzioni di Ricerca

Apprendimento auto-guidato (Agenti Autotelic): Apprendimento per rinforzo condizionato da obiettivi con motivazione intrinseca
Apprendimento guidato dalla curiosità: Metodi che promuovono l'esplorazione attraverso ricompense intrinseche
Motivazione intrinseca: Meccanismi per assegnare ricompense intrinseche alle singole azioni
Utilizzo di strumenti: Capacità di chiamata di funzioni esterne e esecuzione di codice degli agenti LLM

Punti di Innovazione di Questo Articolo

Astrazione di livello superiore: Generazione diretta di obiettivi completi in linguaggio naturale, piuttosto che assegnazione di ricompense per singole azioni
Meccanismo di persistenza: Realizzazione di comportamenti di continuità complessi attraverso semplici operazioni su file
Fattibilità pratica: Metodo pratico basato su modelli pre-addestrati esistenti

Conclusioni e Discussione

Conclusioni Principali

I modelli LLM pre-addestrati possiedono capacità fondamentali per agenti aperti, ma con limitazioni significative
I modelli attuali presentano difetti fondamentali nella generazione di compiti, gestione della memoria e auto-rappresentazione
L'addestramento specializzato potrebbe risolvere questi problemi, realizzando veri agenti aperti

Limitazioni

Sensibilità al prompt: Il comportamento dipende altamente dalla progettazione del prompt, mancanza di robustezza
Problema di ripetitività: Tende a rimanere intrappolato in pattern di generazione di compiti
Mancanza di auto-consapevolezza: Incapace di formare auto-rappresentazioni efficaci
Gestione inadeguata della memoria: Prestazioni scadenti nell'archiviazione e recupero delle informazioni

Direzioni Future

Addestramento specializzato: Sviluppo di metodi di addestramento per il processo decisionale aperto
Gestione della memoria: Miglioramento della progettazione e delle strategie di gestione della memoria a lungo termine
Strategie di esplorazione: Sviluppo di meccanismi di esplorazione ambientale più efficaci
Perseguimento di obiettivi astratti: Addestramento degli agenti per gestire obiettivi a lungo termine più astratti

Valutazione Approfondita

Punti di Forza

Consapevolezza prospettica dei problemi: Pone la questione importante della transizione da strumento a entità autonoma
Metodo semplice ed efficace: Realizza l'esplorazione iniziale del comportamento aperto attraverso estensioni minime
Progettazione sperimentale ragionevole: Il metodo di analisi qualitativa è appropriato per la natura della ricerca esplorativa
Analisi onesta delle limitazioni: Identifica obiettivamente le carenze dell'approccio attuale
Direzioni future chiare: Fornisce percorsi specifici di miglioramento per la ricerca successiva

Carenze

Metodo di valutazione soggettivo: Mancanza di metriche quantitative, dipendenza principalmente da osservazioni qualitative
Scala sperimentale limitata: Utilizza solo un singolo modello (Qwen3-4B), mancanza di validazione più ampia
Fondamenti teorici deboli: Esposizione insufficiente del framework teorico per agenti aperti
Assenza di esperimenti comparativi: Nessun confronto con altri metodi di agenti aperti
Considerazioni di sicurezza insufficienti: Discussione inadeguata dei rischi potenziali degli agenti autonomi

Impatto

Contributo al campo: Apre una nuova direzione per la ricerca aperta degli agenti LLM
Valore pratico: Fornisce un framework di base riproducibile
Ispirazione per la ricerca: Pone le basi per la ricerca successiva di addestramento specializzato
Consapevolezza dei limiti: Aiuta il campo a comprendere i confini della tecnologia attuale

Scenari Applicabili

Prototipo di ricerca: Appropriato come punto di partenza per la ricerca su agenti aperti
Strumento educativo: Può essere utilizzato per comprendere i concetti di autonomia degli agenti
Piattaforma di base: Fornisce infrastruttura di base per sistemi aperti più complessi
Prova di concetto: Verifica la fattibilità degli agenti aperti

Bibliografia

Questo articolo cita lavori importanti nei campi dell'apprendimento aperto, degli agenti auto-guidati e dell'apprendimento guidato dalla curiosità, inclusi:

Agenti autotelic: Colas et al. (2022) Rassegna dell'apprendimento per rinforzo condizionato da obiettivi con motivazione intrinseca
Apprendimento guidato dalla curiosità: Burda et al. (2018) Ricerca su apprendimento guidato dalla curiosità su larga scala
Utilizzo di strumenti: Qin et al. (2024) Rassegna dell'apprendimento di strumenti per modelli fondamentali
Framework ReAct: Yao et al. (2023) Framework di modelli linguistici con ragionamento e azione coordinati
Voyager: Wang et al. (2023) Lavori correlati su agenti incarnati aperti

Valutazione Complessiva: Questo è uno studio esplorativo prospettico che, sebbene abbia limitazioni nella profondità tecnica e nella scala sperimentale, fornisce un'esplorazione iniziale importante e intuizioni profonde sull'evoluzione degli agenti LLM verso entità autonome aperte. Il valore dell'articolo si manifesta più nella proposizione del problema e nell'orientamento della direzione, gettando le basi per ricerche più approfondite successive.