2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

Agenti LLM Oltre l'Utilità: Una Prospettiva Aperta

Informazioni Fondamentali

  • ID Articolo: 2510.14548
  • Titolo: LLM Agents Beyond Utility: An Open-Ended Perspective
  • Autori: Asen Nachkov, Xi Wang, Luc Van Gool
  • Istituzioni: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
  • Classificazione: cs.AI
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
  • Link Articolo: https://arxiv.org/abs/2510.14548

Riassunto

Gli agenti LLM recenti hanno fatto ampio uso del ragionamento a catena di pensiero e della chiamata di funzioni. Con la crescita delle loro capacità, sorge una domanda importante: questo software può rappresentare non solo uno strumento intelligente per la risoluzione di problemi, ma un'entità a sé stante, che può pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui? Per studiare questa questione, adottiamo un'impostazione sperimentale aperta in cui aumentiamo un agente LLM pre-addestrato con la capacità di generare i propri compiti, accumulare conoscenze e interagire estesamente con il suo ambiente. Studiamo qualitativamente l'agente aperto risultante. Può seguire in modo affidabile istruzioni complesse multi-step, archiviare e riutilizzare informazioni tra esecuzioni, e proporre e risolvere i propri compiti, sebbene rimanga sensibile alla progettazione del prompt, incline alla generazione ripetitiva di compiti, e incapace di formare auto-rappresentazioni. Questi risultati illustrano sia le promesse che i limiti attuali dell'adattamento dei modelli LLM pre-addestrati verso l'apertura, e indicano direzioni future per l'addestramento di agenti per gestire la memoria, esplorare produttivamente e perseguire obiettivi astratti a lungo termine.

Contesto di Ricerca e Motivazione

Questione Centrale

Questa ricerca esplora una questione fondamentale: gli agenti basati su modelli linguistici di grandi dimensioni possono andare oltre il ruolo tradizionale di strumento e diventare entità autonome, capaci di pianificare, progettare compiti immediati e ragionare verso obiettivi più ampi e ambigui?

Importanza della Ricerca

  1. Punto critico nell'evoluzione degli agenti: Gli attuali agenti LLM risolvono principalmente compiti specifici attraverso il ragionamento a catena di pensiero e la chiamata di funzioni, ma rimangono essenzialmente strumenti
  2. Salto qualitativo nell'autonomia: Dalla risoluzione di compiti predefiniti alla progettazione autonoma di compiti, alla persistenza continua e all'impatto duraturo nell'ambiente
  3. Esplorazione dell'intelligenza aperta: Studio del comportamento degli agenti in ambienti senza stati terminali fissi, ambiti di compiti o obiettivi finali

Limitazioni degli Approcci Esistenti

  1. Orientamento ai compiti: Gli agenti attuali rappresentano ancora strumenti complessi ma essenzialmente orientati alla risoluzione di compiti specifici
  2. Mancanza di persistenza: Incapacità di continuare a esistere dopo il completamento dei compiti e di accumulare esperienza
  3. Dipendenza dagli obiettivi: Incapacità di generare autonomamente e perseguire obiettivi astratti a lungo termine

Motivazione della Ricerca

Gli autori sostengono che gli agenti aperti richiedono caratteristiche diverse dagli agenti attuali, inclusa l'esplorazione autonoma, la capacità di modellare l'ambiente e le caratteristiche autoteliche di auto-generazione degli obiettivi.

Contributi Principali

  1. Propone un framework di agenti LLM aperti: Estende il framework ReAct con capacità di generazione autonoma di compiti
  2. Progetta meccanismi di interazione persistenti: Implementa l'accumulo di conoscenze e il mantenimento dello stato tra esecuzioni attraverso strumenti di lettura/scrittura di file
  3. Implementa sistemi di memoria a breve e lungo termine: Architettura di agenti che distingue tra memoria di lavoro e memoria episodica
  4. Conduce analisi sperimentale qualitativa: Valutazione completa dei confini delle capacità e delle limitazioni degli agenti aperti
  5. Fornisce direzioni di ricerca future: Indica percorsi specifici per l'addestramento di veri agenti aperti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Agente aperto: Un agente che, in un ambiente senza stati terminali fissi, ambiti di compiti o obiettivi finali, può esplorare autonomamente, generare compiti e interagire continuamente. Tale agente dovrebbe possedere:

  • Capacità di fissazione autonoma degli obiettivi
  • Persistenza tra esecuzioni
  • Impatto duraturo nell'ambiente
  • Capacità di perseguire obiettivi astratti

Architettura del Modello

1. Configurazione dell'Agente di Base

  • Modello di base: Modello Qwen3-4B pre-addestrato con sintonizzazione delle istruzioni
  • Framework: Framework ReAct (Reasoning-Acting), utilizzando la libreria smolagents
  • Ciclo centrale: Esecuzione iterativa Plan-Act-Observe (Pianifica-Agisci-Osserva)

2. Componenti di Estensione Aperta

Modulo di Generazione degli Obiettivi:

  • Genera obiettivi dopo l'osservazione dell'input dell'utente e prima della risoluzione dei compiti
  • Supporta il perfezionamento, la modifica o la sostituzione completa dei compiti
  • Utilizza tag strutturati <task>...</task> per l'output

Sistema di Gestione della Memoria:

  • Memoria a breve termine: Buffer che archivia tutti i messaggi di interazione nell'esecuzione corrente
  • Memoria a lungo termine: Archiviazione persistente implementata tramite file system, in cui l'agente può scrivere secondo necessità

Interfaccia di Utilizzo degli Strumenti:

  • Operazioni su file: Funzionalità di lettura, scrittura e elenco
  • Interazione con l'ambiente: Verifica della directory di lavoro, lettura del codice sorgente autonomo
  • Meccanismo di persistenza: Salvataggio dello stato rilevante tra esecuzioni

3. Ciclo di Interazione Completo

1. Ricezione dell'input/feedback dell'utente
2. Accesso alla memoria a lungo termine
3. Generazione del compito (autonoma o basata sull'input dell'utente)
4-6. Ciclo ReAct (Pianifica-Agisci-Osserva)
7. Aggiornamento della memoria a lungo termine

Punti di Innovazione Tecnica

  1. Generazione autonoma degli obiettivi: Prima integrazione della capacità di auto-generazione dei compiti nel framework ReAct
  2. Architettura a doppia memoria: Progettazione che simula la separazione tra memoria di lavoro e memoria episodica umana
  3. Curiosità programmatica: Iniezione di comportamenti esplorativi attraverso istruzioni in linguaggio naturale
  4. Persistenza ambientale: Realizzazione di comportamenti di continuità complessi attraverso semplici operazioni su file

Configurazione Sperimentale

Ambiente Sperimentale

  • Ambiente di esecuzione: L'agente viene eseguito nella directory di lavoro del suo codice di implementazione
  • Modalità di interazione: Supporta query predefinite e interazione da riga di comando
  • Set di strumenti: Lettura/scrittura di file, elenco di directory e altre operazioni di base

Metodo di Valutazione

Adotta il metodo di analisi qualitativa, con focus su:

  • Capacità di esecuzione dei compiti
  • Prestazioni comportamentali autonome
  • Efficacia della gestione della memoria
  • Comportamento di esplorazione ambientale
  • Capacità di auto-consapevolezza

Scenari di Test

  1. Compiti utente in singola esecuzione: Valutazione della capacità di esecuzione di istruzioni complesse
  2. Compiti auto-generati in esecuzioni multiple: Valutazione dell'autonomia e della persistenza
  3. Feedback interattivo: Valutazione della controllabilità e dell'adattabilità

Risultati Sperimentali

Risultati Principali

Prestazioni in Singola Esecuzione (Compiti Forniti dall'Utente)

Prestazioni Positive:

  • Elaborazione di compiti su file: Capacità di aprire file, leggere compiti, risolvere problemi e scrivere risposte in un altro file
  • Capacità di auto-ispezione: Capacità di identificare il file del modello di prompt autonomo, individuare il modello attraverso l'elenco della directory e la lettura di main.py
  • Comprensione del codice: Capacità di trovare il programma dell'agente, comprendere il meccanismo di archiviazione delle query dell'utente e prevedere la query successiva

Limitazioni Riscontrate:

  • Scarsa gestione dei compiti ambigui: Spesso fallisce con compiti deliberatamente progettati per essere ambigui
  • Mancanza di auto-rappresentazione: Incapace di riconoscere il codice sorgente nell'ambiente come se stesso, mancanza di auto-consapevolezza in prima persona
  • Esplorazione insufficiente: Non esplora sufficientemente l'ambiente nel comprendere i prompt ambigui

Prestazioni in Esecuzioni Multiple (Compiti Auto-Generati)

Caratteristiche della Generazione di Compiti:

  • Sensibilità al prompt: I compiti generati sono estremamente sensibili alla progettazione del prompt, richiedendo ingegneria del prompt attenta
  • Problema di ripetitività: Tende a rimanere intrappolato in cicli di generazione degli stessi compiti
  • Dipendenza da pattern statistici: I compiti generati riflettono pattern statistici nei dati di addestramento (come calcolatori, generatori di password, controllori di numeri primi, ecc.)

Problemi di Gestione della Memoria:

  • Omissioni di archiviazione: A volte dimentica di archiviare le informazioni di completamento dei compiti, causando rigenerazione
  • Informazioni incomplete: Potrebbe archiviare solo i risultati senza archiviare i compiti stessi
  • Perdita di feedback dell'utente: Non archivia proattivamente il feedback dell'utente, causando effetti di adattamento temporanei

Analisi di Casi di Successo

L'agente ha dimostrato le seguenti capacità:

  1. Esecuzione di istruzioni complesse: Segue in modo affidabile istruzioni dettagliate e passo dopo passo
  2. Operazioni tra file: Capacità di gestire compiti che coinvolgono più file e operazioni
  3. Adattabilità dei compiti: Capacità di adattare ragionevolmente i compiti generati in base al feedback dell'utente

Risultati Sperimentali

Intuizioni Chiave

  1. Limitazioni dei modelli pre-addestrati: I modelli LLM pre-addestrati non sono stati addestrati per la generazione di compiti, causando vari problemi
  2. Importanza della gestione della memoria: La progettazione della memoria a lungo termine influisce direttamente sulla diversità e continuità dei compiti
  3. Necessità dell'ingegneria del prompt: Il comportamento aperto dipende altamente da prompt di sistema attentamente progettati
  4. Mantenimento della controllabilità: Il meccanismo di feedback dell'utente può influenzare la scelta dei compiti dell'agente

Lavori Correlati

Principali Direzioni di Ricerca

  1. Apprendimento auto-guidato (Agenti Autotelic): Apprendimento per rinforzo condizionato da obiettivi con motivazione intrinseca
  2. Apprendimento guidato dalla curiosità: Metodi che promuovono l'esplorazione attraverso ricompense intrinseche
  3. Motivazione intrinseca: Meccanismi per assegnare ricompense intrinseche alle singole azioni
  4. Utilizzo di strumenti: Capacità di chiamata di funzioni esterne e esecuzione di codice degli agenti LLM

Punti di Innovazione di Questo Articolo

  1. Astrazione di livello superiore: Generazione diretta di obiettivi completi in linguaggio naturale, piuttosto che assegnazione di ricompense per singole azioni
  2. Meccanismo di persistenza: Realizzazione di comportamenti di continuità complessi attraverso semplici operazioni su file
  3. Fattibilità pratica: Metodo pratico basato su modelli pre-addestrati esistenti

Conclusioni e Discussione

Conclusioni Principali

  1. I modelli LLM pre-addestrati possiedono capacità fondamentali per agenti aperti, ma con limitazioni significative
  2. I modelli attuali presentano difetti fondamentali nella generazione di compiti, gestione della memoria e auto-rappresentazione
  3. L'addestramento specializzato potrebbe risolvere questi problemi, realizzando veri agenti aperti

Limitazioni

  1. Sensibilità al prompt: Il comportamento dipende altamente dalla progettazione del prompt, mancanza di robustezza
  2. Problema di ripetitività: Tende a rimanere intrappolato in pattern di generazione di compiti
  3. Mancanza di auto-consapevolezza: Incapace di formare auto-rappresentazioni efficaci
  4. Gestione inadeguata della memoria: Prestazioni scadenti nell'archiviazione e recupero delle informazioni

Direzioni Future

  1. Addestramento specializzato: Sviluppo di metodi di addestramento per il processo decisionale aperto
  2. Gestione della memoria: Miglioramento della progettazione e delle strategie di gestione della memoria a lungo termine
  3. Strategie di esplorazione: Sviluppo di meccanismi di esplorazione ambientale più efficaci
  4. Perseguimento di obiettivi astratti: Addestramento degli agenti per gestire obiettivi a lungo termine più astratti

Valutazione Approfondita

Punti di Forza

  1. Consapevolezza prospettica dei problemi: Pone la questione importante della transizione da strumento a entità autonoma
  2. Metodo semplice ed efficace: Realizza l'esplorazione iniziale del comportamento aperto attraverso estensioni minime
  3. Progettazione sperimentale ragionevole: Il metodo di analisi qualitativa è appropriato per la natura della ricerca esplorativa
  4. Analisi onesta delle limitazioni: Identifica obiettivamente le carenze dell'approccio attuale
  5. Direzioni future chiare: Fornisce percorsi specifici di miglioramento per la ricerca successiva

Carenze

  1. Metodo di valutazione soggettivo: Mancanza di metriche quantitative, dipendenza principalmente da osservazioni qualitative
  2. Scala sperimentale limitata: Utilizza solo un singolo modello (Qwen3-4B), mancanza di validazione più ampia
  3. Fondamenti teorici deboli: Esposizione insufficiente del framework teorico per agenti aperti
  4. Assenza di esperimenti comparativi: Nessun confronto con altri metodi di agenti aperti
  5. Considerazioni di sicurezza insufficienti: Discussione inadeguata dei rischi potenziali degli agenti autonomi

Impatto

  1. Contributo al campo: Apre una nuova direzione per la ricerca aperta degli agenti LLM
  2. Valore pratico: Fornisce un framework di base riproducibile
  3. Ispirazione per la ricerca: Pone le basi per la ricerca successiva di addestramento specializzato
  4. Consapevolezza dei limiti: Aiuta il campo a comprendere i confini della tecnologia attuale

Scenari Applicabili

  1. Prototipo di ricerca: Appropriato come punto di partenza per la ricerca su agenti aperti
  2. Strumento educativo: Può essere utilizzato per comprendere i concetti di autonomia degli agenti
  3. Piattaforma di base: Fornisce infrastruttura di base per sistemi aperti più complessi
  4. Prova di concetto: Verifica la fattibilità degli agenti aperti

Bibliografia

Questo articolo cita lavori importanti nei campi dell'apprendimento aperto, degli agenti auto-guidati e dell'apprendimento guidato dalla curiosità, inclusi:

  • Agenti autotelic: Colas et al. (2022) Rassegna dell'apprendimento per rinforzo condizionato da obiettivi con motivazione intrinseca
  • Apprendimento guidato dalla curiosità: Burda et al. (2018) Ricerca su apprendimento guidato dalla curiosità su larga scala
  • Utilizzo di strumenti: Qin et al. (2024) Rassegna dell'apprendimento di strumenti per modelli fondamentali
  • Framework ReAct: Yao et al. (2023) Framework di modelli linguistici con ragionamento e azione coordinati
  • Voyager: Wang et al. (2023) Lavori correlati su agenti incarnati aperti

Valutazione Complessiva: Questo è uno studio esplorativo prospettico che, sebbene abbia limitazioni nella profondità tecnica e nella scala sperimentale, fornisce un'esplorazione iniziale importante e intuizioni profonde sull'evoluzione degli agenti LLM verso entità autonome aperte. Il valore dell'articolo si manifesta più nella proposizione del problema e nell'orientamento della direzione, gettando le basi per ricerche più approfondite successive.