2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool

Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.

academic

LLM-Agenten Jenseits von Nutzen: Eine offene Perspektive

Grundinformationen

Paper-ID: 2510.14548
Titel: LLM Agents Beyond Utility: An Open-Ended Perspective
Autoren: Asen Nachkov, Xi Wang, Luc Van Gool
Institutionen: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
Klassifizierung: cs.AI
Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
Paper-Link: https://arxiv.org/abs/2510.14548

Zusammenfassung

Aktuelle LLM-Agenten nutzen umfassend Gedankenketten-Reasoning und Funktionsaufrufe. Mit wachsenden Fähigkeiten stellt sich eine wichtige Frage: Können diese Softwaresysteme nicht nur als intelligente Problemlösungswerkzeuge fungieren, sondern als eigenständige Entitäten, die planen, unmittelbare Aufgaben gestalten und auf breitere, mehrdeutigere Ziele hinarbeiten können? Um diese Frage zu untersuchen, verwenden wir eine offene experimentelle Umgebung, in der wir einen vortrainierten LLM-Agenten mit der Fähigkeit ausstatten, eigene Aufgaben zu generieren, Wissen zu akkumulieren und umfassend mit seiner Umgebung zu interagieren. Wir untersuchen den resultierenden offenen Agenten qualitativ. Er kann zuverlässig komplexe mehrstufige Anweisungen befolgen, Informationen über Durchläufe hinweg speichern und wiederverwenden sowie eigene Aufgaben vorschlagen und lösen, bleibt jedoch empfindlich gegenüber Prompt-Design, neigt zu wiederholter Aufgabengenerierung und kann keine Selbstdarstellungen bilden. Diese Erkenntnisse veranschaulichen sowohl das Potenzial als auch die aktuellen Grenzen der Anpassung vortrainierter LLMs für Offenheit und weisen auf zukünftige Richtungen für das Training von Agenten zur Speicherverwaltung, produktiven Erkundung und Verfolgung abstrakter langfristiger Ziele hin.

Forschungshintergrund und Motivation

Kernfrage

Diese Forschung untersucht eine grundlegende Frage: Können große Sprachmodell-Agenten ihre traditionelle Werkzeugrolle überschreiten und zu autonomen Entitäten werden, die planen, unmittelbare Aufgaben gestalten und auf breitere, mehrdeutigere Ziele hinarbeiten können?

Forschungsrelevanz

Kritischer Wendepunkt in der Agenten-Evolution: Aktuelle LLM-Agenten lösen hauptsächlich spezifische Aufgaben durch Gedankenketten-Reasoning und Funktionsaufrufe, sind aber im Wesentlichen immer noch Werkzeuge
Qualitativer Sprung zur Autonomie: Übergang von der Lösung vordefinierter Aufgaben zur autonomen Aufgabenerstellung, kontinuierlichen Existenz und Hinterlassung permanenter Spuren in der Umgebung
Erkundung offener Intelligenz: Untersuchung des Verhaltens von Agenten in Umgebungen ohne feste Endzustände, Aufgabenbereiche oder Terminalziele

Grenzen bestehender Ansätze

Aufgabenorientierung: Bestehende Agenten stellen komplexe, aber im Wesentlichen Werkzeuge für spezifische Aufgabenlösung dar
Mangelnde Kontinuität: Können nach Aufgabenvollendung nicht weiterbestehen und Erfahrungen sammeln
Zielabhängigkeit: Können nicht autonom abstrakte Langzeitziele generieren und verfolgen

Forschungsmotivation

Die Autoren argumentieren, dass offene Agenten Eigenschaften benötigen, die sich von aktuellen Agenten unterscheiden, einschließlich autonomer Erkundung, Umgebungsgestaltungsfähigkeit und autoteler (selbstgerichteter) Zielmerkmale.

Kernbeiträge

Vorschlag eines offenen LLM-Agenten-Rahmens: Erweiterung des ReAct-Rahmens mit autonomer Aufgabengenerierungsfähigkeit
Entwurf persistenter Interaktionsmechanismen: Realisierung von Wissensakumulation und Zustandserhaltung über Durchläufe hinweg durch Datei-Lese-/Schreib-Werkzeuge
Implementierung von Kurz- und Langzeitgedächtnis-Systemen: Agenten-Architektur, die Arbeitsgedächtnis und episodisches Gedächtnis unterscheidet
Durchführung qualitativer experimenteller Analyse: Umfassende Bewertung der Fähigkeitsgrenzen und Einschränkungen offener Agenten
Bereitstellung zukünftiger Forschungsrichtungen: Konkrete Wege für das Training echter offener Agenten aufgezeigt

Methodische Details

Aufgabendefinition

Offener Agent: Ein Agent, der in einer Umgebung ohne feste Endzustände, Aufgabenbereiche oder Terminalziele autonom erkunden, Aufgaben generieren und kontinuierlich interagieren kann. Dieser Agent sollte folgende Fähigkeiten besitzen:

Autonome Zielsetzer-Fähigkeit
Kontinuität über Durchläufe hinweg
Persistente Auswirkungen in der Umgebung
Verfolgung abstrakter Ziele

Modellarchitektur

1. Grundlegende Agent-Einrichtung

Basismodell: Qwen3-4B vortrainiertes Anweisungs-Tuning-Modell
Rahmenwerk: ReAct (Reasoning-Acting) Agent-Rahmenwerk unter Verwendung der smolagents-Bibliothek
Kernschleife: Iterative Ausführung von Plan-Handlung-Beobachtung (Plan-Act-Observe)

2. Offene Erweiterungskomponenten

Zielgenerierungsmodul:

Generiert Ziele nach Beobachtung von Benutzereingaben, vor Aufgabenlösung
Unterstützt Aufgabenverfeinern, Ändern oder vollständiges Ersetzen
Verwendet strukturierte Ausgabe mit <task>...</task>-Tags

Speicherverwaltungssystem:

Kurzzeitgedächtnis: Puffer speichert alle Interaktionsmeldungen im aktuellen Durchlauf
Langzeitgedächtnis: Dateisystem-implementierte persistente Speicherung, auf die der Agent nach Bedarf schreiben kann

Werkzeug-Nutzungsschnittstelle:

Dateioperationen: Lese-, Schreib- und Listenfunktionen
Umgebungsinteraktion: Überprüfung des Arbeitsverzeichnisses, Lesen des eigenen Quellcodes
Persistierungsmechanismus: Speicherung relevanter Zustände über Durchläufe hinweg

3. Vollständige Interaktionsschleife

1. Empfang von Benutzereingabe/Rückmeldung
2. Zugriff auf Langzeitgedächtnis
3. Aufgabengenerierung (autonom oder basierend auf Benutzereingabe)
4-6. ReAct-Schleife (Plan-Handlung-Beobachtung)
7. Aktualisierung des Langzeitgedächtnisses

Technische Innovationspunkte

Autonome Zielgenerierung: Erste Integration der Aufgaben-Selbstgenerierungsfähigkeit in den ReAct-Rahmen
Duale Speicherarchitektur: Designentrennung, die menschliches Arbeitsgedächtnis und episodisches Gedächtnis nachahmt
Programmierte Neugier: Injizierung von Explorationsverhalten durch natürlichsprachliche Anweisungen
Umgebungspersistierung: Realisierung komplexer kontinuierlicher Verhaltensweisen durch einfache Dateioperationen

Experimentelle Einrichtung

Experimentelle Umgebung

Laufzeitumgebung: Agent läuft im Arbeitsverzeichnis seines Implementierungscodes
Interaktionsmodus: Unterstützt vordefinierte Abfragen und Befehlszeileninteraktion
Werkzeugsatz: Datei-Lese-/Schreib-, Verzeichnislistung und andere grundlegende Operationen

Bewertungsmethode

Verwendung qualitativer Analysemethode mit Fokus auf:

Aufgabenausführungsfähigkeit
Autonomes Verhalten
Speicherverwaltungseffektivität
Umgebungserkundungsverhalten
Selbsterkennungsfähigkeit

Testszenarien

Einzelne Durchlauf-Benutzeraufgaben: Bewertung der Fähigkeit zur Ausführung komplexer Anweisungen
Mehrfache Durchläufe selbstgenerierter Aufgaben: Bewertung von Autonomie und Kontinuität
Interaktive Rückmeldung: Bewertung von Kontrollierbarkeit und Anpassungsfähigkeit

Experimentelle Ergebnisse

Hauptergebnisse

Einzelne Durchlauf-Leistung (Benutzer-bereitgestellte Aufgaben)

Stärkenleistung:

Dateiaufgaben-Verarbeitung: Kann Dateien öffnen, Aufgaben lesen, Probleme lösen und Antworten in andere Dateien schreiben
Selbstüberprüfungsfähigkeit: Kann eigene Prompt-Template-Dateien identifizieren, durch Verzeichnisauflistung und main.py-Lesen die Vorlage lokalisieren
Code-Verständnis: Kann Agenten-Programm finden, Speichermechanismus für Benutzerabfragen verstehen und nächste Abfrage vorhersagen

Erkannte Einschränkungen:

Schlechte Verarbeitung mehrdeutiger Aufgaben: Scheitert häufig bei absichtlich mehrdeutig gestalteten Aufgaben
Fehlende Selbstdarstellung: Kann Quellcode in der Umgebung nicht als sich selbst erkennen, mangelndes Ich-Bewusstsein in der ersten Person
Unzureichende Erkundung: Nicht tiefgreifend genug bei der Umgebungserkundung zum Verständnis mehrdeutiger Eingaben

Mehrfache Durchlauf-Leistung (Selbstgenerierte Aufgaben)

Aufgabengenerierungs-Charakteristiken:

Prompt-Empfindlichkeit: Generierte Aufgaben sind extrem empfindlich gegenüber Prompt-Design und erfordern sorgfältige Prompt-Engineering
Wiederholungsproblem: Neigt dazu, in Schleifen derselben Aufgabengenerierung stecken zu bleiben
Statistische Muster-Abhängigkeit: Generierte Aufgaben spiegeln statistische Muster der Trainingsdaten wider (wie Rechner, Passwortgenerator, Primzahlprüfer usw.)

Speicherverwaltungsprobleme:

Speicher-Auslassungen: Vergisst manchmal, Aufgabenvollendungsinformationen zu speichern, was zu Wiederholungen führt
Unvollständige Informationen: Kann nur Ergebnisse speichern, nicht die Aufgabe selbst
Benutzerfeedback-Verlust: Speichert Benutzerfeedback nicht proaktiv, was zu kurzfristigen Anpassungseffekten führt

Erfolgreiche Fallstudien

Der Agent zeigte folgende Fähigkeiten:

Komplexe Anweisungsausführung: Zuverlässige Befolgung detaillierter, schrittweiser Anweisungen
Dateiübergreifende Operationen: Kann Aufgaben mit mehreren Dateien und Operationen verarbeiten
Aufgaben-Adaptivität: Kann generierte Aufgaben basierend auf Benutzerfeedback angemessen anpassen

Experimentelle Erkenntnisse

Schlüsselerkenntnisse

Grenzen vortrainierter Modelle: Vortrainierte LLMs sind nicht für Aufgabengenerierung trainiert, was zu verschiedenen Problemen führt
Bedeutung der Speicherverwaltung: Das Langzeitgedächtnis-Design beeinflusst direkt Aufgabendiversität und Kontinuität
Notwendigkeit von Prompt-Engineering: Offenes Verhalten hängt stark von sorgfältig gestalteten Systemprompts ab
Kontrolle bewahren: Benutzer-Rückmeldungsmechanismen können die Aufgabenauswahl des Agenten beeinflussen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Vortrainierte LLMs besitzen grundlegende Fähigkeiten für offene Agenten, weisen aber erhebliche Einschränkungen auf
Aktuelle Modelle haben grundlegende Mängel bei Aufgabengenerierung, Speicherverwaltung und Selbstdarstellung
Spezialisiertes Training könnte diese Probleme lösen und echte offene Agenten realisieren

Einschränkungen

Prompt-Empfindlichkeit: Verhalten hängt stark von Prompt-Design ab, mangelnde Robustheit
Wiederholungsprobleme: Neigt zu zyklischen Mustern der Aufgabengenerierung
Fehlende Selbsterkenntnis: Kann keine effektive Selbstdarstellung bilden
Unzureichende Speicherverwaltung: Schlechte Leistung bei Informationsspeicherung und -abruf

Zukünftige Richtungen

Spezialisiertes Training: Entwicklung von Trainingsmethoden für offene Entscheidungsfindung
Speicherverwaltung: Verbesserung des Langzeitgedächtnis-Designs und der Verwaltungsstrategien
Erkundungsstrategien: Entwicklung effektiverer Umgebungserkundungsmechanismen
Verfolgung abstrakter Ziele: Training von Agenten zur Verarbeitung abstrakterer Langzeitziele

Tiefgreifende Bewertung

Stärken

Zukunftsweisende Problemerkennung: Stellt die wichtige Frage des Übergangs von Werkzeugen zu autonomen Entitäten
Einfache und effektive Methode: Realisiert vorläufige Erkundung offenen Verhaltens durch minimale Erweiterungen
Angemessenes Experimentdesign: Qualitative Analysemethode eignet sich für explorative Forschung
Ehrliche Limitationsanalyse: Objektive Darstellung der Unzulänglichkeiten der aktuellen Methode
Klare zukünftige Richtungen: Bietet konkrete Verbesserungswege für nachfolgende Forschung

Mängel

Subjektive Bewertungsmethode: Mangel an quantitativen Metriken, hauptsächlich qualitative Beobachtung
Begrenzte Experimentskala: Verwendet nur ein einzelnes Modell (Qwen3-4B), mangelnde breitere Validierung
Schwache theoretische Grundlagen: Unzureichende Darlegung des theoretischen Rahmens für offene Agenten
Fehlende Vergleichsexperimente: Keine Vergleiche mit anderen offenen Agenten-Methoden
Unzureichende Sicherheitsüberlegungen: Unzureichende Diskussion potenzieller Risiken autonomer Agenten

Einflussfähigkeit

Bereichsbeitrag: Eröffnet neue Richtung für offene Agenten-Forschung bei LLMs
Praktischer Wert: Bietet reproduzierbaren Grundrahmen
Forschungsinspiration: Legt Grundlagen für nachfolgende spezialisierte Trainingsforschung
Grenzbewusstsein: Hilft dem Feld, die Grenzen aktueller Technologie zu erkennen

Anwendungsszenarien

Forschungsprototyp: Eignet sich als Ausgangspunkt für offene Agenten-Forschung
Bildungswerkzeug: Kann zum Verständnis von Agenten-Autonomie-Konzepten verwendet werden
Grundplattform: Bietet Grundinfrastruktur für komplexere offene Systeme
Konzeptnachweis: Validiert Machbarkeit offener Agenten

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten in den Bereichen offenes Lernen, selbstgesteuerte Agenten und neugier-getriebenes Lernen, einschließlich:

Autotele Agenten: Colas et al. (2022) Übersicht über zielbedingte Verstärkungslernagenten mit intrinsischer Motivation
Neugier-getriebenes Lernen: Burda et al. (2018) Großmaßstab-Neugier-getriebenes Lernforschung
Werkzeugnutzung: Qin et al. (2024) Übersicht über Werkzeuglernfähigkeiten grundlegender Modelle
ReAct-Rahmen: Yao et al. (2023) Sprachmodell-Rahmen für Reasoning und Action-Zusammenspiel
Voyager: Wang et al. (2023) Verwandte Arbeiten zu offenen verkörperten Agenten

Gesamtbewertung: Dies ist eine zukunftsweisende explorative Forschungsarbeit, die zwar in technischer Tiefe und Experimentskala begrenzt ist, aber wichtige vorläufige Erkundungen und tiefe Erkenntnisse für die Entwicklung von LLM-Agenten zu offenen autonomen Entitäten bietet. Der Wert des Papers liegt mehr in der Problemstellung und Richtungsweisung, die Grundlagen für nachfolgende tiefere Forschung legt.