2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

LLM-Agenten Jenseits von Nutzen: Eine offene Perspektive

Grundinformationen

  • Paper-ID: 2510.14548
  • Titel: LLM Agents Beyond Utility: An Open-Ended Perspective
  • Autoren: Asen Nachkov, Xi Wang, Luc Van Gool
  • Institutionen: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
  • Klassifizierung: cs.AI
  • Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
  • Paper-Link: https://arxiv.org/abs/2510.14548

Zusammenfassung

Aktuelle LLM-Agenten nutzen umfassend Gedankenketten-Reasoning und Funktionsaufrufe. Mit wachsenden Fähigkeiten stellt sich eine wichtige Frage: Können diese Softwaresysteme nicht nur als intelligente Problemlösungswerkzeuge fungieren, sondern als eigenständige Entitäten, die planen, unmittelbare Aufgaben gestalten und auf breitere, mehrdeutigere Ziele hinarbeiten können? Um diese Frage zu untersuchen, verwenden wir eine offene experimentelle Umgebung, in der wir einen vortrainierten LLM-Agenten mit der Fähigkeit ausstatten, eigene Aufgaben zu generieren, Wissen zu akkumulieren und umfassend mit seiner Umgebung zu interagieren. Wir untersuchen den resultierenden offenen Agenten qualitativ. Er kann zuverlässig komplexe mehrstufige Anweisungen befolgen, Informationen über Durchläufe hinweg speichern und wiederverwenden sowie eigene Aufgaben vorschlagen und lösen, bleibt jedoch empfindlich gegenüber Prompt-Design, neigt zu wiederholter Aufgabengenerierung und kann keine Selbstdarstellungen bilden. Diese Erkenntnisse veranschaulichen sowohl das Potenzial als auch die aktuellen Grenzen der Anpassung vortrainierter LLMs für Offenheit und weisen auf zukünftige Richtungen für das Training von Agenten zur Speicherverwaltung, produktiven Erkundung und Verfolgung abstrakter langfristiger Ziele hin.

Forschungshintergrund und Motivation

Kernfrage

Diese Forschung untersucht eine grundlegende Frage: Können große Sprachmodell-Agenten ihre traditionelle Werkzeugrolle überschreiten und zu autonomen Entitäten werden, die planen, unmittelbare Aufgaben gestalten und auf breitere, mehrdeutigere Ziele hinarbeiten können?

Forschungsrelevanz

  1. Kritischer Wendepunkt in der Agenten-Evolution: Aktuelle LLM-Agenten lösen hauptsächlich spezifische Aufgaben durch Gedankenketten-Reasoning und Funktionsaufrufe, sind aber im Wesentlichen immer noch Werkzeuge
  2. Qualitativer Sprung zur Autonomie: Übergang von der Lösung vordefinierter Aufgaben zur autonomen Aufgabenerstellung, kontinuierlichen Existenz und Hinterlassung permanenter Spuren in der Umgebung
  3. Erkundung offener Intelligenz: Untersuchung des Verhaltens von Agenten in Umgebungen ohne feste Endzustände, Aufgabenbereiche oder Terminalziele

Grenzen bestehender Ansätze

  1. Aufgabenorientierung: Bestehende Agenten stellen komplexe, aber im Wesentlichen Werkzeuge für spezifische Aufgabenlösung dar
  2. Mangelnde Kontinuität: Können nach Aufgabenvollendung nicht weiterbestehen und Erfahrungen sammeln
  3. Zielabhängigkeit: Können nicht autonom abstrakte Langzeitziele generieren und verfolgen

Forschungsmotivation

Die Autoren argumentieren, dass offene Agenten Eigenschaften benötigen, die sich von aktuellen Agenten unterscheiden, einschließlich autonomer Erkundung, Umgebungsgestaltungsfähigkeit und autoteler (selbstgerichteter) Zielmerkmale.

Kernbeiträge

  1. Vorschlag eines offenen LLM-Agenten-Rahmens: Erweiterung des ReAct-Rahmens mit autonomer Aufgabengenerierungsfähigkeit
  2. Entwurf persistenter Interaktionsmechanismen: Realisierung von Wissensakumulation und Zustandserhaltung über Durchläufe hinweg durch Datei-Lese-/Schreib-Werkzeuge
  3. Implementierung von Kurz- und Langzeitgedächtnis-Systemen: Agenten-Architektur, die Arbeitsgedächtnis und episodisches Gedächtnis unterscheidet
  4. Durchführung qualitativer experimenteller Analyse: Umfassende Bewertung der Fähigkeitsgrenzen und Einschränkungen offener Agenten
  5. Bereitstellung zukünftiger Forschungsrichtungen: Konkrete Wege für das Training echter offener Agenten aufgezeigt

Methodische Details

Aufgabendefinition

Offener Agent: Ein Agent, der in einer Umgebung ohne feste Endzustände, Aufgabenbereiche oder Terminalziele autonom erkunden, Aufgaben generieren und kontinuierlich interagieren kann. Dieser Agent sollte folgende Fähigkeiten besitzen:

  • Autonome Zielsetzer-Fähigkeit
  • Kontinuität über Durchläufe hinweg
  • Persistente Auswirkungen in der Umgebung
  • Verfolgung abstrakter Ziele

Modellarchitektur

1. Grundlegende Agent-Einrichtung

  • Basismodell: Qwen3-4B vortrainiertes Anweisungs-Tuning-Modell
  • Rahmenwerk: ReAct (Reasoning-Acting) Agent-Rahmenwerk unter Verwendung der smolagents-Bibliothek
  • Kernschleife: Iterative Ausführung von Plan-Handlung-Beobachtung (Plan-Act-Observe)

2. Offene Erweiterungskomponenten

Zielgenerierungsmodul:

  • Generiert Ziele nach Beobachtung von Benutzereingaben, vor Aufgabenlösung
  • Unterstützt Aufgabenverfeinern, Ändern oder vollständiges Ersetzen
  • Verwendet strukturierte Ausgabe mit <task>...</task>-Tags

Speicherverwaltungssystem:

  • Kurzzeitgedächtnis: Puffer speichert alle Interaktionsmeldungen im aktuellen Durchlauf
  • Langzeitgedächtnis: Dateisystem-implementierte persistente Speicherung, auf die der Agent nach Bedarf schreiben kann

Werkzeug-Nutzungsschnittstelle:

  • Dateioperationen: Lese-, Schreib- und Listenfunktionen
  • Umgebungsinteraktion: Überprüfung des Arbeitsverzeichnisses, Lesen des eigenen Quellcodes
  • Persistierungsmechanismus: Speicherung relevanter Zustände über Durchläufe hinweg

3. Vollständige Interaktionsschleife

1. Empfang von Benutzereingabe/Rückmeldung
2. Zugriff auf Langzeitgedächtnis
3. Aufgabengenerierung (autonom oder basierend auf Benutzereingabe)
4-6. ReAct-Schleife (Plan-Handlung-Beobachtung)
7. Aktualisierung des Langzeitgedächtnisses

Technische Innovationspunkte

  1. Autonome Zielgenerierung: Erste Integration der Aufgaben-Selbstgenerierungsfähigkeit in den ReAct-Rahmen
  2. Duale Speicherarchitektur: Designentrennung, die menschliches Arbeitsgedächtnis und episodisches Gedächtnis nachahmt
  3. Programmierte Neugier: Injizierung von Explorationsverhalten durch natürlichsprachliche Anweisungen
  4. Umgebungspersistierung: Realisierung komplexer kontinuierlicher Verhaltensweisen durch einfache Dateioperationen

Experimentelle Einrichtung

Experimentelle Umgebung

  • Laufzeitumgebung: Agent läuft im Arbeitsverzeichnis seines Implementierungscodes
  • Interaktionsmodus: Unterstützt vordefinierte Abfragen und Befehlszeileninteraktion
  • Werkzeugsatz: Datei-Lese-/Schreib-, Verzeichnislistung und andere grundlegende Operationen

Bewertungsmethode

Verwendung qualitativer Analysemethode mit Fokus auf:

  • Aufgabenausführungsfähigkeit
  • Autonomes Verhalten
  • Speicherverwaltungseffektivität
  • Umgebungserkundungsverhalten
  • Selbsterkennungsfähigkeit

Testszenarien

  1. Einzelne Durchlauf-Benutzeraufgaben: Bewertung der Fähigkeit zur Ausführung komplexer Anweisungen
  2. Mehrfache Durchläufe selbstgenerierter Aufgaben: Bewertung von Autonomie und Kontinuität
  3. Interaktive Rückmeldung: Bewertung von Kontrollierbarkeit und Anpassungsfähigkeit

Experimentelle Ergebnisse

Hauptergebnisse

Einzelne Durchlauf-Leistung (Benutzer-bereitgestellte Aufgaben)

Stärkenleistung:

  • Dateiaufgaben-Verarbeitung: Kann Dateien öffnen, Aufgaben lesen, Probleme lösen und Antworten in andere Dateien schreiben
  • Selbstüberprüfungsfähigkeit: Kann eigene Prompt-Template-Dateien identifizieren, durch Verzeichnisauflistung und main.py-Lesen die Vorlage lokalisieren
  • Code-Verständnis: Kann Agenten-Programm finden, Speichermechanismus für Benutzerabfragen verstehen und nächste Abfrage vorhersagen

Erkannte Einschränkungen:

  • Schlechte Verarbeitung mehrdeutiger Aufgaben: Scheitert häufig bei absichtlich mehrdeutig gestalteten Aufgaben
  • Fehlende Selbstdarstellung: Kann Quellcode in der Umgebung nicht als sich selbst erkennen, mangelndes Ich-Bewusstsein in der ersten Person
  • Unzureichende Erkundung: Nicht tiefgreifend genug bei der Umgebungserkundung zum Verständnis mehrdeutiger Eingaben

Mehrfache Durchlauf-Leistung (Selbstgenerierte Aufgaben)

Aufgabengenerierungs-Charakteristiken:

  • Prompt-Empfindlichkeit: Generierte Aufgaben sind extrem empfindlich gegenüber Prompt-Design und erfordern sorgfältige Prompt-Engineering
  • Wiederholungsproblem: Neigt dazu, in Schleifen derselben Aufgabengenerierung stecken zu bleiben
  • Statistische Muster-Abhängigkeit: Generierte Aufgaben spiegeln statistische Muster der Trainingsdaten wider (wie Rechner, Passwortgenerator, Primzahlprüfer usw.)

Speicherverwaltungsprobleme:

  • Speicher-Auslassungen: Vergisst manchmal, Aufgabenvollendungsinformationen zu speichern, was zu Wiederholungen führt
  • Unvollständige Informationen: Kann nur Ergebnisse speichern, nicht die Aufgabe selbst
  • Benutzerfeedback-Verlust: Speichert Benutzerfeedback nicht proaktiv, was zu kurzfristigen Anpassungseffekten führt

Erfolgreiche Fallstudien

Der Agent zeigte folgende Fähigkeiten:

  1. Komplexe Anweisungsausführung: Zuverlässige Befolgung detaillierter, schrittweiser Anweisungen
  2. Dateiübergreifende Operationen: Kann Aufgaben mit mehreren Dateien und Operationen verarbeiten
  3. Aufgaben-Adaptivität: Kann generierte Aufgaben basierend auf Benutzerfeedback angemessen anpassen

Experimentelle Erkenntnisse

Schlüsselerkenntnisse

  1. Grenzen vortrainierter Modelle: Vortrainierte LLMs sind nicht für Aufgabengenerierung trainiert, was zu verschiedenen Problemen führt
  2. Bedeutung der Speicherverwaltung: Das Langzeitgedächtnis-Design beeinflusst direkt Aufgabendiversität und Kontinuität
  3. Notwendigkeit von Prompt-Engineering: Offenes Verhalten hängt stark von sorgfältig gestalteten Systemprompts ab
  4. Kontrolle bewahren: Benutzer-Rückmeldungsmechanismen können die Aufgabenauswahl des Agenten beeinflussen

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Autotele Agenten: Zielbedingte Verstärkungslernagenten mit intrinsischer Motivation
  2. Neugier-getriebenes Lernen: Methoden zur Förderung der Erkundung durch intrinsische Belohnungen
  3. Intrinsische Motivation: Mechanismen zur Zuweisung intrinsischer Belohnungen für einzelne Aktionen
  4. Werkzeugnutzung: Externe Funktionsaufrufe und Code-Ausführungsfähigkeiten von LLM-Agenten

Innovationen dieses Papers

  1. Höhere Abstraktionsebene: Direkte Generierung vollständiger Ziele in natürlicher Sprache statt Belohnungszuweisung für einzelne Aktionen
  2. Persistierungsmechanismen: Realisierung komplexer kontinuierlicher Verhaltensweisen durch einfache Dateioperationen
  3. Praktische Durchführbarkeit: Praktische Methode basierend auf bestehenden vortrainierten Modellen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Vortrainierte LLMs besitzen grundlegende Fähigkeiten für offene Agenten, weisen aber erhebliche Einschränkungen auf
  2. Aktuelle Modelle haben grundlegende Mängel bei Aufgabengenerierung, Speicherverwaltung und Selbstdarstellung
  3. Spezialisiertes Training könnte diese Probleme lösen und echte offene Agenten realisieren

Einschränkungen

  1. Prompt-Empfindlichkeit: Verhalten hängt stark von Prompt-Design ab, mangelnde Robustheit
  2. Wiederholungsprobleme: Neigt zu zyklischen Mustern der Aufgabengenerierung
  3. Fehlende Selbsterkenntnis: Kann keine effektive Selbstdarstellung bilden
  4. Unzureichende Speicherverwaltung: Schlechte Leistung bei Informationsspeicherung und -abruf

Zukünftige Richtungen

  1. Spezialisiertes Training: Entwicklung von Trainingsmethoden für offene Entscheidungsfindung
  2. Speicherverwaltung: Verbesserung des Langzeitgedächtnis-Designs und der Verwaltungsstrategien
  3. Erkundungsstrategien: Entwicklung effektiverer Umgebungserkundungsmechanismen
  4. Verfolgung abstrakter Ziele: Training von Agenten zur Verarbeitung abstrakterer Langzeitziele

Tiefgreifende Bewertung

Stärken

  1. Zukunftsweisende Problemerkennung: Stellt die wichtige Frage des Übergangs von Werkzeugen zu autonomen Entitäten
  2. Einfache und effektive Methode: Realisiert vorläufige Erkundung offenen Verhaltens durch minimale Erweiterungen
  3. Angemessenes Experimentdesign: Qualitative Analysemethode eignet sich für explorative Forschung
  4. Ehrliche Limitationsanalyse: Objektive Darstellung der Unzulänglichkeiten der aktuellen Methode
  5. Klare zukünftige Richtungen: Bietet konkrete Verbesserungswege für nachfolgende Forschung

Mängel

  1. Subjektive Bewertungsmethode: Mangel an quantitativen Metriken, hauptsächlich qualitative Beobachtung
  2. Begrenzte Experimentskala: Verwendet nur ein einzelnes Modell (Qwen3-4B), mangelnde breitere Validierung
  3. Schwache theoretische Grundlagen: Unzureichende Darlegung des theoretischen Rahmens für offene Agenten
  4. Fehlende Vergleichsexperimente: Keine Vergleiche mit anderen offenen Agenten-Methoden
  5. Unzureichende Sicherheitsüberlegungen: Unzureichende Diskussion potenzieller Risiken autonomer Agenten

Einflussfähigkeit

  1. Bereichsbeitrag: Eröffnet neue Richtung für offene Agenten-Forschung bei LLMs
  2. Praktischer Wert: Bietet reproduzierbaren Grundrahmen
  3. Forschungsinspiration: Legt Grundlagen für nachfolgende spezialisierte Trainingsforschung
  4. Grenzbewusstsein: Hilft dem Feld, die Grenzen aktueller Technologie zu erkennen

Anwendungsszenarien

  1. Forschungsprototyp: Eignet sich als Ausgangspunkt für offene Agenten-Forschung
  2. Bildungswerkzeug: Kann zum Verständnis von Agenten-Autonomie-Konzepten verwendet werden
  3. Grundplattform: Bietet Grundinfrastruktur für komplexere offene Systeme
  4. Konzeptnachweis: Validiert Machbarkeit offener Agenten

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten in den Bereichen offenes Lernen, selbstgesteuerte Agenten und neugier-getriebenes Lernen, einschließlich:

  • Autotele Agenten: Colas et al. (2022) Übersicht über zielbedingte Verstärkungslernagenten mit intrinsischer Motivation
  • Neugier-getriebenes Lernen: Burda et al. (2018) Großmaßstab-Neugier-getriebenes Lernforschung
  • Werkzeugnutzung: Qin et al. (2024) Übersicht über Werkzeuglernfähigkeiten grundlegender Modelle
  • ReAct-Rahmen: Yao et al. (2023) Sprachmodell-Rahmen für Reasoning und Action-Zusammenspiel
  • Voyager: Wang et al. (2023) Verwandte Arbeiten zu offenen verkörperten Agenten

Gesamtbewertung: Dies ist eine zukunftsweisende explorative Forschungsarbeit, die zwar in technischer Tiefe und Experimentskala begrenzt ist, aber wichtige vorläufige Erkundungen und tiefe Erkenntnisse für die Entwicklung von LLM-Agenten zu offenen autonomen Entitäten bietet. Der Wert des Papers liegt mehr in der Problemstellung und Richtungsweisung, die Grundlagen für nachfolgende tiefere Forschung legt.