Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic 論文ID : 2510.14548タイトル : LLM Agents Beyond Utility: An Open-Ended Perspective著者 : Asen Nachkov, Xi Wang, Luc Van Gool所属機関 : INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich分類 : cs.AI発表会議 : 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp論文リンク : https://arxiv.org/abs/2510.14548 最近のLLMエージェントは思考の連鎖推論と関数呼び出しを効果的に活用しています。その能力が向上するにつれ、重要な問題が生じます。このソフトウェアは単なる優れた問題解決ツールではなく、計画を立て、即時タスクを設計し、より広く曖昧な目標に向かって推論できる独立した実体として機能できるのでしょうか。この問題を研究するため、事前学習されたLLMエージェントに独自のタスクを生成し、知識を蓄積し、環境と広範に相互作用する能力を付与するオープンエンド実験設定を採用しました。得られたオープンエンドエージェントを定性的に研究しました。複雑な多段階指示に確実に従い、実行間で情報を保存および再利用し、独自のタスクを提案および解決できますが、プロンプト設計に敏感で、反復的なタスク生成に陥りやすく、自己表現を形成できません。これらの知見は、事前学習されたLLMをオープンエンド性に適応させることの可能性と現在の限界を示し、メモリ管理、生産的な探索、抽象的な長期目標の追求を管理するエージェントの訓練に向けた将来の方向性を指し示しています。
本研究は根本的な問題を探究しています。大規模言語モデルエージェントが従来のツール的役割を超越し、計画を立て、即時タスクを設計し、より広く曖昧な目標に向かって推論できる自律的実体になることができるのか、という問題です。
エージェント進化の重要な転換点 :現在のLLMエージェントは主に思考の連鎖推論と関数呼び出しを通じて特定のタスクを解決していますが、本質的にはツールのままです自律性の質的飛躍 :事前定義されたタスク解決から自律的なタスク設計、継続的な存在、環境への永続的な影響への転換オープンエンド知能の探索 :固定された終了状態、タスク範囲、または終端目標のない環境でのエージェント動作の研究タスク指向性 :既存のエージェントは依然として複雑だが本質的にはツール的であり、特定のタスク解決に使用されます継続性の欠如 :タスク完了後に存在し続け、経験を蓄積することができません目標依存性 :抽象的な長期目標を自律的に生成および追求することができません著者は、オープンエンドエージェントが現在のエージェントと異なる特性を備える必要があると考えています。これには自律的な探索、環境形成能力、および自己生成目標(autotelic)の特性が含まれます。
オープンエンドLLMエージェントフレームワークの提案 :ReActフレームワークを拡張し、自律的なタスク生成能力を追加永続的相互作用メカニズムの設計 :ファイル読み書きツールを通じた実行間の知識蓄積と状態保持の実現短期および長期記憶システムの実装 :作業記憶とエピソード記憶を区別するエージェントアーキテクチャ定性的実験分析の実施 :オープンエンドエージェントの能力境界と限界の包括的評価将来の研究方向の提示 :真のオープンエンドエージェント訓練の具体的な道筋を示唆オープンエンドエージェント :固定された終了状態、タスク範囲、または終端目標のない環境で、自律的に探索し、タスクを生成し、継続的に相互作用できるエージェント。このエージェントは以下を備えるべきです:
自律的な目標設定能力 実行間の継続性 環境への永続的な影響 抽象的目標の追求能力 基本モデル :Qwen3-4B事前学習指示調整モデルフレームワーク :ReAct(推論-行動)エージェントフレームワーク、smolagentsライブラリを使用コア循環 :計画-行動-観察(Plan-Act-Observe)の反復実行目標生成モジュール :
ユーザー入力を観察した後、タスク解決前に目標を生成 タスク精緻化、修正、または完全な置き換えをサポート <task>...</task>タグを使用した構造化出力記憶管理システム :
短期記憶 :現在の実行中のすべての相互作用メッセージを格納するバッファ長期記憶 :ファイルシステムで実装された永続的ストレージ、エージェントは必要に応じて書き込み可能ツール使用インターフェース :
ファイル操作 :読み取り、書き込み、リスト機能環境相互作用 :作業ディレクトリの確認、自身のソースコード読み取り永続化メカニズム :実行間での関連状態の保存1. ユーザー入力/フィードバック受信
2. 長期記憶アクセス
3. タスク生成(自律的またはユーザー入力に基づく)
4-6. ReAct循環(計画-行動-観察)
7. 長期記憶更新
自律的目標生成 :ReActフレームワークにタスク自己生成能力を初めて統合二重記憶アーキテクチャ :人間の作業記憶とエピソード記憶の分離を模倣した設計プログラム的好奇心 :自然言語指示を通じた探索行動の注入環境永続化 :単純なファイル操作を通じた複雑な継続性行動の実現実行環境 :エージェントは実装コードの作業ディレクトリで実行相互作用方式 :事前定義クエリとコマンドラインの相互作用をサポートツールセット :ファイル読み書き、ディレクトリリストなどの基本操作定性分析方法を採用し、以下に焦点を当てます:
タスク実行能力 自律的行動表現 記憶管理効果 環境探索行動 自己認識能力 単一実行ユーザータスク :複雑な指示実行能力の評価複数実行自己生成タスク :自律性と継続性の評価対話的フィードバック :制御可能性と適応性の評価優れた表現 :
ファイルタスク処理 :ファイルを開き、タスクを読み取り、問題を解決し、別のファイルに答えを書き込むことができます自己チェック能力 :自身のプロンプトテンプレートファイルを識別でき、ディレクトリをリストし、main.pyを読み取ってテンプレートを特定できますコード理解 :エージェントプログラムを見つけ、ユーザークエリ保存メカニズムを理解し、次のクエリを予測できます限界の発見 :
曖昧なタスク処理の不十分さ :意図的に設計された曖昧なタスクでしばしば失敗自己表現の欠如 :環境内のソースコードを自身として認識できず、一人称の自己認識が不足探索不足 :曖昧なプロンプトの理解において環境の十分な探索が不足タスク生成の特性 :
プロンプト敏感性 :生成されたタスクはプロンプト設計に極めて敏感で、慎重なプロンプトエンジニアリングが必要反復性の問題 :同じタスクを繰り返し生成するループに陥りやすい統計パターン依存 :生成されたタスクは訓練データの統計パターンを反映(例:計算機、パスワード生成器、素数チェッカーなど)記憶管理の問題 :
保存の漏れ :タスク完了情報の保存を忘れることがあり、重複生成につながる情報の不完全性 :結果のみを保存し、タスク自体を保存しない可能性ユーザーフィードバックの喪失 :ユーザーフィードバックを主動的に保存せず、調整効果が一時的エージェントは以下の能力を示しました:
複雑な指示実行 :詳細で段階的な指示に確実に従うことができますクロスファイル操作 :複数のファイルと操作を含むタスクを処理できますタスク適応性 :ユーザーフィードバックに基づいて生成されたタスクを合理的に調整できます事前学習モデルの限界 :事前学習LLMはタスク生成用に訓練されていないため、複数の問題が生じます記憶管理の重要性 :長期記憶の設計はタスク多様性と継続性に直接影響しますプロンプトエンジニアリングの必要性 :オープンエンド行動は慎重に設計されたシステムプロンプトに大きく依存します制御可能性の維持 :ユーザーフィードバックメカニズムを通じてエージェントのタスク選択に影響を与えることができます自駆動学習 (Autotelic Agents):内在的動機を持つ目標条件強化学習好奇心駆動学習 :内在的報酬を通じた探索促進方法内在的動機 :個別行動への内在的報酬割り当てメカニズムツール使用 :LLMエージェントの外部関数呼び出しとコード実行能力より高いレベルの抽象化 :個別行動への報酬割り当てではなく、自然言語で完全な目標を直接生成永続化メカニズム :単純なファイル操作を通じた複雑な継続性行動の実現実用性 :既存の事前学習モデルに基づく実用的方法事前学習LLMはオープンエンドエージェントの基礎能力を備えている が、顕著な限界が存在します現在のモデルはタスク生成、記憶管理、自己表現の面で根本的な欠陥を持っている 専門的訓練を通じてこれらの問題を解決できる可能性があり 、真のオープンエンドエージェントを実現できますプロンプト敏感性 :行動はプロンプト設計に大きく依存し、堅牢性が不足反復性の問題 :タスク生成の循環パターンに陥りやすい自己認識の欠如 :効果的な自己表現を形成できない記憶管理の不適切さ :情報の保存と検索において表現が不十分専門的訓練 :オープンエンド意思決定用の訓練方法の開発記憶管理 :長期記憶の設計と管理戦略の改善探索戦略 :より効果的な環境探索メカニズムの開発抽象的目標追求 :より抽象的な長期目標を処理するエージェント訓練問題意識の先見性 :ツールから自律的実体への転換という重要な問題を提起方法の簡潔性と有効性 :最小限の拡張を通じたオープンエンド行動の初期探索の実現実験設計の合理性 :定性分析方法は探索的研究の特性に適しています限界分析の誠実さ :現在の方法の不足を客観的に指摘明確な将来方向 :後続研究に具体的な改善経路を提供評価方法の主観性 :定量指標が不足し、主に定性的観察に依存実験規模の限定 :単一モデル(Qwen3-4B)のみを使用し、より広範な検証が不足理論基礎の弱さ :オープンエンドエージェントの理論フレームワークの説明が不十分比較実験の欠如 :他のオープンエンドエージェント方法との比較がない安全性考慮の不足 :自律エージェントの潜在的リスクについて十分に議論されていない領域への貢献 :LLMエージェントのオープンエンド研究に新しい方向を開拓実用的価値 :再現可能な基本フレームワークを提供研究への示唆 :後続の専門的訓練研究の基礎を確立限界認識 :領域が現在の技術の境界を認識するのに役立つ研究プロトタイプ :オープンエンドエージェント研究の出発点として適切教育ツール :エージェント自律性の概念理解に使用可能基本プラットフォーム :より複雑なオープンエンドシステムの基本インフラを提供概念実証 :オープンエンドエージェントの実現可能性を検証本論文はオープンエンド学習、自駆動エージェント、好奇心駆動学習などの領域の重要な研究を引用しており、以下を含みます:
Autotelic agents : Colas et al. (2022) 内在的動機目標条件強化学習の調査Curiosity-driven learning : Burda et al. (2018) 大規模好奇心駆動学習研究Tool usage : Qin et al. (2024) 基礎モデルのツール学習調査ReAct framework : Yao et al. (2023) 推論と行動の協調的言語モデルフレームワークVoyager : Wang et al. (2023) オープンエンド具体化エージェントの関連研究総合評価 :これは先見的な探索的研究であり、技術的深さと実験規模に制限がありますが、LLMエージェントがオープンエンド自律実体へと進化する過程における重要な初期探索と深い洞察を提供しています。論文の価値は技術的深さよりも問題提起と方向指示に現れており、後続のより深い研究の基礎を確立しています。