2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

LLM 에이전트를 넘어서: 개방형 관점

기본 정보

  • 논문 ID: 2510.14548
  • 제목: LLM Agents Beyond Utility: An Open-Ended Perspective
  • 저자: Asen Nachkov, Xi Wang, Luc Van Gool
  • 기관: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
  • 분류: cs.AI
  • 발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
  • 논문 링크: https://arxiv.org/abs/2510.14548

초록

최근 LLM 에이전트는 사고의 연쇄(chain of thought) 추론과 함수 호출을 효과적으로 활용하고 있습니다. 그들의 능력이 증가함에 따라 중요한 질문이 제기됩니다: 이 소프트웨어가 단순한 문제 해결 도구뿐만 아니라 계획을 세우고, 즉각적인 작업을 설계하며, 더 광범위하고 모호한 목표를 향해 추론할 수 있는 독립적인 실체로 표현될 수 있을까요? 이 질문을 연구하기 위해 우리는 사전 학습된 LLM 에이전트에 자신의 작업을 생성하고, 지식을 축적하며, 환경과 광범위하게 상호작용할 수 있는 능력을 부여하는 개방형 실험 설정을 채택합니다. 우리는 결과적인 개방형 에이전트를 정성적으로 연구합니다. 이는 복잡한 다단계 지시를 안정적으로 따를 수 있고, 실행 간에 정보를 저장하고 재사용할 수 있으며, 자신의 작업을 제안하고 해결할 수 있습니다. 그러나 프롬프트 설계에 민감하고, 반복적인 작업 생성 경향이 있으며, 자기 표현을 형성할 수 없습니다. 이러한 발견은 사전 학습된 LLM을 개방형으로 적응시키는 것의 가능성과 현재의 한계를 보여주며, 에이전트를 훈련하여 메모리를 관리하고, 생산적으로 탐색하며, 추상적인 장기 목표를 추구하기 위한 향후 방향을 제시합니다.

연구 배경 및 동기

핵심 질문

본 연구는 근본적인 질문을 탐구합니다: 대규모 언어 모델 에이전트가 전통적인 도구 역할을 초월하여 계획을 세우고, 즉각적인 작업을 설계하며, 더 광범위하고 모호한 목표를 향해 추론할 수 있는 자율적 실체가 될 수 있을까요?

연구의 중요성

  1. 에이전트 진화의 핵심 지점: 현재 LLM 에이전트는 주로 사고의 연쇄 추론과 함수 호출을 통해 특정 작업을 해결하지만, 본질적으로는 여전히 도구입니다
  2. 자율성의 질적 도약: 사전 정의된 작업 해결에서 자율적 작업 설계, 지속적 존재, 환경에서의 영구적 흔적 남기기로의 전환
  3. 개방형 지능의 탐색: 고정된 종료 상태, 작업 범위 또는 최종 목표가 없는 환경에서 에이전트의 행동 연구

기존 방법의 한계

  1. 작업 지향성: 기존 에이전트는 여전히 특정 작업 해결을 위한 복잡하지만 본질적으로 도구적인 역할을 수행합니다
  2. 지속성 부족: 작업 완료 후 계속 존재하고 경험을 축적할 수 없습니다
  3. 목표 의존성: 자율적으로 추상적인 장기 목표를 생성하고 추구할 수 없습니다

연구 동기

저자들은 개방형 에이전트가 현재 에이전트와 다른 특성을 갖춰야 한다고 주장합니다. 여기에는 자율적 탐색, 환경 형성 능력, 자생성 목표(autotelic) 특성이 포함됩니다.

핵심 기여

  1. 개방형 LLM 에이전트 프레임워크 제안: ReAct 프레임워크 확장으로 자율적 작업 생성 능력 추가
  2. 지속적 상호작용 메커니즘 설계: 파일 읽기/쓰기 도구를 통한 실행 간 지식 축적 및 상태 유지
  3. 단기 및 장기 메모리 시스템 구현: 작업 메모리와 에피소드 메모리를 구분하는 에이전트 아키텍처
  4. 정성적 실험 분석 수행: 개방형 에이전트의 능력 경계와 한계에 대한 포괄적 평가
  5. 향후 연구 방향 제시: 진정한 개방형 에이전트 훈련을 위한 구체적 경로 제시

방법론 상세 설명

작업 정의

개방형 에이전트: 고정된 종료 상태, 작업 범위 또는 최종 목표가 없는 환경에서 자율적으로 탐색하고, 작업을 생성하며, 지속적으로 상호작용할 수 있는 에이전트입니다. 이 에이전트는 다음을 갖춰야 합니다:

  • 자율적 목표 설정 능력
  • 실행 간 지속성
  • 환경에서의 영구적 영향
  • 추상적 목표 추구 능력

모델 아키텍처

1. 기본 에이전트 설정

  • 기본 모델: Qwen3-4B 사전 학습 지시 조정 모델
  • 프레임워크: ReAct(추론-행동) 에이전트 프레임워크, smolagents 라이브러리 사용
  • 핵심 루프: 계획-행동-관찰(Plan-Act-Observe) 반복 실행

2. 개방형 확장 구성 요소

목표 생성 모듈:

  • 사용자 입력 관찰 후, 작업 해결 전에 목표 생성
  • 작업 정제, 수정 또는 완전 교체 지원
  • <task>...</task> 태그를 사용한 구조화된 출력

메모리 관리 시스템:

  • 단기 메모리: 현재 실행 중의 모든 상호작용 메시지를 저장하는 버퍼
  • 장기 메모리: 파일 시스템으로 구현된 지속적 저장소, 에이전트가 필요에 따라 쓰기 가능

도구 사용 인터페이스:

  • 파일 작업: 읽기, 쓰기, 목록 기능
  • 환경 상호작용: 작업 디렉토리 확인, 자신의 소스 코드 읽기
  • 지속성 메커니즘: 실행 간 관련 상태 저장

3. 완전한 상호작용 루프

1. 사용자 입력/피드백 수신
2. 장기 메모리 접근
3. 작업 생성(자율적 또는 사용자 입력 기반)
4-6. ReAct 루프(계획-행동-관찰)
7. 장기 메모리 업데이트

기술적 혁신점

  1. 자율적 목표 생성: ReAct 프레임워크에 작업 자생성 능력을 처음으로 통합
  2. 이중 메모리 아키텍처: 인간의 작업 메모리와 에피소드 메모리 분리를 모방한 설계
  3. 프로그래밍된 호기심: 자연어 지시를 통한 탐색 행동 주입
  4. 환경 지속성: 간단한 파일 작업을 통한 복잡한 지속적 행동 구현

실험 설정

실험 환경

  • 실행 환경: 에이전트는 자신의 구현 코드의 작업 디렉토리에서 실행
  • 상호작용 방식: 사전 정의된 쿼리 및 명령줄 상호작용 지원
  • 도구 세트: 파일 읽기/쓰기, 디렉토리 목록 등 기본 작업

평가 방법

정성적 분석 방법을 채택하며, 다음에 중점을 둡니다:

  • 작업 실행 능력
  • 자율적 행동 표현
  • 메모리 관리 효과
  • 환경 탐색 행동
  • 자기 인식 능력

테스트 시나리오

  1. 단일 실행 사용자 작업: 복잡한 지시 실행 능력 평가
  2. 다중 실행 자생성 작업: 자율성 및 지속성 평가
  3. 대화형 피드백: 제어 가능성 및 적응성 평가

실험 결과

주요 결과

단일 실행 성능(사용자 제공 작업)

우수한 성능:

  • 파일 작업 처리: 파일을 열고, 작업을 읽으며, 문제를 해결하고, 답변을 다른 파일에 쓸 수 있음
  • 자기 검사 능력: 자신의 프롬프트 템플릿 파일을 식별할 수 있으며, 디렉토리 나열과 main.py 읽기를 통해 템플릿 위치 파악
  • 코드 이해: 에이전트 프로그램을 찾을 수 있으며, 사용자 쿼리 저장 메커니즘을 이해하고, 다음 쿼리 예측 가능

한계 발견:

  • 모호한 작업 처리 부족: 의도적으로 설계된 모호한 작업에 대해 자주 실패
  • 자기 표현 부재: 환경의 소스 코드를 자신으로 인식할 수 없으며, 1인칭 자기 인식 부족
  • 탐색 부족: 모호한 프롬프트 이해 시 환경을 충분히 깊이 있게 탐색하지 않음

다중 실행 성능(자생성 작업)

작업 생성 특성:

  • 프롬프트 민감성: 생성된 작업이 프롬프트 설계에 극도로 민감하며, 신중한 프롬프트 엔지니어링 필요
  • 반복성 문제: 동일한 작업을 반복 생성하는 루프에 빠지기 쉬움
  • 통계적 패턴 의존성: 생성된 작업이 훈련 데이터의 통계적 패턴을 반영(예: 계산기, 비밀번호 생성기, 소수 검사기 등)

메모리 관리 문제:

  • 저장 누락: 때때로 작업 완료 정보 저장을 잊어 반복 생성 초래
  • 정보 불완전성: 결과만 저장하고 작업 자체는 저장하지 않을 수 있음
  • 사용자 피드백 손실: 사용자 피드백을 자동으로 저장하지 않아 조정 효과가 일시적

성공 사례 분석

에이전트는 다음 능력을 보여주었습니다:

  1. 복잡한 지시 실행: 상세하고 단계별 지시를 안정적으로 따를 수 있음
  2. 다중 파일 작업: 여러 파일과 작업을 포함하는 작업 처리 가능
  3. 작업 적응성: 사용자 피드백에 따라 생성된 작업을 합리적으로 조정 가능

실험 발견

핵심 통찰

  1. 사전 학습 모델의 한계: 사전 학습 LLM은 작업 생성을 위해 훈련되지 않아 다양한 문제 초래
  2. 메모리 관리의 중요성: 장기 메모리 설계가 작업 다양성과 연속성에 직접 영향
  3. 프롬프트 엔지니어링의 필요성: 개방형 행동이 신중하게 설계된 시스템 프롬프트에 크게 의존
  4. 제어 가능성 유지: 사용자 피드백 메커니즘을 통해 에이전트의 작업 선택에 영향 가능

관련 연구

주요 연구 방향

  1. 자율 주도 학습(Autotelic Agents): 내재적 동기를 가진 목표 조건부 강화 학습
  2. 호기심 주도 학습: 내재적 보상을 통한 탐색 촉진 방법
  3. 내재적 동기: 개별 행동에 내재적 보상을 할당하는 메커니즘
  4. 도구 사용: LLM 에이전트의 외부 함수 호출 및 코드 실행 능력

본 논문의 혁신점

  1. 더 높은 수준의 추상화: 개별 행동에 보상을 할당하는 대신 자연어로 완전한 목표 생성
  2. 지속성 메커니즘: 간단한 파일 작업을 통한 복잡한 지속적 행동 구현
  3. 실제 실행 가능성: 기존 사전 학습 모델 기반의 실용적 방법

결론 및 토론

주요 결론

  1. 사전 학습 LLM은 개방형 에이전트의 기초 능력을 갖추고 있지만 현저한 한계 존재
  2. 현재 모델은 작업 생성, 메모리 관리, 자기 표현 측면에서 근본적 결함 존재
  3. 전문적 훈련을 통해 이러한 문제를 해결할 수 있으며, 진정한 개방형 에이전트 구현 가능

한계

  1. 프롬프트 민감성: 행동이 프롬프트 설계에 크게 의존하며 견고성 부족
  2. 반복성 문제: 작업 생성의 순환 패턴에 빠지기 쉬움
  3. 자기 인식 부재: 효과적인 자기 표현을 형성할 수 없음
  4. 부적절한 메모리 관리: 정보 저장 및 검색 측면에서 성능 부족

향후 방향

  1. 전문적 훈련: 개방형 의사결정을 위한 훈련 방법 개발
  2. 메모리 관리: 장기 메모리 설계 및 관리 전략 개선
  3. 탐색 전략: 더 효과적인 환경 탐색 메커니즘 개발
  4. 추상적 목표 추구: 더 추상적인 장기 목표 처리를 위한 에이전트 훈련

심층 평가

장점

  1. 문제 인식의 선견지명: 도구에서 자율적 실체로의 전환이라는 중요한 질문 제기
  2. 방법의 단순성과 효과성: 최소한의 확장을 통한 개방형 행동의 초기 탐색 구현
  3. 합리적인 실험 설계: 정성적 분석 방법이 탐색적 연구의 특성에 적합
  4. 솔직한 한계 분석: 현재 방법의 부족함을 객관적으로 지적
  5. 명확한 향후 방향: 후속 연구를 위한 구체적 개선 경로 제시

부족한 점

  1. 평가 방법의 주관성: 정량적 지표 부족, 주로 정성적 관찰에 의존
  2. 제한된 실험 규모: 단일 모델(Qwen3-4B)만 사용, 광범위한 검증 부족
  3. 약한 이론적 기초: 개방형 에이전트의 이론적 프레임워크 설명 부족
  4. 비교 실험 부재: 다른 개방형 에이전트 방법과의 비교 없음
  5. 불충분한 안전성 고려: 자율 에이전트의 잠재적 위험에 대한 충분한 논의 부족

영향력

  1. 분야 기여: LLM 에이전트의 개방형 연구를 위한 새로운 방향 개척
  2. 실용적 가치: 재현 가능한 기초 프레임워크 제공
  3. 연구 영감: 후속 전문적 훈련 연구의 기초 마련
  4. 한계 인식: 분야가 현재 기술의 경계를 인식하도록 지원

적용 시나리오

  1. 연구 프로토타입: 개방형 에이전트 연구의 출발점으로 적합
  2. 교육 도구: 에이전트 자율성 개념 이해에 활용 가능
  3. 기초 플랫폼: 더 복잡한 개방형 시스템을 위한 기초 인프라 제공
  4. 개념 검증: 개방형 에이전트의 실행 가능성 검증

참고 문헌

본 논문은 개방형 학습, 자율 주도 에이전트, 호기심 주도 학습 등 분야의 중요한 연구를 인용합니다:

  • 자율 주도 에이전트: Colas et al. (2022) 내재적 동기 목표 조건부 강화 학습 종합 검토
  • 호기심 주도 학습: Burda et al. (2018) 대규모 호기심 주도 학습 연구
  • 도구 사용: Qin et al. (2024) 기초 모델의 도구 학습 종합 검토
  • ReAct 프레임워크: Yao et al. (2023) 추론과 행동 협력의 언어 모델 프레임워크
  • Voyager: Wang et al. (2023) 개방형 구현 에이전트 관련 연구

종합 평가: 이는 기술적 깊이와 실험 규모에서 제한이 있지만, LLM 에이전트가 개방형 자율 실체로 진화하는 과정에 중요한 초기 탐색과 깊은 통찰을 제공하는 선견지명 있는 탐색 연구입니다. 논문의 가치는 기술적 혁신보다는 문제 제기와 방향 제시에 더 많이 나타나며, 후속 더 깊이 있는 연구의 기초를 마련합니다.