Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic- 논문 ID: 2510.08576
- 제목: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
- 저자: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
- 분류: cs.SE cs.AI cs.CL cs.HC
- 발표 학술대회: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
- 논문 링크: https://arxiv.org/abs/2510.08576
본 연구는 자연언어 이해 및 사용자 의도 해석 분야에서 대규모 언어 모델(LLMs)의 혁신적 역할을 탐구하며, 특히 복잡한 워크플로우 조율 능력에 초점을 맞추고 있습니다. 본 연구는 기존 GUI 기반 인터페이스에서 직관적인 언어 우선 상호작용 패러다임으로의 전환에 주목합니다. 그러나 현존하는 구현들은 클라우드 기반 독점 모델에 의존하고 있으며, 개인정보보호, 자율성, 확장성 측면에서 한계를 보입니다. 본 논문은 오픈소스 및 개방형 접근 모델과 OpenAI의 독점 GPT-4 시스템의 성능을 비교 분석함으로써, 로컬 배포 오픈소스 LLMs이 미래의 의도 기반 운영 체제의 기초 구성 요소로서의 타당성을 평가합니다.
- 상호작용 패러다임 전환의 필요성: 기존 운영 체제는 GUI, 계층적 파일 관리, 셸 기반 상호작용 메커니즘을 기반으로 하며, 사용자가 여러 애플리케이션을 수동으로 조율해야 하는 번거롭고 시간 소모적인 프로세스를 요구합니다.
- 개인정보보호 및 자율성 문제: 기존 클라우드 기반 독점 모델은 개인정보보호, 자율성, 확장성 측면에서 제한이 있습니다.
- 로컬 배포의 필요성: 진정으로 견고하고 신뢰할 수 있는 언어 우선 상호작용 패러다임을 구현하기 위해서는 로컬 배포가 편의성을 넘어 필수 요소입니다.
- GUI 기반에서 언어 우선 상호작용 패러다임으로의 전환 추진
- 미래의 의도 기반 운영 체제에서 오픈소스 LLMs의 타당성 평가
- AI 기반 시설의 분산화 및 민주화 촉진
- 외부 클라우드 인프라에 대한 의존성으로 인한 자율성 부족
- 개인정보보호 및 데이터 보안 문제
- 네트워크 의존성으로 인한 적용 범위 제한
- 최초의 체계적 비교: 사용자 의도 해석 작업에서 오픈소스/개방형 접근 LLMs과 독점 GPT-4 모델의 성능에 대한 포괄적 비교 분석 수행
- 실용적 시스템 아키텍처: LLM이 생성한 워크플로우의 동적 실행을 지원하는 Controller 기반 시스템 아키텍처 설계 및 구현
- 다차원 평가 프레임워크: 응답 시간, 첫 토큰 시간, 코드 품질 등 여러 차원을 포함하는 평가 체계 수립
- 오픈소스 LLMs 타당성 검증: 오픈소스 모델이 사용자 의도 해석 작업에서 독점 모델에 근접한 성능을 달성함을 입증
사용자의 자연언어 의도를 실행 가능한 워크플로우로 변환하며, 구체적으로는:
- 입력: 사용자의 자연언어 의도 설명
- 출력: Python 코드 형태의 실행 가능한 워크플로우
- 제약: 코드는 사전 정의된 API 함수 집합을 호출해야 함
- Controller: 중앙 조율 단위로서 LLM과의 통신 및 워크플로우 실행 관리
- Function Table: 사용 가능한 함수 및 그 규격을 포함하는 디렉토리로서 함수 서명 및 구현 콜백 제공
- Prompt Formatter: 사용자 의도 및 Function Table을 기반으로 LLM 프롬프트 생성
- Executor: 제어된 환경에서 LLM이 생성한 코드 실행
- LLM Service: 외부 호스팅 LLM 인터페이스
- 워크플로우를 결정론적 상태 머신으로 개념화
- 명령형 프로그래밍 언어(Python)를 사용한 모델링
- 순차 단계 및 복잡한 제어 흐름 구조(루프, 분기) 지원
- 단계 중단, 선점, 비동기 작업 관리 허용
- 상태 머신과 코드 동등성: 워크플로우를 상태 머신으로 모델링하고 Python 코드 실행을 통해 상태 전환을 구현하는 혁신적 접근
- 제어된 실행 환경: Function Table을 통해 실행 가능한 함수를 제한하여 보안성 확보
- 다중 모델 통합 인터페이스: 다양한 LLM을 지원하는 통합 평가 프레임워크 설계
오픈소스/개방형 접근 모델:
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
독점 모델:
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
다양한 복잡도의 9개 사용자 의도 설계:
- 단순 기본 기능(예: "5초 동안 절전 모드")
- 외부 정보 요청(예: 온도 조회, Wikipedia 요약)
- 시스템 지향 작업(예: 파일 목록, 원격 설치)
- 미디어 상호작용(예: 무작위 곡 재생)
- 복합 작업(예: 보험사에 파일 전송)
- 기능 정확성: 의도 해석 성공률
- 응답 시간: 완전한 출력 수신 총 시간
- 첫 토큰 시간: 초기 출력 수신 시간
- 코드 품질: 전문, 후기 및 코드 주석 포함 여부
- Python 3 기반 Controller 구현
- Android 기기에서 Termux 환경으로 실행
- 결정론적 결과 보장을 위해 모델 온도를 0.0으로 설정
- 각 의도에 대해 각 LLM마다 한 번씩 테스트
| 모델 범주 | 성공 해석 수 | 전체 성능 |
|---|
| 오픈소스 모델 | 7/9 | gpt-4-turbo와 동등 |
| 독점 모델(상위) | 8/9 | 오픈소스 모델보다 약간 우수 |
구체적 성능:
- falcon-3-10b-instruct: 7/9 성공
- phi-4: 7/9 성공
- qwen-2.5-14b-instruct: 7/9 성공
- gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 성공
- gpt-4-turbo: 7/9 성공
평균 응답 시간:
- 최고 속도: gpt-4o (1.75초)
- 오픈소스 최고 속도: qwen-2.5-14b-instruct (3.42초)
- 최저 속도: gpt-4.5-preview-2025-02-27 (7.24초)
평균 첫 토큰 시간:
- 최고 속도: falcon-3-10b-instruct (353.4ms)
- 최저 속도: gpt-4.5-preview-2025-02-27 (900.1ms)
- 의도 8(Wikipedia 요약): 콘텐츠가 컨텍스트 윈도우를 초과하여 거의 모든 모델이 실패
- 형식 문제: falcon-3-10b-instruct가 의도 7에서 잘못된 코드 블록 마크업 사용
- 함수 선택 오류: 일부 모델이 복잡한 의도에서 부적절한 API 함수 선택
- 전문/후기: 오픈소스 모델은 일반적으로 미포함, 독점 모델은 불균등한 성능
- 코드 주석: phi-4 및 대부분의 독점 모델이 주석 포함 경향
- 코드 정확성: 생성된 대부분의 코드가 구문 및 논리적으로 정확
- Transformer 아키텍처: 모든 현대 LLMs의 기초로서 병렬화 훈련 및 고품질 NLP 지원
- 코드 생성: GitHub Copilot 등 코드 보조 도구의 응용
- 의도 인식: 대화형 시스템에서 사용자 의도 인식 관련 연구
- 개인 보조: Siri, Cortana, Alexa 등 기존 솔루션
- 운영 체제 통합: AIOS 등 LLM 에이전트 지향 운영 체제 연구
- GUI 자동화: AI가 기존 GUI 애플리케이션을 직접 조작하는 연구
- 데이터 개인정보보호: 훈련 데이터 및 사용자 정보 처리의 개인정보보호 문제
- AI 위험: 환각, 오류 코드 생성 등 문제의 체계적 분석
- 성능 근접성: 오픈소스 LLMs이 사용자 의도 해석 작업에서 독점 모델에 근접한 성능을 보이며, 성공률은 77.8%(7/9)에 달함
- 응답 시간 수용성: 독점 모델이 응답 시간에서 우위를 보이지만, 오픈소스 모델의 성능도 수용 가능한 범위 내
- 로컬 배포 타당성: 자체 호스팅 오픈소스 모델을 사용하여 의도 기반 시스템 구축의 타당성 검증
- 단일 테스트 제한: 각 의도는 한 번만 테스트되어 통계적 유의성 검증 부족
- 계산 자원 요구: 현재 모델은 여전히 상당한 계산 자원을 필요로 하여 진정한 로컬 배포 제한
- 보안 위험: 생성된 코드의 직접 실행에 보안 취약점이 있으며, 더 완벽한 샌드박스 메커니즘 필요
- API 커버리지: 현재 API 집합이 상대적으로 제한적이어서 더 복잡한 사용자 의도 처리 어려움
- 모델 최적화: 가지치기, 증류, 양자화 기술을 통한 모델 크기 및 계산 요구 감소
- 보안 메커니즘: 더 완벽한 격리 및 샌드박스 메커니즘 개발
- API 확장: 다양한 사용자 의도 처리를 위한 더 포괄적인 API 구축
- 정렬 문제: AI 시스템의 종료 문제 및 정렬 위장 문제 해결
- 연구 의의 중대: 의도 기반 운영 체제에서 오픈소스 LLMs의 응용 잠재력을 최초로 체계적으로 평가
- 실험 설계 합리성: 다양한 복잡도의 테스트 사례를 포함하며 평가 차원이 포괄적
- 기술 방안 혁신성: 상태 머신과 코드 실행의 동등 모델링이 혁신적
- 실용 가치 높음: 미래 운영 체제 설계에 중요한 참고 자료 제공
- 테스트 규모 제한: 9개의 테스트 사례만으로 표본 크기가 상대적으로 작음
- 통계 분석 부재: 신뢰 구간 및 유의성 검정 부족
- 보안성 고려 부족: 코드 실행의 보안 위험에 대한 논의가 표면적
- 장기 신뢰성 미검증: 장기 사용 중 모델의 안정성 미고려
- 학술 기여: LLM의 운영 체제 통합 분야에 중요한 벤치마크 제공
- 실용 가치: 오픈소스 솔루션의 타당성 입증으로 기술 민주화 추진
- 미래 지향성: 차세대 인간-기계 상호작용 인터페이스 설계에 방향 제시
- 개인정보보호 민감 환경: 로컬 처리가 필요한 기업 및 개인 응용
- 자원 제한 기기: 모바일 기기 및 엣지 컴퓨팅 시나리오
- 맞춤형 요구사항: 특정 기능 최적화가 필요한 전문 분야
- 연구 프로토타입: 학술 연구 및 개념 검증 시스템
본 논문은 Transformer 아키텍처, LLM 응용, 코드 생성, 인간-기계 상호작용, AI 보안 등 여러 관련 분야의 핵심 연구 성과를 포함하는 38편의 중요 문헌을 인용하여 견고한 이론적 기초를 제공합니다.
전체 평가: 이는 오픈소스 LLMs이 미래 운영 체제에서의 응용 잠재력을 최초로 체계적으로 평가한 전망성 있고 실용적 가치가 높은 연구 논문입니다. 실험 규모 및 보안성 분석 측면에서 일정한 한계가 있지만, 그 연구 결론은 AI 기술 민주화 추진 및 차세대 인간-기계 상호작용 인터페이스 발전에 중요한 의미를 갖습니다.