2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao
Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

基本信息

  • 论文ID: 2510.08576
  • 标题: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
  • 作者: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
  • 分类: cs.SE cs.AI cs.CL cs.HC
  • 发表会议: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
  • 论文链接: https://arxiv.org/abs/2510.08576

摘要

本研究探讨了大语言模型(LLMs)在自然语言理解和用户意图解析方面的变革性作用,特别是在编排复杂工作流程方面的能力。研究关注从传统GUI驱动界面向直观的语言优先交互范式的转变。然而,现有实现往往依赖基于云的专有模型,在隐私、自主性和可扩展性方面存在局限。本文通过比较分析开源和开放访问模型与OpenAI专有GPT-4系统的性能,评估了本地部署开源LLMs作为未来基于意图的操作系统基础组件的可行性。

研究背景与动机

核心问题

  1. 交互范式转变需求:传统操作系统基于GUI、分层文件管理和shell的交互机制要求用户手动协调多个应用程序,过程繁琐且耗时
  2. 隐私和自主性挑战:现有基于云的专有模型在隐私、自主性和可扩展性方面存在限制
  3. 本地部署必要性:为实现真正健壮可信的语言优先交互范式,本地部署不仅是便利,更是必需

研究意义

  • 推动从GUI驱动向语言优先交互范式的转变
  • 评估开源LLMs在未来意图驱动操作系统中的可行性
  • 促进AI基础设施的去中心化和民主化

现有方法局限性

  • 依赖外部云基础设施,缺乏自主性
  • 隐私和数据安全问题
  • 网络依赖性限制了应用场景

核心贡献

  1. 首次系统性比较:对开源/开放访问LLMs与专有GPT-4模型在用户意图解析任务上的性能进行了全面比较分析
  2. 实用系统架构:设计并实现了基于Controller的系统架构,支持LLM生成工作流的动态执行
  3. 多维度评估框架:建立了包含响应时间、首token时间、代码质量等多个维度的评估体系
  4. 开源LLMs可行性验证:证明了开源模型在用户意图解析任务上接近专有模型的性能水平

方法详解

任务定义

将用户的自然语言意图转换为可执行的工作流程,具体表现为:

  • 输入:用户的自然语言意图描述
  • 输出:Python代码形式的可执行工作流
  • 约束:代码必须调用预定义的API函数集合

系统架构

核心组件

  1. Controller:中央协调单元,管理与LLM的通信和工作流执行
  2. Function Table:包含可用函数及其规范的目录,提供函数签名和实现回调
  3. Prompt Formatter:根据用户意图和Function Table生成LLM提示
  4. Executor:在受控环境中执行LLM生成的代码
  5. LLM Service:外部托管的LLM接口

工作流建模

  • 将工作流概念化为确定性状态机
  • 使用命令式编程语言(Python)进行建模
  • 支持顺序步骤和复杂控制流结构(循环、分支)
  • 允许步骤中断、抢占和异步任务管理

技术创新点

  1. 状态机与代码等价性:创新性地将工作流建模为状态机,通过Python代码执行实现状态转换
  2. 受控执行环境:通过Function Table限制可执行函数,确保安全性
  3. 多模型统一接口:设计了支持多种LLM的统一评估框架

实验设置

测试模型

开源/开放访问模型

  • falcon-3-10b-instruct
  • qwen-2.5-14b-instruct
  • phi-4

专有模型

  • gpt-4o
  • gpt-4o-mini
  • gpt-4-turbo
  • gpt-4.5-preview-2025-02-27

测试意图集

设计了9个不同复杂度的用户意图:

  1. 简单基线功能(如"请休眠5秒")
  2. 外部信息请求(如查询温度、Wikipedia摘要)
  3. 系统导向任务(如文件列表、远程安装)
  4. 媒体交互(如播放随机歌曲)
  5. 复合任务(如发送文件给保险公司)

评价指标

  1. 功能正确性:意图解析成功率
  2. 响应时间:接收完整输出的总时间
  3. 首Token时间:接收初始输出的时间
  4. 代码质量:是否包含前言、后记和代码注释

实现细节

  • 基于Python 3实现Controller
  • 在Android设备上运行,使用Termux环境
  • 模型温度设置为0.0确保确定性结果
  • 每个意图对每个LLM测试一次

实验结果

主要结果

意图解析成功率

模型类别成功解析数量总体表现
开源模型7/9与gpt-4-turbo相当
专有模型(顶级)8/9略优于开源模型

具体表现

  • falcon-3-10b-instruct:7/9成功
  • phi-4:7/9成功
  • qwen-2.5-14b-instruct:7/9成功
  • gpt-4o, gpt-4o-mini, gpt-4.5-preview:8/9成功
  • gpt-4-turbo:7/9成功

性能指标对比

平均响应时间

  • 最快:gpt-4o (1.75s)
  • 开源最快:qwen-2.5-14b-instruct (3.42s)
  • 最慢:gpt-4.5-preview-2025-02-27 (7.24s)

平均首Token时间

  • 最快:falcon-3-10b-instruct (353.4ms)
  • 最慢:gpt-4.5-preview-2025-02-27 (900.1ms)

详细分析

失败案例分析

  1. 意图8(Wikipedia摘要):几乎所有模型都失败,因为内容超出上下文窗口
  2. 格式问题:falcon-3-10b-instruct在意图7中使用错误的代码块标记
  3. 函数选择错误:部分模型在复杂意图中选择了不当的API函数

代码质量特征

  • 前言/后记:开源模型普遍不包含,专有模型表现不一
  • 代码注释:phi-4和多数专有模型倾向于包含注释
  • 代码正确性:大部分生成的代码在语法和逻辑上正确

相关工作

核心技术基础

  1. Transformer架构:所有现代LLMs的基础,支持并行化训练和高质量NLP
  2. 代码生成:GitHub Copilot等工具在代码辅助方面的应用
  3. 意图识别:对话系统中用户意图识别的相关研究

应用领域拓展

  • 个人助手:Siri、Cortana、Alexa等现有解决方案
  • 操作系统集成:AIOS等面向LLM代理的操作系统研究
  • GUI自动化:AI直接操作现有GUI应用的研究

安全与隐私

  • 数据隐私:训练数据和用户信息处理的隐私问题
  • AI风险:包括幻觉、错误代码生成等问题的系统性分析

结论与讨论

主要结论

  1. 性能接近性:开源LLMs在用户意图解析任务上表现接近专有模型,成功率达到77.8%(7/9)
  2. 响应时间可接受:虽然专有模型在响应时间上有优势,但开源模型的性能仍在可接受范围内
  3. 本地部署可行性:验证了使用自托管开源模型构建意图驱动系统的可行性

局限性

  1. 单次测试限制:每个意图仅测试一次,缺乏统计显著性验证
  2. 计算资源需求:当前模型仍需要大量计算资源,限制了真正的本地部署
  3. 安全风险:直接执行生成代码存在安全漏洞,需要更完善的沙箱机制
  4. API覆盖范围:当前API集合相对有限,难以处理更复杂的用户意图

未来方向

  1. 模型优化:通过剪枝、蒸馏和量化技术减少模型大小和计算需求
  2. 安全机制:开发更完善的隔离和沙箱机制
  3. API扩展:构建更全面的API来处理多样化的用户意图
  4. 对齐问题:解决AI系统的关闭问题和对齐伪装问题

深度评价

优点

  1. 研究意义重大:首次系统性评估开源LLMs在意图驱动操作系统中的应用潜力
  2. 实验设计合理:涵盖不同复杂度的测试用例,评估维度全面
  3. 技术方案创新:状态机与代码执行的等价建模具有创新性
  4. 实用价值高:为未来操作系统设计提供了重要参考

不足

  1. 测试规模有限:仅9个测试用例,样本量相对较小
  2. 统计分析缺失:缺乏置信区间和显著性检验
  3. 安全性考虑不足:对代码执行的安全风险讨论较为表面
  4. 长期可靠性未验证:未考虑模型在长期使用中的稳定性

影响力

  1. 学术贡献:为LLM在操作系统集成领域提供了重要基准
  2. 实用价值:证明了开源方案的可行性,推动了技术民主化
  3. 未来导向:为下一代人机交互界面设计指明了方向

适用场景

  1. 隐私敏感环境:需要本地处理的企业和个人应用
  2. 资源受限设备:移动设备和边缘计算场景
  3. 定制化需求:需要特定功能优化的专业领域
  4. 研究原型:学术研究和概念验证系统

参考文献

本文引用了38篇重要文献,涵盖了Transformer架构、LLM应用、代码生成、人机交互、AI安全等多个相关领域的核心研究成果,为研究提供了坚实的理论基础。


总体评价:这是一篇具有前瞻性和实用价值的研究论文,首次系统性地评估了开源LLMs在未来操作系统中的应用潜力。虽然在实验规模和安全性分析方面存在一定局限,但其研究结论对推动AI技术民主化和下一代人机交互界面发展具有重要意义。