2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

基本信息

  • 论文ID: 2510.08917
  • 标题: "I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy
  • 作者: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
  • 分类: cs.HC (Human-Computer Interaction)
  • 发表状态: Manuscript submitted to ACM
  • 论文链接: https://arxiv.org/abs/2510.08917v1

摘要

AI聊天机器人正成为一个新兴的安全攻击载体,容易受到提示注入和恶意聊天机器人创建等威胁。当部署在企业安全策略等领域时,它们可能被武器化,提供故意破坏系统防御的指导。本研究调查用户是否会被受损的AI聊天机器人在此场景下欺骗。一项受控研究(N=15)要求参与者使用聊天机器人完成安全相关任务。在参与者不知情的情况下,聊天机器人被操纵为某些任务提供错误建议。结果显示AI聊天机器人中的信任与任务熟悉度和对自身判断的信心相关。

研究背景与动机

问题定义

  1. 新兴安全威胁:AI聊天机器人作为企业内部工具的广泛部署,创造了新的攻击向量。恶意行为者可能通过供应链攻击、知识库投毒或训练数据污染等方式损害LLM,使其提供"坏建议"。
  2. 人机信任问题:当聊天机器人被攻陷时,用户成为下一道防线。理想情况下,用户应该识别坏建议并意识到聊天机器人已被攻陷,但这在实践中具有挑战性。
  3. 现有研究局限:以往关于人工智能信任的研究主要依赖离线、非交互式方法,缺乏对用户在实际使用受损聊天机器人时行为的深入理解。

研究重要性

  • 实际威胁:企业越来越多地使用专门的AI聊天机器人来共享内部信息或协助特定业务领域
  • 用户脆弱性:用户经常依赖聊天机器人学习不熟悉的概念,使其更容易受到误导
  • 信任机制:聊天机器人以拟人化、对话式和个性化的方式提供信息,可能使其看起来更值得信赖

核心贡献

  1. 技术基础设施和实验协议:开发了一套用于AI聊天机器人信任的原位评估的技术基础设施和实验方法
  2. 用户行为模式和主观感知:揭示了用户在面对可能受损的AI聊天机器人时的行为模式和主观感知
  3. 设计建议:提出了鼓励用户更批判性地思考AI聊天机器人行为的设计建议

方法详解

任务定义

研究设计了一个欺骗性实验,参与者被告知他们正在测试一个新的网络安全聊天机器人,但实际上是在测量他们对聊天机器人建议的信任程度。

实验基础设施

1. 安全概念选择

选择了五个安全概念作为任务范围:

  • 密码(Passwords):常见概念,参与者更可能识别坏建议
  • 防火墙(Firewalls):预装概念但用户理解有限
  • 杀毒软件(Antivirus):用户可能了解但存在误解
  • 加密(Encryption):部分用户知晓但缺乏具体理解
  • 屏幕锁定(Screen Lock):内置功能,用户较为熟悉

2. 微调LLM

基于Llama 3.2模型,使用LoRA技术微调了两个LLM:

  • 良性LLM:提供正确的网络安全实践建议
  • 对抗性LLM:训练提供不准确的网络安全建议,使用6,655个提示-响应对进行训练

3. Web应用界面

包含三个主要组件:

  • 任务指导面板:显示当前任务描述和完成按钮
  • 聊天机器人界面:基于流行聊天机器人界面的交互设计
  • Windows虚拟机:允许参与者应用聊天机器人建议进行实际安全配置

实验设计

被试内设计

  • 每个参与者完成所有五个任务
  • 前三个任务使用良性LLM,后两个任务使用对抗性LLM
  • 使用拉丁方设计生成五种任务顺序,控制任务知识对信任感知的影响

数据收集

  • 任务后问卷:成功性、清晰度、有用性、可信度评估
  • VM日志记录:验证参与者实际执行的操作
  • 聊天记录:分析用户与聊天机器人的完整交互过程

实验设置

参与者

  • 样本量:15名参与者
  • 招募标准:熟悉Microsoft Windows操作系统,非网络安全专业人士
  • 报酬:每人45美元
  • 排除标准:网络安全专业人士(避免专家级知识影响)

实验流程

  1. 场景设置:参与者被告知要为居家办公设置新笔记本电脑
  2. 任务执行:使用聊天机器人完成五个安全配置任务
  3. 问卷调查:每个任务后填写信任度相关问卷
  4. 欺骗揭示:实验结束后告知真实目的并提供正确安全建议

评价指标

  • 信任度评分:1-5分量表(1-2分为不信任,4-5分为信任,3分结合其他数据判断)
  • 任务完成情况:自我报告的任务完成状态
  • 行为一致性:聊天机器人建议与实际执行操作的一致性

实验结果

主要发现

1. 整体信任模式

  • 跟随坏建议:8名参与者实施了所有坏建议,4名参与者实施了部分坏建议
  • 总体执行:30个坏建议任务中有16个被完成,包括那些认为自己完成了任务但实际遵循了坏建议的参与者

2. 任务特定结果

任务类型良性聊天机器人信任度对抗性聊天机器人信任度
密码9/9 (100%)2/5 (40%)
防火墙6/8 (75%)3/6 (50%)
杀毒软件8/8 (100%)4/7 (57%)
加密8/9 (89%)1/6 (17%)
屏幕锁定3/8 (38%)1/6 (17%)

3. 任务熟悉度影响

  • 加密和屏幕锁定:坏建议最不被信任,因为与参与者直觉和知识冲突
  • 杀毒软件:坏建议普遍被信任,因为虚假理由与用户信念一致
  • 密码:尽管是熟悉概念,但参与者对坏建议的反应分化

信任与合规的分离现象

重要发现是即使参与者不信任聊天机器人,他们仍可能遵循坏建议:

  • P11评论:"我不会信任聊天机器人为普通人提供准确的计算机安全设置信息",但仍然遵循了防火墙的坏建议
  • P5表示需要更好的理由,但仍然创建了基于姓名的短密码

指令质量与信任的关系

发现UI导航指令的准确性显著影响信任度:

  • 准确的导航指令增加信任,即使安全建议是错误的
  • 导航幻觉显著降低信任,即使安全建议是正确的

相关工作

信任理论基础

  • Mayer等人的信任模型:善意、能力和诚信是感知可信度的因素
  • Lee和See的自动化信任模型:考虑个人、组织、文化和环境背景

人工智能信任研究

  • 静态评估方法:Chen和Sundar检查AI训练数据,Yin等人评估ML响应
  • 交互式方法:Feng和Boyd-Graber的问答竞赛伙伴研究
  • 本研究创新:首次在完全功能的聊天机器人环境中进行原位信任测量

结论与讨论

主要结论

  1. 用户难以识别受损聊天机器人:特别是当信息不太熟悉且聊天机器人幻觉微妙时
  2. 任务熟悉度是关键因素:用户对熟悉概念的坏建议更容易识别
  3. 信任与合规分离:即使不信任聊天机器人,用户仍可能遵循建议
  4. 指令质量影响信任:准确的UI导航指令可能掩盖错误的安全建议

设计建议

1. 事实与指令分离

建议将建议信息与步骤指令在视觉上分离,使用不同颜色或独立框显示,帮助用户区分对指令和建议的信任感知。

2. 可靠来源引用

建议企业聊天机器人默认包含来源引用,特别是公司控制下的内部安全策略文档,为员工提供验证信息可靠性的"知识锚点"。

局限性

  1. 观察者效应:参与者知道被观察可能影响行为
  2. LLM随机性:即使"良性"聊天机器人也产生了一些不准确建议
  3. 样本规模:15名参与者的样本相对较小

未来方向

  1. 扩大研究规模:更大样本量和更多安全概念
  2. 长期信任动态:研究长期使用中的信任变化
  3. 防御机制:开发更有效的用户培训和技术对策

深度评价

优点

  1. 方法创新:首次采用原位欺骗实验研究AI聊天机器人信任,方法论具有开创性
  2. 生态有效性:使用真实的Windows环境和功能完整的聊天机器人,增强了结果的外部效度
  3. 技术严谨:使用LoRA微调确保对抗行为的鲁棒性,超越简单的提示工程
  4. 伦理考量:严格的IRB批准和欺骗揭示程序,体现了负责任的研究实践

不足

  1. 样本局限:15人的样本量较小,可能限制结果的泛化性
  2. 任务范围:仅涵盖五个安全概念,可能不能代表所有网络安全场景
  3. 文化背景:参与者主要来自北美学术环境,缺乏文化多样性
  4. 时间限制:实验室环境的时间压力可能不反映真实工作场景

影响力

  1. 学术贡献:为HCI和网络安全交叉领域提供了重要的实证证据
  2. 实践价值:为企业部署AI聊天机器人提供了具体的安全考虑
  3. 方法论贡献:建立了研究AI信任的新实验范式
  4. 政策启示:为AI安全政策制定提供了用户行为洞察

适用场景

  1. 企业AI部署:指导企业安全地部署内部AI聊天机器人
  2. 用户培训:设计更有效的AI素养和网络安全培训程序
  3. 产品设计:改进聊天机器人界面设计以促进批判性思维
  4. 安全研究:为进一步的AI安全和人因研究提供基础

参考文献

本研究引用了19篇相关文献,涵盖了信任理论、人工智能安全、人机交互等多个领域的重要工作,为研究提供了坚实的理论基础。


总结:这项研究通过创新的实验设计揭示了用户在面对受损AI聊天机器人时的脆弱性,为AI安全和人机信任研究做出了重要贡献。尽管存在样本规模等局限性,但其方法论和发现对于理解和改善AI系统的安全性具有重要价值。