AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
- 論文ID: 2510.08917
- タイトル: "I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy
- 著者: Brandon Lit(ウォータールー大学)、Edward Crowder(ゲルフ大学)、Daniel Vogel(ウォータールー大学)、Hassan Khan(ゲルフ大学)
- 分類: cs.HC(ヒューマンコンピュータインタラクション)
- 発表状況: ACMへ投稿中の原稿
- 論文リンク: https://arxiv.org/abs/2510.08917v1
AIチャットボットは、プロンプトインジェクションや悪意のあるチャットボット作成などの脅威に対して脆弱な、新興のセキュリティ攻撃ベクトルとなっています。企業セキュリティポリシーなどの領域に配置される場合、システム防御を意図的に破壊する指導を提供することで、武器化される可能性があります。本研究は、このシナリオにおいて、ユーザーが侵害されたAIチャットボットに騙されるかどうかを調査しています。対照研究(N=15)では、参加者にチャットボットを使用してセキュリティ関連タスクを完成させるよう求めました。参加者の知らないうちに、チャットボットは特定のタスクに対して誤った助言を提供するように操作されました。結果は、AIチャットボットへの信頼がタスク熟悉度と自身の判断への信頼度に関連していることを示しています。
- 新興セキュリティ脅威:企業内部ツールとしてのAIチャットボットの広範な展開は、新しい攻撃ベクトルを生み出しています。悪意のある行為者は、サプライチェーン攻撃、ナレッジベースの汚染、または訓練データの汚染などを通じてLLMを侵害し、「悪い助言」を提供させる可能性があります。
- 人機信頼の問題:チャットボットが侵害された場合、ユーザーは最後の防線となります。理想的には、ユーザーは悪い助言を識別し、チャットボットが侵害されたことを認識すべきですが、これは実践では課題があります。
- 既存研究の限界:人工知能信頼に関する従来の研究は主にオフライン、非インタラクティブな方法に依存しており、ユーザーが実際に侵害されたチャットボットを使用する際の行動についての深い理解が不足しています。
- 実際の脅威:企業はますます専門的なAIチャットボットを使用して内部情報を共有したり、特定のビジネス領域を支援したりしています
- ユーザーの脆弱性:ユーザーはしばしばチャットボットに依存して不慣れな概念を学習し、誤った情報の影響を受けやすくなります
- 信頼メカニズム:チャットボットは擬人化された、会話的で個性的な方法で情報を提供し、より信頼できるように見える可能性があります
- 技術基盤と実験プロトコル:AIチャットボット信頼のその場での評価のための技術基盤と実験方法論を開発しました
- ユーザー行動パターンと主観的認知:潜在的に侵害されたAIチャットボットに直面したときのユーザーの行動パターンと主観的認知を明らかにしました
- 設計推奨事項:ユーザーがAIチャットボットの行動についてより批判的に考えるよう促す設計推奨事項を提案しました
研究は欺瞞的な実験を設計し、参加者は新しいサイバーセキュリティチャットボットをテストしていると告げられましたが、実際にはチャットボット助言への信頼度を測定していました。
5つのセキュリティ概念をタスク範囲として選択しました:
- パスワード:一般的な概念で、参加者は悪い助言をより識別しやすい
- ファイアウォール:事前知識がある概念だがユーザーの理解は限定的
- アンチウイルス:ユーザーが知っている可能性があるが誤解がある
- 暗号化:一部のユーザーが知っているが具体的な理解が不足している
- スクリーンロック:組み込み機能で、ユーザーはより精通している
Llama 3.2モデルに基づき、LoRA技術を使用して2つのLLMを微調整しました:
- 良性LLM:正確なサイバーセキュリティ実践の助言を提供
- 対抗的LLM:不正確なサイバーセキュリティ助言を提供するよう訓練され、6,655個のプロンプト-応答ペアで訓練
3つの主要コンポーネントを含みます:
- タスク指導パネル:現在のタスク説明と完了ボタンを表示
- チャットボットインターフェース:人気のあるチャットボットインターフェースに基づくインタラクティブ設計
- Windows仮想マシン:参加者がチャットボット助言を適用して実際のセキュリティ設定を行うことを可能にします
- 各参加者がすべての5つのタスクを完了
- 最初の3つのタスクは良性LLMを使用し、最後の2つのタスクは対抗的LLMを使用
- ラテン方格設計を使用して5つのタスク順序を生成し、タスク知識が信頼認知に与える影響を制御
- タスク後アンケート:成功性、明確性、有用性、信頼性の評価
- VM ログ記録:参加者が実際に実行した操作を検証
- チャットログ:ユーザーとチャットボットの完全なインタラクションプロセスを分析
- サンプルサイズ:15名の参加者
- 募集基準:Microsoft Windowsオペレーティングシステムに精通し、サイバーセキュリティの専門家ではない
- 報酬:参加者あたり45米ドル
- 除外基準:サイバーセキュリティの専門家(専門家レベルの知識の影響を回避)
- シナリオ設定:参加者は在宅勤務用の新しいノートパソコンをセットアップしていると告げられます
- タスク実行:チャットボットを使用して5つのセキュリティ設定タスクを完了
- アンケート調査:各タスク後に信頼度関連アンケートに記入
- 欺瞞の開示:実験終了後に真の目的を告知し、正しいセキュリティ助言を提供
- 信頼度スコア:1~5点スケール(1~2点は不信頼、4~5点は信頼、3点は他のデータと組み合わせて判定)
- タスク完了状況:自己報告されたタスク完了状況
- 行動一貫性:チャットボット助言と実際に実行された操作の一貫性
- 悪い助言の実施:8名の参加者がすべての悪い助言を実施し、4名の参加者が部分的に実施
- 全体的な実行:30個の悪い助言タスクのうち16個が完了され、自分たちがタスクを完了したと考えていたが実際には悪い助言に従った参加者を含みます
| タスク種別 | 良性チャットボット信頼度 | 対抗的チャットボット信頼度 |
|---|
| パスワード | 9/9 (100%) | 2/5 (40%) |
| ファイアウォール | 6/8 (75%) | 3/6 (50%) |
| アンチウイルス | 8/8 (100%) | 4/7 (57%) |
| 暗号化 | 8/9 (89%) | 1/6 (17%) |
| スクリーンロック | 3/8 (38%) | 1/6 (17%) |
- 暗号化とスクリーンロック:悪い助言は最も信頼されず、参加者の直感と知識と矛盾しているため
- アンチウイルス:悪い助言は広く信頼されており、虚偽の理由がユーザーの信念と一致しているため
- パスワード:熟悉した概念であるにもかかわらず、参加者の悪い助言への反応は分化しています
重要な発見は、参加者がチャットボットを信頼していなくても、悪い助言に従う可能性があることです:
- P11のコメント:「チャットボットが一般人に正確なコンピュータセキュリティ設定情報を提供すると信頼しません」と述べながらも、ファイアウォールの悪い助言に従いました
- P5はより良い理由が必要であると述べましたが、それでも名前に基づいた短いパスワードを作成しました
UI ナビゲーション指示の正確性が信頼度に大きな影響を与えることが判明しました:
- 正確なナビゲーション指示は信頼を増加させ、セキュリティ助言が誤っていても
- ナビゲーション幻覚は信頼を大幅に低下させ、セキュリティ助言が正しくても
- Mayerらの信頼モデル:善意、能力、誠実性は認知される信頼性の要因
- LeeとSeeの自動化信頼モデル:個人的、組織的、文化的、環境的背景を考慮
- 静的評価方法:ChenとSundarがAI訓練データを検査、Yinらが機械学習応答を評価
- インタラクティブな方法:FengとBoyd-Graberの質問応答競争パートナー研究
- 本研究の革新:完全に機能するチャットボット環境での初めてのその場での信頼測定
- ユーザーは侵害されたチャットボットを識別するのが困難:特に情報が不慣れで、チャットボットの幻覚が微妙な場合
- タスク熟悉度は重要な要因:ユーザーは熟悉した概念の悪い助言をより容易に識別
- 信頼と遵守の分離:チャットボットを信頼していなくても、ユーザーは助言に従う可能性がある
- 指示品質は信頼に影響:正確なUIナビゲーション指示は誤ったセキュリティ助言を隠す可能性がある
助言情報とステップ指示を視覚的に分離することを推奨し、異なる色または独立したボックスを使用して、ユーザーが指示と助言への信頼認知を区別するのを支援します。
企業チャットボットが既定で、特に企業が管理する内部セキュリティポリシー文書へのソース引用を含めることを推奨し、従業員に情報の信頼性を検証するための「知識アンカーポイント」を提供します。
- 観察者効果:参加者が観察されていることを知っていることが行動に影響する可能性
- LLMの確率性:「良性」チャットボットでさえいくつかの不正確な助言を生成
- サンプルサイズ:15名の参加者のサンプルは比較的小さい
- 研究規模の拡大:より大きなサンプルサイズと多くのセキュリティ概念
- 長期信頼ダイナミクス:長期使用における信頼の変化を研究
- 防御メカニズム:より効果的なユーザー訓練と技術的対策の開発
- 方法論の革新:AIチャットボット信頼を研究するためにその場での欺瞞実験を初めて採用し、方法論は開拓的
- 生態学的妥当性:実際のWindows環境と機能完全なチャットボットを使用し、結果の外部妥当性を強化
- 技術的厳密性:LoRA微調整を使用して対抗的行動の堅牢性を確保し、単純なプロンプトエンジニアリングを超える
- 倫理的配慮:厳格なIRB承認と欺瞞開示手順により、責任ある研究実践を体現
- サンプルの限界:15人のサンプルサイズは比較的小さく、結果の一般化可能性を制限する可能性
- タスク範囲:5つのセキュリティ概念のみをカバーし、すべてのサイバーセキュリティシナリオを代表しない可能性
- 文化的背景:参加者は主に北米の学術環境から来ており、文化的多様性が不足
- 時間的制約:実験室環境の時間的圧力は実際の職場シナリオを反映しない可能性
- 学術的貢献:HCIとサイバーセキュリティの交差分野に重要な実証的証拠を提供
- 実践的価値:企業がAIチャットボットを安全に展開するための具体的なセキュリティ考慮事項を提供
- 方法論的貢献:AI信頼を研究するための新しい実験パラダイムを確立
- 政策的示唆:AI安全政策策定のためのユーザー行動洞察を提供
- 企業AI展開:企業が内部AIチャットボットを安全に展開するためのガイダンス
- ユーザー訓練:より効果的なAIリテラシーとサイバーセキュリティ訓練プログラムの設計
- 製品設計:批判的思考を促進するためのチャットボットインターフェース設計の改善
- セキュリティ研究:さらなるAIセキュリティと人因研究の基礎を提供
本研究は、信頼理論、人工知能セキュリティ、ヒューマンコンピュータインタラクションなど複数の分野の重要な研究をカバーする19の関連文献を引用し、研究に堅実な理論的基礎を提供しています。
要約:この研究は、革新的な実験設計を通じて、ユーザーが侵害されたAIチャットボットに直面したときの脆弱性を明らかにし、AIセキュリティと人機信頼研究に重要な貢献をしています。サンプルサイズなどの限界にもかかわらず、その方法論と発見はAIシステムのセキュリティを理解し改善するための重要な価値があります。