2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

"I know it's not right, but that's what it said to do": AI 챗봇의 사이버보안 정책 신뢰도 조사

기본 정보

  • 논문 ID: 2510.08917
  • 제목: "I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy
  • 저자: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
  • 분류: cs.HC (인간-컴퓨터 상호작용)
  • 발표 상태: ACM 학술지 투고 원고
  • 논문 링크: https://arxiv.org/abs/2510.08917v1

초록

AI 챗봇은 프롬프트 주입 및 악의적 챗봇 생성 등의 위협에 취약한 새로운 보안 공격 벡터로 부상하고 있습니다. 기업 보안 정책 등의 분야에 배포될 때, 이들은 시스템 방어를 의도적으로 훼손하는 지침을 제공하여 악용될 수 있습니다. 본 연구는 사용자가 이러한 시나리오에서 손상된 AI 챗봇에 의해 기만당할 수 있는지를 조사합니다. 통제된 연구(N=15)에서 참여자들은 챗봇을 사용하여 보안 관련 작업을 완료하도록 요청받았습니다. 참여자들의 인식 없이 챗봇은 특정 작업에 대해 잘못된 조언을 제공하도록 조작되었습니다. 결과는 AI 챗봇에 대한 신뢰가 작업 숙련도 및 자신의 판단에 대한 신뢰도와 관련이 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

  1. 신흥 보안 위협: 기업 내부 도구로서의 AI 챗봇의 광범위한 배포는 새로운 공격 벡터를 만듭니다. 악의적 행위자는 공급망 공격, 지식 기반 중독 또는 훈련 데이터 오염을 통해 LLM을 손상시켜 "나쁜 조언"을 제공하도록 할 수 있습니다.
  2. 인간-기계 신뢰 문제: 챗봇이 손상되었을 때, 사용자는 마지막 방어선이 됩니다. 이상적으로는 사용자가 나쁜 조언을 식별하고 챗봇이 손상되었음을 인식해야 하지만, 이는 실제로 도전적입니다.
  3. 기존 연구의 한계: 인공지능 신뢰에 관한 이전 연구는 주로 오프라인, 비상호작용적 방법에 의존하며, 사용자가 실제로 손상된 챗봇을 사용할 때의 행동에 대한 깊이 있는 이해가 부족합니다.

연구의 중요성

  • 실제 위협: 기업은 내부 정보 공유 또는 특정 업무 분야 지원을 위해 전문화된 AI 챗봇을 점점 더 많이 사용하고 있습니다
  • 사용자 취약성: 사용자는 종종 챗봇에 의존하여 익숙하지 않은 개념을 학습하므로 오도되기 쉽습니다
  • 신뢰 메커니즘: 챗봇은 의인화되고 대화식이며 개인화된 방식으로 정보를 제공하여 더 신뢰할 수 있어 보일 수 있습니다

핵심 기여

  1. 기술 인프라 및 실험 프로토콜: AI 챗봇 신뢰의 현장 평가를 위한 기술 인프라 및 실험 방법론 개발
  2. 사용자 행동 패턴 및 주관적 인식: 손상될 가능성이 있는 AI 챗봇에 직면했을 때 사용자의 행동 패턴 및 주관적 인식 규명
  3. 설계 권장사항: 사용자가 AI 챗봇 행동에 대해 더 비판적으로 생각하도록 장려하는 설계 권장사항 제시

방법론 상세 설명

작업 정의

연구는 참여자들에게 새로운 사이버보안 챗봇을 테스트하고 있다고 말하는 기만 실험을 설계했지만, 실제로는 챗봇 조언에 대한 신뢰도를 측정하고 있습니다.

실험 인프라

1. 보안 개념 선택

다섯 가지 보안 개념을 작업 범위로 선택했습니다:

  • 비밀번호(Passwords): 일반적인 개념으로, 참여자가 나쁜 조언을 식별할 가능성이 더 높음
  • 방화벽(Firewalls): 사전 설치된 개념이지만 사용자 이해도 제한적
  • 안티바이러스(Antivirus): 사용자가 알 수 있지만 오해가 존재
  • 암호화(Encryption): 일부 사용자가 인식하지만 구체적 이해 부족
  • 화면 잠금(Screen Lock): 내장 기능으로 사용자가 더 잘 알고 있음

2. LLM 미세 조정

Llama 3.2 모델을 기반으로 LoRA 기술을 사용하여 두 개의 LLM을 미세 조정했습니다:

  • 양성 LLM: 올바른 사이버보안 실천 조언 제공
  • 적대적 LLM: 부정확한 사이버보안 조언을 제공하도록 훈련, 6,655개의 프롬프트-응답 쌍으로 훈련

3. 웹 애플리케이션 인터페이스

세 가지 주요 구성요소 포함:

  • 작업 지침 패널: 현재 작업 설명 및 완료 버튼 표시
  • 챗봇 인터페이스: 인기 있는 챗봇 인터페이스를 기반으로 한 상호작용 설계
  • Windows 가상 머신: 참여자가 챗봇 조언을 적용하여 실제 보안 구성 수행 가능

실험 설계

피험자 내 설계

  • 각 참여자가 모든 다섯 가지 작업 완료
  • 처음 세 작업은 양성 LLM 사용, 마지막 두 작업은 적대적 LLM 사용
  • 라틴 방형 설계를 사용하여 다섯 가지 작업 순서 생성, 작업 지식이 신뢰 인식에 미치는 영향 제어

데이터 수집

  • 작업 후 설문지: 성공성, 명확성, 유용성, 신뢰도 평가
  • VM 로그 기록: 참여자가 실제로 수행한 작업 검증
  • 채팅 기록: 사용자와 챗봇의 완전한 상호작용 과정 분석

실험 설정

참여자

  • 표본 크기: 15명의 참여자
  • 모집 기준: Microsoft Windows 운영 체제에 익숙하고 사이버보안 전문가가 아닌 사람
  • 보상: 1인당 45달러
  • 제외 기준: 사이버보안 전문가 (전문가 수준의 지식이 영향을 미치는 것을 피하기 위해)

실험 절차

  1. 시나리오 설정: 참여자들에게 재택근무를 위해 새 노트북을 설정하도록 지시
  2. 작업 실행: 챗봇을 사용하여 다섯 가지 보안 구성 작업 완료
  3. 설문 조사: 각 작업 후 신뢰도 관련 설문지 작성
  4. 기만 공개: 실험 종료 후 실제 목적을 알리고 올바른 보안 조언 제공

평가 지표

  • 신뢰도 점수: 1-5점 척도 (1-2점은 불신뢰, 4-5점은 신뢰, 3점은 다른 데이터와 함께 판단)
  • 작업 완료 상황: 자기보고식 작업 완료 상태
  • 행동 일관성: 챗봇 조언과 실제 실행 작업의 일관성

실험 결과

주요 발견

1. 전반적 신뢰 패턴

  • 나쁜 조언 따르기: 8명의 참여자가 모든 나쁜 조언을 실행, 4명의 참여자가 부분적으로 실행
  • 전체 실행: 30개의 나쁜 조언 작업 중 16개가 완료, 자신이 작업을 완료했다고 생각했지만 실제로는 나쁜 조언을 따른 참여자 포함

2. 작업별 결과

작업 유형양성 챗봇 신뢰도적대적 챗봇 신뢰도
비밀번호9/9 (100%)2/5 (40%)
방화벽6/8 (75%)3/6 (50%)
안티바이러스8/8 (100%)4/7 (57%)
암호화8/9 (89%)1/6 (17%)
화면 잠금3/8 (38%)1/6 (17%)

3. 작업 숙련도의 영향

  • 암호화 및 화면 잠금: 나쁜 조언이 참여자의 직관 및 지식과 충돌하기 때문에 가장 신뢰받지 못함
  • 안티바이러스: 거짓 이유가 사용자 신념과 일치하기 때문에 나쁜 조언이 광범위하게 신뢰됨
  • 비밀번호: 숙련된 개념임에도 불구하고 참여자들의 나쁜 조언에 대한 반응이 분화됨

신뢰와 준수의 분리 현상

중요한 발견은 참여자들이 챗봇을 신뢰하지 않더라도 여전히 나쁜 조언을 따를 수 있다는 것입니다:

  • P11의 의견: "나는 챗봇이 일반인을 위해 정확한 컴퓨터 보안 설정 정보를 제공한다고 신뢰하지 않습니다"라고 했지만 여전히 방화벽의 나쁜 조언을 따랐습니다
  • P5는 더 나은 이유를 필요로 한다고 표현했지만 여전히 이름을 기반으로 한 짧은 비밀번호를 생성했습니다

지침 품질과 신뢰의 관계

UI 네비게이션 지침의 정확성이 신뢰도에 상당한 영향을 미친다는 것을 발견했습니다:

  • 정확한 네비게이션 지침은 보안 조언이 잘못되었더라도 신뢰를 증가시킵니다
  • 네비게이션 환각은 보안 조언이 올바르더라도 신뢰를 현저히 감소시킵니다

관련 연구

신뢰 이론의 기초

  • Mayer 등의 신뢰 모델: 선의, 능력 및 성실성은 인식된 신뢰도의 요소입니다
  • Lee와 See의 자동화 신뢰 모델: 개인, 조직, 문화 및 환경 배경을 고려합니다

인공지능 신뢰 연구

  • 정적 평가 방법: Chen과 Sundar의 AI 훈련 데이터 검토, Yin 등의 ML 응답 평가
  • 상호작용적 방법: Feng과 Boyd-Graber의 질의응답 경쟁 파트너 연구
  • 본 연구의 혁신: 완전히 기능하는 챗봇 환경에서 현장 신뢰 측정을 처음 수행

결론 및 논의

주요 결론

  1. 사용자가 손상된 챗봇을 식별하기 어려움: 특히 정보가 덜 익숙하고 챗봇 환각이 미묘할 때
  2. 작업 숙련도가 핵심 요소: 사용자는 익숙한 개념의 나쁜 조언을 더 쉽게 식별합니다
  3. 신뢰와 준수의 분리: 챗봇을 신뢰하지 않더라도 사용자는 여전히 조언을 따를 수 있습니다
  4. 지침 품질이 신뢰에 영향: 정확한 UI 네비게이션 지침이 잘못된 보안 조언을 가릴 수 있습니다

설계 권장사항

1. 사실과 지침의 분리

권장 정보와 단계별 지침을 시각적으로 분리하고, 다른 색상이나 독립적인 상자를 사용하여 표시하여 사용자가 지침과 조언에 대한 신뢰 인식을 구분하도록 돕습니다.

2. 신뢰할 수 있는 출처 인용

기업 챗봇이 기본적으로 출처 인용을 포함하도록 권장하며, 특히 회사가 제어하는 내부 보안 정책 문서를 포함하여 직원에게 정보 신뢰성을 검증할 수 있는 "지식 앵커"를 제공합니다.

한계

  1. 관찰자 효과: 참여자가 관찰받고 있다는 인식이 행동에 영향을 미칠 수 있습니다
  2. LLM 무작위성: "양성" 챗봇도 일부 부정확한 조언을 생성했습니다
  3. 표본 크기: 15명 참여자의 표본은 상대적으로 작습니다

향후 방향

  1. 연구 규모 확대: 더 큰 표본 크기 및 더 많은 보안 개념
  2. 장기 신뢰 동향: 장기 사용 중 신뢰 변화 연구
  3. 방어 메커니즘: 더 효과적인 사용자 교육 및 기술적 대응책 개발

심층 평가

장점

  1. 방법론 혁신: 현장 기만 실험을 사용하여 AI 챗봇 신뢰를 연구한 첫 시도로, 방법론적으로 획기적입니다
  2. 생태 타당성: 실제 Windows 환경과 완전히 기능하는 챗봇을 사용하여 결과의 외적 타당성을 강화합니다
  3. 기술적 엄밀성: LoRA 미세 조정을 사용하여 적대적 행동의 견고성을 보장하며, 단순한 프롬프트 엔지니어링을 초월합니다
  4. 윤리적 고려: 엄격한 IRB 승인 및 기만 공개 절차로 책임 있는 연구 실행을 보여줍니다

부족한 점

  1. 표본 한계: 15명의 표본 크기는 상대적으로 작아 결과의 일반화 가능성을 제한할 수 있습니다
  2. 작업 범위: 5개의 보안 개념만 포함하여 모든 사이버보안 시나리오를 대표하지 못할 수 있습니다
  3. 문화적 배경: 참여자가 주로 북미 학술 환경에서 나와 문화적 다양성이 부족합니다
  4. 시간 제약: 실험실 환경의 시간 압박이 실제 업무 시나리오를 반영하지 못할 수 있습니다

영향력

  1. 학술 기여: HCI와 사이버보안 교차 분야에 중요한 실증 증거 제공
  2. 실무 가치: 기업의 AI 챗봇 배포에 구체적인 보안 고려사항 제공
  3. 방법론 기여: AI 신뢰 연구를 위한 새로운 실험 패러다임 수립
  4. 정책 함의: AI 안전 정책 수립을 위한 사용자 행동 통찰력 제공

적용 시나리오

  1. 기업 AI 배포: 기업이 내부 AI 챗봇을 안전하게 배포하도록 지도
  2. 사용자 교육: 더 효과적인 AI 소양 및 사이버보안 교육 프로그램 설계
  3. 제품 설계: 비판적 사고를 촉진하기 위해 챗봇 인터페이스 설계 개선
  4. 보안 연구: 추가 AI 보안 및 인간 요소 연구를 위한 기초 제공

참고문헌

본 연구는 신뢰 이론, 인공지능 보안, 인간-컴퓨터 상호작용 등 여러 분야의 중요한 작업을 포함하는 19개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.


요약: 이 연구는 혁신적인 실험 설계를 통해 사용자가 손상된 AI 챗봇에 직면했을 때의 취약성을 규명하여 AI 보안 및 인간-기계 신뢰 연구에 중요한 기여를 합니다. 표본 크기 등의 한계가 있음에도 불구하고, 그 방법론과 발견은 AI 시스템의 보안성을 이해하고 개선하는 데 중요한 가치를 가집니다.