2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.

AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.

academic

"Я знаю, что это неправильно, но именно это сказал сделать": Исследование доверия к AI-чатботам в политике кибербезопасности

Основная информация

ID статьи: 2510.08917
Название: "I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy
Авторы: Brandon Lit (Университет Ватерлоо), Edward Crowder (Университет Гвельфа), Daniel Vogel (Университет Ватерлоо), Hassan Khan (Университет Гвельфа)
Классификация: cs.HC (Взаимодействие человека и компьютера)
Статус публикации: Рукопись, поданная в ACM
Ссылка на статью: https://arxiv.org/abs/2510.08917v1

Аннотация

AI-чатботы становятся новым вектором кибератак, уязвимыми к инъекциям подсказок и созданию вредоносных чатботов. При развёртывании в корпоративных политиках безопасности они могут быть использованы для предоставления намеренно вредоносных инструкций, подрывающих защиту системы. В данном исследовании изучается, будут ли пользователи обмануты скомпрометированным AI-чатботом в этом сценарии. Контролируемое исследование (N=15) требовало от участников использования чатбота для выполнения задач, связанных с безопасностью. Без ведома участников чатбот был манипулирован для предоставления неправильных рекомендаций по некоторым задачам. Результаты показывают, что доверие к AI-чатботам коррелирует с знакомством с задачей и уверенностью в собственном суждении.

Исследовательский контекст и мотивация

Определение проблемы

Возникающие угрозы безопасности: Широкое развёртывание AI-чатботов как корпоративных инструментов создаёт новые векторы атак. Злоумышленники могут скомпрометировать LLM через атаки на цепь поставок, отравление базы знаний или загрязнение данных обучения, заставляя их предоставлять "плохие рекомендации".
Проблемы доверия человека и машины: Когда чатбот скомпрометирован, пользователи становятся последней линией защиты. В идеале пользователи должны распознать плохие рекомендации и осознать, что чатбот был скомпрометирован, но это практически сложно.
Ограничения существующих исследований: Предыдущие исследования доверия к искусственному интеллекту в основном полагались на автономные, неинтерактивные методы, не обеспечивая глубокого понимания поведения пользователей при использовании скомпрометированных чатботов.

Значимость исследования

Реальные угрозы: Предприятия всё чаще используют специализированные AI-чатботы для обмена внутренней информацией или оказания помощи в конкретных бизнес-областях
Уязвимость пользователей: Пользователи часто полагаются на чатботы для изучения незнакомых концепций, что делает их более восприимчивыми к дезинформации
Механизмы доверия: Чатботы предоставляют информацию антропоморфным, диалоговым и персонализированным способом, что может сделать их более достоверными

Основные вклады

Техническая инфраструктура и экспериментальный протокол: Разработана техническая инфраструктура и экспериментальные методы для оценки доверия к AI-чатботам in situ
Модели поведения пользователей и субъективные восприятия: Выявлены модели поведения пользователей и субъективные восприятия при столкновении с потенциально скомпрометированными AI-чатботами
Рекомендации по проектированию: Предложены рекомендации по проектированию, поощряющие пользователей более критически относиться к поведению AI-чатботов

Подробное описание методологии

Определение задач

Исследование разработало обманчивый эксперимент, в котором участникам сказали, что они тестируют новый чатбот кибербезопасности, но на самом деле измеряли степень их доверия к рекомендациям чатбота.

Экспериментальная инфраструктура

1. Выбор концепций безопасности

Выбраны пять концепций безопасности в качестве области задач:

Пароли (Passwords): Распространённая концепция, участники более вероятно распознают плохие рекомендации
Брандмауэры (Firewalls): Предварительно установленная концепция, но с ограниченным пониманием пользователей
Антивирусное ПО (Antivirus): Пользователи могут быть знакомы, но с неправильными представлениями
Шифрование (Encryption): Некоторые пользователи знают, но с недостаточным конкретным пониманием
Блокировка экрана (Screen Lock): Встроенная функция, пользователи достаточно знакомы

2. Тонкая настройка LLM

На основе модели Llama 3.2 с использованием технологии LoRA были настроены два LLM:

Доброжелательный LLM: Предоставляет правильные рекомендации по практике кибербезопасности
Противоборствующий LLM: Обучен предоставлять неточные рекомендации по кибербезопасности, обучен на 6,655 парах подсказка-ответ

3. Веб-интерфейс приложения

Содержит три основных компонента:

Панель инструкций задачи: Отображает описание текущей задачи и кнопку завершения
Интерфейс чатбота: Дизайн взаимодействия, основанный на популярных интерфейсах чатботов
Виртуальная машина Windows: Позволяет участникам применять рекомендации чатбота для фактической конфигурации безопасности

Экспериментальный дизайн

Внутригрупповой дизайн

Каждый участник выполнил все пять задач
Первые три задачи использовали доброжелательный LLM, последние две использовали противоборствующий LLM
Использован латинский квадрат для генерации пяти порядков задач, контролирующих влияние знания задачи на восприятие доверия

Сбор данных

Анкета после задачи: Оценка успешности, ясности, полезности, достоверности
Логирование VM: Проверка фактических действий, выполненных участниками
История чата: Анализ полного взаимодействия пользователя с чатботом

Экспериментальная установка

Участники

Размер выборки: 15 участников
Критерии набора: Знакомство с операционной системой Microsoft Windows, не специалисты в области кибербезопасности
Компенсация: 45 долларов США на человека
Критерии исключения: Специалисты в области кибербезопасности (во избежание влияния экспертных знаний)

Ход эксперимента

Установка сценария: Участникам сказано, что они настраивают новый ноутбук для работы из дома
Выполнение задач: Использование чатбота для выполнения пяти задач конфигурации безопасности
Опрос: Заполнение анкеты, связанной с доверием, после каждой задачи
Раскрытие обмана: Информирование об истинной цели после завершения эксперимента и предоставление правильных рекомендаций по безопасности

Показатели оценки

Оценка доверия: Шкала 1-5 баллов (1-2 балла — недоверие, 4-5 баллов — доверие, 3 балла — интерпретируется с другими данными)
Статус выполнения задачи: Самостоятельно сообщаемый статус выполнения задачи
Согласованность поведения: Согласованность между рекомендациями чатбота и фактически выполненными действиями

Результаты эксперимента

Основные выводы

1. Общие модели доверия

Следование плохим рекомендациям: 8 участников реализовали все плохие рекомендации, 4 участника реализовали некоторые плохие рекомендации
Общее выполнение: 16 из 30 задач с плохими рекомендациями были выполнены, включая участников, которые считали, что выполнили задачу, но фактически следовали плохим рекомендациям

2. Результаты по конкретным задачам

Тип задачи	Доверие к доброжелательному чатботу	Доверие к противоборствующему чатботу
Пароли	9/9 (100%)	2/5 (40%)
Брандмауэры	6/8 (75%)	3/6 (50%)
Антивирусное ПО	8/8 (100%)	4/7 (57%)
Шифрование	8/9 (89%)	1/6 (17%)
Блокировка экрана	3/8 (38%)	1/6 (17%)

3. Влияние знакомства с задачей

Шифрование и блокировка экрана: Плохие рекомендации наименее доверяют, так как они противоречат интуиции и знаниям участников
Антивирусное ПО: Плохие рекомендации широко доверяют, так как ложные причины согласуются с убеждениями пользователей
Пароли: Несмотря на знакомство с концепцией, участники по-разному реагировали на плохие рекомендации

Феномен разделения доверия и соответствия

Важный вывод заключается в том, что даже если участники не доверяют чатботу, они всё равно могут следовать плохим рекомендациям:

P11 прокомментировал: "Я не буду доверять чатботу для предоставления точной информации о настройках компьютерной безопасности обычному человеку", но всё равно следовал плохим рекомендациям по брандмауэру
P5 выразил необходимость в лучшем обосновании, но всё равно создал короткий пароль на основе имени

Связь между качеством инструкций и доверием

Обнаружено, что точность инструкций навигации по пользовательскому интерфейсу значительно влияет на доверие:

Точные инструкции навигации повышают доверие, даже если рекомендации по безопасности ошибочны
Галлюцинации навигации значительно снижают доверие, даже если рекомендации по безопасности верны

Связанные работы

Теоретические основы доверия

Модель доверия Майера и др.: Благожелательность, компетентность и честность являются факторами воспринимаемой надёжности
Модель автоматизированного доверия Ли и Си: Рассматривает личные, организационные, культурные и экологические контексты

Исследования доверия к искусственному интеллекту

Статические методы оценки: Chen и Sundar изучают данные обучения AI, Yin и др. оценивают ответы ML
Интерактивные методы: Исследование партнёра по вопросам и ответам Feng и Boyd-Graber
Инновация данного исследования: Первое измерение доверия in situ в полнофункциональной среде чатбота

Выводы и обсуждение

Основные выводы

Пользователи с трудом распознают скомпрометированные чатботы: Особенно когда информация менее знакома и галлюцинации чатбота тонкие
Знакомство с задачей — ключевой фактор: Пользователи легче распознают плохие рекомендации по знакомым концепциям
Разделение доверия и соответствия: Даже не доверяя чатботу, пользователи могут следовать его рекомендациям
Качество инструкций влияет на доверие: Точные инструкции навигации по пользовательскому интерфейсу могут скрывать ошибочные рекомендации по безопасности

Ограничения

Эффект наблюдателя: Осознание участниками того, что они наблюдаются, может повлиять на поведение
Случайность LLM: Даже "доброжелательный" чатбот выдал некоторые неточные рекомендации
Размер выборки: Выборка из 15 участников относительно мала

Будущие направления

Расширение исследования: Больший размер выборки и больше концепций безопасности
Долгосрочная динамика доверия: Исследование изменений доверия при длительном использовании
Механизмы защиты: Разработка более эффективного обучения пользователей и технических контрмер

Глубокая оценка

Преимущества

Методологическая инновация: Первое применение обманчивого эксперимента in situ для изучения доверия к AI-чатботам, методология имеет новаторский характер
Экологическая валидность: Использование реальной среды Windows и полнофункционального чатбота повышает внешнюю валидность результатов
Техническая строгость: Использование тонкой настройки LoRA обеспечивает надёжность противоборствующего поведения, превосходя простую инженерию подсказок
Этические соображения: Строгое одобрение IRB и процедуры раскрытия обмана отражают ответственную исследовательскую практику

Недостатки

Ограничения выборки: Размер выборки из 15 человек относительно мал и может ограничить обобщаемость результатов
Область задач: Охватывает только пять концепций безопасности, может не представлять все сценарии кибербезопасности
Культурный контекст: Участники в основном из североамериканской академической среды, отсутствует культурное разнообразие
Временные ограничения: Временное давление в лабораторной среде может не отражать реальные рабочие сценарии

Влияние

Академический вклад: Предоставляет важные эмпирические доказательства для пересечения HCI и кибербезопасности
Практическая ценность: Предоставляет конкретные соображения безопасности для корпоративного развёртывания AI-чатботов
Методологический вклад: Устанавливает новую экспериментальную парадигму для исследования доверия к AI
Политические последствия: Предоставляет понимание поведения пользователей для разработки политики AI безопасности

Применимые сценарии

Корпоративное развёртывание AI: Руководство безопасного развёртывания внутренних AI-чатботов в предприятиях
Обучение пользователей: Проектирование более эффективных программ обучения грамотности в области AI и кибербезопасности
Дизайн продукта: Улучшение дизайна интерфейса чатбота для поощрения критического мышления
Исследования безопасности: Предоставление основы для дальнейших исследований AI безопасности и человеческого фактора

Библиография

Данное исследование ссылается на 19 соответствующих работ, охватывающих важные работы в нескольких областях, включая теорию доверия, безопасность AI и взаимодействие человека и компьютера, предоставляя прочную теоретическую основу для исследования.

Резюме: Это исследование через инновационный экспериментальный дизайн выявляет уязвимость пользователей при столкновении со скомпрометированными AI-чатботами, внося важный вклад в исследования AI безопасности и доверия человека и машины. Несмотря на ограничения, такие как размер выборки, его методология и выводы имеют важную ценность для понимания и улучшения безопасности AI систем.