2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.

AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.

academic

"Sé que no es correcto, pero eso es lo que dijo que hiciera": Investigación de la Confianza en Chatbots de IA para Políticas de Ciberseguridad

Información Básica

ID del Artículo: 2510.08917
Título: "Sé que no es correcto, pero eso es lo que dijo que hiciera": Investigación de la Confianza en Chatbots de IA para Políticas de Ciberseguridad
Autores: Brandon Lit (Universidad de Waterloo), Edward Crowder (Universidad de Guelph), Daniel Vogel (Universidad de Waterloo), Hassan Khan (Universidad de Guelph)
Clasificación: cs.HC (Interacción Humano-Computadora)
Estado de Publicación: Manuscrito presentado a ACM
Enlace del Artículo: https://arxiv.org/abs/2510.08917v1

Resumen

Los chatbots de IA se están convirtiendo en un nuevo vector de ataque de seguridad, vulnerables a amenazas como inyección de indicaciones y creación de chatbots maliciosos. Cuando se implementan en dominios como políticas de seguridad empresarial, pueden ser utilizados para proporcionar orientación que sabotea deliberadamente las defensas del sistema. Este estudio investiga si los usuarios pueden ser engañados por chatbots de IA comprometidos en este escenario. Un estudio controlado (N=15) requirió que los participantes completaran tareas relacionadas con seguridad utilizando un chatbot. Sin conocimiento de los participantes, el chatbot fue manipulado para proporcionar consejos incorrectos en ciertas tareas. Los resultados muestran que la confianza en los chatbots de IA se correlaciona con la familiaridad con las tareas y la confianza en el propio juicio.

Contexto de la Investigación y Motivación

Definición del Problema

Amenazas de Seguridad Emergentes: La amplia implementación de chatbots de IA como herramientas empresariales internas crea nuevos vectores de ataque. Los actores maliciosos pueden comprometer los LLM mediante ataques de cadena de suministro, envenenamiento de bases de conocimiento o contaminación de datos de entrenamiento, haciendo que proporcionen "malos consejos".
Problemas de Confianza Humano-Máquina: Cuando un chatbot es comprometido, los usuarios se convierten en la siguiente línea de defensa. Idealmente, los usuarios deberían identificar malos consejos y darse cuenta de que el chatbot ha sido comprometido, pero esto presenta desafíos en la práctica.
Limitaciones de Investigación Existente: La investigación anterior sobre confianza en IA se ha basado principalmente en métodos fuera de línea y no interactivos, careciendo de una comprensión profunda del comportamiento de los usuarios al utilizar chatbots comprometidos en contextos reales.

Importancia de la Investigación

Amenazas Prácticas: Las empresas utilizan cada vez más chatbots de IA especializados para compartir información interna o asistir en dominios comerciales específicos
Vulnerabilidad del Usuario: Los usuarios frecuentemente dependen de chatbots para aprender conceptos desconocidos, haciéndolos más susceptibles a la desinformación
Mecanismos de Confianza: Los chatbots proporcionan información de manera antropomórfica, conversacional y personalizada, lo que puede hacerlos parecer más dignos de confianza

Contribuciones Principales

Infraestructura Técnica y Protocolo Experimental: Desarrollo de una infraestructura técnica y metodología experimental para la evaluación in situ de la confianza en chatbots de IA
Patrones de Comportamiento del Usuario y Percepciones Subjetivas: Revelación de patrones de comportamiento y percepciones subjetivas de usuarios frente a chatbots de IA potencialmente comprometidos
Recomendaciones de Diseño: Proposición de recomendaciones de diseño para fomentar que los usuarios piensen críticamente sobre el comportamiento de los chatbots de IA

Explicación Detallada de la Metodología

Definición de Tareas

El diseño de investigación implementó un experimento engañoso en el que se informó a los participantes que estaban probando un nuevo chatbot de ciberseguridad, cuando en realidad se estaba midiendo su nivel de confianza en los consejos del chatbot.

Infraestructura Experimental

1. Selección de Conceptos de Seguridad

Se seleccionaron cinco conceptos de seguridad como alcance de tareas:

Contraseñas: Concepto común, los participantes tienen más probabilidad de identificar malos consejos
Cortafuegos: Concepto preinstalado pero con comprensión limitada del usuario
Antivirus: Los usuarios pueden estar familiarizados pero con conceptos erróneos
Cifrado: Parcialmente conocido por algunos usuarios pero con falta de comprensión específica
Bloqueo de Pantalla: Funcionalidad integrada, los usuarios están relativamente familiarizados

2. Ajuste Fino del LLM

Basado en el modelo Llama 3.2, se ajustaron dos LLM utilizando tecnología LoRA:

LLM Benigno: Proporciona consejos correctos de prácticas de ciberseguridad
LLM Adversarial: Entrenado para proporcionar consejos de ciberseguridad inexactos, utilizando 6,655 pares de indicación-respuesta para el entrenamiento

3. Interfaz de Aplicación Web

Contiene tres componentes principales:

Panel de Orientación de Tareas: Muestra la descripción de la tarea actual y botón de finalización
Interfaz del Chatbot: Diseño de interacción basado en interfaces de chatbot populares
Máquina Virtual Windows: Permite a los participantes aplicar los consejos del chatbot para realizar configuraciones de seguridad reales

Diseño Experimental

Diseño Intra-Sujetos

Cada participante completó las cinco tareas
Las primeras tres tareas utilizaron el LLM benigno, las últimas dos utilizaron el LLM adversarial
Se utilizó un diseño de cuadrado latino para generar cinco órdenes de tareas, controlando el efecto del conocimiento de tareas en la percepción de confianza

Recopilación de Datos

Cuestionarios post-tarea: Evaluación de éxito, claridad, utilidad y credibilidad
Registros de VM: Verificación de operaciones realmente ejecutadas por los participantes
Historial de chat: Análisis del proceso completo de interacción entre usuario y chatbot

Configuración Experimental

Participantes

Tamaño de Muestra: 15 participantes
Criterios de Reclutamiento: Familiaridad con el sistema operativo Microsoft Windows, no profesionales de ciberseguridad
Compensación: $45 por persona
Criterios de Exclusión: Profesionales de ciberseguridad (para evitar que el conocimiento de expertos influya)

Procedimiento Experimental

Configuración del Escenario: Se informó a los participantes que estaban configurando una nueva computadora portátil para trabajo remoto
Ejecución de Tareas: Completar cinco tareas de configuración de seguridad utilizando el chatbot
Encuesta: Completar cuestionarios relacionados con confianza después de cada tarea
Revelación del Engaño: Informar del propósito real al final del experimento y proporcionar consejos de seguridad correctos

Métricas de Evaluación

Puntuación de Confianza: Escala de 1-5 (1-2 desconfianza, 4-5 confianza, 3 se juzga con otros datos)
Finalización de Tareas: Estado de finalización de tareas autoinformado
Consistencia de Comportamiento: Consistencia entre consejos del chatbot y operaciones realmente ejecutadas

Resultados Experimentales

Hallazgos Principales

1. Patrones Generales de Confianza

Seguimiento de Malos Consejos: 8 participantes implementaron todos los malos consejos, 4 participantes implementaron algunos
Ejecución General: 16 de 30 tareas con malos consejos fueron completadas, incluyendo participantes que creían haber completado tareas pero realmente siguieron malos consejos

2. Resultados Específicos por Tarea

Tipo de Tarea	Confianza en Chatbot Benigno	Confianza en Chatbot Adversarial
Contraseñas	9/9 (100%)	2/5 (40%)
Cortafuegos	6/8 (75%)	3/6 (50%)
Antivirus	8/8 (100%)	4/7 (57%)
Cifrado	8/9 (89%)	1/6 (17%)
Bloqueo de Pantalla	3/8 (38%)	1/6 (17%)

3. Impacto de la Familiaridad con Tareas

Cifrado y Bloqueo de Pantalla: Los malos consejos fueron menos confiables porque conflictaban con la intuición y conocimiento de los participantes
Antivirus: Los malos consejos fueron ampliamente confiables porque las razones falsas eran consistentes con las creencias de los usuarios
Contraseñas: A pesar de ser un concepto familiar, los participantes tuvieron respuestas divergentes a los malos consejos

Fenómeno de Separación entre Confianza y Cumplimiento

Un hallazgo importante es que incluso cuando los participantes no confiaban en el chatbot, aún podían seguir malos consejos:

P11 comentó: "No confiaría en que el chatbot proporcione información precisa de configuración de seguridad informática para personas comunes", pero aún siguió el mal consejo sobre cortafuegos
P5 expresó necesidad de mejores razones, pero aún creó una contraseña corta basada en su nombre

Relación entre Calidad de Instrucciones y Confianza

Se encontró que la precisión de las instrucciones de navegación de UI impactó significativamente la confianza:

Las instrucciones de navegación precisas aumentaron la confianza, incluso cuando los consejos de seguridad eran incorrectos
Las alucinaciones de navegación redujeron significativamente la confianza, incluso cuando los consejos de seguridad eran correctos

Trabajo Relacionado

Fundamentos Teóricos de Confianza

Modelo de Confianza de Mayer et al.: La benevolencia, capacidad e integridad son factores de credibilidad percibida
Modelo de Confianza en Automatización de Lee y See: Considera contextos personales, organizacionales, culturales y ambientales

Investigación sobre Confianza en IA

Métodos de Evaluación Estática: Chen y Sundar examinan datos de entrenamiento de IA, Yin et al. evalúan respuestas de ML
Métodos Interactivos: Investigación de pareja de preguntas-respuestas competitiva de Feng y Boyd-Graber
Innovación de Este Estudio: Primera medición in situ de confianza en un entorno de chatbot completamente funcional

Conclusiones y Discusión

Conclusiones Principales

Dificultad de los Usuarios para Identificar Chatbots Comprometidos: Especialmente cuando la información es menos familiar y las alucinaciones del chatbot son sutiles
Familiaridad con Tareas es un Factor Clave: Los usuarios identifican más fácilmente malos consejos sobre conceptos familiares
Separación entre Confianza y Cumplimiento: Los usuarios pueden seguir consejos incluso sin confiar en el chatbot
Calidad de Instrucciones Impacta Confianza: Las instrucciones de navegación de UI precisas pueden enmascarar consejos de seguridad incorrectos

Recomendaciones de Diseño

1. Separación de Hechos e Instrucciones

Se recomienda separar visualmente la información de recomendaciones de las instrucciones de pasos, utilizando colores diferentes o marcos independientes, ayudando a los usuarios a distinguir entre confianza en instrucciones y recomendaciones.

2. Referencias de Fuentes Confiables

Se recomienda que los chatbots empresariales incluyan referencias de fuentes por defecto, particularmente documentos de políticas de seguridad interna bajo control de la empresa, proporcionando a los empleados "puntos de anclaje de conocimiento" para verificar la confiabilidad de la información.

Limitaciones

Efecto del Observador: El conocimiento de los participantes de ser observados puede influir en el comportamiento
Aleatoriedad del LLM: Incluso el chatbot "benigno" produjo algunos consejos inexactos
Tamaño de Muestra: El tamaño de muestra de 15 participantes es relativamente pequeño

Direcciones Futuras

Expansión de la Investigación: Muestras más grandes y más conceptos de seguridad
Dinámicas de Confianza a Largo Plazo: Investigación de cambios de confianza en el uso prolongado
Mecanismos de Defensa: Desarrollo de contramedidas técnicas y de capacitación de usuarios más efectivas

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación de experimentos de engaño in situ para estudiar confianza en chatbots de IA, metodología pionera
Validez Ecológica: Uso de entorno Windows real y chatbot completamente funcional, aumentando la validez externa de resultados
Rigor Técnico: Uso de ajuste fino LoRA para garantizar robustez del comportamiento adversarial, más allá de ingeniería de indicaciones simple
Consideraciones Éticas: Aprobación estricta de IRB y procedimiento de revelación de engaño, reflejando práctica de investigación responsable

Deficiencias

Limitaciones de Muestra: Tamaño de muestra de 15 personas es pequeño, puede limitar la generalización de resultados
Alcance de Tareas: Solo cubre cinco conceptos de seguridad, puede no representar todos los escenarios de ciberseguridad
Contexto Cultural: Participantes principalmente de entorno académico norteamericano, falta diversidad cultural
Limitaciones Temporales: Presión de tiempo en entorno de laboratorio puede no reflejar escenarios de trabajo reales

Impacto

Contribución Académica: Proporciona evidencia empírica importante para el campo de intersección de HCI y ciberseguridad
Valor Práctico: Proporciona consideraciones de seguridad específicas para implementación empresarial de chatbots de IA
Contribución Metodológica: Establece nuevo paradigma experimental para investigación de confianza en IA
Implicaciones Políticas: Proporciona información sobre comportamiento de usuarios para formulación de políticas de seguridad de IA

Escenarios Aplicables

Implementación de IA Empresarial: Guía para implementación segura de chatbots de IA internos en empresas
Capacitación de Usuarios: Diseño de programas de capacitación más efectivos en alfabetización de IA y ciberseguridad
Diseño de Productos: Mejora del diseño de interfaz de chatbot para promover pensamiento crítico
Investigación de Seguridad: Proporciona base para investigación adicional en seguridad de IA y factores humanos

Referencias

Esta investigación cita 19 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo teoría de confianza, seguridad de IA e interacción humano-computadora, proporcionando una base teórica sólida para la investigación.

Resumen: Esta investigación revela la vulnerabilidad de los usuarios frente a chatbots de IA comprometidos a través de un diseño experimental innovador, haciendo contribuciones importantes a la investigación de seguridad de IA y confianza humano-máquina. A pesar de limitaciones como el tamaño de muestra, su metodología y hallazgos tienen valor importante para comprender y mejorar la seguridad de sistemas de IA.