2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

"Sé que no es correcto, pero eso es lo que dijo que hiciera": Investigación de la Confianza en Chatbots de IA para Políticas de Ciberseguridad

Información Básica

  • ID del Artículo: 2510.08917
  • Título: "Sé que no es correcto, pero eso es lo que dijo que hiciera": Investigación de la Confianza en Chatbots de IA para Políticas de Ciberseguridad
  • Autores: Brandon Lit (Universidad de Waterloo), Edward Crowder (Universidad de Guelph), Daniel Vogel (Universidad de Waterloo), Hassan Khan (Universidad de Guelph)
  • Clasificación: cs.HC (Interacción Humano-Computadora)
  • Estado de Publicación: Manuscrito presentado a ACM
  • Enlace del Artículo: https://arxiv.org/abs/2510.08917v1

Resumen

Los chatbots de IA se están convirtiendo en un nuevo vector de ataque de seguridad, vulnerables a amenazas como inyección de indicaciones y creación de chatbots maliciosos. Cuando se implementan en dominios como políticas de seguridad empresarial, pueden ser utilizados para proporcionar orientación que sabotea deliberadamente las defensas del sistema. Este estudio investiga si los usuarios pueden ser engañados por chatbots de IA comprometidos en este escenario. Un estudio controlado (N=15) requirió que los participantes completaran tareas relacionadas con seguridad utilizando un chatbot. Sin conocimiento de los participantes, el chatbot fue manipulado para proporcionar consejos incorrectos en ciertas tareas. Los resultados muestran que la confianza en los chatbots de IA se correlaciona con la familiaridad con las tareas y la confianza en el propio juicio.

Contexto de la Investigación y Motivación

Definición del Problema

  1. Amenazas de Seguridad Emergentes: La amplia implementación de chatbots de IA como herramientas empresariales internas crea nuevos vectores de ataque. Los actores maliciosos pueden comprometer los LLM mediante ataques de cadena de suministro, envenenamiento de bases de conocimiento o contaminación de datos de entrenamiento, haciendo que proporcionen "malos consejos".
  2. Problemas de Confianza Humano-Máquina: Cuando un chatbot es comprometido, los usuarios se convierten en la siguiente línea de defensa. Idealmente, los usuarios deberían identificar malos consejos y darse cuenta de que el chatbot ha sido comprometido, pero esto presenta desafíos en la práctica.
  3. Limitaciones de Investigación Existente: La investigación anterior sobre confianza en IA se ha basado principalmente en métodos fuera de línea y no interactivos, careciendo de una comprensión profunda del comportamiento de los usuarios al utilizar chatbots comprometidos en contextos reales.

Importancia de la Investigación

  • Amenazas Prácticas: Las empresas utilizan cada vez más chatbots de IA especializados para compartir información interna o asistir en dominios comerciales específicos
  • Vulnerabilidad del Usuario: Los usuarios frecuentemente dependen de chatbots para aprender conceptos desconocidos, haciéndolos más susceptibles a la desinformación
  • Mecanismos de Confianza: Los chatbots proporcionan información de manera antropomórfica, conversacional y personalizada, lo que puede hacerlos parecer más dignos de confianza

Contribuciones Principales

  1. Infraestructura Técnica y Protocolo Experimental: Desarrollo de una infraestructura técnica y metodología experimental para la evaluación in situ de la confianza en chatbots de IA
  2. Patrones de Comportamiento del Usuario y Percepciones Subjetivas: Revelación de patrones de comportamiento y percepciones subjetivas de usuarios frente a chatbots de IA potencialmente comprometidos
  3. Recomendaciones de Diseño: Proposición de recomendaciones de diseño para fomentar que los usuarios piensen críticamente sobre el comportamiento de los chatbots de IA

Explicación Detallada de la Metodología

Definición de Tareas

El diseño de investigación implementó un experimento engañoso en el que se informó a los participantes que estaban probando un nuevo chatbot de ciberseguridad, cuando en realidad se estaba midiendo su nivel de confianza en los consejos del chatbot.

Infraestructura Experimental

1. Selección de Conceptos de Seguridad

Se seleccionaron cinco conceptos de seguridad como alcance de tareas:

  • Contraseñas: Concepto común, los participantes tienen más probabilidad de identificar malos consejos
  • Cortafuegos: Concepto preinstalado pero con comprensión limitada del usuario
  • Antivirus: Los usuarios pueden estar familiarizados pero con conceptos erróneos
  • Cifrado: Parcialmente conocido por algunos usuarios pero con falta de comprensión específica
  • Bloqueo de Pantalla: Funcionalidad integrada, los usuarios están relativamente familiarizados

2. Ajuste Fino del LLM

Basado en el modelo Llama 3.2, se ajustaron dos LLM utilizando tecnología LoRA:

  • LLM Benigno: Proporciona consejos correctos de prácticas de ciberseguridad
  • LLM Adversarial: Entrenado para proporcionar consejos de ciberseguridad inexactos, utilizando 6,655 pares de indicación-respuesta para el entrenamiento

3. Interfaz de Aplicación Web

Contiene tres componentes principales:

  • Panel de Orientación de Tareas: Muestra la descripción de la tarea actual y botón de finalización
  • Interfaz del Chatbot: Diseño de interacción basado en interfaces de chatbot populares
  • Máquina Virtual Windows: Permite a los participantes aplicar los consejos del chatbot para realizar configuraciones de seguridad reales

Diseño Experimental

Diseño Intra-Sujetos

  • Cada participante completó las cinco tareas
  • Las primeras tres tareas utilizaron el LLM benigno, las últimas dos utilizaron el LLM adversarial
  • Se utilizó un diseño de cuadrado latino para generar cinco órdenes de tareas, controlando el efecto del conocimiento de tareas en la percepción de confianza

Recopilación de Datos

  • Cuestionarios post-tarea: Evaluación de éxito, claridad, utilidad y credibilidad
  • Registros de VM: Verificación de operaciones realmente ejecutadas por los participantes
  • Historial de chat: Análisis del proceso completo de interacción entre usuario y chatbot

Configuración Experimental

Participantes

  • Tamaño de Muestra: 15 participantes
  • Criterios de Reclutamiento: Familiaridad con el sistema operativo Microsoft Windows, no profesionales de ciberseguridad
  • Compensación: $45 por persona
  • Criterios de Exclusión: Profesionales de ciberseguridad (para evitar que el conocimiento de expertos influya)

Procedimiento Experimental

  1. Configuración del Escenario: Se informó a los participantes que estaban configurando una nueva computadora portátil para trabajo remoto
  2. Ejecución de Tareas: Completar cinco tareas de configuración de seguridad utilizando el chatbot
  3. Encuesta: Completar cuestionarios relacionados con confianza después de cada tarea
  4. Revelación del Engaño: Informar del propósito real al final del experimento y proporcionar consejos de seguridad correctos

Métricas de Evaluación

  • Puntuación de Confianza: Escala de 1-5 (1-2 desconfianza, 4-5 confianza, 3 se juzga con otros datos)
  • Finalización de Tareas: Estado de finalización de tareas autoinformado
  • Consistencia de Comportamiento: Consistencia entre consejos del chatbot y operaciones realmente ejecutadas

Resultados Experimentales

Hallazgos Principales

1. Patrones Generales de Confianza

  • Seguimiento de Malos Consejos: 8 participantes implementaron todos los malos consejos, 4 participantes implementaron algunos
  • Ejecución General: 16 de 30 tareas con malos consejos fueron completadas, incluyendo participantes que creían haber completado tareas pero realmente siguieron malos consejos

2. Resultados Específicos por Tarea

Tipo de TareaConfianza en Chatbot BenignoConfianza en Chatbot Adversarial
Contraseñas9/9 (100%)2/5 (40%)
Cortafuegos6/8 (75%)3/6 (50%)
Antivirus8/8 (100%)4/7 (57%)
Cifrado8/9 (89%)1/6 (17%)
Bloqueo de Pantalla3/8 (38%)1/6 (17%)

3. Impacto de la Familiaridad con Tareas

  • Cifrado y Bloqueo de Pantalla: Los malos consejos fueron menos confiables porque conflictaban con la intuición y conocimiento de los participantes
  • Antivirus: Los malos consejos fueron ampliamente confiables porque las razones falsas eran consistentes con las creencias de los usuarios
  • Contraseñas: A pesar de ser un concepto familiar, los participantes tuvieron respuestas divergentes a los malos consejos

Fenómeno de Separación entre Confianza y Cumplimiento

Un hallazgo importante es que incluso cuando los participantes no confiaban en el chatbot, aún podían seguir malos consejos:

  • P11 comentó: "No confiaría en que el chatbot proporcione información precisa de configuración de seguridad informática para personas comunes", pero aún siguió el mal consejo sobre cortafuegos
  • P5 expresó necesidad de mejores razones, pero aún creó una contraseña corta basada en su nombre

Relación entre Calidad de Instrucciones y Confianza

Se encontró que la precisión de las instrucciones de navegación de UI impactó significativamente la confianza:

  • Las instrucciones de navegación precisas aumentaron la confianza, incluso cuando los consejos de seguridad eran incorrectos
  • Las alucinaciones de navegación redujeron significativamente la confianza, incluso cuando los consejos de seguridad eran correctos

Trabajo Relacionado

Fundamentos Teóricos de Confianza

  • Modelo de Confianza de Mayer et al.: La benevolencia, capacidad e integridad son factores de credibilidad percibida
  • Modelo de Confianza en Automatización de Lee y See: Considera contextos personales, organizacionales, culturales y ambientales

Investigación sobre Confianza en IA

  • Métodos de Evaluación Estática: Chen y Sundar examinan datos de entrenamiento de IA, Yin et al. evalúan respuestas de ML
  • Métodos Interactivos: Investigación de pareja de preguntas-respuestas competitiva de Feng y Boyd-Graber
  • Innovación de Este Estudio: Primera medición in situ de confianza en un entorno de chatbot completamente funcional

Conclusiones y Discusión

Conclusiones Principales

  1. Dificultad de los Usuarios para Identificar Chatbots Comprometidos: Especialmente cuando la información es menos familiar y las alucinaciones del chatbot son sutiles
  2. Familiaridad con Tareas es un Factor Clave: Los usuarios identifican más fácilmente malos consejos sobre conceptos familiares
  3. Separación entre Confianza y Cumplimiento: Los usuarios pueden seguir consejos incluso sin confiar en el chatbot
  4. Calidad de Instrucciones Impacta Confianza: Las instrucciones de navegación de UI precisas pueden enmascarar consejos de seguridad incorrectos

Recomendaciones de Diseño

1. Separación de Hechos e Instrucciones

Se recomienda separar visualmente la información de recomendaciones de las instrucciones de pasos, utilizando colores diferentes o marcos independientes, ayudando a los usuarios a distinguir entre confianza en instrucciones y recomendaciones.

2. Referencias de Fuentes Confiables

Se recomienda que los chatbots empresariales incluyan referencias de fuentes por defecto, particularmente documentos de políticas de seguridad interna bajo control de la empresa, proporcionando a los empleados "puntos de anclaje de conocimiento" para verificar la confiabilidad de la información.

Limitaciones

  1. Efecto del Observador: El conocimiento de los participantes de ser observados puede influir en el comportamiento
  2. Aleatoriedad del LLM: Incluso el chatbot "benigno" produjo algunos consejos inexactos
  3. Tamaño de Muestra: El tamaño de muestra de 15 participantes es relativamente pequeño

Direcciones Futuras

  1. Expansión de la Investigación: Muestras más grandes y más conceptos de seguridad
  2. Dinámicas de Confianza a Largo Plazo: Investigación de cambios de confianza en el uso prolongado
  3. Mecanismos de Defensa: Desarrollo de contramedidas técnicas y de capacitación de usuarios más efectivas

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Primera aplicación de experimentos de engaño in situ para estudiar confianza en chatbots de IA, metodología pionera
  2. Validez Ecológica: Uso de entorno Windows real y chatbot completamente funcional, aumentando la validez externa de resultados
  3. Rigor Técnico: Uso de ajuste fino LoRA para garantizar robustez del comportamiento adversarial, más allá de ingeniería de indicaciones simple
  4. Consideraciones Éticas: Aprobación estricta de IRB y procedimiento de revelación de engaño, reflejando práctica de investigación responsable

Deficiencias

  1. Limitaciones de Muestra: Tamaño de muestra de 15 personas es pequeño, puede limitar la generalización de resultados
  2. Alcance de Tareas: Solo cubre cinco conceptos de seguridad, puede no representar todos los escenarios de ciberseguridad
  3. Contexto Cultural: Participantes principalmente de entorno académico norteamericano, falta diversidad cultural
  4. Limitaciones Temporales: Presión de tiempo en entorno de laboratorio puede no reflejar escenarios de trabajo reales

Impacto

  1. Contribución Académica: Proporciona evidencia empírica importante para el campo de intersección de HCI y ciberseguridad
  2. Valor Práctico: Proporciona consideraciones de seguridad específicas para implementación empresarial de chatbots de IA
  3. Contribución Metodológica: Establece nuevo paradigma experimental para investigación de confianza en IA
  4. Implicaciones Políticas: Proporciona información sobre comportamiento de usuarios para formulación de políticas de seguridad de IA

Escenarios Aplicables

  1. Implementación de IA Empresarial: Guía para implementación segura de chatbots de IA internos en empresas
  2. Capacitación de Usuarios: Diseño de programas de capacitación más efectivos en alfabetización de IA y ciberseguridad
  3. Diseño de Productos: Mejora del diseño de interfaz de chatbot para promover pensamiento crítico
  4. Investigación de Seguridad: Proporciona base para investigación adicional en seguridad de IA y factores humanos

Referencias

Esta investigación cita 19 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo teoría de confianza, seguridad de IA e interacción humano-computadora, proporcionando una base teórica sólida para la investigación.


Resumen: Esta investigación revela la vulnerabilidad de los usuarios frente a chatbots de IA comprometidos a través de un diseño experimental innovador, haciendo contribuciones importantes a la investigación de seguridad de IA y confianza humano-máquina. A pesar de limitaciones como el tamaño de muestra, su metodología y hallazgos tienen valor importante para comprender y mejorar la seguridad de sistemas de IA.