2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

« Je sais que ce n'est pas correct, mais c'est ce qu'il m'a dit de faire » : Enquête sur la confiance dans les chatbots IA pour la politique de cybersécurité

Informations de base

  • ID de l'article : 2510.08917
  • Titre : « Je sais que ce n'est pas correct, mais c'est ce qu'il m'a dit de faire » : Enquête sur la confiance dans les chatbots IA pour la politique de cybersécurité
  • Auteurs : Brandon Lit (Université de Waterloo), Edward Crowder (Université de Guelph), Daniel Vogel (Université de Waterloo), Hassan Khan (Université de Guelph)
  • Classification : cs.HC (Interaction Homme-Ordinateur)
  • Statut de publication : Manuscrit soumis à l'ACM
  • Lien de l'article : https://arxiv.org/abs/2510.08917v1

Résumé

Les chatbots IA deviennent un nouveau vecteur d'attaque en matière de sécurité, vulnérables aux menaces telles que l'injection de prompts et la création de chatbots malveillants. Lorsqu'ils sont déployés dans des domaines tels que les politiques de sécurité d'entreprise, ils peuvent être weaponisés pour fournir des directives visant intentionnellement à compromettre les défenses du système. Cette étude enquête sur la possibilité que les utilisateurs soient trompés par des chatbots IA compromis dans ce scénario. Une étude contrôlée (N=15) a demandé aux participants d'utiliser un chatbot pour accomplir des tâches liées à la sécurité. À l'insu des participants, le chatbot a été manipulé pour fournir des conseils erronés pour certaines tâches. Les résultats montrent que la confiance dans les chatbots IA est corrélée à la familiarité avec les tâches et à la confiance dans son propre jugement.

Contexte et motivation de la recherche

Définition du problème

  1. Menaces de sécurité émergentes : Le déploiement généralisé des chatbots IA en tant qu'outils internes aux entreprises crée de nouveaux vecteurs d'attaque. Les acteurs malveillants pourraient compromettre les LLM par des attaques de la chaîne d'approvisionnement, l'empoisonnement de la base de connaissances ou la pollution des données d'entraînement, les amenant à fournir de « mauvais conseils ».
  2. Problèmes de confiance homme-machine : Lorsqu'un chatbot est compromis, l'utilisateur devient la dernière ligne de défense. Idéalement, les utilisateurs devraient identifier les mauvais conseils et se rendre compte que le chatbot a été compromis, mais cela s'avère difficile en pratique.
  3. Limitations de la recherche existante : Les recherches antérieures sur la confiance envers l'IA se sont principalement appuyées sur des méthodes hors ligne et non interactives, manquant d'une compréhension approfondie du comportement des utilisateurs lors de l'utilisation réelle de chatbots compromis.

Importance de la recherche

  • Menaces concrètes : Les entreprises utilisent de plus en plus des chatbots IA spécialisés pour partager des informations internes ou assister dans des domaines métier spécifiques
  • Vulnérabilité des utilisateurs : Les utilisateurs dépendent souvent des chatbots pour apprendre des concepts peu familiers, ce qui les rend plus susceptibles d'être induits en erreur
  • Mécanismes de confiance : Les chatbots fournissent des informations de manière anthropomorphe, conversationnelle et personnalisée, ce qui peut les rendre plus dignes de confiance

Contributions principales

  1. Infrastructure technique et protocole expérimental : Développement d'une infrastructure technique et d'une méthodologie expérimentale pour l'évaluation in situ de la confiance dans les chatbots IA
  2. Modèles de comportement des utilisateurs et perceptions subjectives : Révélation des modèles de comportement et des perceptions subjectives des utilisateurs face à des chatbots IA potentiellement compromis
  3. Recommandations de conception : Proposition de recommandations de conception pour encourager les utilisateurs à réfléchir de manière plus critique au comportement des chatbots IA

Détails méthodologiques

Définition des tâches

L'étude a conçu une expérience trompeuse dans laquelle les participants ont été informés qu'ils testaient un nouveau chatbot de cybersécurité, mais en réalité, on mesurait leur niveau de confiance dans les conseils du chatbot.

Infrastructure expérimentale

1. Sélection des concepts de sécurité

Cinq concepts de sécurité ont été sélectionnés comme portée des tâches :

  • Mots de passe (Passwords) : Concept courant, les participants sont plus susceptibles d'identifier les mauvais conseils
  • Pare-feu (Firewalls) : Concept préinstallé mais compréhension limitée des utilisateurs
  • Antivirus (Antivirus) : Les utilisateurs peuvent être familiers mais avec des idées fausses
  • Chiffrement (Encryption) : Partiellement connu par certains utilisateurs mais manque de compréhension concrète
  • Verrouillage d'écran (Screen Lock) : Fonctionnalité intégrée, les utilisateurs sont relativement familiers

2. Ajustement fin du LLM

Sur la base du modèle Llama 3.2, deux LLM ont été ajustés finement à l'aide de la technologie LoRA :

  • LLM bienveillant : Fournit des conseils corrects en matière de pratiques de cybersécurité
  • LLM adversarial : Entraîné pour fournir des conseils inexacts en cybersécurité, utilisant 6 655 paires prompt-réponse pour l'entraînement

3. Interface d'application web

Comprenant trois composants principaux :

  • Panneau de directives de tâche : Affiche la description de la tâche actuelle et le bouton d'achèvement
  • Interface de chatbot : Conception d'interaction basée sur les interfaces de chatbot populaires
  • Machine virtuelle Windows : Permet aux participants d'appliquer les conseils du chatbot pour effectuer des configurations de sécurité réelles

Conception expérimentale

Conception intra-sujets

  • Chaque participant a complété les cinq tâches
  • Les trois premières tâches utilisaient le LLM bienveillant, les deux dernières utilisaient le LLM adversarial
  • Un plan en carré latin a été utilisé pour générer cinq ordres de tâches, contrôlant l'effet de la connaissance des tâches sur la perception de la confiance

Collecte de données

  • Questionnaire post-tâche : Évaluation du succès, de la clarté, de l'utilité et de la crédibilité
  • Journalisation des VM : Vérification des opérations réellement exécutées par les participants
  • Historique de chat : Analyse du processus d'interaction complet entre l'utilisateur et le chatbot

Configuration expérimentale

Participants

  • Taille de l'échantillon : 15 participants
  • Critères de recrutement : Familiarité avec le système d'exploitation Microsoft Windows, non-spécialistes en cybersécurité
  • Compensation : 45 dollars par personne
  • Critères d'exclusion : Spécialistes en cybersécurité (pour éviter que les connaissances d'experts n'influencent les résultats)

Déroulement expérimental

  1. Mise en place du scénario : Les participants ont été informés qu'ils configuraient un nouvel ordinateur portable pour le travail à domicile
  2. Exécution des tâches : Utilisation du chatbot pour accomplir cinq tâches de configuration de sécurité
  3. Enquête : Remplissage d'un questionnaire relatif au niveau de confiance après chaque tâche
  4. Révélation de la tromperie : Après l'expérience, les participants ont été informés du véritable objectif et ont reçu des conseils de sécurité corrects

Indicateurs d'évaluation

  • Score de confiance : Échelle de 1 à 5 (1-2 = manque de confiance, 4-5 = confiance, 3 = jugement combiné avec d'autres données)
  • Statut d'achèvement des tâches : État d'achèvement des tâches auto-déclaré
  • Cohérence comportementale : Cohérence entre les conseils du chatbot et les opérations réellement exécutées

Résultats expérimentaux

Principales conclusions

1. Modèles de confiance globaux

  • Suivi des mauvais conseils : 8 participants ont mis en œuvre tous les mauvais conseils, 4 participants en ont mis en œuvre certains
  • Exécution globale : 16 des 30 tâches avec mauvais conseils ont été complétées, y compris ceux qui pensaient avoir complété la tâche mais ont en réalité suivi les mauvais conseils

2. Résultats spécifiques aux tâches

Type de tâcheConfiance chatbot bienveillantConfiance chatbot adversarial
Mots de passe9/9 (100%)2/5 (40%)
Pare-feu6/8 (75%)3/6 (50%)
Antivirus8/8 (100%)4/7 (57%)
Chiffrement8/9 (89%)1/6 (17%)
Verrouillage d'écran3/8 (38%)1/6 (17%)

3. Impact de la familiarité avec les tâches

  • Chiffrement et verrouillage d'écran : Les mauvais conseils sont les moins dignes de confiance car ils contredisent l'intuition et les connaissances des participants
  • Antivirus : Les mauvais conseils sont largement dignes de confiance car les fausses raisons s'alignent avec les croyances des utilisateurs
  • Mots de passe : Bien qu'il s'agisse d'un concept familier, les participants ont réagi de manière différenciée aux mauvais conseils

Phénomène de séparation entre confiance et conformité

Une découverte importante est que même si les participants ne font pas confiance au chatbot, ils peuvent toujours suivre les mauvais conseils :

  • P11 a commenté : « Je ne ferais pas confiance au chatbot pour fournir des informations précises sur les paramètres de sécurité informatique pour les gens ordinaires », mais a quand même suivi les mauvais conseils concernant le pare-feu
  • P5 a exprimé le besoin de meilleures raisons, mais a quand même créé un mot de passe court basé sur un nom

Relation entre la qualité des instructions et la confiance

Il a été constaté que l'exactitude des instructions de navigation de l'interface utilisateur affecte significativement le niveau de confiance :

  • Les instructions de navigation exactes augmentent la confiance, même si les conseils de sécurité sont erronés
  • Les hallucinations de navigation réduisent considérablement la confiance, même si les conseils de sécurité sont corrects

Travaux connexes

Fondements théoriques de la confiance

  • Modèle de confiance de Mayer et al. : La bienveillance, la compétence et l'intégrité sont des facteurs de crédibilité perçue
  • Modèle de confiance en l'automatisation de Lee et See : Considère les contextes personnels, organisationnels, culturels et environnementaux

Recherche sur la confiance en l'IA

  • Méthodes d'évaluation statique : Chen et Sundar examinent les données d'entraînement de l'IA, Yin et al. évaluent les réponses ML
  • Approches interactives : Étude de partenaire de compétition de questions-réponses de Feng et Boyd-Graber
  • Innovation de cette recherche : Première mesure de confiance in situ dans un environnement de chatbot entièrement fonctionnel

Conclusions et discussion

Conclusions principales

  1. Les utilisateurs ont du mal à identifier les chatbots compromis : Particulièrement lorsque les informations sont peu familières et que les hallucinations du chatbot sont subtiles
  2. La familiarité avec les tâches est un facteur clé : Les utilisateurs identifient plus facilement les mauvais conseils concernant les concepts familiers
  3. Séparation entre confiance et conformité : Même sans faire confiance au chatbot, les utilisateurs peuvent toujours suivre les conseils
  4. La qualité des instructions affecte la confiance : Les instructions de navigation UI exactes peuvent masquer les mauvais conseils de sécurité

Recommandations de conception

1. Séparation des faits et des instructions

Il est recommandé de séparer visuellement les informations de conseil des instructions étape par étape, en utilisant des couleurs différentes ou des cadres indépendants, pour aider les utilisateurs à distinguer leur perception de confiance envers les instructions et les conseils.

2. Références de sources fiables

Il est recommandé que les chatbots d'entreprise incluent par défaut des références de sources, en particulier les documents de politique de sécurité interne sous le contrôle de l'entreprise, fournissant aux employés des « points d'ancrage de connaissance » pour vérifier la fiabilité des informations.

Limitations

  1. Effet d'observateur : Le fait que les participants sachent qu'ils sont observés peut influencer le comportement
  2. Aléatoire du LLM : Même le chatbot « bienveillant » a produit certains conseils inexacts
  3. Taille de l'échantillon : L'échantillon de 15 participants est relativement petit

Directions futures

  1. Élargir l'échelle de la recherche : Taille d'échantillon plus grande et plus de concepts de sécurité
  2. Dynamique de confiance à long terme : Étudier les changements de confiance lors d'une utilisation prolongée
  3. Mécanismes de défense : Développer des contre-mesures de formation des utilisateurs et techniques plus efficaces

Évaluation approfondie

Points forts

  1. Innovation méthodologique : Première étude utilisant une expérience de tromperie in situ pour enquêter sur la confiance dans les chatbots IA, la méthodologie est novatrice
  2. Validité écologique : Utilisation d'un environnement Windows réel et d'un chatbot entièrement fonctionnel, renforçant la validité externe des résultats
  3. Rigueur technique : Utilisation de l'ajustement fin LoRA pour assurer la robustesse du comportement adversarial, allant au-delà de l'ingénierie simple de prompts
  4. Considérations éthiques : Approbation IRB stricte et procédure de révélation de tromperie, reflétant une pratique de recherche responsable

Insuffisances

  1. Limitations d'échantillon : L'échantillon de 15 personnes est relativement petit, ce qui peut limiter la généralisation des résultats
  2. Portée des tâches : Couvre seulement cinq concepts de sécurité, peut ne pas représenter tous les scénarios de cybersécurité
  3. Contexte culturel : Les participants proviennent principalement d'environnements académiques nord-américains, manquant de diversité culturelle
  4. Contraintes temporelles : La pression temporelle dans l'environnement de laboratoire peut ne pas refléter les scénarios de travail réels

Impact

  1. Contribution académique : Fournit des preuves empiriques importantes pour le domaine d'intersection entre l'IHM et la cybersécurité
  2. Valeur pratique : Fournit des considérations de sécurité concrètes pour le déploiement d'IA en entreprise
  3. Contribution méthodologique : Établit un nouveau paradigme expérimental pour l'étude de la confiance en l'IA
  4. Implications politiques : Fournit des perspectives sur le comportement des utilisateurs pour l'élaboration de politiques de sécurité de l'IA

Scénarios applicables

  1. Déploiement d'IA en entreprise : Guide le déploiement sécurisé des chatbots IA internes
  2. Formation des utilisateurs : Conception de programmes de formation plus efficaces en matière de littératie IA et de cybersécurité
  3. Conception de produits : Amélioration de la conception des interfaces de chatbot pour promouvoir la pensée critique
  4. Recherche en sécurité : Fournit une base pour la recherche ultérieure en sécurité de l'IA et en facteurs humains

Références

Cette recherche cite 19 références pertinentes, couvrant des travaux importants dans plusieurs domaines tels que la théorie de la confiance, la sécurité de l'IA et l'interaction homme-machine, fournissant une base théorique solide pour la recherche.


Résumé : Cette étude révèle, grâce à une conception expérimentale innovante, la vulnérabilité des utilisateurs face aux chatbots IA compromis, apportant une contribution importante à la recherche sur la sécurité de l'IA et la confiance homme-machine. Malgré certaines limitations telles que la taille de l'échantillon, sa méthodologie et ses conclusions ont une valeur importante pour comprendre et améliorer la sécurité des systèmes d'IA.