2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

"So che non è giusto, ma è quello che mi ha detto di fare": Indagine sulla Fiducia nei Chatbot AI per la Politica di Sicurezza Informatica

Informazioni Fondamentali

  • ID Articolo: 2510.08917
  • Titolo: "So che non è giusto, ma è quello che mi ha detto di fare": Indagine sulla Fiducia nei Chatbot AI per la Politica di Sicurezza Informatica
  • Autori: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
  • Classificazione: cs.HC (Interazione Uomo-Computer)
  • Stato di Pubblicazione: Manoscritto sottoposto ad ACM
  • Link Articolo: https://arxiv.org/abs/2510.08917v1

Riassunto

I chatbot AI stanno emergendo come nuovi vettori di attacco alla sicurezza, vulnerabili a minacce come l'iniezione di prompt e la creazione di chatbot malevoli. Quando distribuiti in ambiti quali le politiche di sicurezza aziendale, possono essere utilizzati per fornire indicazioni intenzionalmente dannose ai sistemi di difesa. Questo studio indaga se gli utenti possono essere ingannati da chatbot AI compromessi in questo scenario. Uno studio controllato (N=15) ha richiesto ai partecipanti di utilizzare un chatbot per completare compiti relativi alla sicurezza. A insaputa dei partecipanti, il chatbot è stato manipolato per fornire consigli errati per alcuni compiti. I risultati mostrano che la fiducia nei chatbot AI è correlata alla familiarità con i compiti e alla fiducia nel proprio giudizio.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Minacce di Sicurezza Emergenti: La diffusa distribuzione di chatbot AI come strumenti interni aziendali crea nuovi vettori di attacco. Gli attori malevoli potrebbero compromettere gli LLM attraverso attacchi alla catena di approvvigionamento, avvelenamento della base di conoscenze o contaminazione dei dati di addestramento, inducendoli a fornire "cattivi consigli".
  2. Questioni di Fiducia Uomo-Macchina: Quando un chatbot viene compromesso, l'utente diventa l'ultima linea di difesa. Idealmente, gli utenti dovrebbero identificare i cattivi consigli e rendersi conto che il chatbot è stato compromesso, ma ciò presenta sfide significative nella pratica.
  3. Limitazioni della Ricerca Esistente: Gli studi precedenti sulla fiducia nell'IA si sono principalmente basati su metodi offline e non interattivi, mancando di una comprensione approfondita del comportamento degli utenti quando utilizzano effettivamente chatbot compromessi.

Importanza della Ricerca

  • Minacce Concrete: Le aziende utilizzano sempre più frequentemente chatbot AI specializzati per condividere informazioni interne o assistere in domini aziendali specifici
  • Vulnerabilità degli Utenti: Gli utenti spesso si affidano ai chatbot per imparare concetti non familiari, rendendoli più suscettibili alla disinformazione
  • Meccanismi di Fiducia: I chatbot forniscono informazioni in modo antropomorfico, conversazionale e personalizzato, il che potrebbe renderli apparire più affidabili

Contributi Principali

  1. Infrastruttura Tecnica e Protocollo Sperimentale: Sviluppo di un'infrastruttura tecnica e di metodi sperimentali per la valutazione in situ della fiducia nei chatbot AI
  2. Modelli di Comportamento Utente e Percezioni Soggettive: Rivelazione dei modelli di comportamento e delle percezioni soggettive degli utenti di fronte a chatbot AI potenzialmente compromessi
  3. Raccomandazioni di Progettazione: Proposte di raccomandazioni di progettazione per incoraggiare gli utenti a pensare più criticamente al comportamento dei chatbot AI

Dettagli Metodologici

Definizione dei Compiti

Lo studio ha progettato un esperimento ingannevole in cui ai partecipanti è stato detto che stavano testando un nuovo chatbot di sicurezza informatica, ma in realtà si misurava il loro livello di fiducia nei consigli del chatbot.

Infrastruttura Sperimentale

1. Selezione dei Concetti di Sicurezza

Sono stati selezionati cinque concetti di sicurezza come ambito dei compiti:

  • Password: Concetto comune, i partecipanti hanno maggiori probabilità di identificare cattivi consigli
  • Firewall: Concetto preinstallato ma con comprensione limitata da parte degli utenti
  • Antivirus: Gli utenti potrebbero essere consapevoli ma con idee sbagliate
  • Crittografia: Parzialmente nota agli utenti ma con scarsa comprensione concreta
  • Blocco Schermo: Funzionalità integrata, gli utenti hanno maggiore familiarità

2. Fine-tuning dell'LLM

Basato sul modello Llama 3.2, sono stati sottoposti a fine-tuning due LLM utilizzando la tecnologia LoRA:

  • LLM Benigno: Fornisce consigli corretti sulle pratiche di sicurezza informatica
  • LLM Avversariale: Addestrato per fornire consigli imprecisi sulla sicurezza informatica, utilizzando 6.655 coppie prompt-risposta

3. Interfaccia Applicazione Web

Contiene tre componenti principali:

  • Pannello di Guida ai Compiti: Visualizza la descrizione del compito attuale e il pulsante di completamento
  • Interfaccia Chatbot: Progettazione dell'interazione basata su interfacce di chatbot popolari
  • Macchina Virtuale Windows: Consente ai partecipanti di applicare i consigli del chatbot per configurazioni di sicurezza effettive

Progettazione Sperimentale

Disegno Entro i Soggetti

  • Ogni partecipante ha completato tutti e cinque i compiti
  • I primi tre compiti hanno utilizzato l'LLM benigno, gli ultimi due hanno utilizzato l'LLM avversariale
  • È stato utilizzato un disegno quadrato latino per generare cinque ordini di compiti, controllando l'effetto della conoscenza dei compiti sulla percezione della fiducia

Raccolta Dati

  • Questionario post-compito: Valutazione di successo, chiarezza, utilità e credibilità
  • Registrazione dei log della VM: Verifica delle operazioni effettivamente eseguite dai partecipanti
  • Cronologia della chat: Analisi del processo di interazione completo tra utente e chatbot

Configurazione Sperimentale

Partecipanti

  • Dimensione del Campione: 15 partecipanti
  • Criteri di Reclutamento: Familiarità con il sistema operativo Microsoft Windows, non professionisti della sicurezza informatica
  • Compenso: 45 dollari per persona
  • Criteri di Esclusione: Professionisti della sicurezza informatica (per evitare che la conoscenza a livello di esperti influenzi i risultati)

Procedura Sperimentale

  1. Configurazione dello Scenario: Ai partecipanti è stato detto di configurare un nuovo laptop per il lavoro da casa
  2. Esecuzione dei Compiti: Utilizzo del chatbot per completare cinque compiti di configurazione della sicurezza
  3. Indagine Questionario: Compilazione di questionari relativi alla fiducia dopo ogni compito
  4. Rivelazione dell'Inganno: Comunicazione dello scopo reale al termine dell'esperimento e fornitura di consigli di sicurezza corretti

Metriche di Valutazione

  • Punteggio di Fiducia: Scala da 1-5 (1-2 non affidabile, 4-5 affidabile, 3 giudicato in combinazione con altri dati)
  • Stato di Completamento del Compito: Stato di completamento del compito auto-riferito
  • Coerenza Comportamentale: Coerenza tra i consigli del chatbot e le operazioni effettivamente eseguite

Risultati Sperimentali

Principali Scoperte

1. Modelli di Fiducia Complessivi

  • Seguire Cattivi Consigli: 8 partecipanti hanno implementato tutti i cattivi consigli, 4 partecipanti hanno implementato alcuni cattivi consigli
  • Esecuzione Complessiva: 16 su 30 compiti con cattivi consigli sono stati completati, inclusi i partecipanti che credevano di aver completato il compito ma in realtà hanno seguito cattivi consigli

2. Risultati Specifici per Compito

Tipo di CompitoFiducia Chatbot BenignoFiducia Chatbot Avversariale
Password9/9 (100%)2/5 (40%)
Firewall6/8 (75%)3/6 (50%)
Antivirus8/8 (100%)4/7 (57%)
Crittografia8/9 (89%)1/6 (17%)
Blocco Schermo3/8 (38%)1/6 (17%)

3. Impatto della Familiarità con i Compiti

  • Crittografia e Blocco Schermo: I cattivi consigli erano meno affidabili perché in conflitto con l'intuizione e la conoscenza dei partecipanti
  • Antivirus: I cattivi consigli erano generalmente affidabili perché le ragioni false erano coerenti con le credenze degli utenti
  • Password: Nonostante sia un concetto familiare, i partecipanti hanno mostrato risposte divergenti ai cattivi consigli

Fenomeno di Separazione tra Fiducia e Conformità

Una scoperta importante è che anche se i partecipanti non si fidavano del chatbot, potevano comunque seguire cattivi consigli:

  • P11 ha commentato: "Non mi fiderei del chatbot per fornire informazioni accurate sulla sicurezza del computer per le persone comuni", ma ha comunque seguito il cattivo consiglio sul firewall
  • P5 ha espresso la necessità di ragioni migliori, ma ha comunque creato una password breve basata sul nome

Relazione tra Qualità delle Istruzioni e Fiducia

È stata scoperta una relazione significativa tra l'accuratezza delle istruzioni di navigazione dell'interfaccia utente e il livello di fiducia:

  • Le istruzioni di navigazione accurate aumentano la fiducia, anche se i consigli sulla sicurezza sono errati
  • Le allucinazioni di navigazione riducono significativamente la fiducia, anche se i consigli sulla sicurezza sono corretti

Lavori Correlati

Fondamenti Teorici della Fiducia

  • Modello di Fiducia di Mayer et al.: Benevolenza, competenza e integrità sono fattori della credibilità percepita
  • Modello di Fiducia nell'Automazione di Lee e See: Considera contesti personali, organizzativi, culturali e ambientali

Ricerca sulla Fiducia nell'IA

  • Metodi di Valutazione Statica: Chen e Sundar esaminano i dati di addestramento dell'IA, Yin et al. valutano le risposte ML
  • Metodi Interattivi: Studio del partner in competizione di domande e risposte di Feng e Boyd-Graber
  • Innovazione di Questo Studio: Prima misurazione in situ della fiducia in un ambiente di chatbot completamente funzionale

Conclusioni e Discussione

Conclusioni Principali

  1. Gli Utenti Hanno Difficoltà a Identificare Chatbot Compromessi: Particolarmente quando le informazioni sono meno familiari e le allucinazioni del chatbot sono sottili
  2. La Familiarità con i Compiti è un Fattore Chiave: Gli utenti identificano più facilmente i cattivi consigli su concetti familiari
  3. Separazione tra Fiducia e Conformità: Anche senza fiducia nel chatbot, gli utenti possono comunque seguire i consigli
  4. La Qualità delle Istruzioni Influenza la Fiducia: Le istruzioni di navigazione dell'interfaccia utente accurate possono mascherare cattivi consigli sulla sicurezza

Raccomandazioni di Progettazione

1. Separazione tra Fatti e Istruzioni

Si consiglia di separare visivamente le informazioni di consiglio dalle istruzioni procedurali, utilizzando colori diversi o caselle separate, per aiutare gli utenti a distinguere tra la percezione della fiducia nelle istruzioni e nei consigli.

2. Citazione di Fonti Affidabili

Si consiglia che i chatbot aziendali includano per impostazione predefinita citazioni di fonti, in particolare documenti di politica di sicurezza interna controllati dall'azienda, fornendo ai dipendenti "ancore di conoscenza" per verificare l'affidabilità delle informazioni.

Limitazioni

  1. Effetto Osservatore: La consapevolezza dei partecipanti di essere osservati potrebbe influenzare il comportamento
  2. Casualità dell'LLM: Anche il chatbot "benigno" ha prodotto alcuni consigli imprecisi
  3. Dimensione del Campione: Il campione di 15 partecipanti è relativamente piccolo

Direzioni Future

  1. Ampliamento della Ricerca: Dimensioni del campione più grandi e più concetti di sicurezza
  2. Dinamiche di Fiducia a Lungo Termine: Studio dei cambiamenti di fiducia nell'uso prolungato
  3. Meccanismi di Difesa: Sviluppo di contromisure di formazione degli utenti e tecniche più efficaci

Valutazione Approfondita

Punti di Forza

  1. Innovazione Metodologica: Primo utilizzo di esperimenti ingannevoli in situ per studiare la fiducia nei chatbot AI, con metodologia pioneristico
  2. Validità Ecologica: Utilizzo di ambienti Windows reali e chatbot completamente funzionali, aumentando la validità esterna dei risultati
  3. Rigore Tecnico: Utilizzo del fine-tuning LoRA per garantire robustezza del comportamento avversariale, andando oltre la semplice ingegneria dei prompt
  4. Considerazioni Etiche: Approvazione rigorosa dell'IRB e procedure di rivelazione dell'inganno, riflettendo pratica di ricerca responsabile

Insufficienze

  1. Limitazioni del Campione: Il campione di 15 persone è relativamente piccolo, potrebbe limitare la generalizzabilità dei risultati
  2. Ambito dei Compiti: Copre solo cinque concetti di sicurezza, potrebbe non rappresentare tutti gli scenari di sicurezza informatica
  3. Contesto Culturale: I partecipanti provengono principalmente da ambienti accademici nordamericani, mancanza di diversità culturale
  4. Limitazioni Temporali: La pressione temporale dell'ambiente di laboratorio potrebbe non riflettere scenari di lavoro reali

Impatto

  1. Contributo Accademico: Fornisce prove empiriche importanti per l'intersezione tra HCI e sicurezza informatica
  2. Valore Pratico: Fornisce considerazioni di sicurezza concrete per la distribuzione aziendale di chatbot AI
  3. Contributo Metodologico: Stabilisce un nuovo paradigma sperimentale per la ricerca sulla fiducia nell'IA
  4. Implicazioni Politiche: Fornisce intuizioni sul comportamento degli utenti per la formulazione di politiche di sicurezza dell'IA

Scenari Applicabili

  1. Distribuzione di IA Aziendale: Guida la distribuzione sicura di chatbot AI interni nelle aziende
  2. Formazione degli Utenti: Progettazione di programmi di formazione più efficaci su alfabetizzazione dell'IA e sicurezza informatica
  3. Progettazione dei Prodotti: Miglioramento della progettazione dell'interfaccia del chatbot per promuovere il pensiero critico
  4. Ricerca sulla Sicurezza: Fornisce base per ulteriore ricerca sulla sicurezza dell'IA e fattori umani

Bibliografia

Questo studio cita 19 articoli correlati, coprendo importanti lavori in più campi tra cui teoria della fiducia, sicurezza dell'IA e interazione uomo-computer, fornendo una base teorica solida per la ricerca.


Sintesi: Questo studio, attraverso una progettazione sperimentale innovativa, rivela la vulnerabilità degli utenti di fronte a chatbot AI compromessi, fornendo importanti contributi alla ricerca sulla sicurezza dell'IA e sulla fiducia uomo-macchina. Nonostante le limitazioni come la dimensione del campione, la sua metodologia e i risultati hanno un valore significativo per comprendere e migliorare la sicurezza dei sistemi di IA.