2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.

AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.

academic

"So che non è giusto, ma è quello che mi ha detto di fare": Indagine sulla Fiducia nei Chatbot AI per la Politica di Sicurezza Informatica

Informazioni Fondamentali

ID Articolo: 2510.08917
Titolo: "So che non è giusto, ma è quello che mi ha detto di fare": Indagine sulla Fiducia nei Chatbot AI per la Politica di Sicurezza Informatica
Autori: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
Classificazione: cs.HC (Interazione Uomo-Computer)
Stato di Pubblicazione: Manoscritto sottoposto ad ACM
Link Articolo: https://arxiv.org/abs/2510.08917v1

Riassunto

I chatbot AI stanno emergendo come nuovi vettori di attacco alla sicurezza, vulnerabili a minacce come l'iniezione di prompt e la creazione di chatbot malevoli. Quando distribuiti in ambiti quali le politiche di sicurezza aziendale, possono essere utilizzati per fornire indicazioni intenzionalmente dannose ai sistemi di difesa. Questo studio indaga se gli utenti possono essere ingannati da chatbot AI compromessi in questo scenario. Uno studio controllato (N=15) ha richiesto ai partecipanti di utilizzare un chatbot per completare compiti relativi alla sicurezza. A insaputa dei partecipanti, il chatbot è stato manipolato per fornire consigli errati per alcuni compiti. I risultati mostrano che la fiducia nei chatbot AI è correlata alla familiarità con i compiti e alla fiducia nel proprio giudizio.

Contesto di Ricerca e Motivazione

Definizione del Problema

Minacce di Sicurezza Emergenti: La diffusa distribuzione di chatbot AI come strumenti interni aziendali crea nuovi vettori di attacco. Gli attori malevoli potrebbero compromettere gli LLM attraverso attacchi alla catena di approvvigionamento, avvelenamento della base di conoscenze o contaminazione dei dati di addestramento, inducendoli a fornire "cattivi consigli".
Questioni di Fiducia Uomo-Macchina: Quando un chatbot viene compromesso, l'utente diventa l'ultima linea di difesa. Idealmente, gli utenti dovrebbero identificare i cattivi consigli e rendersi conto che il chatbot è stato compromesso, ma ciò presenta sfide significative nella pratica.
Limitazioni della Ricerca Esistente: Gli studi precedenti sulla fiducia nell'IA si sono principalmente basati su metodi offline e non interattivi, mancando di una comprensione approfondita del comportamento degli utenti quando utilizzano effettivamente chatbot compromessi.

Importanza della Ricerca

Minacce Concrete: Le aziende utilizzano sempre più frequentemente chatbot AI specializzati per condividere informazioni interne o assistere in domini aziendali specifici
Vulnerabilità degli Utenti: Gli utenti spesso si affidano ai chatbot per imparare concetti non familiari, rendendoli più suscettibili alla disinformazione
Meccanismi di Fiducia: I chatbot forniscono informazioni in modo antropomorfico, conversazionale e personalizzato, il che potrebbe renderli apparire più affidabili

Contributi Principali

Infrastruttura Tecnica e Protocollo Sperimentale: Sviluppo di un'infrastruttura tecnica e di metodi sperimentali per la valutazione in situ della fiducia nei chatbot AI
Modelli di Comportamento Utente e Percezioni Soggettive: Rivelazione dei modelli di comportamento e delle percezioni soggettive degli utenti di fronte a chatbot AI potenzialmente compromessi
Raccomandazioni di Progettazione: Proposte di raccomandazioni di progettazione per incoraggiare gli utenti a pensare più criticamente al comportamento dei chatbot AI

Dettagli Metodologici

Definizione dei Compiti

Lo studio ha progettato un esperimento ingannevole in cui ai partecipanti è stato detto che stavano testando un nuovo chatbot di sicurezza informatica, ma in realtà si misurava il loro livello di fiducia nei consigli del chatbot.

Infrastruttura Sperimentale

1. Selezione dei Concetti di Sicurezza

Sono stati selezionati cinque concetti di sicurezza come ambito dei compiti:

Password: Concetto comune, i partecipanti hanno maggiori probabilità di identificare cattivi consigli
Firewall: Concetto preinstallato ma con comprensione limitata da parte degli utenti
Antivirus: Gli utenti potrebbero essere consapevoli ma con idee sbagliate
Crittografia: Parzialmente nota agli utenti ma con scarsa comprensione concreta
Blocco Schermo: Funzionalità integrata, gli utenti hanno maggiore familiarità

2. Fine-tuning dell'LLM

Basato sul modello Llama 3.2, sono stati sottoposti a fine-tuning due LLM utilizzando la tecnologia LoRA:

LLM Benigno: Fornisce consigli corretti sulle pratiche di sicurezza informatica
LLM Avversariale: Addestrato per fornire consigli imprecisi sulla sicurezza informatica, utilizzando 6.655 coppie prompt-risposta

3. Interfaccia Applicazione Web

Contiene tre componenti principali:

Pannello di Guida ai Compiti: Visualizza la descrizione del compito attuale e il pulsante di completamento
Interfaccia Chatbot: Progettazione dell'interazione basata su interfacce di chatbot popolari
Macchina Virtuale Windows: Consente ai partecipanti di applicare i consigli del chatbot per configurazioni di sicurezza effettive

Progettazione Sperimentale

Disegno Entro i Soggetti

Ogni partecipante ha completato tutti e cinque i compiti
I primi tre compiti hanno utilizzato l'LLM benigno, gli ultimi due hanno utilizzato l'LLM avversariale
È stato utilizzato un disegno quadrato latino per generare cinque ordini di compiti, controllando l'effetto della conoscenza dei compiti sulla percezione della fiducia

Raccolta Dati

Questionario post-compito: Valutazione di successo, chiarezza, utilità e credibilità
Registrazione dei log della VM: Verifica delle operazioni effettivamente eseguite dai partecipanti
Cronologia della chat: Analisi del processo di interazione completo tra utente e chatbot

Configurazione Sperimentale

Partecipanti

Dimensione del Campione: 15 partecipanti
Criteri di Reclutamento: Familiarità con il sistema operativo Microsoft Windows, non professionisti della sicurezza informatica
Compenso: 45 dollari per persona
Criteri di Esclusione: Professionisti della sicurezza informatica (per evitare che la conoscenza a livello di esperti influenzi i risultati)

Procedura Sperimentale

Configurazione dello Scenario: Ai partecipanti è stato detto di configurare un nuovo laptop per il lavoro da casa
Esecuzione dei Compiti: Utilizzo del chatbot per completare cinque compiti di configurazione della sicurezza
Indagine Questionario: Compilazione di questionari relativi alla fiducia dopo ogni compito
Rivelazione dell'Inganno: Comunicazione dello scopo reale al termine dell'esperimento e fornitura di consigli di sicurezza corretti

Metriche di Valutazione

Punteggio di Fiducia: Scala da 1-5 (1-2 non affidabile, 4-5 affidabile, 3 giudicato in combinazione con altri dati)
Stato di Completamento del Compito: Stato di completamento del compito auto-riferito
Coerenza Comportamentale: Coerenza tra i consigli del chatbot e le operazioni effettivamente eseguite

Risultati Sperimentali

Principali Scoperte

1. Modelli di Fiducia Complessivi

Seguire Cattivi Consigli: 8 partecipanti hanno implementato tutti i cattivi consigli, 4 partecipanti hanno implementato alcuni cattivi consigli
Esecuzione Complessiva: 16 su 30 compiti con cattivi consigli sono stati completati, inclusi i partecipanti che credevano di aver completato il compito ma in realtà hanno seguito cattivi consigli

2. Risultati Specifici per Compito

Tipo di Compito	Fiducia Chatbot Benigno	Fiducia Chatbot Avversariale
Password	9/9 (100%)	2/5 (40%)
Firewall	6/8 (75%)	3/6 (50%)
Antivirus	8/8 (100%)	4/7 (57%)
Crittografia	8/9 (89%)	1/6 (17%)
Blocco Schermo	3/8 (38%)	1/6 (17%)

3. Impatto della Familiarità con i Compiti

Crittografia e Blocco Schermo: I cattivi consigli erano meno affidabili perché in conflitto con l'intuizione e la conoscenza dei partecipanti
Antivirus: I cattivi consigli erano generalmente affidabili perché le ragioni false erano coerenti con le credenze degli utenti
Password: Nonostante sia un concetto familiare, i partecipanti hanno mostrato risposte divergenti ai cattivi consigli

Fenomeno di Separazione tra Fiducia e Conformità

Una scoperta importante è che anche se i partecipanti non si fidavano del chatbot, potevano comunque seguire cattivi consigli:

P11 ha commentato: "Non mi fiderei del chatbot per fornire informazioni accurate sulla sicurezza del computer per le persone comuni", ma ha comunque seguito il cattivo consiglio sul firewall
P5 ha espresso la necessità di ragioni migliori, ma ha comunque creato una password breve basata sul nome

Relazione tra Qualità delle Istruzioni e Fiducia

È stata scoperta una relazione significativa tra l'accuratezza delle istruzioni di navigazione dell'interfaccia utente e il livello di fiducia:

Le istruzioni di navigazione accurate aumentano la fiducia, anche se i consigli sulla sicurezza sono errati
Le allucinazioni di navigazione riducono significativamente la fiducia, anche se i consigli sulla sicurezza sono corretti

Lavori Correlati

Fondamenti Teorici della Fiducia

Modello di Fiducia di Mayer et al.: Benevolenza, competenza e integrità sono fattori della credibilità percepita
Modello di Fiducia nell'Automazione di Lee e See: Considera contesti personali, organizzativi, culturali e ambientali

Ricerca sulla Fiducia nell'IA

Metodi di Valutazione Statica: Chen e Sundar esaminano i dati di addestramento dell'IA, Yin et al. valutano le risposte ML
Metodi Interattivi: Studio del partner in competizione di domande e risposte di Feng e Boyd-Graber
Innovazione di Questo Studio: Prima misurazione in situ della fiducia in un ambiente di chatbot completamente funzionale

Conclusioni e Discussione

Conclusioni Principali

Gli Utenti Hanno Difficoltà a Identificare Chatbot Compromessi: Particolarmente quando le informazioni sono meno familiari e le allucinazioni del chatbot sono sottili
La Familiarità con i Compiti è un Fattore Chiave: Gli utenti identificano più facilmente i cattivi consigli su concetti familiari
Separazione tra Fiducia e Conformità: Anche senza fiducia nel chatbot, gli utenti possono comunque seguire i consigli
La Qualità delle Istruzioni Influenza la Fiducia: Le istruzioni di navigazione dell'interfaccia utente accurate possono mascherare cattivi consigli sulla sicurezza

Raccomandazioni di Progettazione

1. Separazione tra Fatti e Istruzioni

Si consiglia di separare visivamente le informazioni di consiglio dalle istruzioni procedurali, utilizzando colori diversi o caselle separate, per aiutare gli utenti a distinguere tra la percezione della fiducia nelle istruzioni e nei consigli.

2. Citazione di Fonti Affidabili

Si consiglia che i chatbot aziendali includano per impostazione predefinita citazioni di fonti, in particolare documenti di politica di sicurezza interna controllati dall'azienda, fornendo ai dipendenti "ancore di conoscenza" per verificare l'affidabilità delle informazioni.

Limitazioni

Effetto Osservatore: La consapevolezza dei partecipanti di essere osservati potrebbe influenzare il comportamento
Casualità dell'LLM: Anche il chatbot "benigno" ha prodotto alcuni consigli imprecisi
Dimensione del Campione: Il campione di 15 partecipanti è relativamente piccolo

Direzioni Future

Ampliamento della Ricerca: Dimensioni del campione più grandi e più concetti di sicurezza
Dinamiche di Fiducia a Lungo Termine: Studio dei cambiamenti di fiducia nell'uso prolungato
Meccanismi di Difesa: Sviluppo di contromisure di formazione degli utenti e tecniche più efficaci

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica: Primo utilizzo di esperimenti ingannevoli in situ per studiare la fiducia nei chatbot AI, con metodologia pioneristico
Validità Ecologica: Utilizzo di ambienti Windows reali e chatbot completamente funzionali, aumentando la validità esterna dei risultati
Rigore Tecnico: Utilizzo del fine-tuning LoRA per garantire robustezza del comportamento avversariale, andando oltre la semplice ingegneria dei prompt
Considerazioni Etiche: Approvazione rigorosa dell'IRB e procedure di rivelazione dell'inganno, riflettendo pratica di ricerca responsabile

Insufficienze

Limitazioni del Campione: Il campione di 15 persone è relativamente piccolo, potrebbe limitare la generalizzabilità dei risultati
Ambito dei Compiti: Copre solo cinque concetti di sicurezza, potrebbe non rappresentare tutti gli scenari di sicurezza informatica
Contesto Culturale: I partecipanti provengono principalmente da ambienti accademici nordamericani, mancanza di diversità culturale
Limitazioni Temporali: La pressione temporale dell'ambiente di laboratorio potrebbe non riflettere scenari di lavoro reali

Impatto

Contributo Accademico: Fornisce prove empiriche importanti per l'intersezione tra HCI e sicurezza informatica
Valore Pratico: Fornisce considerazioni di sicurezza concrete per la distribuzione aziendale di chatbot AI
Contributo Metodologico: Stabilisce un nuovo paradigma sperimentale per la ricerca sulla fiducia nell'IA
Implicazioni Politiche: Fornisce intuizioni sul comportamento degli utenti per la formulazione di politiche di sicurezza dell'IA

Scenari Applicabili

Distribuzione di IA Aziendale: Guida la distribuzione sicura di chatbot AI interni nelle aziende
Formazione degli Utenti: Progettazione di programmi di formazione più efficaci su alfabetizzazione dell'IA e sicurezza informatica
Progettazione dei Prodotti: Miglioramento della progettazione dell'interfaccia del chatbot per promuovere il pensiero critico
Ricerca sulla Sicurezza: Fornisce base per ulteriore ricerca sulla sicurezza dell'IA e fattori umani

Bibliografia

Questo studio cita 19 articoli correlati, coprendo importanti lavori in più campi tra cui teoria della fiducia, sicurezza dell'IA e interazione uomo-computer, fornendo una base teorica solida per la ricerca.

Sintesi: Questo studio, attraverso una progettazione sperimentale innovativa, rivela la vulnerabilità degli utenti di fronte a chatbot AI compromessi, fornendo importanti contributi alla ricerca sulla sicurezza dell'IA e sulla fiducia uomo-macchina. Nonostante le limitazioni come la dimensione del campione, la sua metodologia e i risultati hanno un valore significativo per comprendere e migliorare la sicurezza dei sistemi di IA.