AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
- ID Articolo: 2510.08917
- Titolo: "So che non è giusto, ma è quello che mi ha detto di fare": Indagine sulla Fiducia nei Chatbot AI per la Politica di Sicurezza Informatica
- Autori: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
- Classificazione: cs.HC (Interazione Uomo-Computer)
- Stato di Pubblicazione: Manoscritto sottoposto ad ACM
- Link Articolo: https://arxiv.org/abs/2510.08917v1
I chatbot AI stanno emergendo come nuovi vettori di attacco alla sicurezza, vulnerabili a minacce come l'iniezione di prompt e la creazione di chatbot malevoli. Quando distribuiti in ambiti quali le politiche di sicurezza aziendale, possono essere utilizzati per fornire indicazioni intenzionalmente dannose ai sistemi di difesa. Questo studio indaga se gli utenti possono essere ingannati da chatbot AI compromessi in questo scenario. Uno studio controllato (N=15) ha richiesto ai partecipanti di utilizzare un chatbot per completare compiti relativi alla sicurezza. A insaputa dei partecipanti, il chatbot è stato manipolato per fornire consigli errati per alcuni compiti. I risultati mostrano che la fiducia nei chatbot AI è correlata alla familiarità con i compiti e alla fiducia nel proprio giudizio.
- Minacce di Sicurezza Emergenti: La diffusa distribuzione di chatbot AI come strumenti interni aziendali crea nuovi vettori di attacco. Gli attori malevoli potrebbero compromettere gli LLM attraverso attacchi alla catena di approvvigionamento, avvelenamento della base di conoscenze o contaminazione dei dati di addestramento, inducendoli a fornire "cattivi consigli".
- Questioni di Fiducia Uomo-Macchina: Quando un chatbot viene compromesso, l'utente diventa l'ultima linea di difesa. Idealmente, gli utenti dovrebbero identificare i cattivi consigli e rendersi conto che il chatbot è stato compromesso, ma ciò presenta sfide significative nella pratica.
- Limitazioni della Ricerca Esistente: Gli studi precedenti sulla fiducia nell'IA si sono principalmente basati su metodi offline e non interattivi, mancando di una comprensione approfondita del comportamento degli utenti quando utilizzano effettivamente chatbot compromessi.
- Minacce Concrete: Le aziende utilizzano sempre più frequentemente chatbot AI specializzati per condividere informazioni interne o assistere in domini aziendali specifici
- Vulnerabilità degli Utenti: Gli utenti spesso si affidano ai chatbot per imparare concetti non familiari, rendendoli più suscettibili alla disinformazione
- Meccanismi di Fiducia: I chatbot forniscono informazioni in modo antropomorfico, conversazionale e personalizzato, il che potrebbe renderli apparire più affidabili
- Infrastruttura Tecnica e Protocollo Sperimentale: Sviluppo di un'infrastruttura tecnica e di metodi sperimentali per la valutazione in situ della fiducia nei chatbot AI
- Modelli di Comportamento Utente e Percezioni Soggettive: Rivelazione dei modelli di comportamento e delle percezioni soggettive degli utenti di fronte a chatbot AI potenzialmente compromessi
- Raccomandazioni di Progettazione: Proposte di raccomandazioni di progettazione per incoraggiare gli utenti a pensare più criticamente al comportamento dei chatbot AI
Lo studio ha progettato un esperimento ingannevole in cui ai partecipanti è stato detto che stavano testando un nuovo chatbot di sicurezza informatica, ma in realtà si misurava il loro livello di fiducia nei consigli del chatbot.
Sono stati selezionati cinque concetti di sicurezza come ambito dei compiti:
- Password: Concetto comune, i partecipanti hanno maggiori probabilità di identificare cattivi consigli
- Firewall: Concetto preinstallato ma con comprensione limitata da parte degli utenti
- Antivirus: Gli utenti potrebbero essere consapevoli ma con idee sbagliate
- Crittografia: Parzialmente nota agli utenti ma con scarsa comprensione concreta
- Blocco Schermo: Funzionalità integrata, gli utenti hanno maggiore familiarità
Basato sul modello Llama 3.2, sono stati sottoposti a fine-tuning due LLM utilizzando la tecnologia LoRA:
- LLM Benigno: Fornisce consigli corretti sulle pratiche di sicurezza informatica
- LLM Avversariale: Addestrato per fornire consigli imprecisi sulla sicurezza informatica, utilizzando 6.655 coppie prompt-risposta
Contiene tre componenti principali:
- Pannello di Guida ai Compiti: Visualizza la descrizione del compito attuale e il pulsante di completamento
- Interfaccia Chatbot: Progettazione dell'interazione basata su interfacce di chatbot popolari
- Macchina Virtuale Windows: Consente ai partecipanti di applicare i consigli del chatbot per configurazioni di sicurezza effettive
- Ogni partecipante ha completato tutti e cinque i compiti
- I primi tre compiti hanno utilizzato l'LLM benigno, gli ultimi due hanno utilizzato l'LLM avversariale
- È stato utilizzato un disegno quadrato latino per generare cinque ordini di compiti, controllando l'effetto della conoscenza dei compiti sulla percezione della fiducia
- Questionario post-compito: Valutazione di successo, chiarezza, utilità e credibilità
- Registrazione dei log della VM: Verifica delle operazioni effettivamente eseguite dai partecipanti
- Cronologia della chat: Analisi del processo di interazione completo tra utente e chatbot
- Dimensione del Campione: 15 partecipanti
- Criteri di Reclutamento: Familiarità con il sistema operativo Microsoft Windows, non professionisti della sicurezza informatica
- Compenso: 45 dollari per persona
- Criteri di Esclusione: Professionisti della sicurezza informatica (per evitare che la conoscenza a livello di esperti influenzi i risultati)
- Configurazione dello Scenario: Ai partecipanti è stato detto di configurare un nuovo laptop per il lavoro da casa
- Esecuzione dei Compiti: Utilizzo del chatbot per completare cinque compiti di configurazione della sicurezza
- Indagine Questionario: Compilazione di questionari relativi alla fiducia dopo ogni compito
- Rivelazione dell'Inganno: Comunicazione dello scopo reale al termine dell'esperimento e fornitura di consigli di sicurezza corretti
- Punteggio di Fiducia: Scala da 1-5 (1-2 non affidabile, 4-5 affidabile, 3 giudicato in combinazione con altri dati)
- Stato di Completamento del Compito: Stato di completamento del compito auto-riferito
- Coerenza Comportamentale: Coerenza tra i consigli del chatbot e le operazioni effettivamente eseguite
- Seguire Cattivi Consigli: 8 partecipanti hanno implementato tutti i cattivi consigli, 4 partecipanti hanno implementato alcuni cattivi consigli
- Esecuzione Complessiva: 16 su 30 compiti con cattivi consigli sono stati completati, inclusi i partecipanti che credevano di aver completato il compito ma in realtà hanno seguito cattivi consigli
| Tipo di Compito | Fiducia Chatbot Benigno | Fiducia Chatbot Avversariale |
|---|
| Password | 9/9 (100%) | 2/5 (40%) |
| Firewall | 6/8 (75%) | 3/6 (50%) |
| Antivirus | 8/8 (100%) | 4/7 (57%) |
| Crittografia | 8/9 (89%) | 1/6 (17%) |
| Blocco Schermo | 3/8 (38%) | 1/6 (17%) |
- Crittografia e Blocco Schermo: I cattivi consigli erano meno affidabili perché in conflitto con l'intuizione e la conoscenza dei partecipanti
- Antivirus: I cattivi consigli erano generalmente affidabili perché le ragioni false erano coerenti con le credenze degli utenti
- Password: Nonostante sia un concetto familiare, i partecipanti hanno mostrato risposte divergenti ai cattivi consigli
Una scoperta importante è che anche se i partecipanti non si fidavano del chatbot, potevano comunque seguire cattivi consigli:
- P11 ha commentato: "Non mi fiderei del chatbot per fornire informazioni accurate sulla sicurezza del computer per le persone comuni", ma ha comunque seguito il cattivo consiglio sul firewall
- P5 ha espresso la necessità di ragioni migliori, ma ha comunque creato una password breve basata sul nome
È stata scoperta una relazione significativa tra l'accuratezza delle istruzioni di navigazione dell'interfaccia utente e il livello di fiducia:
- Le istruzioni di navigazione accurate aumentano la fiducia, anche se i consigli sulla sicurezza sono errati
- Le allucinazioni di navigazione riducono significativamente la fiducia, anche se i consigli sulla sicurezza sono corretti
- Modello di Fiducia di Mayer et al.: Benevolenza, competenza e integrità sono fattori della credibilità percepita
- Modello di Fiducia nell'Automazione di Lee e See: Considera contesti personali, organizzativi, culturali e ambientali
- Metodi di Valutazione Statica: Chen e Sundar esaminano i dati di addestramento dell'IA, Yin et al. valutano le risposte ML
- Metodi Interattivi: Studio del partner in competizione di domande e risposte di Feng e Boyd-Graber
- Innovazione di Questo Studio: Prima misurazione in situ della fiducia in un ambiente di chatbot completamente funzionale
- Gli Utenti Hanno Difficoltà a Identificare Chatbot Compromessi: Particolarmente quando le informazioni sono meno familiari e le allucinazioni del chatbot sono sottili
- La Familiarità con i Compiti è un Fattore Chiave: Gli utenti identificano più facilmente i cattivi consigli su concetti familiari
- Separazione tra Fiducia e Conformità: Anche senza fiducia nel chatbot, gli utenti possono comunque seguire i consigli
- La Qualità delle Istruzioni Influenza la Fiducia: Le istruzioni di navigazione dell'interfaccia utente accurate possono mascherare cattivi consigli sulla sicurezza
Si consiglia di separare visivamente le informazioni di consiglio dalle istruzioni procedurali, utilizzando colori diversi o caselle separate, per aiutare gli utenti a distinguere tra la percezione della fiducia nelle istruzioni e nei consigli.
Si consiglia che i chatbot aziendali includano per impostazione predefinita citazioni di fonti, in particolare documenti di politica di sicurezza interna controllati dall'azienda, fornendo ai dipendenti "ancore di conoscenza" per verificare l'affidabilità delle informazioni.
- Effetto Osservatore: La consapevolezza dei partecipanti di essere osservati potrebbe influenzare il comportamento
- Casualità dell'LLM: Anche il chatbot "benigno" ha prodotto alcuni consigli imprecisi
- Dimensione del Campione: Il campione di 15 partecipanti è relativamente piccolo
- Ampliamento della Ricerca: Dimensioni del campione più grandi e più concetti di sicurezza
- Dinamiche di Fiducia a Lungo Termine: Studio dei cambiamenti di fiducia nell'uso prolungato
- Meccanismi di Difesa: Sviluppo di contromisure di formazione degli utenti e tecniche più efficaci
- Innovazione Metodologica: Primo utilizzo di esperimenti ingannevoli in situ per studiare la fiducia nei chatbot AI, con metodologia pioneristico
- Validità Ecologica: Utilizzo di ambienti Windows reali e chatbot completamente funzionali, aumentando la validità esterna dei risultati
- Rigore Tecnico: Utilizzo del fine-tuning LoRA per garantire robustezza del comportamento avversariale, andando oltre la semplice ingegneria dei prompt
- Considerazioni Etiche: Approvazione rigorosa dell'IRB e procedure di rivelazione dell'inganno, riflettendo pratica di ricerca responsabile
- Limitazioni del Campione: Il campione di 15 persone è relativamente piccolo, potrebbe limitare la generalizzabilità dei risultati
- Ambito dei Compiti: Copre solo cinque concetti di sicurezza, potrebbe non rappresentare tutti gli scenari di sicurezza informatica
- Contesto Culturale: I partecipanti provengono principalmente da ambienti accademici nordamericani, mancanza di diversità culturale
- Limitazioni Temporali: La pressione temporale dell'ambiente di laboratorio potrebbe non riflettere scenari di lavoro reali
- Contributo Accademico: Fornisce prove empiriche importanti per l'intersezione tra HCI e sicurezza informatica
- Valore Pratico: Fornisce considerazioni di sicurezza concrete per la distribuzione aziendale di chatbot AI
- Contributo Metodologico: Stabilisce un nuovo paradigma sperimentale per la ricerca sulla fiducia nell'IA
- Implicazioni Politiche: Fornisce intuizioni sul comportamento degli utenti per la formulazione di politiche di sicurezza dell'IA
- Distribuzione di IA Aziendale: Guida la distribuzione sicura di chatbot AI interni nelle aziende
- Formazione degli Utenti: Progettazione di programmi di formazione più efficaci su alfabetizzazione dell'IA e sicurezza informatica
- Progettazione dei Prodotti: Miglioramento della progettazione dell'interfaccia del chatbot per promuovere il pensiero critico
- Ricerca sulla Sicurezza: Fornisce base per ulteriore ricerca sulla sicurezza dell'IA e fattori umani
Questo studio cita 19 articoli correlati, coprendo importanti lavori in più campi tra cui teoria della fiducia, sicurezza dell'IA e interazione uomo-computer, fornendo una base teorica solida per la ricerca.
Sintesi: Questo studio, attraverso una progettazione sperimentale innovativa, rivela la vulnerabilità degli utenti di fronte a chatbot AI compromessi, fornendo importanti contributi alla ricerca sulla sicurezza dell'IA e sulla fiducia uomo-macchina. Nonostante le limitazioni come la dimensione del campione, la sua metodologia e i risultati hanno un valore significativo per comprendere e migliorare la sicurezza dei sistemi di IA.