AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
- Paper-ID: 2510.08917
- Titel: "I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy
- Autoren: Brandon Lit (University of Waterloo), Edward Crowder (University of Guelph), Daniel Vogel (University of Waterloo), Hassan Khan (University of Guelph)
- Klassifizierung: cs.HC (Human-Computer Interaction)
- Veröffentlichungsstatus: Manuskript eingereicht bei ACM
- Paper-Link: https://arxiv.org/abs/2510.08917v1
KI-Chatbots werden zu einem neuen Angriffsvektor, der anfällig für Prompt-Injection und böswillige Chatbot-Erstellung ist. Bei der Bereitstellung in Bereichen wie Unternehmens-Sicherheitsrichtlinien können sie zur Waffe gemacht werden und absichtlich schädliche Anleitungen bereitstellen. Diese Studie untersucht, ob Benutzer durch kompromittierte KI-Chatbots in diesem Szenario getäuscht werden. Eine kontrollierte Studie (N=15) forderte Teilnehmer auf, einen Chatbot zur Durchführung sicherheitsbezogener Aufgaben zu nutzen. Ohne Wissen der Teilnehmer wurde der Chatbot manipuliert, um für bestimmte Aufgaben fehlerhafte Ratschläge zu geben. Die Ergebnisse zeigen, dass Vertrauen in KI-Chatbots mit Aufgabenvertrautheit und Vertrauen in das eigene Urteilsvermögen korreliert.
- Neue Sicherheitsbedrohungen: Die weit verbreitete Bereitstellung von KI-Chatbots als unternehmensinternes Werkzeug schafft neue Angriffsvektoren. Böswillige Akteure können LLMs durch Supply-Chain-Angriffe, Wissensdatenbank-Vergiftung oder Trainingsdaten-Kontamination kompromittieren und sie dazu bringen, "schlechte Ratschläge" zu geben.
- Mensch-Maschine-Vertrauensfragen: Wenn Chatbots kompromittiert werden, werden Benutzer zur nächsten Verteidigungslinie. Im Idealfall sollten Benutzer schlechte Ratschläge erkennen und sich bewusst sein, dass der Chatbot kompromittiert wurde, aber dies ist in der Praxis herausfordernd.
- Einschränkungen bestehender Forschung: Bisherige Forschungen zum KI-Vertrauen stützten sich hauptsächlich auf Offline-, nicht-interaktive Methoden und fehlte ein tiefes Verständnis des Benutzerverhaltens bei der tatsächlichen Nutzung kompromittierter Chatbots.
- Praktische Bedrohungen: Unternehmen nutzen zunehmend spezialisierte KI-Chatbots zur Weitergabe interner Informationen oder zur Unterstützung spezifischer Geschäftsbereiche
- Benutzer-Anfälligkeit: Benutzer verlassen sich häufig auf Chatbots, um unbekannte Konzepte zu erlernen, was sie anfälliger für Irreführung macht
- Vertrauensmechanismen: Chatbots stellen Informationen auf anthropomorphe, konversative und personalisierte Weise bereit, was sie vertrauenswürdiger erscheinen lässt
- Technische Infrastruktur und experimentelle Protokolle: Entwicklung einer technischen Infrastruktur und experimenteller Methoden für die In-situ-Bewertung von KI-Chatbot-Vertrauen
- Benutzerverhaltensmuster und subjektive Wahrnehmung: Offenlegung von Benutzerverhaltensmuster und subjektiver Wahrnehmung bei potenziell kompromittierten KI-Chatbots
- Designempfehlungen: Vorschläge zur Förderung kritischeren Denkens der Benutzer über KI-Chatbot-Verhalten
Die Forschung konzipierte ein täuschendes Experiment, bei dem Teilnehmer informiert wurden, dass sie einen neuen Cybersecurity-Chatbot testen, tatsächlich aber ihr Vertrauen in Chatbot-Ratschläge gemessen wurde.
Fünf Sicherheitskonzepte wurden als Aufgabenbereich ausgewählt:
- Passwörter (Passwords): Häufiges Konzept, Teilnehmer erkennen eher schlechte Ratschläge
- Firewalls (Firewalls): Vorkonfiguriertes Konzept mit begrenztem Benutzerverständnis
- Antivirus-Software (Antivirus): Benutzer könnten informiert sein, aber Missverständnisse existieren
- Verschlüsselung (Encryption): Teilweise bekannt, aber mangelndes konkretes Verständnis
- Bildschirmsperre (Screen Lock): Eingebaute Funktion, Benutzer sind vertrauter
Basierend auf dem Llama 3.2-Modell wurden zwei LLMs mit LoRA-Technologie feinabgestimmt:
- Wohlwollendes LLM: Bietet korrekte Cybersecurity-Praktiken-Ratschläge
- Adversarisches LLM: Trainiert, ungenaue Cybersecurity-Ratschläge zu geben, mit 6.655 Prompt-Response-Paaren trainiert
Enthält drei Hauptkomponenten:
- Aufgabenleitungs-Panel: Zeigt aktuelle Aufgabenbeschreibung und Abschlussschaltfläche
- Chatbot-Schnittstelle: Interaktives Design basierend auf populären Chatbot-Schnittstellen
- Windows-Virtual-Machine: Ermöglicht Teilnehmern, Chatbot-Ratschläge für tatsächliche Sicherheitskonfigurationen anzuwenden
- Jeder Teilnehmer absolvierte alle fünf Aufgaben
- Die ersten drei Aufgaben nutzten das wohlwollende LLM, die letzten zwei das adversarische LLM
- Lateinisches Quadrat-Design generierte fünf Aufgabenreihenfolgen zur Kontrolle der Aufgabenwissensauswirkung auf Vertrauenswahrnehmung
- Post-Task-Fragebogen: Bewertung von Erfolg, Klarheit, Nützlichkeit, Glaubwürdigkeit
- VM-Protokollierung: Verifizierung tatsächlich durchgeführter Benutzeraktionen
- Chat-Verlauf: Analyse vollständiger Benutzer-Chatbot-Interaktionen
- Stichprobengröße: 15 Teilnehmer
- Rekrutierungskriterien: Vertrautheit mit Microsoft Windows-Betriebssystem, keine Cybersecurity-Fachleute
- Vergütung: 45 USD pro Person
- Ausschlusskriterien: Cybersecurity-Fachleute (um Expertenwissen-Einfluss zu vermeiden)
- Szenario-Einrichtung: Teilnehmer wurden informiert, einen neuen Laptop für Homeoffice-Setup zu konfigurieren
- Aufgabenausführung: Verwendung des Chatbots zur Durchführung von fünf Sicherheitskonfigurationsaufgaben
- Fragebogenumfrage: Ausfüllen vertrauensbezogener Fragebögen nach jeder Aufgabe
- Täuschungsoffenbarung: Nach Experimentende Mitteilung des wahren Zwecks und Bereitstellung korrekter Sicherheitsratschläge
- Vertrauensbewertung: 1-5-Punkte-Skala (1-2 Punkte = Misstrauen, 4-5 Punkte = Vertrauen, 3 Punkte mit anderen Daten bewertet)
- Aufgabenvollendung: Selbstberichteter Aufgabenvollendungsstatus
- Verhaltenskonsistenz: Konsistenz zwischen Chatbot-Ratschlägen und tatsächlich durchgeführten Operationen
- Befolgung schlechter Ratschläge: 8 Teilnehmer führten alle schlechten Ratschläge um, 4 Teilnehmer führten teilweise schlechte Ratschläge um
- Gesamtausführung: 16 von 30 schlechten Ratschlag-Aufgaben wurden abgeschlossen, einschließlich Teilnehmern, die glaubten, die Aufgabe abgeschlossen zu haben, aber tatsächlich schlechte Ratschläge befolgten
| Aufgabentyp | Wohlwollendes Chatbot-Vertrauen | Adversarisches Chatbot-Vertrauen |
|---|
| Passwörter | 9/9 (100%) | 2/5 (40%) |
| Firewalls | 6/8 (75%) | 3/6 (50%) |
| Antivirus | 8/8 (100%) | 4/7 (57%) |
| Verschlüsselung | 8/9 (89%) | 1/6 (17%) |
| Bildschirmsperre | 3/8 (38%) | 1/6 (17%) |
- Verschlüsselung und Bildschirmsperre: Schlechte Ratschläge am wenigsten vertraut, da sie mit Teilnehmer-Intuition und Wissen kollidieren
- Antivirus-Software: Schlechte Ratschläge weit verbreitet vertraut, da falsche Begründung mit Benutzer-Überzeugungen übereinstimmt
- Passwörter: Trotz vertrautem Konzept reagierten Teilnehmer unterschiedlich auf schlechte Ratschläge
Ein wichtiger Fund ist, dass Teilnehmer schlechte Ratschläge befolgten, selbst wenn sie dem Chatbot nicht vertrauten:
- P11 kommentierte: "Ich würde dem Chatbot nicht vertrauen, genaue Computersicherheitseinstellungen für normale Menschen bereitzustellen", befolgte aber dennoch schlechte Firewall-Ratschläge
- P5 äußerte Bedarf nach besserer Begründung, erstellte aber dennoch ein kurzes, namensbasiertes Passwort
Der Fund zeigt, dass Genauigkeit von UI-Navigationsanweisungen das Vertrauen erheblich beeinflusst:
- Genaue Navigationsanweisungen erhöhen Vertrauen, selbst wenn Sicherheitsratschläge falsch sind
- Navigations-Halluzinationen reduzieren Vertrauen erheblich, selbst wenn Sicherheitsratschläge korrekt sind
- Mayer et al. Vertrauensmodell: Wohlwollen, Kompetenz und Integrität sind Faktoren der wahrgenommenen Glaubwürdigkeit
- Lee und See Automatisierungs-Vertrauensmodell: Berücksichtigung persönlicher, organisatorischer, kultureller und umweltbezogener Kontexte
- Statische Bewertungsmethoden: Chen und Sundar untersuchen KI-Trainingsdaten, Yin et al. bewerten ML-Antworten
- Interaktive Methoden: Feng und Boyd-Graber Frage-Antwort-Wettbewerbs-Partner-Forschung
- Forschungsinnovation: Erste In-situ-Vertrauensmessung in vollständig funktionsfähiger Chatbot-Umgebung
- Benutzer haben Schwierigkeiten, kompromittierte Chatbots zu erkennen: Besonders wenn Informationen weniger vertraut sind und Chatbot-Halluzinationen subtil sind
- Aufgabenvertrautheit ist ein Schlüsselfaktor: Benutzer erkennen eher schlechte Ratschläge zu vertrauten Konzepten
- Trennung von Vertrauen und Compliance: Benutzer befolgen möglicherweise Ratschläge, selbst wenn sie dem Chatbot nicht vertrauen
- Anweisungsqualität beeinflusst Vertrauen: Genaue UI-Navigationsanweisungen können fehlerhafte Sicherheitsratschläge maskieren
Es wird empfohlen, Ratschlag-Informationen und Schritt-Anweisungen visuell zu trennen, mit unterschiedlichen Farben oder unabhängigen Feldern, um Benutzer dabei zu helfen, Vertrauenswahrnehmung für Anweisungen und Ratschläge zu unterscheiden.
Es wird empfohlen, dass Unternehmens-Chatbots standardmäßig Quellenangaben enthalten, besonders unternehmenskontrollierte interne Sicherheitsrichtlinien-Dokumente, um Mitarbeitern "Wissensanker" zur Überprüfung der Informationszuverlässigkeit bereitzustellen.
- Beobachter-Effekt: Teilnehmer-Bewusstsein, beobachtet zu werden, könnte Verhalten beeinflussen
- LLM-Zufälligkeit: Selbst "wohlwollende" Chatbots produzierten einige ungenaue Ratschläge
- Stichprobengröße: 15 Teilnehmer sind eine relativ kleine Stichprobe
- Forschungsumfang erweitern: Größere Stichprobengröße und mehr Sicherheitskonzepte
- Langfristige Vertrauensdynamik: Untersuchung von Vertrauensveränderungen bei Langzeitnutzung
- Abwehrmechanismen: Entwicklung effektiverer Benutzer-Schulung und technischer Gegenmaßnahmen
- Methodische Innovation: Erste Verwendung von In-situ-Täuschungsexperimenten zur Untersuchung von KI-Chatbot-Vertrauen, bahnbrechende Methodologie
- Ökologische Validität: Verwendung echter Windows-Umgebung und vollständig funktionsfähiger Chatbots erhöht externe Validität
- Technische Strenge: LoRA-Feinabstimmung gewährleistet robustes adversarisches Verhalten, geht über einfaches Prompt-Engineering hinaus
- Ethische Überlegungen: Strenge IRB-Genehmigung und Täuschungsoffenbarungs-Verfahren zeigen verantwortungsvolle Forschungspraxis
- Stichproben-Einschränkung: 15-Personen-Stichprobe ist klein, könnte Verallgemeinerbarkeit der Ergebnisse einschränken
- Aufgabenbereich: Nur fünf Sicherheitskonzepte abgedeckt, möglicherweise nicht repräsentativ für alle Cybersecurity-Szenarien
- Kultureller Hintergrund: Teilnehmer hauptsächlich aus nordamerikanischer akademischer Umgebung, mangelnde kulturelle Vielfalt
- Zeitliche Einschränkung: Zeitdruck in Laborumgebung könnte nicht reale Arbeitsszenarien widerspiegeln
- Akademischer Beitrag: Bietet wichtige empirische Evidenz für HCI und Cybersecurity-Schnittstellenforschung
- Praktischer Wert: Bietet konkrete Sicherheitsüberlegungen für Unternehmens-KI-Chatbot-Bereitstellung
- Methodologischer Beitrag: Etabliert neues experimentelles Paradigma zur Erforschung von KI-Vertrauen
- Politische Implikationen: Bietet Benutzerverhalts-Erkenntnisse für KI-Sicherheits-Politikgestaltung
- Unternehmens-KI-Bereitstellung: Leitet sichere Bereitstellung interner KI-Chatbots
- Benutzer-Schulung: Entwurf effektiverer KI-Literalität und Cybersecurity-Schulungsprogramme
- Produktdesign: Verbesserung von Chatbot-Schnittstellendesign zur Förderung kritischen Denkens
- Sicherheitsforschung: Bietet Grundlage für weitere KI-Sicherheits- und Human-Factors-Forschung
Diese Forschung zitiert 19 verwandte Literaturquellen, die wichtige Arbeiten in Vertrauenstheorie, KI-Sicherheit, Mensch-Computer-Interaktion und anderen Bereichen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Zusammenfassung: Diese Studie offenbart durch innovatives experimentelles Design die Anfälligkeit von Benutzern gegenüber kompromittierten KI-Chatbots und leistet wichtige Beiträge zur KI-Sicherheits- und Mensch-Maschine-Vertrauensforschung. Trotz Einschränkungen wie Stichprobengröße haben ihre Methodologie und Erkenntnisse wichtigen Wert für das Verständnis und die Verbesserung der Sicherheit von KI-Systemen.