2025-11-23T23:19:17.618882

"I know it's not right, but that's what it said to do": Investigating Trust in AI Chatbots for Cybersecurity Policy

Lit, Crowder, Vogel et al.
AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
academic

"मुझे पता है कि यह सही नहीं है, लेकिन यही करने के लिए कहा गया था": साइबर सुरक्षा नीति में AI चैटबॉट में विश्वास की जांच

मूल जानकारी

  • पेपर ID: 2510.08917
  • शीर्षक: "मुझे पता है कि यह सही नहीं है, लेकिन यही करने के लिए कहा गया था": साइबर सुरक्षा नीति में AI चैटबॉट में विश्वास की जांच
  • लेखक: ब्रैंडन लिट (वाटरलू विश्वविद्यालय), एडवर्ड क्राउडर (गुएल्फ विश्वविद्यालय), डैनियल वोगेल (वाटरलू विश्वविद्यालय), हसन खान (गुएल्फ विश्वविद्यालय)
  • वर्गीकरण: cs.HC (मानव-कंप्यूटर इंटरैक्शन)
  • प्रकाशन स्थिति: ACM को प्रस्तुत पांडुलिपि
  • पेपर लिंक: https://arxiv.org/abs/2510.08917v1

सारांश

AI चैटबॉट एक नए उभरते हुए सुरक्षा हमले के वेक्टर बन रहे हैं, जो प्रॉम्प्ट इंजेक्शन और दुर्भावनापूर्ण चैटबॉट निर्माण जैसे खतरों के लिए असुरक्षित हैं। जब कॉर्पोरेट सुरक्षा नीति जैसे क्षेत्रों में तैनात किए जाते हैं, तो उन्हें सिस्टम की रक्षा को जानबूझकर नष्ट करने वाले निर्देश प्रदान करके हथियार बनाया जा सकता है। यह अनुसंधान जांचता है कि क्या उपयोगकर्ता इस परिदृश्य में समझौता किए गए AI चैटबॉट द्वारा धोखा दिए जा सकते हैं। एक नियंत्रित अध्ययन (N=15) में प्रतिभागियों को चैटबॉट का उपयोग करके सुरक्षा-संबंधित कार्य पूरा करने के लिए कहा गया। प्रतिभागियों की जानकारी के बिना, चैटबॉट को कुछ कार्यों के लिए गलत सलाह देने के लिए हेरफेर किया गया। परिणाम दिखाते हैं कि AI चैटबॉट में विश्वास कार्य परिचितता और अपने स्वयं के निर्णय में आत्मविश्वास से संबंधित है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. उभरता हुआ सुरक्षा खतरा: कॉर्पोरेट आंतरिक उपकरणों के रूप में AI चैटबॉट का व्यापक तैनाती नए हमले के वेक्टर बनाती है। दुर्भावनापूर्ण अभिनेता आपूर्ति श्रृंखला हमलों, ज्ञान आधार जहर या प्रशिक्षण डेटा प्रदूषण के माध्यम से LLM को नुकसान पहुंचा सकते हैं, जिससे वे "बुरी सलाह" प्रदान करते हैं।
  2. मानव-मशीन विश्वास समस्या: जब चैटबॉट समझौता किए जाते हैं, तो उपयोगकर्ता अगली रक्षा पंक्ति बन जाते हैं। आदर्श रूप से, उपयोगकर्ताओं को बुरी सलाह की पहचान करनी चाहिए और यह महसूस करना चाहिए कि चैटबॉट समझौता किया गया है, लेकिन यह व्यावहारिक रूप से चुनौतीपूर्ण है।
  3. मौजूदा अनुसंधान की सीमाएं: कृत्रिम बुद्धिमत्ता विश्वास पर पिछले अनुसंधान मुख्य रूप से ऑफ़लाइन, गैर-इंटरैक्टिव तरीकों पर निर्भर करते हैं, समझौता किए गए चैटबॉट का उपयोग करते समय उपयोगकर्ता के व्यवहार की गहन समझ की कमी है।

अनुसंधान का महत्व

  • वास्तविक खतरा: कंपनियां तेजी से विशेष AI चैटबॉट का उपयोग करके आंतरिक जानकारी साझा करने या विशिष्ट व्यावसायिक क्षेत्रों में सहायता करने के लिए कर रही हैं
  • उपयोगकर्ता की कमजोरी: उपयोगकर्ता अक्सर अपरिचित अवधारणाओं को सीखने के लिए चैटबॉट पर निर्भर करते हैं, जिससे वे गुमराह होने के लिए अधिक असुरक्षित हो जाते हैं
  • विश्वास तंत्र: चैटबॉट एक मानवीकृत, संवादात्मक और व्यक्तिगत तरीके से जानकारी प्रदान करते हैं, जो उन्हें अधिक विश्वसनीय दिख सकता है

मुख्य योगदान

  1. तकनीकी बुनियादी ढांचा और प्रायोगिक प्रोटोकॉल: AI चैटबॉट विश्वास के इन-सीटू मूल्यांकन के लिए तकनीकी बुनियादी ढांचा और प्रायोगिक विधियों का एक सेट विकसित किया
  2. उपयोगकर्ता व्यवहार पैटर्न और व्यक्तिपरक धारणा: संभावित रूप से समझौता किए गए AI चैटबॉट का सामना करते समय उपयोगकर्ता के व्यवहार पैटर्न और व्यक्तिपरक धारणा का खुलासा किया
  3. डिजाइन सिफारिशें: उपयोगकर्ताओं को AI चैटबॉट के व्यवहार के बारे में अधिक आलोचनात्मक रूप से सोचने के लिए प्रोत्साहित करने वाली डिजाइन सिफारिशें प्रस्तावित की

विधि विवरण

कार्य परिभाषा

अनुसंधान ने एक धोखाधड़ी प्रयोग डिजाइन किया, जहां प्रतिभागियों को बताया गया कि वे एक नए साइबर सुरक्षा चैटबॉट का परीक्षण कर रहे हैं, लेकिन वास्तव में चैटबॉट सिफारिशों के प्रति उनके विश्वास को मापा जा रहा था।

प्रायोगिक बुनियादी ढांचा

1. सुरक्षा अवधारणा चयन

कार्य के दायरे के रूप में पांच सुरक्षा अवधारणाओं का चयन किया गया:

  • पासवर्ड (Passwords): सामान्य अवधारणा, प्रतिभागी बुरी सलाह की पहचान करने की अधिक संभावना रखते हैं
  • फायरवॉल (Firewalls): पूर्व-स्थापित अवधारणा लेकिन उपयोगकर्ता समझ सीमित है
  • एंटीवायरस (Antivirus): उपयोगकर्ता परिचित हो सकते हैं लेकिन गलतफहमी मौजूद है
  • एन्क्रिप्शन (Encryption): कुछ उपयोगकर्ता जानते हैं लेकिन ठोस समझ की कमी है
  • स्क्रीन लॉक (Screen Lock): अंतर्निहित कार्यक्षमता, उपयोगकर्ता अधिक परिचित हैं

2. LLM को सूक्ष्म-ट्यून करना

Llama 3.2 मॉडल के आधार पर, LoRA तकनीक का उपयोग करके दो LLM को सूक्ष्म-ट्यून किया गया:

  • सद्भावनापूर्ण LLM: सही साइबर सुरक्षा प्रथाओं की सलाह प्रदान करता है
  • विरोधी LLM: अनुचित साइबर सुरक्षा सलाह प्रदान करने के लिए प्रशिक्षित, 6,655 प्रॉम्प्ट-प्रतिक्रिया जोड़े का उपयोग करके प्रशिक्षित

3. वेब एप्लिकेशन इंटरफेस

तीन मुख्य घटक शामिल हैं:

  • कार्य निर्देश पैनल: वर्तमान कार्य विवरण और पूर्ण बटन प्रदर्शित करता है
  • चैटबॉट इंटरफेस: लोकप्रिय चैटबॉट इंटरफेस के आधार पर इंटरैक्टिव डिजाइन
  • Windows वर्चुअल मशीन: प्रतिभागियों को चैटबॉट सिफारिशों को लागू करने के लिए वास्तविक सुरक्षा कॉन्फ़िगरेशन करने की अनुमति देता है

प्रायोगिक डिजाइन

विषय के भीतर डिजाइन

  • प्रत्येक प्रतिभागी सभी पांच कार्य पूरा करता है
  • पहले तीन कार्य सद्भावनापूर्ण LLM का उपयोग करते हैं, अंतिम दो कार्य विरोधी LLM का उपयोग करते हैं
  • कार्य ज्ञान के विश्वास धारणा पर प्रभाव को नियंत्रित करने के लिए पांच कार्य आदेश उत्पन्न करने के लिए लैटिन वर्ग डिजाइन का उपयोग किया गया

डेटा संग्रह

  • कार्य-पश्चात प्रश्नावली: सफलता, स्पष्टता, उपयोगिता, विश्वसनीयता मूल्यांकन
  • VM लॉगिंग: प्रतिभागियों द्वारा वास्तव में निष्पादित संचालन को सत्यापित करता है
  • चैट लॉग: चैटबॉट के साथ उपयोगकर्ता के पूर्ण इंटरैक्शन का विश्लेषण

प्रायोगिक सेटअप

प्रतिभागी

  • नमूना आकार: 15 प्रतिभागी
  • भर्ती मानदंड: Microsoft Windows ऑपरेटिंग सिस्टम से परिचित, गैर-साइबर सुरक्षा पेशेवर
  • मुआवजा: प्रति व्यक्ति $45
  • बहिष्करण मानदंड: साइबर सुरक्षा पेशेवर (विशेषज्ञ-स्तरीय ज्ञान के प्रभाव से बचने के लिए)

प्रायोगिक प्रक्रिया

  1. परिदृश्य सेटअप: प्रतिभागियों को बताया गया कि वे घर से काम करने के लिए नया लैपटॉप सेट अप कर रहे हैं
  2. कार्य निष्पादन: पांच सुरक्षा कॉन्फ़िगरेशन कार्य पूरा करने के लिए चैटबॉट का उपयोग करें
  3. प्रश्नावली सर्वेक्षण: प्रत्येक कार्य के बाद विश्वास-संबंधित प्रश्नावली भरें
  4. धोखाधड़ी का खुलासा: प्रयोग के अंत में वास्तविक उद्देश्य बताएं और सही सुरक्षा सलाह प्रदान करें

मूल्यांकन मेट्रिक्स

  • विश्वास स्कोर: 1-5 स्केल (1-2 अविश्वास, 4-5 विश्वास, 3 अन्य डेटा के साथ संयुक्त निर्णय)
  • कार्य पूर्णता: स्व-रिपोर्ट किए गए कार्य पूर्णता स्थिति
  • व्यवहार संगति: चैटबॉट सिफारिशों और वास्तविक निष्पादित संचालन के बीच संगति

प्रायोगिक परिणाम

मुख्य निष्कर्ष

1. समग्र विश्वास पैटर्न

  • बुरी सलाह का पालन: 8 प्रतिभागियों ने सभी बुरी सलाह लागू की, 4 प्रतिभागियों ने आंशिक बुरी सलाह लागू की
  • कुल निष्पादन: 30 बुरी सलाह कार्यों में से 16 पूरे किए गए, जिनमें वे भी शामिल हैं जो मानते थे कि उन्होंने कार्य पूरा किया है लेकिन वास्तव में बुरी सलाह का पालन किया है

2. कार्य-विशिष्ट परिणाम

कार्य प्रकारसद्भावनापूर्ण चैटबॉट विश्वासविरोधी चैटबॉट विश्वास
पासवर्ड9/9 (100%)2/5 (40%)
फायरवॉल6/8 (75%)3/6 (50%)
एंटीवायरस8/8 (100%)4/7 (57%)
एन्क्रिप्शन8/9 (89%)1/6 (17%)
स्क्रीन लॉक3/8 (38%)1/6 (17%)

3. कार्य परिचितता का प्रभाव

  • एन्क्रिप्शन और स्क्रीन लॉक: बुरी सलाह सबसे कम विश्वसनीय है, क्योंकि यह प्रतिभागी के अंतर्ज्ञान और ज्ञान के साथ संघर्ष करती है
  • एंटीवायरस: बुरी सलाह व्यापक रूप से विश्वसनीय है, क्योंकि झूठे कारण उपयोगकर्ता के विश्वास के साथ संरेखित हैं
  • पासवर्ड: परिचित अवधारणा होने के बावजूद, प्रतिभागियों ने बुरी सलाह के प्रति विभाजित प्रतिक्रिया दिखाई

विश्वास और अनुपालन का अलगाव घटना

एक महत्वपूर्ण खोज यह है कि भले ही प्रतिभागियों को चैटबॉट पर विश्वास न हो, वे फिर भी बुरी सलाह का पालन कर सकते हैं:

  • P11 ने टिप्पणी की: "मुझे विश्वास नहीं है कि चैटबॉट सामान्य लोगों को सटीक कंप्यूटर सुरक्षा सेटिंग जानकारी प्रदान कर सकता है", लेकिन फिर भी फायरवॉल की बुरी सलाह का पालन किया
  • P5 ने बेहतर कारण की आवश्यकता व्यक्त की, लेकिन फिर भी नाम के आधार पर एक छोटा पासवर्ड बनाया

निर्देश गुणवत्ता और विश्वास का संबंध

UI नेविगेशन निर्देशों की सटीकता विश्वास को महत्वपूर्ण रूप से प्रभावित करती है:

  • सटीक नेविगेशन निर्देश विश्वास बढ़ाते हैं, भले ही सुरक्षा सलाह गलत हो
  • नेविगेशन भ्रम विश्वास को महत्वपूर्ण रूप से कम करता है, भले ही सुरक्षा सलाह सही हो

संबंधित कार्य

विश्वास सिद्धांत आधार

  • Mayer आदि का विश्वास मॉडल: सद्भावना, क्षमता और ईमानदारी कथित विश्वसनीयता के कारक हैं
  • Lee और See का स्वचालन विश्वास मॉडल: व्यक्तिगत, संगठनात्मक, सांस्कृतिक और पर्यावरणीय संदर्भ पर विचार करता है

कृत्रिम बुद्धिमत्ता विश्वास अनुसंधान

  • स्थिर मूल्यांकन विधियां: Chen और Sundar AI प्रशिक्षण डेटा की जांच करते हैं, Yin आदि ML प्रतिक्रिया का मूल्यांकन करते हैं
  • इंटरैक्टिव विधियां: Feng और Boyd-Graber की प्रश्नोत्तरी प्रतियोगिता साथी अनुसंधान
  • इस अनुसंधान का नवाचार: पूरी तरह कार्यात्मक चैटबॉट वातावरण में पहली बार इन-सीटू विश्वास माप

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. उपयोगकर्ता समझौता किए गए चैटबॉट की पहचान करने में कठिनाई: विशेष रूप से जब जानकारी कम परिचित हो और चैटबॉट भ्रम सूक्ष्म हो
  2. कार्य परिचितता एक मुख्य कारक है: उपयोगकर्ता परिचित अवधारणाओं की बुरी सलाह को अधिक आसानी से पहचानते हैं
  3. विश्वास और अनुपालन अलगाव: भले ही चैटबॉट पर विश्वास न हो, उपयोगकर्ता फिर भी सिफारिशों का पालन कर सकते हैं
  4. निर्देश गुणवत्ता विश्वास को प्रभावित करती है: सटीक UI नेविगेशन निर्देश गलत सुरक्षा सलाह को छिपा सकते हैं

डिजाइन सिफारिशें

1. तथ्य और निर्देश अलगाव

सिफारिश दी जाती है कि सुझाव जानकारी को चरण निर्देशों से दृश्य रूप से अलग किया जाए, विभिन्न रंगों या स्वतंत्र बॉक्स का उपयोग करके प्रदर्शित किया जाए, उपयोगकर्ताओं को निर्देशों और सिफारिशों के प्रति विश्वास धारणा को अलग करने में मदद करने के लिए।

2. विश्वसनीय स्रोत संदर्भ

सिफारिश दी जाती है कि कॉर्पोरेट चैटबॉट डिफ़ॉल्ट रूप से स्रोत संदर्भ शामिल करें, विशेष रूप से कंपनी नियंत्रण के तहत आंतरिक सुरक्षा नीति दस्तावेज, कर्मचारियों को जानकारी की विश्वसनीयता को सत्यापित करने के लिए "ज्ञान एंकर" प्रदान करने के लिए।

सीमाएं

  1. पर्यवेक्षक प्रभाव: प्रतिभागियों को पता है कि देखे जाने से व्यवहार प्रभावित हो सकता है
  2. LLM यादृच्छिकता: भले ही "सद्भावनापूर्ण" चैटबॉट ने कुछ अनुचित सलाह दी
  3. नमूना आकार: 15 प्रतिभागियों का नमूना अपेक्षाकृत छोटा है

भविष्य की दिशा

  1. अनुसंधान का विस्तार: बड़े नमूना आकार और अधिक सुरक्षा अवधारणाएं
  2. दीर्घकालीन विश्वास गतिशीलता: दीर्घकालीन उपयोग में विश्वास परिवर्तन का अनुसंधान
  3. रक्षा तंत्र: अधिक प्रभावी उपयोगकर्ता प्रशिक्षण और तकनीकी प्रतिरक्षा विकसित करें

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार: AI चैटबॉट विश्वास का अध्ययन करने के लिए पहली बार इन-सीटू धोखाधड़ी प्रयोग का उपयोग, पद्धति विज्ञान अग्रणी है
  2. पारिस्थितिक वैधता: वास्तविक Windows वातावरण और पूरी तरह कार्यात्मक चैटबॉट का उपयोग, परिणामों की बाहरी वैधता को बढ़ाता है
  3. तकनीकी कठोरता: LoRA सूक्ष्म-ट्यूनिंग का उपयोग विरोधी व्यवहार की मजबूती सुनिश्चित करता है, सरल प्रॉम्प्ट इंजीनियरिंग से परे
  4. नैतिक विचार: सख्त IRB अनुमोदन और धोखाधड़ी प्रकटीकरण प्रक्रिया, जिम्मेदार अनुसंधान प्रथाओं को दर्शाता है

कमियां

  1. नमूना सीमा: 15 लोगों का नमूना आकार छोटा है, परिणामों की सामान्यीकरण को सीमित कर सकता है
  2. कार्य दायरा: केवल पांच सुरक्षा अवधारणाओं को कवर करता है, सभी साइबर सुरक्षा परिदृश्यों का प्रतिनिधित्व नहीं कर सकता
  3. सांस्कृतिक पृष्ठभूमि: प्रतिभागी मुख्य रूप से उत्तरी अमेरिकी शैक्षणिक वातावरण से हैं, सांस्कृतिक विविधता की कमी
  4. समय सीमा: प्रयोगशाला वातावरण में समय दबाव वास्तविक कार्य परिदृश्य को प्रतिबिंबित नहीं कर सकता

प्रभाव

  1. शैक्षणिक योगदान: HCI और साइबर सुरक्षा के प्रतिच्छेदन क्षेत्र के लिए महत्वपूर्ण अनुभवजन्य साक्ष्य प्रदान करता है
  2. व्यावहारिक मूल्य: कॉर्पोरेट AI चैटबॉट तैनाती के लिए ठोस सुरक्षा विचार प्रदान करता है
  3. पद्धति विज्ञान योगदान: AI विश्वास अनुसंधान के लिए नया प्रायोगिक प्रतिमान स्थापित करता है
  4. नीति निहितार्थ: AI सुरक्षा नीति निर्माण के लिए उपयोगकर्ता व्यवहार अंतर्दृष्टि प्रदान करता है

लागू परिदृश्य

  1. कॉर्पोरेट AI तैनाती: कॉर्पोरेट आंतरिक AI चैटबॉट को सुरक्षित रूप से तैनात करने के लिए निर्देश
  2. उपयोगकर्ता प्रशिक्षण: अधिक प्रभावी AI साक्षरता और साइबर सुरक्षा प्रशिक्षण कार्यक्रम डिजाइन करें
  3. उत्पाद डिजाइन: आलोचनात्मक सोच को बढ़ावा देने के लिए चैटबॉट इंटरफेस डिजाइन में सुधार करें
  4. सुरक्षा अनुसंधान: आगे की AI सुरक्षा और मानव कारक अनुसंधान के लिए आधार प्रदान करता है

संदर्भ

यह अनुसंधान 19 संबंधित साहित्य का हवाला देता है, जो विश्वास सिद्धांत, कृत्रिम बुद्धिमत्ता सुरक्षा, मानव-कंप्यूटर इंटरैक्शन और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।


सारांश: यह अनुसंधान एक नवीन प्रायोगिक डिजाइन के माध्यम से समझौता किए गए AI चैटबॉट का सामना करते समय उपयोगकर्ता की कमजोरी को प्रकट करता है, AI सुरक्षा और मानव-मशीन विश्वास अनुसंधान में महत्वपूर्ण योगदान देता है। नमूना आकार जैसी सीमाओं के बावजूद, इसकी पद्धति विज्ञान और निष्कर्ष AI प्रणालियों की सुरक्षा को समझने और सुधारने के लिए महत्वपूर्ण मूल्य रखते हैं।