AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
- معرّف الورقة البحثية: 2510.08917
- العنوان: "أنا أعلم أنه ليس صحيحاً، لكن هذا ما قالت به": التحقيق في الثقة في روبوتات الدردشة الذكية لسياسات الأمن السيبراني
- المؤلفون: براندون ليت (جامعة ووترلو)، إدوارد كراودر (جامعة جويلف)، دانيال فوجل (جامعة ووترلو)، حسن خان (جامعة جويلف)
- التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
- حالة النشر: مخطوطة مقدمة إلى ACM
- رابط الورقة البحثية: https://arxiv.org/abs/2510.08917v1
تشكل روبوتات الدردشة الذكية ناقل هجوم أمني ناشئاً جديداً، وتكون عرضة للتهديدات مثل حقن الأوامر والروبوتات الخبيثة. عند نشرها في مجالات مثل سياسات الأمن الشركاتي، قد يتم تسليحها لتقديم إرشادات تقوض عن قصد دفاعات النظام. يحقق هذا البحث ما إذا كان المستخدمون سيتم خداعهم بواسطة روبوتات دردشة ذكية معطوبة في هذا السيناريو. أظهرت دراسة محكومة (N=15) طلبت من المشاركين استخدام روبوت الدردشة لإكمال مهام متعلقة بالأمن أن الثقة في روبوتات الدردشة الذكية ترتبط بألفة المهام والثقة في الحكم الذاتي.
- التهديدات الأمنية الناشئة: النشر الواسع لروبوتات الدردشة الذكية كأدوات داخلية في الشركات ينشئ متجهات هجوم جديدة. قد يقوم الجهات الفاعلة الخبيثة بإلحاق الضرر بنماذج اللغة الكبيرة من خلال هجمات سلسلة التوريد أو تسميم قاعدة المعرفة أو تلويث بيانات التدريب، مما يجعلها تقدم "نصائح سيئة".
- قضايا الثقة بين الإنسان والآلة: عندما يتم اختراق روبوت الدردشة، يصبح المستخدمون خط الدفاع التالي. من الناحية المثالية، يجب أن يتمكن المستخدمون من تحديد النصائح السيئة وإدراك أن روبوت الدردشة قد تم اختراقه، لكن هذا يشكل تحدياً في الممارسة العملية.
- قيود البحث الحالي: ركزت الأبحاث السابقة حول ثقة الذكاء الاصطناعي بشكل أساسي على الطرق غير التفاعلية والمتصلة بلا اتصال، وتفتقر إلى فهم عميق لسلوك المستخدمين عند استخدام روبوتات دردشة معطوبة فعلياً.
- التهديدات العملية: تستخدم الشركات بشكل متزايد روبوتات دردشة ذكية متخصصة لمشاركة المعلومات الداخلية أو المساعدة في مجالات عمل محددة
- ضعف المستخدمين: يعتمد المستخدمون بشكل متكرر على روبوتات الدردشة لتعلم المفاهيم غير المألوفة، مما يجعلهم أكثر عرضة للتضليل
- آليات الثقة: توفر روبوتات الدردشة المعلومات بطريقة إنسانية وحوارية وشخصية، مما قد يجعلها تبدو أكثر جدارة بالثقة
- البنية التحتية التقنية والبروتوكول التجريبي: تطوير مجموعة من البنية التحتية التقنية وطرق تجريبية لتقييم الثقة في روبوتات الدردشة الذكية في الموقع
- أنماط السلوك البشري والتصورات الذاتية: الكشف عن أنماط السلوك والتصورات الذاتية للمستخدمين عند مواجهة روبوتات دردشة ذكية قد تكون معطوبة
- التوصيات التصميمية: تقديم توصيات تصميمية لتشجيع المستخدمين على التفكير بشكل أكثر نقداً في سلوك روبوتات الدردشة الذكية
صممت الدراسة تجربة خادعة حيث تم إخبار المشاركين بأنهم يختبرون روبوت دردشة أمان سيبراني جديد، لكن في الواقع كان يتم قياس مستوى ثقتهم في نصائح روبوت الدردشة.
تم اختيار خمسة مفاهيم أمنية كنطاق للمهام:
- كلمات المرور (Passwords): مفهوم شائع، من المرجح أن يتمكن المشاركون من تحديد النصائح السيئة
- جدران الحماية (Firewalls): مفهوم مثبت مسبقاً لكن فهم المستخدمين محدود
- برامج مكافحة الفيروسات (Antivirus): قد يكون المستخدمون على دراية بها لكن توجد مفاهيم خاطئة
- التشفير (Encryption): بعض المستخدمين على دراية به لكن ينقصهم الفهم المحدد
- قفل الشاشة (Screen Lock): ميزة مدمجة، المستخدمون أكثر ألفة بها
بناءً على نموذج Llama 3.2، تم ضبط نموذجي لغة كبيرة باستخدام تقنية LoRA:
- نموذج اللغة الحميد: يقدم نصائح صحيحة لممارسات الأمن السيبراني
- نموذج اللغة الخصومي: مدرب على تقديم نصائح غير دقيقة للأمن السيبراني، تم تدريبه على 6,655 زوج من الأوامر والاستجابات
تحتوي على ثلاثة مكونات رئيسية:
- لوحة توجيهات المهام: تعرض وصف المهمة الحالية وزر الإكمال
- واجهة روبوت الدردشة: تصميم تفاعلي بناءً على واجهات روبوتات الدردشة الشهيرة
- آلة افتراضية بنظام Windows: تسمح للمشاركين بتطبيق نصائح روبوت الدردشة لإجراء تكوينات أمان فعلية
- أكمل كل مشارك جميع المهام الخمس
- استخدمت المهام الثلاث الأولى نموذج اللغة الحميد، والمهمتان الأخيرتان استخدمتا نموذج اللغة الخصومي
- استخدم تصميم المربع اللاتيني لإنشاء خمس ترتيبات للمهام، للتحكم في تأثير معرفة المهام على إدراك الثقة
- استبيان ما بعد المهمة: تقييم النجاح والوضوح والفائدة والمصداقية
- سجلات الآلة الافتراضية: التحقق من العمليات التي أجراها المشاركون فعلياً
- سجلات الدردشة: تحليل عملية التفاعل الكاملة بين المستخدم وروبوت الدردشة
- حجم العينة: 15 مشاركاً
- معايير التجنيد: الإلمام بنظام تشغيل Microsoft Windows، وليسوا متخصصين في الأمن السيبراني
- التعويض: 45 دولاراً لكل شخص
- معايير الاستبعاد: متخصصو الأمن السيبراني (لتجنب تأثير المعرفة على مستوى الخبير)
- إعداد السيناريو: تم إخبار المشاركين بأنهم يقومون بإعداد كمبيوتر محمول جديد للعمل من المنزل
- تنفيذ المهام: استخدام روبوت الدردشة لإكمال خمس مهام تكوين أمان
- الاستبيان: ملء استبيان متعلق بمستوى الثقة بعد كل مهمة
- الكشف عن الخداع: إخبار المشاركين بالغرض الحقيقي في نهاية التجربة وتقديم نصائح أمان صحيحة
- درجات الثقة: مقياس من 1-5 (1-2 عدم ثقة، 4-5 ثقة، 3 يتم الحكم عليها بناءً على بيانات أخرى)
- حالة إكمال المهام: حالة إكمال المهام المبلغ عنها ذاتياً
- اتساق السلوك: اتساق نصائح روبوت الدردشة مع العمليات المنفذة فعلياً
- اتباع النصائح السيئة: قام 8 مشاركين بتنفيذ جميع النصائح السيئة، و4 مشاركين قاموا بتنفيذ بعضها
- التنفيذ الكلي: تم إكمال 16 من 30 مهمة نصيحة سيئة، بما في ذلك أولئك الذين اعتقدوا أنهم أكملوا المهام لكنهم اتبعوا فعلياً النصائح السيئة
| نوع المهمة | ثقة روبوت الدردشة الحميد | ثقة روبوت الدردشة الخصومي |
|---|
| كلمات المرور | 9/9 (100%) | 2/5 (40%) |
| جدران الحماية | 6/8 (75%) | 3/6 (50%) |
| برامج مكافحة الفيروسات | 8/8 (100%) | 4/7 (57%) |
| التشفير | 8/9 (89%) | 1/6 (17%) |
| قفل الشاشة | 3/8 (38%) | 1/6 (17%) |
- التشفير وقفل الشاشة: النصائح السيئة كانت الأقل موثوقية، لأنها تتعارض مع حدس المشاركين ومعرفتهم
- برامج مكافحة الفيروسات: النصائح السيئة كانت موثوقة على نطاق واسع، لأن الأسباب الكاذبة تتوافق مع معتقدات المستخدمين
- كلمات المرور: على الرغم من أنها مفهوم مألوف، كان رد فعل المشاركين على النصائح السيئة متفاوتاً
اكتشاف مهم هو أنه حتى عندما لا يثق المشاركون بروبوت الدردشة، قد يتابعون النصائح السيئة:
- علق P11: "أنا لا أثق بروبوت الدردشة لتقديم معلومات دقيقة عن إعدادات أمان الكمبيوتر للأشخاص العاديين"، لكنه مع ذلك اتبع النصيحة السيئة بشأن جدار الحماية
- أعرب P5 عن الحاجة إلى أسباب أفضل، لكنه مع ذلك أنشأ كلمة مرور قصيرة بناءً على الاسم
اكتشف أن دقة تعليمات التنقل في واجهة المستخدم تؤثر بشكل كبير على مستوى الثقة:
- تعليمات التنقل الدقيقة تزيد الثقة، حتى لو كانت نصائح الأمن خاطئة
- الهلوسة في التنقل تقلل الثقة بشكل كبير، حتى لو كانت نصائح الأمن صحيحة
- نموذج الثقة لـ Mayer وآخرين: النية الحسنة والقدرة والنزاهة هي عوامل الجدارة بالثقة المدركة
- نموذج الثقة في الأتمتة لـ Lee و See: يأخذ في الاعتبار السياق الشخصي والتنظيمي والثقافي والبيئي
- طرق التقييم الثابتة: فحص Chen و Sundar لبيانات تدريب الذكاء الاصطناعي، تقييم Yin وآخرين لاستجابات ML
- الطرق التفاعلية: بحث Feng و Boyd-Graber حول شركاء مسابقات الأسئلة والأجوبة
- الابتكار في هذا البحث: أول قياس ثقة في الموقع في بيئة روبوت دردشة ذات وظائف كاملة
- يجد المستخدمون صعوبة في تحديد روبوتات الدردشة المعطوبة: خاصة عندما تكون المعلومات أقل ألفة وهلوسة روبوت الدردشة دقيقة
- ألفة المهام عامل رئيسي: يجد المستخدمون أنه من الأسهل تحديد النصائح السيئة حول المفاهيم المألوفة
- الفصل بين الثقة والامتثال: حتى عندما لا يثق المستخدمون بروبوت الدردشة، قد يتابعون النصائح
- جودة التعليمات تؤثر على الثقة: قد تخفي تعليمات واجهة المستخدم الدقيقة النصائح الأمنية الخاطئة
يوصى بفصل معلومات النصائح عن تعليمات الخطوات بصرياً، باستخدام ألوان مختلفة أو صناديق منفصلة، لمساعدة المستخدمين على التمييز بين إدراك الثقة في التعليمات والنصائح.
يوصى بأن تتضمن روبوتات الدردشة الشركاتية بشكل افتراضي استشهادات بالمصادر، خاصة وثائق سياسة الأمن الداخلية تحت سيطرة الشركة، لتوفير "نقاط ربط معرفية" للموظفين للتحقق من موثوقية المعلومات.
- تأثير المراقب: قد يؤثر علم المشاركين بأنهم قيد المراقبة على السلوك
- عشوائية نموذج اللغة الكبيرة: حتى روبوت الدردشة "الحميد" أنتج بعض النصائح غير الدقيقة
- حجم العينة: عينة من 15 مشاركاً نسبياً صغيرة
- توسيع نطاق البحث: حجم عينة أكبر ومزيد من المفاهيم الأمنية
- ديناميكيات الثقة طويلة الأجل: دراسة التغييرات في الثقة مع الاستخدام طويل الأجل
- آليات الدفاع: تطوير تدريب مستخدمين وتدابير تقنية أكثر فعالية
- ابتكار المنهجية: أول استخدام لتجربة خداع في الموقع لدراسة ثقة روبوتات الدردشة الذكية، منهجية رائدة
- الصلاحية البيئية: استخدام بيئة Windows حقيقية وروبوت دردشة ذو وظائف كاملة، مما يعزز الصلاحية الخارجية للنتائج
- الدقة التقنية: استخدام ضبط LoRA يضمن قوة السلوك الخصومي، يتجاوز هندسة الأوامر البسيطة
- الاعتبارات الأخلاقية: موافقة IRB صارمة وإجراء الكشف عن الخداع، يعكس الممارسة البحثية المسؤولة
- قيود العينة: حجم عينة من 15 شخصاً نسبياً صغير، قد يحد من قابلية تعميم النتائج
- نطاق المهام: يغطي فقط خمسة مفاهيم أمنية، قد لا يمثل جميع السيناريوهات السيبرانية
- الخلفية الثقافية: المشاركون في الغالب من بيئة أكاديمية في أمريكا الشمالية، يفتقرون إلى التنوع الثقافي
- قيود الوقت: ضغط الوقت في البيئة المخبرية قد لا يعكس سيناريوهات العمل الحقيقية
- المساهمة الأكاديمية: توفير أدلة تجريبية مهمة لمجال التقاطع بين HCI والأمن السيبراني
- القيمة العملية: توفير اعتبارات أمان محددة لنشر روبوتات الدردشة الذكية في الشركات
- المساهمة المنهجية: إنشاء نموذج تجريبي جديد لدراسة ثقة الذكاء الاصطناعي
- الآثار السياسية: توفير رؤى حول سلوك المستخدمين لصنع سياسات الأمن الاصطناعي
- نشر الذكاء الاصطناعي في الشركات: توجيه الشركات لنشر روبوتات دردشة ذكية داخلية بأمان
- تدريب المستخدمين: تصميم برامج تدريب أكثر فعالية على محو الأمية الاصطناعية والأمن السيبراني
- تصميم المنتج: تحسين تصميم واجهة روبوتات الدردشة لتعزيز التفكير النقدي
- البحث الأمني: توفير أساس لمزيد من أبحاث الأمن الاصطناعي والعوامل البشرية
يستشهد هذا البحث بـ 19 مرجعاً ذا صلة، يغطي أعمالاً مهمة في مجالات متعددة بما في ذلك نظرية الثقة والأمن الاصطناعي والتفاعل بين الإنسان والحاسوب، مما يوفر أساساً نظرياً متيناً للبحث.
الملخص: يكشف هذا البحث من خلال تصميم تجريبي مبتكر عن ضعف المستخدمين عند مواجهة روبوتات دردشة ذكية معطوبة، مما يساهم بشكل كبير في أبحاث الأمن الاصطناعي والثقة بين الإنسان والآلة. على الرغم من القيود مثل حجم العينة، فإن منهجيتها واكتشافاتها لها قيمة مهمة لفهم وتحسين سلامة أنظمة الذكاء الاصطناعي.