AI chatbots are an emerging security attack vector, vulnerable to threats such as prompt injection, and rogue chatbot creation. When deployed in domains such as corporate security policy, they could be weaponized to deliver guidance that intentionally undermines system defenses. We investigate whether users can be tricked by a compromised AI chatbot in this scenario. A controlled study (N=15) asked participants to use a chatbot to complete security-related tasks. Without their knowledge, the chatbot was manipulated to give incorrect advice for some tasks. The results show how trust in AI chatbots is related to task familiarity, and confidence in their ownn judgment. Additionally, we discuss possible reasons why people do or do not trust AI chatbots in different scenarios.
- পেপার আইডি: 2510.08917
- শিরোনাম: "আমি জানি এটি সঠিক নয়, কিন্তু এটি এটি করতে বলেছে": সাইবার নিরাপত্তা নীতিতে AI চ্যাটবটে বিশ্বাস অনুসন্ধান
- লেখক: ব্র্যান্ডন লিট (ওয়াটারলু বিশ্ববিদ্যালয়), এডওয়ার্ড ক্রাউডার (গুয়েলফ বিশ্ববিদ্যালয়), ড্যানিয়েল ভোগেল (ওয়াটারলু বিশ্ববিদ্যালয়), হাসান খান (গুয়েলফ বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.HC (মানব-কম্পিউটার ইন্টারঅ্যাকশন)
- প্রকাশনার অবস্থা: ACM-এ জমা দেওয়া পাণ্ডুলিপি
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.08917v1
AI চ্যাটবটগুলি একটি নতুন উদীয়মান নিরাপত্তা আক্রমণের বাহন হয়ে উঠছে, যা প্রম্পট ইনজেকশন এবং দূষিত চ্যাটবট তৈরির মতো হুমকির জন্য সংবেদনশীল। যখন এন্টারপ্রাইজ নিরাপত্তা নীতির মতো ক্ষেত্রে স্থাপন করা হয়, তখন সেগুলি সিস্টেম প্রতিরক্ষা উদ্দেশ্যমূলকভাবে ক্ষতিগ্রস্ত করার নির্দেশনা প্রদান করে অস্ত্রীকৃত হতে পারে। এই গবেষণা অনুসন্ধান করে যে ব্যবহারকারীরা এই পরিস্থিতিতে দূষিত AI চ্যাটবট দ্বারা প্রতারিত হবেন কিনা। একটি নিয়ন্ত্রিত অধ্যয়ন (N=15) অংশগ্রহণকারীদের নিরাপত্তা-সম্পর্কিত কাজ সম্পূর্ণ করতে চ্যাটবট ব্যবহার করতে বলেছিল। অংশগ্রহণকারীদের অজানা অবস্থায়, চ্যাটবটটি নির্দিষ্ট কাজের জন্য ভুল পরামর্শ প্রদান করার জন্য হেরফের করা হয়েছিল। ফলাফলগুলি দেখায় যে AI চ্যাটবটে বিশ্বাস কাজের পরিচিতি এবং নিজের বিচারের প্রতি আত্মবিশ্বাসের সাথে সম্পর্কিত।
- উদীয়মান নিরাপত্তা হুমকি: এন্টারপ্রাইজ অভ্যন্তরীণ সরঞ্জাম হিসাবে AI চ্যাটবটের ব্যাপক স্থাপনা নতুন আক্রমণ ভেক্টর তৈরি করে। দূষিত অভিনেতারা সরবরাহ শৃঙ্খল আক্রমণ, জ্ঞান ভিত্তি বিষ, বা প্রশিক্ষণ ডেটা দূষণের মাধ্যমে LLM ক্ষতিগ্রস্ত করতে পারে, যা এটিকে "খারাপ পরামর্শ" প্রদান করতে বাধ্য করে।
- মানব-মেশিন বিশ্বাস সমস্যা: যখন চ্যাটবট আপস করা হয়, ব্যবহারকারীরা পরবর্তী প্রতিরক্ষা লাইন হয়ে ওঠে। আদর্শভাবে, ব্যবহারকারীদের খারাপ পরামর্শ চিহ্নিত করতে এবং চ্যাটবট আপস করা হয়েছে তা বুঝতে হবে, কিন্তু এটি বাস্তবে চ্যালেঞ্জিং।
- বিদ্যমান গবেষণার সীমাবদ্ধতা: কৃত্রিম বুদ্ধিমত্তা বিশ্বাসের উপর পূর্ববর্তী গবেষণা প্রধানত অফলাইন, অ-ইন্টারঅ্যাক্টিভ পদ্ধতির উপর নির্ভর করে, ব্যবহারকারীরা প্রকৃত ব্যবহারে দূষিত চ্যাটবটের আচরণের গভীর বোঝাপড়ার অভাব।
- বাস্তব হুমকি: এন্টারপ্রাইজগুলি অভ্যন্তরীণ তথ্য ভাগ করতে বা নির্দিষ্ট ব্যবসায়িক ডোমেনে সহায়তা করার জন্য বিশেষায়িত AI চ্যাটবট ক্রমবর্ধমান ব্যবহার করছে
- ব্যবহারকারী দুর্বলতা: ব্যবহারকারীরা প্রায়শই অপরিচিত ধারণা শিখতে চ্যাটবটের উপর নির্ভর করে, যা তাদের বিভ্রান্তির জন্য আরও সংবেদনশীল করে তোলে
- বিশ্বাস প্রক্রিয়া: চ্যাটবটগুলি মানবিক, কথোপকথনমূলক এবং ব্যক্তিগতকৃত উপায়ে তথ্য প্রদান করে, যা এটিকে আরও বিশ্বাসযোগ্য দেখাতে পারে
- প্রযুক্তিগত অবকাঠামো এবং পরীক্ষামূলক প্রোটোকল: AI চ্যাটবট বিশ্বাসের ইন-সিটু মূল্যায়নের জন্য প্রযুক্তিগত অবকাঠামো এবং পরীক্ষামূলক পদ্ধতি বিকশিত করা হয়েছে
- ব্যবহারকারী আচরণ প্যাটার্ন এবং বিষয়গত উপলব্ধি: সম্ভাব্য দূষিত AI চ্যাটবটের মুখোমুখি হলে ব্যবহারকারীর আচরণ প্যাটার্ন এবং বিষয়গত উপলব্ধি প্রকাশ করা হয়েছে
- ডিজাইন সুপারিশ: ব্যবহারকারীদের AI চ্যাটবট আচরণ সম্পর্কে আরও সমালোচনামূলকভাবে চিন্তা করতে উৎসাহিত করার জন্য ডিজাইন সুপারিশ প্রস্তাব করা হয়েছে
গবেষণা একটি প্রতারণামূলক পরীক্ষা ডিজাইন করেছে যেখানে অংশগ্রহণকারীদের বলা হয়েছিল যে তারা একটি নতুন সাইবার নিরাপত্তা চ্যাটবট পরীক্ষা করছেন, কিন্তু প্রকৃতপক্ষে চ্যাটবট পরামর্শের প্রতি তাদের বিশ্বাসের স্তর পরিমাপ করা হচ্ছিল।
পাঁচটি নিরাপত্তা ধারণা কাজের পরিধি হিসাবে নির্বাচিত হয়েছিল:
- পাসওয়ার্ড: সাধারণ ধারণা, অংশগ্রহণকারীরা খারাপ পরামর্শ চিহ্নিত করার সম্ভাবনা বেশি
- ফায়ারওয়াল: প্রাক-ইনস্টল করা ধারণা কিন্তু ব্যবহারকারী বোঝাপড়া সীমিত
- অ্যান্টিভাইরাস: ব্যবহারকারীরা সম্ভবত জানেন কিন্তু ভুল ধারণা বিদ্যমান
- এনক্রিপশন: আংশিক ব্যবহারকারী সচেতনতা কিন্তু নির্দিষ্ট বোঝাপড়ার অভাব
- স্ক্রিন লক: অন্তর্নির্মিত বৈশিষ্ট্য, ব্যবহারকারীরা আরও পরিচিত
Llama 3.2 মডেলের উপর ভিত্তি করে, LoRA প্রযুক্তি ব্যবহার করে দুটি LLM সূক্ষ্ম-সুর করা হয়েছিল:
- সৌম্য LLM: সঠিক সাইবার নিরাপত্তা অনুশীলন পরামর্শ প্রদান করে
- প্রতিকূল LLM: অনুপযুক্ত সাইবার নিরাপত্তা পরামর্শ প্রদান করার জন্য প্রশিক্ষিত, 6,655 প্রম্পট-প্রতিক্রিয়া জোড়া ব্যবহার করে প্রশিক্ষিত
তিনটি প্রধান উপাদান অন্তর্ভুক্ত:
- কাজ নির্দেশনা প্যানেল: বর্তমান কাজের বর্ণনা এবং সমাপ্তি বোতাম প্রদর্শন করে
- চ্যাটবট ইন্টারফেস: জনপ্রিয় চ্যাটবট ইন্টারফেসের উপর ভিত্তি করে ইন্টারঅ্যাক্টিভ ডিজাইন
- Windows ভার্চুয়াল মেশিন: অংশগ্রহণকারীদের চ্যাটবট পরামর্শ প্রয়োগ করতে প্রকৃত নিরাপত্তা কনফিগারেশন করতে অনুমতি দেয়
- প্রতিটি অংশগ্রহণকারী সমস্ত পাঁচটি কাজ সম্পূর্ণ করে
- প্রথম তিনটি কাজ সৌম্য LLM ব্যবহার করে, শেষ দুটি প্রতিকূল LLM ব্যবহার করে
- কাজের জ্ঞান বিশ্বাস উপলব্ধি প্রভাবিত করা নিয়ন্ত্রণ করতে পাঁচটি কাজের ক্রম তৈরি করতে ল্যাটিন বর্গ ডিজাইন ব্যবহার করা হয়েছিল
- কাজ-পরবর্তী প্রশ্নাবলী: সাফল্য, স্পষ্টতা, উপযোগিতা, বিশ্বাসযোগ্যতা মূল্যায়ন
- VM লগিং: অংশগ্রহণকারীরা প্রকৃতপক্ষে যে অপারেশনগুলি সম্পাদন করেছেন তা যাচাই করে
- চ্যাট ইতিহাস: ব্যবহারকারী এবং চ্যাটবটের সম্পূর্ণ ইন্টারঅ্যাকশন প্রক্রিয়া বিশ্লেষণ করে
- নমুনা আকার: 15 জন অংশগ্রহণকারী
- নিয়োগ মানদণ্ড: Microsoft Windows অপারেটিং সিস্টেমের সাথে পরিচিত, সাইবার নিরাপত্তা পেশাদার নয়
- ক্ষতিপূরণ: প্রতি ব্যক্তি $45
- বর্জন মানদণ্ড: সাইবার নিরাপত্তা পেশাদার (বিশেষজ্ঞ-স্তরের জ্ঞান প্রভাব এড়াতে)
- পরিস্থিতি সেটআপ: অংশগ্রহণকারীদের বলা হয় তারা দূরবর্তী কাজের জন্য নতুন ল্যাপটপ সেট আপ করছেন
- কাজ সম্পাদন: পাঁচটি নিরাপত্তা কনফিগারেশন কাজ সম্পূর্ণ করতে চ্যাটবট ব্যবহার করে
- প্রশ্নাবলী সমীক্ষা: প্রতিটি কাজের পরে বিশ্বাস-সম্পর্কিত প্রশ্নাবলী পূরণ করে
- প্রতারণা প্রকাশ: পরীক্ষার শেষে প্রকৃত উদ্দেশ্য সম্পর্কে অবহিত করা হয় এবং সঠিক নিরাপত্তা পরামর্শ প্রদান করা হয়
- বিশ্বাস স্কোর: 1-5 পয়েন্ট স্কেল (1-2 অবিশ্বাস, 4-5 বিশ্বাস, 3 অন্যান্য ডেটা দিয়ে সংমিশ্রণ)
- কাজ সমাপ্তি: স্ব-রিপোর্ট করা কাজ সমাপ্তি অবস্থা
- আচরণ সামঞ্জস্য: চ্যাটবট পরামর্শ এবং প্রকৃত সম্পাদিত অপারেশনের সামঞ্জস্য
- খারাপ পরামর্শ অনুসরণ: 8 জন অংশগ্রহণকারী সমস্ত খারাপ পরামর্শ বাস্তবায়ন করেছেন, 4 জন আংশিক খারাপ পরামর্শ বাস্তবায়ন করেছেন
- সামগ্রিক সম্পাদন: 30টি খারাপ পরামর্শ কাজের মধ্যে 16টি সম্পূর্ণ হয়েছে, যার মধ্যে যারা মনে করেছেন তারা কাজ সম্পূর্ণ করেছেন কিন্তু প্রকৃতপক্ষে খারাপ পরামর্শ অনুসরণ করেছেন
| কাজের ধরন | সৌম্য চ্যাটবট বিশ্বাস | প্রতিকূল চ্যাটবট বিশ্বাস |
|---|
| পাসওয়ার্ড | 9/9 (100%) | 2/5 (40%) |
| ফায়ারওয়াল | 6/8 (75%) | 3/6 (50%) |
| অ্যান্টিভাইরাস | 8/8 (100%) | 4/7 (57%) |
| এনক্রিপশন | 8/9 (89%) | 1/6 (17%) |
| স্ক্রিন লক | 3/8 (38%) | 1/6 (17%) |
- এনক্রিপশন এবং স্ক্রিন লক: খারাপ পরামর্শ সবচেয়ে কম বিশ্বস্ত, কারণ অংশগ্রহণকারীর অন্তর্দৃষ্টি এবং জ্ঞানের সাথে সংঘর্ষ
- অ্যান্টিভাইরাস: খারাপ পরামর্শ ব্যাপকভাবে বিশ্বস্ত, কারণ মিথ্যা যুক্তি ব্যবহারকারীর বিশ্বাসের সাথে সামঞ্জস্যপূর্ণ
- পাসওয়ার্ড: পরিচিত ধারণা হওয়া সত্ত্বেও, অংশগ্রহণকারীরা খারাপ পরামর্শে বিভক্ত প্রতিক্রিয়া দেখিয়েছেন
গুরুত্বপূর্ণ আবিষ্কার হল যে এমনকি যদি অংশগ্রহণকারীরা চ্যাটবটকে বিশ্বাস না করেন, তারা এখনও খারাপ পরামর্শ অনুসরণ করতে পারেন:
- P11 মন্তব্য: "আমি চ্যাটবটকে সাধারণ মানুষের জন্য সঠিক কম্পিউটার নিরাপত্তা সেটিংস তথ্য প্রদান করতে বিশ্বাস করি না", কিন্তু এখনও ফায়ারওয়ালের খারাপ পরামর্শ অনুসরণ করেছেন
- P5 আরও ভাল যুক্তির প্রয়োজন প্রকাশ করেছেন, কিন্তু এখনও নাম-ভিত্তিক সংক্ষিপ্ত পাসওয়ার্ড তৈরি করেছেন
UI নেভিগেশন নির্দেশনার নির্ভুলতা উল্লেখযোগ্যভাবে বিশ্বাস স্তর প্রভাবিত করে:
- নির্ভুল নেভিগেশন নির্দেশনা বিশ্বাস বৃদ্ধি করে, এমনকি নিরাপত্তা পরামর্শ ভুল হলেও
- নেভিগেশন হ্যালুসিনেশন উল্লেখযোগ্যভাবে বিশ্বাস হ্রাস করে, এমনকি নিরাপত্তা পরামর্শ সঠিক হলেও
- Mayer এবং অন্যদের বিশ্বাস মডেল: সদিচ্ছা, সক্ষমতা এবং সততা অনুভূত বিশ্বাসযোগ্যতার কারণ
- Lee এবং See এর স্বয়ংক্রিয়করণ বিশ্বাস মডেল: ব্যক্তিগত, সাংগঠনিক, সাংস্কৃতিক এবং পরিবেশগত প্রেক্ষাপট বিবেচনা করে
- স্ট্যাটিক মূল্যায়ন পদ্ধতি: Chen এবং Sundar AI প্রশিক্ষণ ডেটা পরীক্ষা করেন, Yin এবং অন্যরা ML প্রতিক্রিয়া মূল্যায়ন করেন
- ইন্টারঅ্যাক্টিভ পদ্ধতি: Feng এবং Boyd-Graber এর প্রশ্নোত্তর প্রতিযোগিতা অংশীদার গবেষণা
- এই গবেষণার উদ্ভাবন: সম্পূর্ণ কার্যকরী চ্যাটবট পরিবেশে প্রথমবার ইন-সিটু বিশ্বাস পরিমাপ
- ব্যবহারকারীরা দূষিত চ্যাটবট চিহ্নিত করতে অসুবিধা পায়: বিশেষত যখন তথ্য কম পরিচিত এবং চ্যাটবট হ্যালুসিনেশন সূক্ষ্ম হয়
- কাজ পরিচিতি মূল চাবিকাঠি: ব্যবহারকারীরা পরিচিত ধারণার খারাপ পরামর্শ আরও সহজে চিহ্নিত করে
- বিশ্বাস এবং সম্মতি বিচ্ছেদন: এমনকি চ্যাটবটকে বিশ্বাস না করলেও, ব্যবহারকারীরা এখনও পরামর্শ অনুসরণ করতে পারে
- নির্দেশনা গুণমান বিশ্বাস প্রভাবিত করে: নির্ভুল UI নেভিগেশন নির্দেশনা ভুল নিরাপত্তা পরামর্শ লুকাতে পারে
সুপারিশ করা হয় যে পরামর্শ তথ্য এবং ধাপ-দ্বারা-ধাপ নির্দেশনা ভিজ্যুয়ালি আলাদা করা হয়, বিভিন্ন রঙ বা স্বাধীন বাক্স ব্যবহার করে প্রদর্শিত হয়, ব্যবহারকারীদের নির্দেশনা এবং পরামর্শের প্রতি বিশ্বাস উপলব্ধি আলাদা করতে সাহায্য করে।
সুপারিশ করা হয় যে এন্টারপ্রাইজ চ্যাটবটগুলি ডিফল্টরূপে উৎস উদ্ধৃতি অন্তর্ভুক্ত করে, বিশেষত কোম্পানি নিয়ন্ত্রিত অভ্যন্তরীণ নিরাপত্তা নীতি নথি, কর্মচারীদের তথ্য নির্ভরযোগ্যতা যাচাই করার জন্য "জ্ঞান নোঙর" প্রদান করে।
- পর্যবেক্ষক প্রভাব: অংশগ্রহণকারীরা পর্যবেক্ষিত হচ্ছেন জেনে আচরণ প্রভাবিত করতে পারে
- LLM র্যান্ডমনেস: এমনকি "সৌম্য" চ্যাটবটও কিছু অনুপযুক্ত পরামর্শ তৈরি করেছে
- নমুনা আকার: 15 জন অংশগ্রহণকারীর নমুনা তুলনামূলকভাবে ছোট
- গবেষণা স্কেল সম্প্রসারণ: বৃহত্তর নমুনা আকার এবং আরও নিরাপত্তা ধারণা
- দীর্ঘমেয়াদী বিশ্বাস গতিশীলতা: দীর্ঘমেয়াদী ব্যবহারে বিশ্বাস পরিবর্তন গবেষণা করা
- প্রতিরক্ষা প্রক্রিয়া: আরও কার্যকর ব্যবহারকারী প্রশিক্ষণ এবং প্রযুক্তিগত প্রতিমাপ বিকাশ করা
- পদ্ধতি উদ্ভাবন: AI চ্যাটবট বিশ্বাস অধ্যয়নের জন্য প্রথমবার ইন-সিটু প্রতারণা পরীক্ষা ব্যবহার করা, পদ্ধতিগতভাবে যুগান্তকারী
- ইকোলজিক্যাল বৈধতা: প্রকৃত Windows পরিবেশ এবং সম্পূর্ণ কার্যকরী চ্যাটবট ব্যবহার করা, ফলাফলের বাহ্যিক বৈধতা বৃদ্ধি করে
- প্রযুক্তিগত কঠোরতা: LoRA সূক্ষ্ম-সুর করা ব্যবহার করা প্রতিকূল আচরণের শক্তিশালীতা নিশ্চিত করে, সাধারণ প্রম্পট ইঞ্জিনিয়ারিং অতিক্রম করে
- নৈতিক বিবেচনা: কঠোর IRB অনুমোদন এবং প্রতারণা প্রকাশ প্রক্রিয়া, দায়িত্বশীল গবেষণা অনুশীলন প্রতিফলিত করে
- নমুনা সীমাবদ্ধতা: 15 জনের নমুনা আকার ছোট, ফলাফলের সাধারণীকরণ সীমিত করতে পারে
- কাজ পরিধি: শুধুমাত্র পাঁচটি নিরাপত্তা ধারণা কভার করা, সমস্ত সাইবার নিরাপত্তা পরিস্থিতি প্রতিনিধিত্ব করতে পারে না
- সাংস্কৃতিক পটভূমি: অংশগ্রহণকারীরা প্রধানত উত্তর আমেরিকার একাডেমিক পরিবেশ থেকে, সাংস্কৃতিক বৈচিত্র্যের অভাব
- সময় সীমাবদ্ধতা: পরীক্ষাগার পরিবেশের সময় চাপ প্রকৃত কর্মপরিবেশ প্রতিফলিত করতে পারে না
- একাডেমিক অবদান: HCI এবং সাইবার নিরাপত্তা ক্রস-ডোমেইনে গুরুত্বপূর্ণ অভিজ্ঞতামূলক প্রমাণ প্রদান করে
- ব্যবহারিক মূল্য: এন্টারপ্রাইজ AI চ্যাটবট নিরাপদ স্থাপনার জন্য নির্দিষ্ট নিরাপত্তা বিবেচনা প্রদান করে
- পদ্ধতিগত অবদান: AI বিশ্বাস গবেষণার জন্য নতুন পরীক্ষামূলক প্যারাডাইম প্রতিষ্ঠা করে
- নীতি অন্তর্দৃষ্টি: AI নিরাপত্তা নীতি প্রণয়নের জন্য ব্যবহারকারী আচরণ অন্তর্দৃষ্টি প্রদান করে
- এন্টারপ্রাইজ AI স্থাপনা: অভ্যন্তরীণ AI চ্যাটবট নিরাপদে স্থাপনের নির্দেশনা দেয়
- ব্যবহারকারী প্রশিক্ষণ: আরও কার্যকর AI সাক্ষরতা এবং সাইবার নিরাপত্তা প্রশিক্ষণ প্রোগ্রাম ডিজাইন করে
- পণ্য ডিজাইন: চ্যাটবট ইন্টারফেস ডিজাইন উন্নত করে সমালোচনামূলক চিন্তা প্রচার করে
- নিরাপত্তা গবেষণা: AI নিরাপত্তা এবং মানব-কারণ গবেষণার জন্য ভিত্তি প্রদান করে
এই গবেষণা বিশ্বাস তত্ত্ব, কৃত্রিম বুদ্ধিমত্তা নিরাপত্তা, মানব-কম্পিউটার ইন্টারঅ্যাকশন সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ কভার করে 19টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে।
সংক্ষিপ্তসার: এই গবেষণা উদ্ভাবনী পরীক্ষামূলক ডিজাইনের মাধ্যমে দূষিত AI চ্যাটবটের মুখোমুখি হলে ব্যবহারকারীর দুর্বলতা প্রকাশ করে, AI নিরাপত্তা এবং মানব-মেশিন বিশ্বাস গবেষণায় গুরুত্বপূর্ণ অবদান রাখে। নমুনা আকারের মতো সীমাবদ্ধতা থাকা সত্ত্বেও, এর পদ্ধতিগত এবং অনুসন্ধান AI সিস্টেমের নিরাপত্তা বোঝা এবং উন্নত করার জন্য গুরুত্বপূর্ণ মূল্য রাখে।