2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

Smishing हमलों का पता लगाना और रोकथाम

बुनियादी जानकारी

पेपर ID: 2501.00260
शीर्षक: Smishing हमलों का पता लगाना और रोकथाम
लेखक: दिक्षा गोयल (रोल नंबर: 31603217)
सलाहकार: श्री अंकित कुमार जैन (सहायक प्रोफेसर)
वर्गीकरण: cs.CR cs.SI
प्रकाशन समय: जून 2018 (तकनीकी स्नातकोत्तर शोध प्रबंध)
संस्थान: कंप्यूटर इंजीनियरिंग विभाग, राष्ट्रीय प्रौद्योगिकी संस्थान कुरुक्षेत्र-136119, हरियाणा (भारत)
पेपर लिंक: https://arxiv.org/abs/2501.00260

सारांश

स्मार्टफोन की कार्यक्षमता डेस्कटॉप कंप्यूटर के करीब आने के साथ, हमलावर अपना ध्यान मोबाइल डिवाइस उपयोगकर्ताओं की ओर मोड़ रहे हैं। Smishing (SMS फिशिंग हमला) लघु संदेश सेवा के माध्यम से किया जाने वाला फिशिंग हमला है, जिसका उद्देश्य उपयोगकर्ता की संवेदनशील जानकारी चोरी करना है। हालांकि smishing हमलों की संख्या में तेजी से वृद्धि हो रही है, लेकिन इस प्रकार के खतरों का पता लगाने के लिए अनुसंधान सीमित है। यह अनुसंधान सामग्री विश्लेषण पर आधारित एक smishing पहचान मॉडल प्रस्तावित करता है, जो पाठ को सामान्य बनाने के माध्यम से स्लैंग, संक्षिप्त रूपों और संक्षिप्त रूपों को संभालता है, और smishing और सामान्य SMS को अलग करने के लिए मशीन लर्निंग वर्गीकरणकर्ता का उपयोग करता है। प्रायोगिक परिणाम दर्शाते हैं कि मॉडल smishing संदेशों के लिए 97.14% की वर्गीकरण सटीकता, सामान्य संदेशों के लिए 96.12% और कुल सटीकता 96.20% प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की परिभाषा

मुख्य समस्या: स्मार्टफोन उपयोगकर्ताओं में वृद्धि के साथ (2020 तक 28.7 बिलियन का अनुमान), SMS हमलावरों के लिए फिशिंग हमले करने का मुख्य चैनल बन गया है। Smishing हमले उपयोगकर्ताओं के SMS के प्रति उच्च विश्वास (35% उपयोगकर्ता SMS को सबसे विश्वसनीय संदेश मंच मानते हैं) का दुरुपयोग करते हैं।
समस्या की महत्ता:
- 33% मोबाइल उपयोगकर्ताओं को smishing संदेश प्राप्त हुए हैं
- 42% मोबाइल उपयोगकर्ता दुर्भावनापूर्ण लिंक पर क्लिक करते हैं
- स्मार्टफोन उपयोगकर्ताओं को फिशिंग हमले का जोखिम डेस्कटॉप उपयोगकर्ताओं की तुलना में 3 गुना अधिक है
- 2017 में 45% उपयोगकर्ताओं को smishing संदेश प्राप्त हुए, जो 2016 की तुलना में 2% की वृद्धि है
मौजूदा तरीकों की सीमाएं:
- स्पैम SMS पहचान तकनीकें अधिक हैं, लेकिन smishing के लिए विशेष अनुसंधान कम है
- पाठ में स्लैंग, संक्षिप्त रूप और संक्षिप्त रूप वर्गीकरणकर्ता की दक्षता को कम करते हैं
- प्रभावी पाठ सामान्यीकरण तंत्र की कमी है
अनुसंधान प्रेरणा:
- मोबाइल डिवाइस हार्डवेयर सीमाएं (छोटी स्क्रीन, सुरक्षा संकेतकों की कमी) हमले की सफलता दर बढ़ाती हैं
- उपयोगकर्ता गोपनीयता की सुरक्षा करते हुए smishing हमलों का प्रभावी पता लगाने की आवश्यकता है
- मौजूदा समाधानों की सटीकता में सुधार की आवश्यकता है

मुख्य योगदान

पूर्ण smishing सुरक्षा मॉडल प्रस्तावित किया: सामग्री विश्लेषण पर आधारित दो-चरणीय पहचान ढांचा
नवीन पाठ सामान्यीकरण विधि: NoSlang शब्दकोश का उपयोग करके स्लैंग, संक्षिप्त रूपों और संक्षिप्त रूपों को संभालना, वर्गीकरण सटीकता में उल्लेखनीय सुधार
व्यापक मोबाइल फिशिंग हमले वर्गीकरण: 7 प्रमुख प्रकार के मोबाइल फिशिंग हमलों का व्यवस्थित विश्लेषण
उत्कृष्ट पहचान प्रदर्शन: सार्वजनिक डेटासेट पर 96.20% की कुल सटीकता प्राप्त करना
गहन साहित्य समीक्षा: मोबाइल फिशिंग हमलों और रक्षा तंत्र का व्यापक विश्लेषण

विधि विवरण

कार्य परिभाषा

इनपुट: SMS पाठ संदेश आउटपुट: द्विआधारी वर्गीकरण परिणाम (smishing संदेश या ham संदेश) बाधाएं: उपयोगकर्ता गोपनीयता की सुरक्षा, वास्तविक समय पहचान, उच्च सटीकता

मॉडल आर्किटेक्चर

मॉडल दो-चरणीय आर्किटेक्चर अपनाता है:

चरण 1: पूर्व-प्रसंस्करण और सामान्यीकरण

एल्गोरिथ्म 1: पूर्व-प्रसंस्करण और सामान्यीकरण एल्गोरिथ्म
इनपुट: msg (संदेश), dict (NoSlang शब्दकोश), stop (स्टॉप शब्द)
आउटपुट: n_msg (पूर्व-प्रसंस्कृत और सामान्यीकृत संदेश)

विशिष्ट चरण:

टोकनाइजेशन (Tokenization): पाठ को टोकन में विभाजित करना
लोअरकेसिंग (Lowercasing): सभी को लोअरकेस में परिवर्तित करना
सामान्यीकरण (Normalization): NoSlang शब्दकोश का उपयोग करके स्लैंग और संक्षिप्त रूपों को प्रतिस्थापित करना
स्टॉप शब्द हटाना: 153 NLTK अंग्रेजी स्टॉप शब्दों को हटाना
शब्द स्टेमिंग (Stemming): शब्दावली को मूल रूप में बहाल करना

चरण 2: वर्गीकरण

एल्गोरिथ्म 2: वर्गीकरण एल्गोरिथ्म
इनपुट: D (डेटासेट), n_msg (पूर्व-प्रसंस्कृत और सामान्यीकृत संदेश)
आउटपुट: ham या smishing संदेश

बेयस वर्गीकरणकर्ता: वर्गीकरण के लिए नैव बेयस प्रमेय का उपयोग:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

जहां:

$p(C_k|x)$ : दिए गए विशेषता x के तहत वर्ग $C_k$ से संबंधित होने की पश्च संभावना
$p(x|C_k)$ : दिए गए वर्ग $C_k$ के तहत विशेषता x की संभावना
$p(C_k)$ : वर्ग $C_k$ की पूर्व संभावना

तकनीकी नवाचार बिंदु

पाठ सामान्यीकरण नवाचार:
- पहली बार NoSlang शब्दकोश को smishing पहचान में लागू किया
- SMS में अनौपचारिक भाषा अभिव्यक्तियों को व्यवस्थित रूप से संभालना
- विकृत पाठ की पहचान करने में वर्गीकरणकर्ता की क्षमता में उल्लेखनीय सुधार
दो-चरणीय प्रसंस्करण ढांचा:
- पूर्व-प्रसंस्करण चरण पाठ की सामंजस्य सुनिश्चित करता है
- वर्गीकरण चरण सामान्यीकृत पाठ के आधार पर सटीक निर्णय लेता है
गोपनीयता सुरक्षा डिजाइन:
- स्थानीय प्रसंस्करण, तीसरे पक्ष की सेवाओं में शामिल नहीं
- केवल पाठ सामग्री विशेषताओं पर आधारित, उपयोगकर्ता व्यक्तिगत जानकारी एकत्र नहीं करता

प्रायोगिक सेटअप

डेटासेट

डेटा स्रोत: SMS Spam Dataset v.1 (सार्वजनिक डेटासेट)
मूल आकार: 5574 संदेश (4827 ham, 747 spam)
प्रसंस्कृत आकार: 5169 संदेश (4807 ham, 362 smishing)
डेटा स्रोत:
- Grumbletext वेबसाइट: 425 spam
- डॉ. कैरोलिन टैग शोध प्रबंध: 450 ham
- NUS SMS Corpus: 3375 ham
- SMS Spam Corpus v.0.1: 1002 ham, 322 spam
- Pinterest संग्रह: 71 smishing

डेटासेट सांख्यिकीय विशेषताएं

विशेषता	Ham संदेश	Smishing संदेश
औसत वर्ण संख्या	74.55	148.72
औसत शब्द संख्या	14.76	24.72
URL उपस्थिति आवृत्ति	0.0027	0.2513
प्रतीक ($,€) आवृत्ति	0.0037	0.0193

मूल्यांकन मेट्रिक्स

True Positive Rate (TPR): $TPR = \frac{TP}{TP + FN}$
True Negative Rate (TNR): $TNR = \frac{TN}{TN + FP}$
False Positive Rate (FPR): $FPR = \frac{FP}{FP + TN}$
सटीकता (Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

तुलनात्मक विधियां

S-Detector (Joo et al.): नैव बेयस वर्गीकरणकर्ता
SMSAssassin (Yadav et al.): बेयस लर्निंग + SVM
Lee et al.: क्लाउड वातावरण पहचान विधि

कार्यान्वयन विवरण

मंच: Python
सिस्टम कॉन्फ़िगरेशन: i5 प्रोसेसर, 2.4GHz, 8GB RAM
निर्भरता लाइब्रेरी: NLTK, CSV, SYS, ConfigParser
डेटा विभाजन: 90% प्रशिक्षण, 10% परीक्षण

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	TPR	TNR	FPR	FNR	सटीकता
बिना पूर्व-प्रसंस्करण सामान्यीकरण	94.28%	87.74%	12.25%	5.71%	88.20%
पूर्व-प्रसंस्करण सामान्यीकरण के साथ	97.14%	96.12%	3.87%	2.85%	96.20%

तुलनात्मक प्रायोगिक परिणाम

विधि	सामग्री विश्लेषण	पाठ सामान्यीकरण	एल्गोरिथ्म	सटीकता
Joo et al.	✓	✗	नैव बेयस	-
Yadav et al.	✓	✗	बेयस+SVM	84.75%
Lee et al.	✓	✗	स्रोत सामग्री विश्लेषण	-
यह विधि	✓	✓	नैव बेयस	96.20%

विलोपन प्रयोग

पूर्व-प्रसंस्करण सामान्यीकरण के साथ और बिना परिणामों की तुलना करके, पाठ सामान्यीकरण की महत्ता साबित की गई:

सटीकता में सुधार: 88.20% से 96.20% तक (+8%)
TPR में सुधार: 94.28% से 97.14% तक
TNR में सुधार: 87.74% से 96.12% तक

केस विश्लेषण

पाठ सामान्यीकरण प्रभाव उदाहरण:

"call" शब्द की smishing संभावना 0.443425 से 0.464832 तक बढ़ी
"offer" शब्द की smishing संभावना 0.033639 से 0.055046 तक बढ़ी
सामान्यीकरण के बाद शब्द शब्दार्थ अधिक सुसंगत हो गया, वर्गीकरणकर्ता निर्णय सटीकता में सुधार हुआ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पाठ सामान्यीकरण की महत्ता: पूर्व-प्रसंस्करण और सामान्यीकरण पहचान सटीकता में उल्लेखनीय सुधार करते हैं (+8%)
विधि की प्रभावशीलता: सार्वजनिक डेटासेट पर 96.20% की उत्कृष्ट सटीकता प्राप्त करना
व्यावहारिक मूल्य: पूर्ण smishing पहचान समाधान प्रदान करना
सैद्धांतिक योगदान: मोबाइल फिशिंग हमलों और रक्षा तंत्र का व्यवस्थित विश्लेषण

सीमाएं

डेटासेट सीमाएं:
- विशेष smishing डेटासेट की कमी, spam से मैनुअल निष्कर्षण की आवश्यकता
- डेटासेट आकार अपेक्षाकृत छोटा है (362 smishing संदेश)
- केवल अंग्रेजी पाठ का समर्थन करता है
विधि सीमाएं:
- केवल पाठ सामग्री पर आधारित, URL, प्रेषक आदि विशेषताओं पर विचार नहीं किया गया
- शब्दकोश गुणवत्ता पर निर्भर, शब्दकोश कवरेज अधूरा हो सकता है
- नए प्रकार के हमलों के अनुकूलन की क्षमता सत्यापन की आवश्यकता है
प्रायोगिक सीमाएं:
- अधिक नई विधियों के साथ तुलना की कमी
- क्रॉस-डेटासेट सत्यापन नहीं किया गया
- वास्तविक समय प्रदर्शन मूल्यांकन की कमी

भविष्य की दिशाएं

URL विश्लेषण: दुर्भावनापूर्ण लिंक और डाउनलोड का पता लगाने के लिए URL विशेषताओं को संयोजित करना
संदर्भ समझ: सामान्यीकरण प्रक्रिया में सुधार, संदर्भ के अनुसार सर्वोत्तम शब्द अर्थ का चयन
डेटासेट विस्तार: बड़े पैमाने पर, बहुभाषी smishing डेटासेट का निर्माण
बहु-मोडल संलयन: पाठ, URL, प्रेषक जानकारी आदि कई विशेषताओं को संयोजित करना
वास्तविक समय तैनाती: एल्गोरिथ्म दक्षता को अनुकूलित करना, मोबाइल डिवाइस पर वास्तविक समय पहचान का समर्थन करना

गहन मूल्यांकन

लाभ

समस्या लक्ष्यीकरण मजबूत: महत्वपूर्ण लेकिन कम शोधित सुरक्षा खतरे smishing के लिए विशेष
विधि नवाचार: पहली बार पाठ सामान्यीकरण को smishing पहचान में व्यवस्थित रूप से लागू किया
पर्याप्त प्रयोग: विलोपन प्रयोगों के माध्यम से प्रत्येक घटक के योगदान को साबित किया
व्यापक साहित्य समीक्षा: इस क्षेत्र की सबसे व्यापक समीक्षाओं में से एक प्रदान करना
उच्च व्यावहारिक मूल्य: विधि सरल और प्रभावी है, वास्तविक तैनाती के लिए आसान

कमियां

सीमित तकनीकी गहराई: मुख्य रूप से पारंपरिक मशीन लर्निंग विधियों का उपयोग, गहन शिक्षा की खोज नहीं की गई
सरल विशेषता इंजीनियरिंग: केवल पाठ सामग्री का उपयोग, विशेषताएं अपेक्षाकृत एकल हैं
अधूरा मूल्यांकन: गलत सकारात्मक दर के उपयोगकर्ता अनुभव पर प्रभाव का विश्लेषण नहीं
स्केलेबिलिटी समस्याएं: नए प्रकार के हमलों के लिए सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
वास्तविक समय प्रदर्शन अज्ञात: मोबाइल डिवाइस पर प्रदर्शन परीक्षण की कमी

प्रभाव

शैक्षणिक योगदान:
- smishing पहचान अनुसंधान में अंतराल को भरना
- हमलों और रक्षा का व्यवस्थित वर्गीकरण प्रदान करना
- सुरक्षा पहचान में पाठ सामान्यीकरण की महत्ता साबित करना
व्यावहारिक मूल्य:
- मोबाइल सुरक्षा उत्पादों में सीधे आवेदन
- SMS गेटवे के लिए फ़िल्टरिंग समाधान
- उपयोगकर्ताओं के लिए व्यक्तिगत सुरक्षा उपकरण
पुनरुत्पादनीयता:
- सार्वजनिक डेटासेट का उपयोग
- स्पष्ट विधि विवरण
- विस्तृत एल्गोरिथ्म प्रवाह प्रदान किया गया

लागू परिदृश्य

मोबाइल ऑपरेटर: SMS गेटवे वास्तविक समय फ़िल्टरिंग
सुरक्षा कंपनियां: मोबाइल सुरक्षा उत्पादों में एकीकरण
एंटरप्राइज उपयोगकर्ता: आंतरिक SMS सुरक्षा निगरानी
व्यक्तिगत उपयोगकर्ता: स्मार्टफोन सुरक्षा एप्लिकेशन
अनुसंधान संस्थान: आधार विधि के रूप में आगे सुधार के लिए

संदर्भ

पेपर में 63 संबंधित संदर्भ उद्धृत किए गए हैं, जिनमें शामिल हैं:

फिशिंग हमले पहचान की शास्त्रीय विधियां
मोबाइल सुरक्षा खतरों का विश्लेषण
पाठ वर्गीकरण में मशीन लर्निंग का अनुप्रयोग
SMS स्पैम फ़िल्टरिंग तकनीक
मोबाइल दुर्भावनापूर्ण सॉफ़्टवेयर पहचान विधियां

मुख्य रूप से APWG फिशिंग हमले रिपोर्ट, IEEE और ACM सम्मेलन पेपर, और संबंधित क्षेत्र के महत्वपूर्ण पत्रिका लेख का संदर्भ दिया गया है, साहित्य उद्धरण काफी प्राधिकृत और व्यापक हैं।

समग्र मूल्यांकन: यह एक महत्वपूर्ण सुरक्षा समस्या के लिए एक व्यावहारिक अनुसंधान है, विधि में कुछ नवाचार हैं, प्रायोगिक परिणाम संतोषजनक हैं। हालांकि तकनीकी गहराई सीमित है, लेकिन यह smishing पहचान के लिए एक प्रभावी आधार विधि प्रदान करता है, जिसमें अच्छा शैक्षणिक और व्यावहारिक मूल्य है।