2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

كشف ومنع هجمات التصيد عبر الرسائل النصية (Smishing)

المعلومات الأساسية

معرّف الورقة البحثية: 2501.00260
العنوان: Detection and Prevention of Smishing Attacks
المؤلفة: Diksha Goel (رقم التسجيل: 31603217)
المشرف: السيد Ankit Kumar Jain (أستاذ مساعد)
التصنيف: cs.CR cs.SI
تاريخ النشر: يونيو 2018 (أطروحة ماجستير في التكنولوجيا)
المؤسسة: قسم هندسة الحاسوب، المعهد الوطني للتكنولوجيا كوروكشترا-136119، هاريانا (الهند)
رابط الورقة: https://arxiv.org/abs/2501.00260

الملخص

مع اقتراب وظائف الهواتف الذكية من أجهزة الحاسوب المكتبية، وجّه المهاجمون أهدافهم نحو مستخدمي الأجهزة المحمولة. يُعتبر التصيد عبر الرسائل النصية (Smishing) هجوماً من نوع التصيد الاحتيالي يتم عبر خدمة الرسائل القصيرة (SMS)، بهدف سرقة المعلومات الحساسة للمستخدمين. على الرغم من النمو الأسي لعدد هجمات Smishing، فإن البحث المتعلق بكشف هذه التهديدات محدود نسبياً. تقترح هذه الدراسة نموذج كشف Smishing قائماً على تحليل المحتوى، من خلال معالجة النصوص بشكل معياري للتعامل مع اللغة العامية والاختصارات والأشكال المختصرة، باستخدام مصنفات التعلم الآلي للتمييز بين رسائل Smishing والرسائل العادية. أظهرت النتائج التجريبية أن النموذج يحقق دقة تصنيف بنسبة 97.14% لرسائل Smishing و96.12% للرسائل العادية، مع دقة إجمالية بنسبة 96.20%.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الرئيسية: مع الزيادة الهائلة في عدد مستخدمي الهواتف الذكية (يُتوقع أن يصل إلى 2.87 مليار بحلول عام 2020)، أصبحت الرسائل النصية القصيرة (SMS) القناة الرئيسية للمهاجمين لتنفيذ هجمات التصيد الاحتيالي. تستغل هجمات Smishing مستوى الثقة العالي الذي يوليه المستخدمون للرسائل النصية (يعتبر 35% من المستخدمين أن SMS هي أكثر منصات المراسلة موثوقية).
أهمية المشكلة:
- 33% من مستخدمي الأجهزة المحمولة تلقوا رسائل Smishing
- 42% من مستخدمي الأجهزة المحمولة ينقرون على الروابط الضارة
- خطر تعرض مستخدمي الهواتف الذكية لهجمات التصيد الاحتيالي أعلى بثلاث مرات من مستخدمي أجهزة الحاسوب المكتبية
- تلقى 45% من المستخدمين رسائل Smishing في عام 2017، بزيادة بنسبة 2% عن عام 2016
قيود الطرق الموجودة:
- تتوفر تقنيات كثيرة لكشف الرسائل غير المرغوبة، لكن البحث المتخصص في Smishing محدود
- اللغة العامية والاختصارات والأشكال المختصرة في النصوص تقلل من كفاءة المصنفات
- نقص آليات معالجة معيارية فعالة للنصوص
دافع البحث:
- القيود على أجهزة الهواتف الذكية (شاشات صغيرة، غياب مؤشرات الأمان) تزيد من معدل نجاح الهجمات
- الحاجة إلى كشف فعال لهجمات Smishing مع حماية خصوصية المستخدمين
- الحاجة إلى تحسين دقة الحلول الموجودة

المساهمات الأساسية

اقتراح نموذج أمان Smishing شامل: إطار عمل كشف ثنائي المراحل قائم على تحليل المحتوى
طريقة معالجة نصوص مبتكرة: استخدام قاموس NoSlang للتعامل مع اللغة العامية والاختصارات والأشكال المختصرة، مما يحسن بشكل كبير دقة التصنيف
تصنيف شامل لهجمات التصيد الاحتيالي على الأجهزة المحمولة: تصنيف منهجي لسبع فئات رئيسية من هجمات التصيد على الأجهزة المحمولة
أداء كشف متفوق: تحقيق دقة إجمالية بنسبة 96.20% على مجموعات البيانات المتاحة للعموم
مراجعة أدبيات شاملة: توفير تحليل شامل لهجمات التصيد على الأجهزة المحمولة وآليات الدفاع

شرح الطريقة

تعريف المهمة

الإدخال: رسالة نصية (SMS) الإخراج: نتيجة تصنيف ثنائي (رسالة Smishing أو رسالة عادية) القيود: حماية خصوصية المستخدمين، الكشف في الوقت الفعلي، دقة عالية

معمارية النموذج

يستخدم النموذج معمارية ثنائية المراحل:

المرحلة 1: المعالجة المسبقة والمعايرة

Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)

الخطوات المحددة:

تقسيم النص إلى رموز (Tokenization): تقسيم النص إلى وحدات صغيرة
تحويل إلى أحرف صغيرة (Lowercasing): توحيد التحويل إلى أحرف صغيرة
المعايرة (Normalization): استخدام قاموس NoSlang لاستبدال اللغة العامية والاختصارات
إزالة الكلمات الشائعة: حذف 153 كلمة شائعة من قائمة NLTK الإنجليزية
استخراج جذر الكلمة (Stemming): إرجاع المفردات إلى شكلها الأساسي

المرحلة 2: التصنيف

Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message

مصنف بايز: استخدام نظرية بايز الساذجة للتصنيف:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

حيث:

$p(C_k|x)$ : الاحتمالية اللاحقة لانتماء الميزة x إلى الفئة $C_k$
$p(x|C_k)$ : احتمالية الميزة x بناءً على الفئة $C_k$
$p(C_k)$ : الاحتمالية السابقة للفئة $C_k$

نقاط الابتكار التقني

ابتكار في معالجة النصوص:
- أول تطبيق لقاموس NoSlang في كشف Smishing
- معالجة منهجية للتعبيرات اللغوية غير الرسمية في الرسائل النصية
- تحسين كبير في قدرة المصنف على التعرف على النصوص المشوهة
إطار معالجة ثنائي المراحل:
- مرحلة المعالجة المسبقة تضمن اتساق النص
- مرحلة التصنيف تعتمد على النص المعياري للحصول على حكم دقيق
تصميم حماية الخصوصية:
- معالجة محلية بدون تدخل خدمات الطرف الثالث
- الاعتماد فقط على ميزات محتوى النص، بدون جمع معلومات شخصية للمستخدم

إعداد التجربة

مجموعة البيانات

مصدر البيانات: SMS Spam Dataset v.1 (مجموعة بيانات متاحة للعموم)
الحجم الأصلي: 5574 رسالة (4827 رسالة عادية، 747 رسالة غير مرغوبة)
الحجم بعد المعالجة: 5169 رسالة (4807 رسائل عادية، 362 رسالة Smishing)
مصادر البيانات:
- موقع Grumbletext: 425 رسالة غير مرغوبة
- أطروحة الدكتورة Caroline Tag: 450 رسالة عادية
- مجموعة NUS SMS Corpus: 3375 رسالة عادية
- مجموعة SMS Spam Corpus v.0.1: 1002 رسالة عادية، 322 رسالة غير مرغوبة
- جمع من Pinterest: 71 رسالة Smishing

الخصائص الإحصائية لمجموعة البيانات

الخاصية	الرسائل العادية	رسائل Smishing
متوسط عدد الأحرف	74.55	148.72
متوسط عدد الكلمات	14.76	24.72
تكرار ظهور الروابط	0.0027	0.2513
تكرار الرموز ($,€)	0.0037	0.0193

مقاييس التقييم

معدل الإيجابيات الحقيقية (TPR): $TPR = \frac{TP}{TP + FN}$
معدل السلبيات الحقيقية (TNR): $TNR = \frac{TN}{TN + FP}$
معدل الإيجابيات الكاذبة (FPR): $FPR = \frac{FP}{FP + TN}$
الدقة (Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

الطرق المقارنة

S-Detector (Joo et al.): مصنف بايز الساذج
SMSAssassin (Yadav et al.): التعلم البايزي + آلة المتجهات الداعمة (SVM)
Lee et al.: طريقة الكشف في بيئة سحابية

تفاصيل التنفيذ

المنصة: Python
إعدادات النظام: معالج i5، 2.4GHz، 8GB RAM
مكتبات التبعيات: NLTK و CSV و SYS و ConfigParser
تقسيم البيانات: 90% للتدريب، 10% للاختبار

نتائج التجربة

النتائج الرئيسية

الطريقة	TPR	TNR	FPR	FNR	الدقة
بدون معالجة مسبقة ومعايرة	94.28%	87.74%	12.25%	5.71%	88.20%
مع معالجة مسبقة ومعايرة	97.14%	96.12%	3.87%	2.85%	96.20%

نتائج التجارب المقارنة

الطريقة	تحليل المحتوى	معالجة النصوص	الخوارزمية	الدقة
Joo et al.	✓	✗	بايز الساذج	-
Yadav et al.	✓	✗	بايز + SVM	84.75%
Lee et al.	✓	✗	تحليل محتوى المصدر	-
الطريقة المقترحة	✓	✓	بايز الساذج	96.20%

تجارب الاستئصال

من خلال مقارنة النتائج مع وبدون معالجة مسبقة ومعايرة، تم إثبات أهمية معالجة النصوص:

تحسن الدقة: من 88.20% إلى 96.20% (+8%)
تحسن TPR: من 94.28% إلى 97.14%
تحسن TNR: من 87.74% إلى 96.12%

تحليل الحالات

مثال على تأثير معالجة النصوص:

احتمالية كلمة "call" في Smishing ارتفعت من 0.443425 إلى 0.464832
احتمالية كلمة "offer" في Smishing ارتفعت من 0.033639 إلى 0.055046
بعد المعايرة، تصبح دلالات الكلمات أكثر اتساقاً، مما يحسن دقة حكم المصنف

الأعمال ذات الصلة

تصنيف هجمات التصيد على الأجهزة المحمولة

تقترح الورقة تصنيفاً شاملاً لهجمات التصيد على الأجهزة المحمولة:

هجمات الهندسة الاجتماعية: الرسائل النصية، VoIP، المواقع الإلكترونية، البريد الإلكتروني
هجمات التطبيقات المحمولة: هجمات التشابه، هجمات إعادة التوجيه، الهجمات الخلفية
هجمات البرامج الضارة: أحصنة طروادة، الديدان، rootkit، برامج الفدية
هجمات الشبكات الاجتماعية: انتحال الهوية، الروابط الضارة، الملفات الشخصية المزيفة
هجمات حقن المحتوى: هجمات XSS
هجمات الوسائط اللاسلكية: هجمات Wi-Fi والبلوتوث
هجمات الخداع التقني: تلويث DNS، هجمات الوسيط

تصنيف آليات الدفاع

تثقيف المستخدمين: آليات التحذير، التدريب المعتمد على الألعاب
كشف Smishing: S-Detector و SMSAssassin وطريقة DCA
كشف صفحات التصيد الاحتيالي: MobiFish و kAYO و MP-Shield
كشف التطبيقات الضارة: VeriUI و StopBankun و Andromaly
تقنية رموز QR: تسجيل الدخول الموحد، أنظمة المصادقة
مؤشرات الأمان المخصصة

الخلاصة والنقاش

الاستنتاجات الرئيسية

أهمية معالجة النصوص: المعالجة المسبقة والمعايرة تحسن بشكل كبير دقة الكشف (+8%)
فعالية الطريقة: تحقيق دقة متفوقة بنسبة 96.20% على مجموعات البيانات المتاحة للعموم
القيمة العملية: توفير حل كشف Smishing شامل
المساهمة النظرية: تصنيف منهجي لهجمات التصيد على الأجهزة المحمولة وآليات الدفاع

القيود

قيود مجموعة البيانات:
- غياب مجموعة بيانات متخصصة في Smishing، تتطلب استخراج يدوي من الرسائل غير المرغوبة
- حجم مجموعة البيانات نسبياً صغير (362 رسالة Smishing)
- دعم النصوص الإنجليزية فقط
قيود الطريقة:
- تعتمد فقط على محتوى النص، لم تأخذ في الاعتبار الروابط والمرسل وغيرها من الميزات
- تعتمد على جودة القاموس، قد يكون هناك مشاكل في عدم اكتمال تغطية القاموس
- تحتاج إلى التحقق من قابلية التكيف مع أنواع الهجمات الجديدة
قيود التجربة:
- نقص المقارنة مع طرق أكثر حداثة
- عدم إجراء التحقق عبر مجموعات البيانات المختلفة
- غياب تقييم الأداء في الوقت الفعلي

الاتجاهات المستقبلية

تحليل الروابط: دمج ميزات الروابط لكشف الروابط الضارة والتنزيلات
فهم السياق: تحسين عملية المعايرة، اختيار أفضل معنى للكلمة بناءً على السياق
توسيع مجموعة البيانات: بناء مجموعة بيانات أكبر وأكثر تنوعاً لغوياً
الدمج متعدد الأنماط: دمج ميزات متعددة مثل النص والروابط ومعلومات المرسل
النشر في الوقت الفعلي: تحسين كفاءة الخوارزمية لدعم الكشف في الوقت الفعلي على الأجهزة المحمولة

التقييم المتعمق

المميزات

قوة استهداف المشكلة: تركيز متخصص على تهديد أمني مهم لكن بحث محدود
ابتكار الطريقة: أول تطبيق منهجي لمعالجة النصوص في كشف Smishing
اكتمال التجارب: إثبات مساهمة كل مكون من خلال تجارب الاستئصال
شمول مراجعة الأدبيات: توفير واحدة من أشمل المراجعات في هذا المجال
قيمة عملية عالية: طريقة بسيطة وفعالة، سهلة النشر العملي

أوجه القصور

عمق تقني محدود: الاعتماد الأساسي على طرق التعلم الآلي التقليدية، عدم استكشاف التعلم العميق
هندسة ميزات بسيطة: استخدام محتوى النص فقط، ميزات نسبياً محدودة
تقييم غير شامل: غياب تحليل تأثير معدل الإنذارات الكاذبة على تجربة المستخدم
مشاكل قابلية التوسع: قدرة التعميم على أنواع الهجمات الجديدة تحتاج إلى التحقق
الأداء في الوقت الفعلي غير معروف: غياب اختبارات الأداء على الأجهزة المحمولة

التأثير

المساهمة الأكاديمية:
- ملء الفراغ في بحث كشف Smishing
- توفير تصنيف منهجي للهجمات والدفاعات
- إثبات أهمية معالجة النصوص في الكشف الأمني
القيمة العملية:
- تطبيق مباشر في منتجات الأمان المحمول
- توفير حل تصفية لبوابات SMS
- توفير أداة حماية شخصية للمستخدمين
قابلية إعادة الإنتاج:
- استخدام مجموعات بيانات متاحة للعموم
- وصف واضح للطريقة
- توفير تفاصيل خوارزمية شاملة

حالات الاستخدام

مشغلو الاتصالات المحمولة: تصفية بوابات SMS في الوقت الفعلي
شركات الأمان: التكامل في منتجات الأمان المحمول
المستخدمون الشركاتيون: مراقبة أمان SMS الداخلية
المستخدمون الفرديون: تطبيقات أمان الهواتف الذكية
مؤسسات البحث: كطريقة أساسية لمزيد من التحسينات

المراجع

تستشهد الورقة بـ 63 مرجعاً ذا صلة، تغطي:

الطرق الكلاسيكية لكشف هجمات التصيد الاحتيالي
تحليل تهديدات الأمان المحمول
تطبيق التعلم الآلي في تصنيف النصوص
تقنيات تصفية رسائل SMS غير المرغوبة
طرق كشف البرامج الضارة المحمولة

تستند بشكل أساسي إلى تقارير APWG حول هجمات التصيد الاحتيالي وأوراق مؤتمرات IEEE و ACM، بالإضافة إلى مقالات مجلات مهمة في المجال، مع استشهادات موثوقة وشاملة نسبياً.

التقييم الإجمالي: هذه ورقة بحثية عملية تتناول مشكلة أمنية مهمة، مع بعض الابتكار في الطريقة ونتائج تجريبية مرضية. على الرغم من أن العمق التقني محدود، إلا أنها توفر طريقة أساسية فعالة لكشف Smishing، وتتمتع بقيمة أكاديمية وعملية جيدة.