2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel
Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
academic

Detection and Prevention of Smishing Attacks

基本信息

  • 论文ID: 2501.00260
  • 标题: Detection and Prevention of Smishing Attacks
  • 作者: Diksha Goel (Roll No.: 31603217)
  • 导师: Mr. Ankit Kumar Jain (Assistant Professor)
  • 分类: cs.CR cs.SI
  • 发表时间: June 2018 (Master of Technology Dissertation)
  • 机构: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (India)
  • 论文链接: https://arxiv.org/abs/2501.00260

摘要

随着智能手机功能日益接近桌面计算机,攻击者将目标转向移动设备用户。Smishing(SMS钓鱼攻击)是通过短信服务进行的钓鱼攻击,旨在窃取用户敏感信息。尽管smishing攻击数量呈指数增长,但针对这类威胁的检测研究相对有限。本研究提出了一个基于内容分析的smishing检测模型,通过文本标准化处理俚语、缩写和简写形式,使用机器学习分类器区分smishing和正常短信。实验结果表明,该模型对smishing消息的分类准确率达97.14%,对正常消息达96.12%,总体准确率为96.20%。

研究背景与动机

问题定义

  1. 主要问题:随着智能手机用户激增(预计2020年达28.7亿),SMS成为攻击者进行钓鱼攻击的主要渠道。Smishing攻击利用用户对SMS的高信任度(35%的用户认为SMS是最可信的消息平台)进行诈骗。
  2. 问题重要性
    • 33%的移动用户收到过smishing消息
    • 42%的移动用户会点击恶意链接
    • 智能手机用户遭受钓鱼攻击的风险是桌面用户的3倍
    • 2017年45%用户收到smishing消息,较2016年增长2%
  3. 现有方法局限性
    • 垃圾短信检测技术较多,但专门针对smishing的研究较少
    • 文本中的俚语、缩写和简写形式降低了分类器效率
    • 缺乏有效的文本标准化处理机制
  4. 研究动机
    • 移动设备硬件限制(小屏幕、缺乏安全指示器)增加了攻击成功率
    • 需要在保护用户隐私的前提下有效检测smishing攻击
    • 现有解决方案准确率有待提高

核心贡献

  1. 提出了完整的smishing安全模型:基于内容分析的两阶段检测框架
  2. 创新的文本标准化方法:使用NoSlang词典处理俚语、缩写和简写,显著提高分类准确率
  3. 全面的移动钓鱼攻击分类法:系统梳理了7大类移动钓鱼攻击方式
  4. 优异的检测性能:在公开数据集上实现96.20%的总体准确率
  5. 深入的文献综述:提供了移动钓鱼攻击和防御机制的全面分析

方法详解

任务定义

输入:SMS文本消息 输出:二分类结果(smishing消息 或 ham消息) 约束:保护用户隐私,实时检测,高准确率

模型架构

该模型采用两阶段架构:

阶段1:预处理和标准化

Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)

具体步骤

  1. 分词(Tokenization):将文本分割为token
  2. 小写化(Lowercasing):统一转换为小写
  3. 标准化(Normalization):使用NoSlang词典替换俚语和缩写
  4. 停用词移除:删除153个NLTK英语停用词
  5. 词干提取(Stemming):还原词汇到根形式

阶段2:分类

Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message

贝叶斯分类器: 使用朴素贝叶斯定理进行分类:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

其中:

  • p(Ckx)p(C_k|x):给定特征x下属于类别CkC_k的后验概率
  • p(xCk)p(x|C_k):给定类别CkC_k下特征x的似然概率
  • p(Ck)p(C_k):类别CkC_k的先验概率

技术创新点

  1. 文本标准化创新
    • 首次将NoSlang词典应用于smishing检测
    • 系统性处理SMS中的非正式语言表达
    • 显著提升分类器对变形文本的识别能力
  2. 两阶段处理框架
    • 预处理阶段确保文本一致性
    • 分类阶段基于标准化文本进行准确判断
  3. 隐私保护设计
    • 本地处理,不涉及第三方服务
    • 仅基于文本内容特征,不收集用户个人信息

实验设置

数据集

  • 数据源:SMS Spam Dataset v.1(公开数据集)
  • 原始规模:5574条消息(4827条ham,747条spam)
  • 处理后规模:5169条消息(4807条ham,362条smishing)
  • 数据来源
    • Grumbletext网站:425条spam
    • Caroline Tag博士论文:450条ham
    • NUS SMS Corpus:3375条ham
    • SMS Spam Corpus v.0.1:1002条ham,322条spam
    • Pinterest收集:71条smishing

数据集统计特征

特征Ham消息Smishing消息
平均字符数74.55148.72
平均单词数14.7624.72
URL出现频率0.00270.2513
符号($,€)频率0.00370.0193

评价指标

  • True Positive Rate (TPR)TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • True Negative Rate (TNR)TNR=TNTN+FPTNR = \frac{TN}{TN + FP}
  • False Positive Rate (FPR)FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
  • 准确率(Accuracy)A=TP+TNTP+TN+FP+FNA = \frac{TP + TN}{TP + TN + FP + FN}

对比方法

  • S-Detector (Joo et al.):朴素贝叶斯分类器
  • SMSAssassin (Yadav et al.):贝叶斯学习+SVM
  • Lee et al.:云环境检测方法

实现细节

  • 平台:Python
  • 系统配置:i5处理器,2.4GHz,8GB RAM
  • 依赖库:NLTK、CSV、SYS、ConfigParser
  • 数据划分:90%训练,10%测试

实验结果

主要结果

方法TPRTNRFPRFNR准确率
无预处理标准化94.28%87.74%12.25%5.71%88.20%
有预处理标准化97.14%96.12%3.87%2.85%96.20%

对比实验结果

方法内容分析文本标准化算法准确率
Joo et al.朴素贝叶斯-
Yadav et al.贝叶斯+SVM84.75%
Lee et al.源内容分析-
本文方法朴素贝叶斯96.20%

消融实验

通过对比有无预处理标准化的结果,证明了文本标准化的重要性:

  • 准确率提升:从88.20%提升到96.20%(+8%)
  • TPR提升:从94.28%提升到97.14%
  • TNR提升:从87.74%提升到96.12%

案例分析

文本标准化效果示例:

  • "call"词汇的smishing概率从0.443425提升到0.464832
  • "offer"词汇的smishing概率从0.033639提升到0.055046
  • 标准化后词汇语义更加一致,提高了分类器判断准确性

相关工作

移动钓鱼攻击分类

论文提出了完整的移动钓鱼攻击分类法:

  1. 社会工程攻击:SMS、VoIP、网站、邮件
  2. 移动应用攻击:相似性攻击、转发攻击、后台攻击
  3. 恶意软件攻击:木马、蠕虫、rootkit、勒索软件
  4. 社交网络攻击:身份冒充、恶意链接、虚假档案
  5. 内容注入攻击:XSS攻击
  6. 无线媒介攻击:Wi-Fi、蓝牙攻击
  7. 技术欺骗攻击:DNS污染、中间人攻击

防御机制分类

  1. 用户教育:警告机制、游戏化培训
  2. Smishing检测:S-Detector、SMSAssassin、DCA方法
  3. 钓鱼网页检测:MobiFish、kAYO、MP-Shield
  4. 恶意应用检测:VeriUI、StopBankun、Andromaly
  5. QR码技术:单点登录、认证方案
  6. 个性化安全指示器

结论与讨论

主要结论

  1. 文本标准化的重要性:预处理和标准化显著提升检测准确率(+8%)
  2. 方法有效性:在公开数据集上实现96.20%的优异准确率
  3. 实用价值:提供了完整的smishing检测解决方案
  4. 理论贡献:系统梳理了移动钓鱼攻击和防御机制

局限性

  1. 数据集限制
    • 缺乏专门的smishing数据集,需手工从spam中提取
    • 数据集规模相对较小(362条smishing消息)
    • 仅支持英语文本
  2. 方法局限性
    • 仅基于文本内容,未考虑URL、发送者等特征
    • 依赖词典质量,可能存在词典覆盖不全的问题
    • 对新型攻击手段的适应性有待验证
  3. 实验局限性
    • 缺乏与更多最新方法的对比
    • 未进行跨数据集验证
    • 缺乏实时性能评估

未来方向

  1. URL分析:结合URL特征检测恶意链接和下载
  2. 上下文理解:改进标准化过程,根据上下文选择最佳词义
  3. 数据集扩展:构建更大规模、多语言的smishing数据集
  4. 多模态融合:结合文本、URL、发送者信息等多种特征
  5. 实时部署:优化算法效率,支持移动设备实时检测

深度评价

优点

  1. 问题针对性强:专门针对smishing这一重要但研究不足的安全威胁
  2. 方法创新:首次将文本标准化系统性应用于smishing检测
  3. 实验充分:通过消融实验证明了各组件的贡献
  4. 文献综述全面:提供了该领域最全面的综述之一
  5. 实用价值高:方法简单有效,易于实际部署

不足

  1. 技术深度有限:主要使用传统机器学习方法,未探索深度学习
  2. 特征工程简单:仅使用文本内容,特征相对单一
  3. 评估不够全面:缺乏误报率对用户体验的影响分析
  4. 可扩展性问题:对新型攻击手段的泛化能力有待验证
  5. 实时性能未知:缺乏移动设备上的性能测试

影响力

  1. 学术贡献
    • 填补了smishing检测研究的空白
    • 提供了系统性的攻击和防御分类法
    • 证明了文本标准化在安全检测中的重要性
  2. 实用价值
    • 可直接应用于移动安全产品
    • 为SMS网关提供过滤解决方案
    • 为用户提供个人防护工具
  3. 可复现性
    • 使用公开数据集
    • 方法描述清晰
    • 提供了详细的算法流程

适用场景

  1. 移动运营商:SMS网关实时过滤
  2. 安全厂商:集成到移动安全产品
  3. 企业用户:内部SMS安全监控
  4. 个人用户:智能手机安全应用
  5. 研究机构:作为baseline方法进一步改进

参考文献

论文引用了63篇相关文献,涵盖了:

  • 钓鱼攻击检测的经典方法
  • 移动安全威胁分析
  • 机器学习在文本分类中的应用
  • SMS垃圾邮件过滤技术
  • 移动恶意软件检测方法

主要参考了APWG钓鱼攻击报告、IEEE和ACM会议论文,以及相关领域的重要期刊文章,文献引用较为权威和全面。


总体评价:这是一篇针对重要安全问题的实用性研究,在方法上有一定创新,实验结果令人满意。虽然技术深度有限,但为smishing检测提供了有效的baseline方法,具有较好的学术和实用价值。