随着智能手机功能日益接近桌面计算机,攻击者将目标转向移动设备用户。Smishing(SMS钓鱼攻击)是通过短信服务进行的钓鱼攻击,旨在窃取用户敏感信息。尽管smishing攻击数量呈指数增长,但针对这类威胁的检测研究相对有限。本研究提出了一个基于内容分析的smishing检测模型,通过文本标准化处理俚语、缩写和简写形式,使用机器学习分类器区分smishing和正常短信。实验结果表明,该模型对smishing消息的分类准确率达97.14%,对正常消息达96.12%,总体准确率为96.20%。
输入:SMS文本消息 输出:二分类结果(smishing消息 或 ham消息) 约束:保护用户隐私,实时检测,高准确率
该模型采用两阶段架构:
Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)
具体步骤:
Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message
贝叶斯分类器: 使用朴素贝叶斯定理进行分类:
其中:
| 特征 | Ham消息 | Smishing消息 |
|---|---|---|
| 平均字符数 | 74.55 | 148.72 |
| 平均单词数 | 14.76 | 24.72 |
| URL出现频率 | 0.0027 | 0.2513 |
| 符号($,€)频率 | 0.0037 | 0.0193 |
| 方法 | TPR | TNR | FPR | FNR | 准确率 |
|---|---|---|---|---|---|
| 无预处理标准化 | 94.28% | 87.74% | 12.25% | 5.71% | 88.20% |
| 有预处理标准化 | 97.14% | 96.12% | 3.87% | 2.85% | 96.20% |
| 方法 | 内容分析 | 文本标准化 | 算法 | 准确率 |
|---|---|---|---|---|
| Joo et al. | ✓ | ✗ | 朴素贝叶斯 | - |
| Yadav et al. | ✓ | ✗ | 贝叶斯+SVM | 84.75% |
| Lee et al. | ✓ | ✗ | 源内容分析 | - |
| 本文方法 | ✓ | ✓ | 朴素贝叶斯 | 96.20% |
通过对比有无预处理标准化的结果,证明了文本标准化的重要性:
文本标准化效果示例:
论文提出了完整的移动钓鱼攻击分类法:
论文引用了63篇相关文献,涵盖了:
主要参考了APWG钓鱼攻击报告、IEEE和ACM会议论文,以及相关领域的重要期刊文章,文献引用较为权威和全面。
总体评价:这是一篇针对重要安全问题的实用性研究,在方法上有一定创新,实验结果令人满意。虽然技术深度有限,但为smishing检测提供了有效的baseline方法,具有较好的学术和实用价值。