2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

Обнаружение и предотвращение атак Smishing

Основная информация

ID статьи: 2501.00260
Название: Detection and Prevention of Smishing Attacks
Автор: Diksha Goel (Roll No.: 31603217)
Научный руководитель: Mr. Ankit Kumar Jain (Assistant Professor)
Классификация: cs.CR cs.SI
Дата публикации: июнь 2018 (диссертация магистра технологий)
Учреждение: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (India)
Ссылка на статью: https://arxiv.org/abs/2501.00260

Аннотация

По мере того как функциональность смартфонов приближается к возможностям настольных компьютеров, злоумышленники переориентируют свои атаки на пользователей мобильных устройств. Smishing (фишинг через SMS) — это фишинг-атака, осуществляемая через сервис коротких сообщений, целью которой является кража конфиденциальной информации пользователя. Несмотря на экспоненциальный рост количества атак smishing, исследования по обнаружению таких угроз остаются ограниченными. В данном исследовании предложена модель обнаружения smishing на основе анализа содержания, которая использует нормализацию текста для обработки сленга, аббревиатур и сокращений, а также применяет классификаторы машинного обучения для различения сообщений smishing и обычных SMS. Экспериментальные результаты показывают, что модель достигает точности классификации 97,14% для сообщений smishing, 96,12% для обычных сообщений и общей точности 96,20%.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: С ростом числа пользователей смартфонов (прогнозируется 2,87 миллиарда к 2020 году) SMS становится основным каналом для фишинг-атак. Атаки smishing используют высокий уровень доверия пользователей к SMS (35% пользователей считают SMS наиболее надежной платформой обмена сообщениями) для совершения мошенничества.
Важность проблемы:
- 33% мобильных пользователей получали сообщения smishing
- 42% мобильных пользователей переходят по вредоносным ссылкам
- Риск фишинг-атак для пользователей смартфонов в 3 раза выше, чем для пользователей настольных компьютеров
- В 2017 году 45% пользователей получили сообщения smishing, что на 2% больше, чем в 2016 году
Ограничения существующих методов:
- Технологии обнаружения спама в SMS хорошо развиты, но специализированные исследования smishing ограничены
- Сленг, аббревиатуры и сокращения в текстах снижают эффективность классификаторов
- Отсутствуют эффективные механизмы нормализации текста
Исследовательская мотивация:
- Аппаратные ограничения мобильных устройств (маленький экран, отсутствие индикаторов безопасности) повышают вероятность успеха атак
- Необходимо эффективное обнаружение атак smishing при защите конфиденциальности пользователей
- Существующие решения требуют повышения точности

Основные вклады

Предложена полная модель безопасности smishing: двухэтапная структура обнаружения на основе анализа содержания
Инновационный метод нормализации текста: использование словаря NoSlang для обработки сленга, аббревиатур и сокращений, значительно повышающее точность классификации
Комплексная классификация мобильных фишинг-атак: систематизация 7 основных типов мобильных фишинг-атак
Превосходная производительность обнаружения: достижение общей точности 96,20% на открытом наборе данных
Глубокий обзор литературы: всестороннее изучение мобильных фишинг-атак и механизмов защиты

Подробное описание методологии

Определение задачи

Входные данные: текстовое сообщение SMS Выходные данные: бинарная классификация (сообщение smishing или ham) Ограничения: защита конфиденциальности пользователей, обнаружение в реальном времени, высокая точность

Архитектура модели

Модель использует двухэтапную архитектуру:

Этап 1: Предварительная обработка и нормализация

Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)

Конкретные шаги:

Токенизация (Tokenization): разделение текста на токены
Преобразование в нижний регистр (Lowercasing): унификация в нижний регистр
Нормализация (Normalization): замена сленга и аббревиатур с использованием словаря NoSlang
Удаление стоп-слов: удаление 153 стоп-слов NLTK на английском языке
Стемминг (Stemming): приведение слов к корневой форме

Этап 2: Классификация

Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message

Классификатор Байеса: Использование теоремы наивного Байеса для классификации:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

где:

$p(C_k|x)$ : апостериорная вероятность принадлежности к классу $C_k$ при наличии признака x
$p(x|C_k)$ : функция правдоподобия признака x при классе $C_k$
$p(C_k)$ : априорная вероятность класса $C_k$

Технические инновации

Инновация в нормализации текста:
- Первое применение словаря NoSlang для обнаружения smishing
- Систематическая обработка неформальных языковых выражений в SMS
- Значительное повышение способности классификатора распознавать трансформированный текст
Двухэтапная структура обработки:
- Этап предварительной обработки обеспечивает консистентность текста
- Этап классификации основан на нормализованном тексте для точного определения
Проектирование с учетом защиты конфиденциальности:
- Локальная обработка без привлечения сторонних сервисов
- Анализ только на основе текстовых признаков без сбора личной информации пользователя

Экспериментальная установка

Набор данных

Источник данных: SMS Spam Dataset v.1 (открытый набор данных)
Исходный размер: 5574 сообщения (4827 ham, 747 spam)
Размер после обработки: 5169 сообщений (4807 ham, 362 smishing)
Источники данных:
- Веб-сайт Grumbletext: 425 spam
- Диссертация Dr. Caroline Tag: 450 ham
- NUS SMS Corpus: 3375 ham
- SMS Spam Corpus v.0.1: 1002 ham, 322 spam
- Собрано с Pinterest: 71 smishing

Статистические характеристики набора данных

Характеристика	Сообщения Ham	Сообщения Smishing
Среднее количество символов	74,55	148,72
Среднее количество слов	14,76	24,72
Частота появления URL	0,0027	0,2513
Частота символов ($,€)	0,0037	0,0193

Метрики оценки

True Positive Rate (TPR): $TPR = \frac{TP}{TP + FN}$
True Negative Rate (TNR): $TNR = \frac{TN}{TN + FP}$
False Positive Rate (FPR): $FPR = \frac{FP}{FP + TN}$
Точность (Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

Методы сравнения

S-Detector (Joo et al.): классификатор наивного Байеса
SMSAssassin (Yadav et al.): байесовское обучение + SVM
Lee et al.: метод обнаружения в облачной среде

Детали реализации

Платформа: Python
Конфигурация системы: процессор i5, 2,4 ГГц, 8 ГБ ОЗУ
Зависимые библиотеки: NLTK, CSV, SYS, ConfigParser
Разделение данных: 90% для обучения, 10% для тестирования

Результаты экспериментов

Основные результаты

Метод	TPR	TNR	FPR	FNR	Точность
Без предварительной обработки и нормализации	94,28%	87,74%	12,25%	5,71%	88,20%
С предварительной обработкой и нормализацией	97,14%	96,12%	3,87%	2,85%	96,20%

Результаты сравнительных экспериментов

Метод	Анализ содержания	Нормализация текста	Алгоритм	Точность
Joo et al.	✓	✗	Наивный Байес	-
Yadav et al.	✓	✗	Байес + SVM	84,75%
Lee et al.	✓	✗	Анализ исходного содержания	-
Предложенный метод	✓	✓	Наивный Байес	96,20%

Абляционные эксперименты

Путем сравнения результатов с предварительной обработкой и нормализацией и без них доказана важность нормализации текста:

Повышение точности: с 88,20% до 96,20% (+8%)
Повышение TPR: с 94,28% до 97,14%
Повышение TNR: с 87,74% до 96,12%

Анализ случаев

Примеры эффективности нормализации текста:

Вероятность smishing для слова "call" повысилась с 0,443425 до 0,464832
Вероятность smishing для слова "offer" повысилась с 0,033639 до 0,055046
После нормализации семантика слов становится более согласованной, повышая точность классификатора

Связанные работы

Классификация мобильных фишинг-атак

Статья предлагает комплексную классификацию мобильных фишинг-атак:

Атаки социальной инженерии: SMS, VoIP, веб-сайты, электронная почта
Атаки на мобильные приложения: атаки на основе сходства, атаки переадресации, фоновые атаки
Атаки вредоносного ПО: троянцы, черви, rootkit, программы-вымогатели
Атаки в социальных сетях: выдача личности, вредоносные ссылки, поддельные профили
Атаки внедрения содержания: XSS-атаки
Атаки на беспроводные среды: Wi-Fi, атаки Bluetooth
Атаки технического обмана: загрязнение DNS, атаки типа "человек посередине"

Классификация механизмов защиты

Обучение пользователей: механизмы предупреждения, геймифицированное обучение
Обнаружение Smishing: S-Detector, SMSAssassin, метод DCA
Обнаружение фишинг-страниц: MobiFish, kAYO, MP-Shield
Обнаружение вредоносных приложений: VeriUI, StopBankun, Andromaly
Технология QR-кодов: единая точка входа, схемы аутентификации
Персонализированные индикаторы безопасности

Выводы и обсуждение

Основные выводы

Важность нормализации текста: предварительная обработка и нормализация значительно повышают точность обнаружения (+8%)
Эффективность метода: достижение превосходной точности 96,20% на открытом наборе данных
Практическая ценность: предоставление полного решения для обнаружения smishing
Теоретический вклад: систематизация мобильных фишинг-атак и механизмов защиты

Ограничения

Ограничения набора данных:
- Отсутствие специализированного набора данных smishing, требуется ручное извлечение из spam
- Относительно небольшой размер набора данных (362 сообщения smishing)
- Поддержка только английского языка
Ограничения методологии:
- Анализ только текстового содержания без учета URL, отправителя и других признаков
- Зависимость от качества словаря, возможны пробелы в покрытии словаря
- Адаптивность к новым типам атак требует проверки
Ограничения экспериментов:
- Отсутствие сравнения с большим количеством новых методов
- Отсутствие кросс-валидации на разных наборах данных
- Отсутствие оценки производительности в реальном времени

Направления будущих исследований

Анализ URL: обнаружение вредоносных ссылок и загрузок путем анализа признаков URL
Понимание контекста: улучшение процесса нормализации с выбором оптимального значения слова в зависимости от контекста
Расширение набора данных: создание более крупного многоязычного набора данных smishing
Мультимодальное слияние: объединение текста, URL, информации об отправителе и других признаков
Развертывание в реальном времени: оптимизация алгоритма для поддержки обнаружения в реальном времени на мобильных устройствах

Глубокая оценка

Преимущества

Высокая специфичность проблемы: специализация на важной, но недостаточно изученной угрозе безопасности smishing
Методологическая инновация: первое систематическое применение нормализации текста для обнаружения smishing
Достаточные эксперименты: доказательство вклада каждого компонента через абляционные эксперименты
Комплексный обзор литературы: один из наиболее полных обзоров в этой области
Высокая практическая ценность: простой и эффективный метод, легко развертываемый на практике

Недостатки

Ограниченная техническая глубина: использование в основном традиционных методов машинного обучения без исследования глубокого обучения
Простая инженерия признаков: использование только текстового содержания, относительно ограниченный набор признаков
Неполная оценка: отсутствие анализа влияния ложных срабатываний на пользовательский опыт
Проблемы масштабируемости: неясна способность к обобщению на новые типы атак
Неизвестная производительность в реальном времени: отсутствие тестирования производительности на мобильных устройствах

Влияние

Научный вклад:
- Заполнение пробела в исследованиях обнаружения smishing
- Предоставление систематической классификации атак и защиты
- Доказательство важности нормализации текста в обнаружении безопасности
Практическая ценность:
- Прямое применение в мобильных продуктах безопасности
- Предоставление решения фильтрации для SMS-шлюзов
- Инструмент личной защиты для пользователей
Воспроизводимость:
- Использование открытых наборов данных
- Четкое описание методологии
- Подробное описание алгоритмов

Применимые сценарии

Мобильные операторы: фильтрация SMS-шлюза в реальном времени
Компании безопасности: интеграция в мобильные продукты безопасности
Корпоративные пользователи: мониторинг безопасности внутренних SMS
Индивидуальные пользователи: приложения безопасности смартфонов
Научные учреждения: использование как базовый метод для дальнейшего улучшения

Библиография

Статья ссылается на 63 соответствующих источника, охватывающих:

Классические методы обнаружения фишинга
Анализ угроз мобильной безопасности
Применение машинного обучения в классификации текста
Технологии фильтрации спама в SMS
Методы обнаружения мобильного вредоноса

Основные ссылки включают отчеты APWG по фишингу, статьи конференций IEEE и ACM, а также важные статьи в соответствующих журналах. Цитирование литературы авторитетно и полно.

Общая оценка: Это практическое исследование важной проблемы безопасности с определенной методологической инновацией и удовлетворительными результатами экспериментов. Хотя техническая глубина ограничена, работа предоставляет эффективный базовый метод для обнаружения smishing и имеет хорошую научную и практическую ценность.