2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel
Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
academic

Обнаружение и предотвращение атак Smishing

Основная информация

  • ID статьи: 2501.00260
  • Название: Detection and Prevention of Smishing Attacks
  • Автор: Diksha Goel (Roll No.: 31603217)
  • Научный руководитель: Mr. Ankit Kumar Jain (Assistant Professor)
  • Классификация: cs.CR cs.SI
  • Дата публикации: июнь 2018 (диссертация магистра технологий)
  • Учреждение: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (India)
  • Ссылка на статью: https://arxiv.org/abs/2501.00260

Аннотация

По мере того как функциональность смартфонов приближается к возможностям настольных компьютеров, злоумышленники переориентируют свои атаки на пользователей мобильных устройств. Smishing (фишинг через SMS) — это фишинг-атака, осуществляемая через сервис коротких сообщений, целью которой является кража конфиденциальной информации пользователя. Несмотря на экспоненциальный рост количества атак smishing, исследования по обнаружению таких угроз остаются ограниченными. В данном исследовании предложена модель обнаружения smishing на основе анализа содержания, которая использует нормализацию текста для обработки сленга, аббревиатур и сокращений, а также применяет классификаторы машинного обучения для различения сообщений smishing и обычных SMS. Экспериментальные результаты показывают, что модель достигает точности классификации 97,14% для сообщений smishing, 96,12% для обычных сообщений и общей точности 96,20%.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: С ростом числа пользователей смартфонов (прогнозируется 2,87 миллиарда к 2020 году) SMS становится основным каналом для фишинг-атак. Атаки smishing используют высокий уровень доверия пользователей к SMS (35% пользователей считают SMS наиболее надежной платформой обмена сообщениями) для совершения мошенничества.
  2. Важность проблемы:
    • 33% мобильных пользователей получали сообщения smishing
    • 42% мобильных пользователей переходят по вредоносным ссылкам
    • Риск фишинг-атак для пользователей смартфонов в 3 раза выше, чем для пользователей настольных компьютеров
    • В 2017 году 45% пользователей получили сообщения smishing, что на 2% больше, чем в 2016 году
  3. Ограничения существующих методов:
    • Технологии обнаружения спама в SMS хорошо развиты, но специализированные исследования smishing ограничены
    • Сленг, аббревиатуры и сокращения в текстах снижают эффективность классификаторов
    • Отсутствуют эффективные механизмы нормализации текста
  4. Исследовательская мотивация:
    • Аппаратные ограничения мобильных устройств (маленький экран, отсутствие индикаторов безопасности) повышают вероятность успеха атак
    • Необходимо эффективное обнаружение атак smishing при защите конфиденциальности пользователей
    • Существующие решения требуют повышения точности

Основные вклады

  1. Предложена полная модель безопасности smishing: двухэтапная структура обнаружения на основе анализа содержания
  2. Инновационный метод нормализации текста: использование словаря NoSlang для обработки сленга, аббревиатур и сокращений, значительно повышающее точность классификации
  3. Комплексная классификация мобильных фишинг-атак: систематизация 7 основных типов мобильных фишинг-атак
  4. Превосходная производительность обнаружения: достижение общей точности 96,20% на открытом наборе данных
  5. Глубокий обзор литературы: всестороннее изучение мобильных фишинг-атак и механизмов защиты

Подробное описание методологии

Определение задачи

Входные данные: текстовое сообщение SMS Выходные данные: бинарная классификация (сообщение smishing или ham) Ограничения: защита конфиденциальности пользователей, обнаружение в реальном времени, высокая точность

Архитектура модели

Модель использует двухэтапную архитектуру:

Этап 1: Предварительная обработка и нормализация

Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)

Конкретные шаги:

  1. Токенизация (Tokenization): разделение текста на токены
  2. Преобразование в нижний регистр (Lowercasing): унификация в нижний регистр
  3. Нормализация (Normalization): замена сленга и аббревиатур с использованием словаря NoSlang
  4. Удаление стоп-слов: удаление 153 стоп-слов NLTK на английском языке
  5. Стемминг (Stemming): приведение слов к корневой форме

Этап 2: Классификация

Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message

Классификатор Байеса: Использование теоремы наивного Байеса для классификации:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

где:

  • p(Ckx)p(C_k|x): апостериорная вероятность принадлежности к классу CkC_k при наличии признака x
  • p(xCk)p(x|C_k): функция правдоподобия признака x при классе CkC_k
  • p(Ck)p(C_k): априорная вероятность класса CkC_k

Технические инновации

  1. Инновация в нормализации текста:
    • Первое применение словаря NoSlang для обнаружения smishing
    • Систематическая обработка неформальных языковых выражений в SMS
    • Значительное повышение способности классификатора распознавать трансформированный текст
  2. Двухэтапная структура обработки:
    • Этап предварительной обработки обеспечивает консистентность текста
    • Этап классификации основан на нормализованном тексте для точного определения
  3. Проектирование с учетом защиты конфиденциальности:
    • Локальная обработка без привлечения сторонних сервисов
    • Анализ только на основе текстовых признаков без сбора личной информации пользователя

Экспериментальная установка

Набор данных

  • Источник данных: SMS Spam Dataset v.1 (открытый набор данных)
  • Исходный размер: 5574 сообщения (4827 ham, 747 spam)
  • Размер после обработки: 5169 сообщений (4807 ham, 362 smishing)
  • Источники данных:
    • Веб-сайт Grumbletext: 425 spam
    • Диссертация Dr. Caroline Tag: 450 ham
    • NUS SMS Corpus: 3375 ham
    • SMS Spam Corpus v.0.1: 1002 ham, 322 spam
    • Собрано с Pinterest: 71 smishing

Статистические характеристики набора данных

ХарактеристикаСообщения HamСообщения Smishing
Среднее количество символов74,55148,72
Среднее количество слов14,7624,72
Частота появления URL0,00270,2513
Частота символов ($,€)0,00370,0193

Метрики оценки

  • True Positive Rate (TPR): TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • True Negative Rate (TNR): TNR=TNTN+FPTNR = \frac{TN}{TN + FP}
  • False Positive Rate (FPR): FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
  • Точность (Accuracy): A=TP+TNTP+TN+FP+FNA = \frac{TP + TN}{TP + TN + FP + FN}

Методы сравнения

  • S-Detector (Joo et al.): классификатор наивного Байеса
  • SMSAssassin (Yadav et al.): байесовское обучение + SVM
  • Lee et al.: метод обнаружения в облачной среде

Детали реализации

  • Платформа: Python
  • Конфигурация системы: процессор i5, 2,4 ГГц, 8 ГБ ОЗУ
  • Зависимые библиотеки: NLTK, CSV, SYS, ConfigParser
  • Разделение данных: 90% для обучения, 10% для тестирования

Результаты экспериментов

Основные результаты

МетодTPRTNRFPRFNRТочность
Без предварительной обработки и нормализации94,28%87,74%12,25%5,71%88,20%
С предварительной обработкой и нормализацией97,14%96,12%3,87%2,85%96,20%

Результаты сравнительных экспериментов

МетодАнализ содержанияНормализация текстаАлгоритмТочность
Joo et al.Наивный Байес-
Yadav et al.Байес + SVM84,75%
Lee et al.Анализ исходного содержания-
Предложенный методНаивный Байес96,20%

Абляционные эксперименты

Путем сравнения результатов с предварительной обработкой и нормализацией и без них доказана важность нормализации текста:

  • Повышение точности: с 88,20% до 96,20% (+8%)
  • Повышение TPR: с 94,28% до 97,14%
  • Повышение TNR: с 87,74% до 96,12%

Анализ случаев

Примеры эффективности нормализации текста:

  • Вероятность smishing для слова "call" повысилась с 0,443425 до 0,464832
  • Вероятность smishing для слова "offer" повысилась с 0,033639 до 0,055046
  • После нормализации семантика слов становится более согласованной, повышая точность классификатора

Связанные работы

Классификация мобильных фишинг-атак

Статья предлагает комплексную классификацию мобильных фишинг-атак:

  1. Атаки социальной инженерии: SMS, VoIP, веб-сайты, электронная почта
  2. Атаки на мобильные приложения: атаки на основе сходства, атаки переадресации, фоновые атаки
  3. Атаки вредоносного ПО: троянцы, черви, rootkit, программы-вымогатели
  4. Атаки в социальных сетях: выдача личности, вредоносные ссылки, поддельные профили
  5. Атаки внедрения содержания: XSS-атаки
  6. Атаки на беспроводные среды: Wi-Fi, атаки Bluetooth
  7. Атаки технического обмана: загрязнение DNS, атаки типа "человек посередине"

Классификация механизмов защиты

  1. Обучение пользователей: механизмы предупреждения, геймифицированное обучение
  2. Обнаружение Smishing: S-Detector, SMSAssassin, метод DCA
  3. Обнаружение фишинг-страниц: MobiFish, kAYO, MP-Shield
  4. Обнаружение вредоносных приложений: VeriUI, StopBankun, Andromaly
  5. Технология QR-кодов: единая точка входа, схемы аутентификации
  6. Персонализированные индикаторы безопасности

Выводы и обсуждение

Основные выводы

  1. Важность нормализации текста: предварительная обработка и нормализация значительно повышают точность обнаружения (+8%)
  2. Эффективность метода: достижение превосходной точности 96,20% на открытом наборе данных
  3. Практическая ценность: предоставление полного решения для обнаружения smishing
  4. Теоретический вклад: систематизация мобильных фишинг-атак и механизмов защиты

Ограничения

  1. Ограничения набора данных:
    • Отсутствие специализированного набора данных smishing, требуется ручное извлечение из spam
    • Относительно небольшой размер набора данных (362 сообщения smishing)
    • Поддержка только английского языка
  2. Ограничения методологии:
    • Анализ только текстового содержания без учета URL, отправителя и других признаков
    • Зависимость от качества словаря, возможны пробелы в покрытии словаря
    • Адаптивность к новым типам атак требует проверки
  3. Ограничения экспериментов:
    • Отсутствие сравнения с большим количеством новых методов
    • Отсутствие кросс-валидации на разных наборах данных
    • Отсутствие оценки производительности в реальном времени

Направления будущих исследований

  1. Анализ URL: обнаружение вредоносных ссылок и загрузок путем анализа признаков URL
  2. Понимание контекста: улучшение процесса нормализации с выбором оптимального значения слова в зависимости от контекста
  3. Расширение набора данных: создание более крупного многоязычного набора данных smishing
  4. Мультимодальное слияние: объединение текста, URL, информации об отправителе и других признаков
  5. Развертывание в реальном времени: оптимизация алгоритма для поддержки обнаружения в реальном времени на мобильных устройствах

Глубокая оценка

Преимущества

  1. Высокая специфичность проблемы: специализация на важной, но недостаточно изученной угрозе безопасности smishing
  2. Методологическая инновация: первое систематическое применение нормализации текста для обнаружения smishing
  3. Достаточные эксперименты: доказательство вклада каждого компонента через абляционные эксперименты
  4. Комплексный обзор литературы: один из наиболее полных обзоров в этой области
  5. Высокая практическая ценность: простой и эффективный метод, легко развертываемый на практике

Недостатки

  1. Ограниченная техническая глубина: использование в основном традиционных методов машинного обучения без исследования глубокого обучения
  2. Простая инженерия признаков: использование только текстового содержания, относительно ограниченный набор признаков
  3. Неполная оценка: отсутствие анализа влияния ложных срабатываний на пользовательский опыт
  4. Проблемы масштабируемости: неясна способность к обобщению на новые типы атак
  5. Неизвестная производительность в реальном времени: отсутствие тестирования производительности на мобильных устройствах

Влияние

  1. Научный вклад:
    • Заполнение пробела в исследованиях обнаружения smishing
    • Предоставление систематической классификации атак и защиты
    • Доказательство важности нормализации текста в обнаружении безопасности
  2. Практическая ценность:
    • Прямое применение в мобильных продуктах безопасности
    • Предоставление решения фильтрации для SMS-шлюзов
    • Инструмент личной защиты для пользователей
  3. Воспроизводимость:
    • Использование открытых наборов данных
    • Четкое описание методологии
    • Подробное описание алгоритмов

Применимые сценарии

  1. Мобильные операторы: фильтрация SMS-шлюза в реальном времени
  2. Компании безопасности: интеграция в мобильные продукты безопасности
  3. Корпоративные пользователи: мониторинг безопасности внутренних SMS
  4. Индивидуальные пользователи: приложения безопасности смартфонов
  5. Научные учреждения: использование как базовый метод для дальнейшего улучшения

Библиография

Статья ссылается на 63 соответствующих источника, охватывающих:

  • Классические методы обнаружения фишинга
  • Анализ угроз мобильной безопасности
  • Применение машинного обучения в классификации текста
  • Технологии фильтрации спама в SMS
  • Методы обнаружения мобильного вредоноса

Основные ссылки включают отчеты APWG по фишингу, статьи конференций IEEE и ACM, а также важные статьи в соответствующих журналах. Цитирование литературы авторитетно и полно.


Общая оценка: Это практическое исследование важной проблемы безопасности с определенной методологической инновацией и удовлетворительными результатами экспериментов. Хотя техническая глубина ограничена, работа предоставляет эффективный базовый метод для обнаружения smishing и имеет хорошую научную и практическую ценность.