2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel
Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
academic

Detección y Prevención de Ataques de Smishing

Información Básica

  • ID del Artículo: 2501.00260
  • Título: Detection and Prevention of Smishing Attacks
  • Autor: Diksha Goel (Número de Matrícula: 31603217)
  • Asesor: Sr. Ankit Kumar Jain (Profesor Asistente)
  • Clasificación: cs.CR cs.SI
  • Fecha de Publicación: Junio 2018 (Disertación de Maestría en Tecnología)
  • Institución: Departamento de Ingeniería Informática, Instituto Nacional de Tecnología Kurukshetra-136119, Haryana (India)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00260

Resumen

A medida que las funcionalidades de los teléfonos inteligentes se acercan cada vez más a las computadoras de escritorio, los atacantes han dirigido su atención hacia los usuarios de dispositivos móviles. El smishing (suplantación de identidad por SMS) es un ataque de phishing realizado a través del servicio de mensajes de texto, cuyo objetivo es robar información sensible de los usuarios. A pesar del crecimiento exponencial de los ataques de smishing, la investigación sobre detección de estas amenazas es relativamente limitada. Este estudio propone un modelo de detección de smishing basado en análisis de contenido, que normaliza el texto para procesar jerga, abreviaturas y formas simplificadas, utilizando clasificadores de aprendizaje automático para distinguir entre mensajes de smishing y SMS normales. Los resultados experimentales demuestran que el modelo alcanza una precisión de clasificación del 97,14% para mensajes de smishing, del 96,12% para mensajes normales, con una precisión general del 96,20%.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Principal: Con el aumento exponencial de usuarios de teléfonos inteligentes (se proyecta que alcanzarán 2.870 millones en 2020), los SMS se han convertido en el canal principal para que los atacantes realicen ataques de phishing. Los ataques de smishing aprovechan la alta confianza de los usuarios en los SMS (el 35% de los usuarios considera que los SMS son la plataforma de mensajería más confiable) para cometer fraudes.
  2. Importancia del Problema:
    • El 33% de los usuarios móviles ha recibido mensajes de smishing
    • El 42% de los usuarios móviles hace clic en enlaces maliciosos
    • Los usuarios de teléfonos inteligentes tienen 3 veces más riesgo de sufrir ataques de phishing que los usuarios de escritorio
    • En 2017, el 45% de los usuarios recibieron mensajes de smishing, un aumento del 2% respecto a 2016
  3. Limitaciones de los Métodos Existentes:
    • Existen muchas técnicas de detección de spam por SMS, pero la investigación específica sobre smishing es limitada
    • La jerga, abreviaturas y formas simplificadas en el texto reducen la eficiencia del clasificador
    • Falta un mecanismo efectivo de normalización de texto
  4. Motivación de la Investigación:
    • Las limitaciones de hardware de los dispositivos móviles (pantallas pequeñas, falta de indicadores de seguridad) aumentan la tasa de éxito de los ataques
    • Es necesario detectar efectivamente los ataques de smishing mientras se protege la privacidad del usuario
    • Las soluciones existentes requieren mejora en precisión

Contribuciones Principales

  1. Propuesta de un modelo completo de seguridad contra smishing: Marco de detección de dos etapas basado en análisis de contenido
  2. Método innovador de normalización de texto: Utiliza el diccionario NoSlang para procesar jerga, abreviaturas y formas simplificadas, mejorando significativamente la precisión de clasificación
  3. Taxonomía completa de ataques de phishing móvil: Clasificación sistemática de 7 categorías principales de ataques de phishing móvil
  4. Rendimiento de detección excepcional: Logra una precisión general del 96,20% en conjuntos de datos públicos
  5. Revisión exhaustiva de la literatura: Proporciona un análisis completo de ataques de phishing móvil y mecanismos de defensa

Explicación Detallada del Método

Definición de la Tarea

Entrada: Mensaje de texto SMS Salida: Resultado de clasificación binaria (mensaje de smishing o mensaje legítimo) Restricciones: Proteger la privacidad del usuario, detección en tiempo real, alta precisión

Arquitectura del Modelo

El modelo adopta una arquitectura de dos etapas:

Etapa 1: Preprocesamiento y Normalización

Algoritmo 1: Algoritmo de Preprocesamiento y Normalización
Entrada: msg (mensaje), dict (diccionario NoSlang), stop (palabras vacías)
Salida: n_msg (mensaje preprocesado y normalizado)

Pasos Específicos:

  1. Tokenización: Dividir el texto en tokens
  2. Conversión a Minúsculas: Convertir uniformemente a minúsculas
  3. Normalización: Reemplazar jerga y abreviaturas usando el diccionario NoSlang
  4. Eliminación de Palabras Vacías: Eliminar 153 palabras vacías en inglés de NLTK
  5. Extracción de Raíces (Stemming): Restaurar vocabulario a su forma raíz

Etapa 2: Clasificación

Algoritmo 2: Algoritmo de Clasificación
Entrada: D (conjunto de datos), n_msg (mensaje preprocesado y normalizado)
Salida: Mensaje legítimo o de smishing

Clasificador Bayesiano: Utiliza el teorema de Bayes ingenuo para clasificación:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

Donde:

  • p(Ckx)p(C_k|x): Probabilidad posterior de pertenecer a la clase CkC_k dadas las características x
  • p(xCk)p(x|C_k): Probabilidad de verosimilitud de las características x dada la clase CkC_k
  • p(Ck)p(C_k): Probabilidad previa de la clase CkC_k

Puntos de Innovación Técnica

  1. Innovación en Normalización de Texto:
    • Primera aplicación del diccionario NoSlang a la detección de smishing
    • Procesamiento sistemático de expresiones de lenguaje informal en SMS
    • Mejora significativa de la capacidad del clasificador para reconocer texto deformado
  2. Marco de Procesamiento de Dos Etapas:
    • La etapa de preprocesamiento asegura consistencia del texto
    • La etapa de clasificación realiza juicios precisos basados en texto normalizado
  3. Diseño de Protección de Privacidad:
    • Procesamiento local, sin involucrar servicios de terceros
    • Basado únicamente en características de contenido de texto, sin recopilar información personal del usuario

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: SMS Spam Dataset v.1 (conjunto de datos público)
  • Escala Original: 5.574 mensajes (4.827 legítimos, 747 spam)
  • Escala Procesada: 5.169 mensajes (4.807 legítimos, 362 smishing)
  • Origen de los Datos:
    • Sitio web Grumbletext: 425 spam
    • Tesis doctoral de la Dra. Caroline Tag: 450 legítimos
    • Corpus SMS de NUS: 3.375 legítimos
    • SMS Spam Corpus v.0.1: 1.002 legítimos, 322 spam
    • Recopilación de Pinterest: 71 smishing

Características Estadísticas del Conjunto de Datos

CaracterísticaMensajes LegítimosMensajes de Smishing
Número promedio de caracteres74,55148,72
Número promedio de palabras14,7624,72
Frecuencia de aparición de URL0,00270,2513
Frecuencia de símbolos ($,€)0,00370,0193

Métricas de Evaluación

  • Tasa de Verdaderos Positivos (TPR): TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • Tasa de Verdaderos Negativos (TNR): TNR=TNTN+FPTNR = \frac{TN}{TN + FP}
  • Tasa de Falsos Positivos (FPR): FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
  • Precisión (Accuracy): A=TP+TNTP+TN+FP+FNA = \frac{TP + TN}{TP + TN + FP + FN}

Métodos de Comparación

  • S-Detector (Joo et al.): Clasificador de Bayes ingenuo
  • SMSAssassin (Yadav et al.): Aprendizaje Bayesiano + SVM
  • Lee et al.: Método de detección en entorno en la nube

Detalles de Implementación

  • Plataforma: Python
  • Configuración del Sistema: Procesador i5, 2,4 GHz, 8 GB de RAM
  • Bibliotecas Dependientes: NLTK, CSV, SYS, ConfigParser
  • División de Datos: 90% entrenamiento, 10% prueba

Resultados Experimentales

Resultados Principales

MétodoTPRTNRFPRFNRPrecisión
Sin preprocesamiento y normalización94,28%87,74%12,25%5,71%88,20%
Con preprocesamiento y normalización97,14%96,12%3,87%2,85%96,20%

Resultados de Experimentos Comparativos

MétodoAnálisis de ContenidoNormalización de TextoAlgoritmoPrecisión
Joo et al.Bayes Ingenuo-
Yadav et al.Bayes + SVM84,75%
Lee et al.Análisis de Contenido Fuente-
Método PropuestoBayes Ingenuo96,20%

Experimentos de Ablación

Al comparar resultados con y sin preprocesamiento y normalización, se demuestra la importancia de la normalización de texto:

  • Mejora de Precisión: De 88,20% a 96,20% (+8%)
  • Mejora de TPR: De 94,28% a 97,14%
  • Mejora de TNR: De 87,74% a 96,12%

Análisis de Casos

Ejemplos del efecto de normalización de texto:

  • La probabilidad de smishing de la palabra "call" aumentó de 0,443425 a 0,464832
  • La probabilidad de smishing de la palabra "offer" aumentó de 0,033639 a 0,055046
  • Después de la normalización, la semántica del vocabulario es más consistente, mejorando la precisión del juicio del clasificador

Trabajo Relacionado

Clasificación de Ataques de Phishing Móvil

El artículo propone una taxonomía completa de ataques de phishing móvil:

  1. Ataques de Ingeniería Social: SMS, VoIP, sitios web, correo electrónico
  2. Ataques de Aplicaciones Móviles: Ataques de similitud, ataques de reenvío, ataques de fondo
  3. Ataques de Malware: Troyanos, gusanos, rootkits, ransomware
  4. Ataques en Redes Sociales: Suplantación de identidad, enlaces maliciosos, perfiles falsos
  5. Ataques de Inyección de Contenido: Ataques XSS
  6. Ataques de Medios Inalámbricos: Ataques Wi-Fi, Bluetooth
  7. Ataques de Engaño Técnico: Envenenamiento de DNS, ataques de intermediario

Clasificación de Mecanismos de Defensa

  1. Educación del Usuario: Mecanismos de advertencia, capacitación gamificada
  2. Detección de Smishing: S-Detector, SMSAssassin, método DCA
  3. Detección de Páginas de Phishing: MobiFish, kAYO, MP-Shield
  4. Detección de Aplicaciones Maliciosas: VeriUI, StopBankun, Andromaly
  5. Tecnología de Códigos QR: Inicio de sesión único, esquemas de autenticación
  6. Indicadores de Seguridad Personalizados

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de la Normalización de Texto: El preprocesamiento y normalización mejoran significativamente la precisión de detección (+8%)
  2. Efectividad del Método: Logra una precisión excepcional del 96,20% en conjuntos de datos públicos
  3. Valor Práctico: Proporciona una solución completa de detección de smishing
  4. Contribución Teórica: Clasificación sistemática de ataques de phishing móvil y mecanismos de defensa

Limitaciones

  1. Limitaciones del Conjunto de Datos:
    • Falta de conjunto de datos especializado en smishing, requiere extracción manual de spam
    • Escala de conjunto de datos relativamente pequeña (362 mensajes de smishing)
    • Solo soporta texto en inglés
  2. Limitaciones del Método:
    • Basado únicamente en contenido de texto, sin considerar características como URL y remitente
    • Depende de la calidad del diccionario, puede haber problemas de cobertura incompleta
    • La capacidad de adaptación a nuevas técnicas de ataque requiere verificación
  3. Limitaciones Experimentales:
    • Falta de comparación con más métodos recientes
    • Sin validación entre conjuntos de datos
    • Falta de evaluación de rendimiento en tiempo real

Direcciones Futuras

  1. Análisis de URL: Combinar características de URL para detectar enlaces maliciosos y descargas
  2. Comprensión Contextual: Mejorar el proceso de normalización, seleccionar el mejor significado según el contexto
  3. Expansión del Conjunto de Datos: Construir conjuntos de datos de smishing más grandes y multilingües
  4. Fusión Multimodal: Combinar múltiples características como texto, URL e información del remitente
  5. Implementación en Tiempo Real: Optimizar la eficiencia del algoritmo para soportar detección en tiempo real en dispositivos móviles

Evaluación Profunda

Fortalezas

  1. Especificidad del Problema: Aborda específicamente la amenaza importante pero poco investigada del smishing
  2. Innovación Metodológica: Primera aplicación sistemática de normalización de texto a la detección de smishing
  3. Experimentación Suficiente: Pruebas de ablación que demuestran la contribución de cada componente
  4. Revisión de Literatura Completa: Proporciona una de las revisiones más exhaustivas en este campo
  5. Alto Valor Práctico: Método simple y efectivo, fácil de implementar en la práctica

Deficiencias

  1. Profundidad Técnica Limitada: Utiliza principalmente métodos tradicionales de aprendizaje automático, sin explorar aprendizaje profundo
  2. Ingeniería de Características Simple: Solo utiliza contenido de texto, características relativamente limitadas
  3. Evaluación Incompleta: Falta análisis del impacto de falsos positivos en la experiencia del usuario
  4. Problemas de Escalabilidad: La capacidad de generalización a nuevas técnicas de ataque requiere verificación
  5. Rendimiento en Tiempo Real Desconocido: Falta de pruebas de rendimiento en dispositivos móviles

Impacto

  1. Contribución Académica:
    • Llena el vacío en la investigación de detección de smishing
    • Proporciona una taxonomía sistemática de ataques y defensas
    • Demuestra la importancia de la normalización de texto en detección de seguridad
  2. Valor Práctico:
    • Puede aplicarse directamente a productos de seguridad móvil
    • Proporciona soluciones de filtrado para puertas de enlace SMS
    • Ofrece herramientas de protección personal para usuarios de teléfonos inteligentes
  3. Reproducibilidad:
    • Utiliza conjuntos de datos públicos
    • Descripción clara del método
    • Proporciona flujos de algoritmos detallados

Escenarios de Aplicación

  1. Operadores Móviles: Filtrado en tiempo real de puertas de enlace SMS
  2. Fabricantes de Seguridad: Integración en productos de seguridad móvil
  3. Usuarios Empresariales: Monitoreo de seguridad SMS interno
  4. Usuarios Individuales: Aplicaciones de seguridad para teléfonos inteligentes
  5. Instituciones de Investigación: Como método base para mejoras posteriores

Referencias Bibliográficas

El artículo cita 63 referencias relacionadas, que abarcan:

  • Métodos clásicos de detección de ataques de phishing
  • Análisis de amenazas de seguridad móvil
  • Aplicación de aprendizaje automático en clasificación de texto
  • Técnicas de filtrado de spam por SMS
  • Métodos de detección de malware móvil

Las referencias principales incluyen reportes de phishing de APWG, artículos de conferencias IEEE y ACM, así como artículos de revistas importantes en campos relacionados, con citas de autoridad y cobertura completa.


Evaluación General: Este es un estudio práctico dirigido a un problema de seguridad importante, con cierta innovación metodológica y resultados experimentales satisfactorios. Aunque la profundidad técnica es limitada, proporciona un método base efectivo para la detección de smishing, con buen valor académico y práctico.