2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

Detección y Prevención de Ataques de Smishing

Información Básica

ID del Artículo: 2501.00260
Título: Detection and Prevention of Smishing Attacks
Autor: Diksha Goel (Número de Matrícula: 31603217)
Asesor: Sr. Ankit Kumar Jain (Profesor Asistente)
Clasificación: cs.CR cs.SI
Fecha de Publicación: Junio 2018 (Disertación de Maestría en Tecnología)
Institución: Departamento de Ingeniería Informática, Instituto Nacional de Tecnología Kurukshetra-136119, Haryana (India)
Enlace del Artículo: https://arxiv.org/abs/2501.00260

Resumen

A medida que las funcionalidades de los teléfonos inteligentes se acercan cada vez más a las computadoras de escritorio, los atacantes han dirigido su atención hacia los usuarios de dispositivos móviles. El smishing (suplantación de identidad por SMS) es un ataque de phishing realizado a través del servicio de mensajes de texto, cuyo objetivo es robar información sensible de los usuarios. A pesar del crecimiento exponencial de los ataques de smishing, la investigación sobre detección de estas amenazas es relativamente limitada. Este estudio propone un modelo de detección de smishing basado en análisis de contenido, que normaliza el texto para procesar jerga, abreviaturas y formas simplificadas, utilizando clasificadores de aprendizaje automático para distinguir entre mensajes de smishing y SMS normales. Los resultados experimentales demuestran que el modelo alcanza una precisión de clasificación del 97,14% para mensajes de smishing, del 96,12% para mensajes normales, con una precisión general del 96,20%.

Contexto de Investigación y Motivación

Definición del Problema

Problema Principal: Con el aumento exponencial de usuarios de teléfonos inteligentes (se proyecta que alcanzarán 2.870 millones en 2020), los SMS se han convertido en el canal principal para que los atacantes realicen ataques de phishing. Los ataques de smishing aprovechan la alta confianza de los usuarios en los SMS (el 35% de los usuarios considera que los SMS son la plataforma de mensajería más confiable) para cometer fraudes.
Importancia del Problema:
- El 33% de los usuarios móviles ha recibido mensajes de smishing
- El 42% de los usuarios móviles hace clic en enlaces maliciosos
- Los usuarios de teléfonos inteligentes tienen 3 veces más riesgo de sufrir ataques de phishing que los usuarios de escritorio
- En 2017, el 45% de los usuarios recibieron mensajes de smishing, un aumento del 2% respecto a 2016
Limitaciones de los Métodos Existentes:
- Existen muchas técnicas de detección de spam por SMS, pero la investigación específica sobre smishing es limitada
- La jerga, abreviaturas y formas simplificadas en el texto reducen la eficiencia del clasificador
- Falta un mecanismo efectivo de normalización de texto
Motivación de la Investigación:
- Las limitaciones de hardware de los dispositivos móviles (pantallas pequeñas, falta de indicadores de seguridad) aumentan la tasa de éxito de los ataques
- Es necesario detectar efectivamente los ataques de smishing mientras se protege la privacidad del usuario
- Las soluciones existentes requieren mejora en precisión

Contribuciones Principales

Propuesta de un modelo completo de seguridad contra smishing: Marco de detección de dos etapas basado en análisis de contenido
Método innovador de normalización de texto: Utiliza el diccionario NoSlang para procesar jerga, abreviaturas y formas simplificadas, mejorando significativamente la precisión de clasificación
Taxonomía completa de ataques de phishing móvil: Clasificación sistemática de 7 categorías principales de ataques de phishing móvil
Rendimiento de detección excepcional: Logra una precisión general del 96,20% en conjuntos de datos públicos
Revisión exhaustiva de la literatura: Proporciona un análisis completo de ataques de phishing móvil y mecanismos de defensa

Explicación Detallada del Método

Definición de la Tarea

Entrada: Mensaje de texto SMS Salida: Resultado de clasificación binaria (mensaje de smishing o mensaje legítimo) Restricciones: Proteger la privacidad del usuario, detección en tiempo real, alta precisión

Arquitectura del Modelo

El modelo adopta una arquitectura de dos etapas:

Etapa 1: Preprocesamiento y Normalización

Algoritmo 1: Algoritmo de Preprocesamiento y Normalización
Entrada: msg (mensaje), dict (diccionario NoSlang), stop (palabras vacías)
Salida: n_msg (mensaje preprocesado y normalizado)

Pasos Específicos:

Tokenización: Dividir el texto en tokens
Conversión a Minúsculas: Convertir uniformemente a minúsculas
Normalización: Reemplazar jerga y abreviaturas usando el diccionario NoSlang
Eliminación de Palabras Vacías: Eliminar 153 palabras vacías en inglés de NLTK
Extracción de Raíces (Stemming): Restaurar vocabulario a su forma raíz

Etapa 2: Clasificación

Algoritmo 2: Algoritmo de Clasificación
Entrada: D (conjunto de datos), n_msg (mensaje preprocesado y normalizado)
Salida: Mensaje legítimo o de smishing

Clasificador Bayesiano: Utiliza el teorema de Bayes ingenuo para clasificación:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

Donde:

$p(C_k|x)$ : Probabilidad posterior de pertenecer a la clase $C_k$ dadas las características x
$p(x|C_k)$ : Probabilidad de verosimilitud de las características x dada la clase $C_k$
$p(C_k)$ : Probabilidad previa de la clase $C_k$

Puntos de Innovación Técnica

Innovación en Normalización de Texto:
- Primera aplicación del diccionario NoSlang a la detección de smishing
- Procesamiento sistemático de expresiones de lenguaje informal en SMS
- Mejora significativa de la capacidad del clasificador para reconocer texto deformado
Marco de Procesamiento de Dos Etapas:
- La etapa de preprocesamiento asegura consistencia del texto
- La etapa de clasificación realiza juicios precisos basados en texto normalizado
Diseño de Protección de Privacidad:
- Procesamiento local, sin involucrar servicios de terceros
- Basado únicamente en características de contenido de texto, sin recopilar información personal del usuario

Configuración Experimental

Conjunto de Datos

Fuente de Datos: SMS Spam Dataset v.1 (conjunto de datos público)
Escala Original: 5.574 mensajes (4.827 legítimos, 747 spam)
Escala Procesada: 5.169 mensajes (4.807 legítimos, 362 smishing)
Origen de los Datos:
- Sitio web Grumbletext: 425 spam
- Tesis doctoral de la Dra. Caroline Tag: 450 legítimos
- Corpus SMS de NUS: 3.375 legítimos
- SMS Spam Corpus v.0.1: 1.002 legítimos, 322 spam
- Recopilación de Pinterest: 71 smishing

Características Estadísticas del Conjunto de Datos

Característica	Mensajes Legítimos	Mensajes de Smishing
Número promedio de caracteres	74,55	148,72
Número promedio de palabras	14,76	24,72
Frecuencia de aparición de URL	0,0027	0,2513
Frecuencia de símbolos ($,€)	0,0037	0,0193

Métricas de Evaluación

Tasa de Verdaderos Positivos (TPR): $TPR = \frac{TP}{TP + FN}$
Tasa de Verdaderos Negativos (TNR): $TNR = \frac{TN}{TN + FP}$
Tasa de Falsos Positivos (FPR): $FPR = \frac{FP}{FP + TN}$
Precisión (Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

Métodos de Comparación

S-Detector (Joo et al.): Clasificador de Bayes ingenuo
SMSAssassin (Yadav et al.): Aprendizaje Bayesiano + SVM
Lee et al.: Método de detección en entorno en la nube

Detalles de Implementación

Plataforma: Python
Configuración del Sistema: Procesador i5, 2,4 GHz, 8 GB de RAM
Bibliotecas Dependientes: NLTK, CSV, SYS, ConfigParser
División de Datos: 90% entrenamiento, 10% prueba

Resultados Experimentales

Resultados Principales

Método	TPR	TNR	FPR	FNR	Precisión
Sin preprocesamiento y normalización	94,28%	87,74%	12,25%	5,71%	88,20%
Con preprocesamiento y normalización	97,14%	96,12%	3,87%	2,85%	96,20%

Resultados de Experimentos Comparativos

Método	Análisis de Contenido	Normalización de Texto	Algoritmo	Precisión
Joo et al.	✓	✗	Bayes Ingenuo	-
Yadav et al.	✓	✗	Bayes + SVM	84,75%
Lee et al.	✓	✗	Análisis de Contenido Fuente	-
Método Propuesto	✓	✓	Bayes Ingenuo	96,20%

Experimentos de Ablación

Al comparar resultados con y sin preprocesamiento y normalización, se demuestra la importancia de la normalización de texto:

Mejora de Precisión: De 88,20% a 96,20% (+8%)
Mejora de TPR: De 94,28% a 97,14%
Mejora de TNR: De 87,74% a 96,12%

Análisis de Casos

Ejemplos del efecto de normalización de texto:

La probabilidad de smishing de la palabra "call" aumentó de 0,443425 a 0,464832
La probabilidad de smishing de la palabra "offer" aumentó de 0,033639 a 0,055046
Después de la normalización, la semántica del vocabulario es más consistente, mejorando la precisión del juicio del clasificador

Trabajo Relacionado

Clasificación de Ataques de Phishing Móvil

El artículo propone una taxonomía completa de ataques de phishing móvil:

Ataques de Ingeniería Social: SMS, VoIP, sitios web, correo electrónico
Ataques de Aplicaciones Móviles: Ataques de similitud, ataques de reenvío, ataques de fondo
Ataques de Malware: Troyanos, gusanos, rootkits, ransomware
Ataques en Redes Sociales: Suplantación de identidad, enlaces maliciosos, perfiles falsos
Ataques de Inyección de Contenido: Ataques XSS
Ataques de Medios Inalámbricos: Ataques Wi-Fi, Bluetooth
Ataques de Engaño Técnico: Envenenamiento de DNS, ataques de intermediario

Clasificación de Mecanismos de Defensa

Educación del Usuario: Mecanismos de advertencia, capacitación gamificada
Detección de Smishing: S-Detector, SMSAssassin, método DCA
Detección de Páginas de Phishing: MobiFish, kAYO, MP-Shield
Detección de Aplicaciones Maliciosas: VeriUI, StopBankun, Andromaly
Tecnología de Códigos QR: Inicio de sesión único, esquemas de autenticación
Indicadores de Seguridad Personalizados

Conclusiones y Discusión

Conclusiones Principales

Importancia de la Normalización de Texto: El preprocesamiento y normalización mejoran significativamente la precisión de detección (+8%)
Efectividad del Método: Logra una precisión excepcional del 96,20% en conjuntos de datos públicos
Valor Práctico: Proporciona una solución completa de detección de smishing
Contribución Teórica: Clasificación sistemática de ataques de phishing móvil y mecanismos de defensa

Limitaciones

Limitaciones del Conjunto de Datos:
- Falta de conjunto de datos especializado en smishing, requiere extracción manual de spam
- Escala de conjunto de datos relativamente pequeña (362 mensajes de smishing)
- Solo soporta texto en inglés
Limitaciones del Método:
- Basado únicamente en contenido de texto, sin considerar características como URL y remitente
- Depende de la calidad del diccionario, puede haber problemas de cobertura incompleta
- La capacidad de adaptación a nuevas técnicas de ataque requiere verificación
Limitaciones Experimentales:
- Falta de comparación con más métodos recientes
- Sin validación entre conjuntos de datos
- Falta de evaluación de rendimiento en tiempo real

Direcciones Futuras

Análisis de URL: Combinar características de URL para detectar enlaces maliciosos y descargas
Comprensión Contextual: Mejorar el proceso de normalización, seleccionar el mejor significado según el contexto
Expansión del Conjunto de Datos: Construir conjuntos de datos de smishing más grandes y multilingües
Fusión Multimodal: Combinar múltiples características como texto, URL e información del remitente
Implementación en Tiempo Real: Optimizar la eficiencia del algoritmo para soportar detección en tiempo real en dispositivos móviles

Evaluación Profunda

Fortalezas

Especificidad del Problema: Aborda específicamente la amenaza importante pero poco investigada del smishing
Innovación Metodológica: Primera aplicación sistemática de normalización de texto a la detección de smishing
Experimentación Suficiente: Pruebas de ablación que demuestran la contribución de cada componente
Revisión de Literatura Completa: Proporciona una de las revisiones más exhaustivas en este campo
Alto Valor Práctico: Método simple y efectivo, fácil de implementar en la práctica

Deficiencias

Profundidad Técnica Limitada: Utiliza principalmente métodos tradicionales de aprendizaje automático, sin explorar aprendizaje profundo
Ingeniería de Características Simple: Solo utiliza contenido de texto, características relativamente limitadas
Evaluación Incompleta: Falta análisis del impacto de falsos positivos en la experiencia del usuario
Problemas de Escalabilidad: La capacidad de generalización a nuevas técnicas de ataque requiere verificación
Rendimiento en Tiempo Real Desconocido: Falta de pruebas de rendimiento en dispositivos móviles

Impacto

Contribución Académica:
- Llena el vacío en la investigación de detección de smishing
- Proporciona una taxonomía sistemática de ataques y defensas
- Demuestra la importancia de la normalización de texto en detección de seguridad
Valor Práctico:
- Puede aplicarse directamente a productos de seguridad móvil
- Proporciona soluciones de filtrado para puertas de enlace SMS
- Ofrece herramientas de protección personal para usuarios de teléfonos inteligentes
Reproducibilidad:
- Utiliza conjuntos de datos públicos
- Descripción clara del método
- Proporciona flujos de algoritmos detallados

Escenarios de Aplicación

Operadores Móviles: Filtrado en tiempo real de puertas de enlace SMS
Fabricantes de Seguridad: Integración en productos de seguridad móvil
Usuarios Empresariales: Monitoreo de seguridad SMS interno
Usuarios Individuales: Aplicaciones de seguridad para teléfonos inteligentes
Instituciones de Investigación: Como método base para mejoras posteriores

Referencias Bibliográficas

El artículo cita 63 referencias relacionadas, que abarcan:

Métodos clásicos de detección de ataques de phishing
Análisis de amenazas de seguridad móvil
Aplicación de aprendizaje automático en clasificación de texto
Técnicas de filtrado de spam por SMS
Métodos de detección de malware móvil

Las referencias principales incluyen reportes de phishing de APWG, artículos de conferencias IEEE y ACM, así como artículos de revistas importantes en campos relacionados, con citas de autoridad y cobertura completa.

Evaluación General: Este es un estudio práctico dirigido a un problema de seguridad importante, con cierta innovación metodológica y resultados experimentales satisfactorios. Aunque la profundidad técnica es limitada, proporciona un método base efectivo para la detección de smishing, con buen valor académico y práctico.