Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
A medida que las funcionalidades de los teléfonos inteligentes se acercan cada vez más a las computadoras de escritorio, los atacantes han dirigido su atención hacia los usuarios de dispositivos móviles. El smishing (suplantación de identidad por SMS) es un ataque de phishing realizado a través del servicio de mensajes de texto, cuyo objetivo es robar información sensible de los usuarios. A pesar del crecimiento exponencial de los ataques de smishing, la investigación sobre detección de estas amenazas es relativamente limitada. Este estudio propone un modelo de detección de smishing basado en análisis de contenido, que normaliza el texto para procesar jerga, abreviaturas y formas simplificadas, utilizando clasificadores de aprendizaje automático para distinguir entre mensajes de smishing y SMS normales. Los resultados experimentales demuestran que el modelo alcanza una precisión de clasificación del 97,14% para mensajes de smishing, del 96,12% para mensajes normales, con una precisión general del 96,20%.
Problema Principal: Con el aumento exponencial de usuarios de teléfonos inteligentes (se proyecta que alcanzarán 2.870 millones en 2020), los SMS se han convertido en el canal principal para que los atacantes realicen ataques de phishing. Los ataques de smishing aprovechan la alta confianza de los usuarios en los SMS (el 35% de los usuarios considera que los SMS son la plataforma de mensajería más confiable) para cometer fraudes.
Importancia del Problema:
El 33% de los usuarios móviles ha recibido mensajes de smishing
El 42% de los usuarios móviles hace clic en enlaces maliciosos
Los usuarios de teléfonos inteligentes tienen 3 veces más riesgo de sufrir ataques de phishing que los usuarios de escritorio
En 2017, el 45% de los usuarios recibieron mensajes de smishing, un aumento del 2% respecto a 2016
Limitaciones de los Métodos Existentes:
Existen muchas técnicas de detección de spam por SMS, pero la investigación específica sobre smishing es limitada
La jerga, abreviaturas y formas simplificadas en el texto reducen la eficiencia del clasificador
Falta un mecanismo efectivo de normalización de texto
Motivación de la Investigación:
Las limitaciones de hardware de los dispositivos móviles (pantallas pequeñas, falta de indicadores de seguridad) aumentan la tasa de éxito de los ataques
Es necesario detectar efectivamente los ataques de smishing mientras se protege la privacidad del usuario
Las soluciones existentes requieren mejora en precisión
Propuesta de un modelo completo de seguridad contra smishing: Marco de detección de dos etapas basado en análisis de contenido
Método innovador de normalización de texto: Utiliza el diccionario NoSlang para procesar jerga, abreviaturas y formas simplificadas, mejorando significativamente la precisión de clasificación
Taxonomía completa de ataques de phishing móvil: Clasificación sistemática de 7 categorías principales de ataques de phishing móvil
Rendimiento de detección excepcional: Logra una precisión general del 96,20% en conjuntos de datos públicos
Revisión exhaustiva de la literatura: Proporciona un análisis completo de ataques de phishing móvil y mecanismos de defensa
Entrada: Mensaje de texto SMS
Salida: Resultado de clasificación binaria (mensaje de smishing o mensaje legítimo)
Restricciones: Proteger la privacidad del usuario, detección en tiempo real, alta precisión
Algoritmo 2: Algoritmo de Clasificación
Entrada: D (conjunto de datos), n_msg (mensaje preprocesado y normalizado)
Salida: Mensaje legítimo o de smishing
Clasificador Bayesiano:
Utiliza el teorema de Bayes ingenuo para clasificación:
p(Ck∣x)=p(x)p(x∣Ck)p(Ck)
Donde:
p(Ck∣x): Probabilidad posterior de pertenecer a la clase Ck dadas las características x
p(x∣Ck): Probabilidad de verosimilitud de las características x dada la clase Ck
El artículo cita 63 referencias relacionadas, que abarcan:
Métodos clásicos de detección de ataques de phishing
Análisis de amenazas de seguridad móvil
Aplicación de aprendizaje automático en clasificación de texto
Técnicas de filtrado de spam por SMS
Métodos de detección de malware móvil
Las referencias principales incluyen reportes de phishing de APWG, artículos de conferencias IEEE y ACM, así como artículos de revistas importantes en campos relacionados, con citas de autoridad y cobertura completa.
Evaluación General: Este es un estudio práctico dirigido a un problema de seguridad importante, con cierta innovación metodológica y resultados experimentales satisfactorios. Aunque la profundidad técnica es limitada, proporciona un método base efectivo para la detección de smishing, con buen valor académico y práctico.