2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

Rilevamento e Prevenzione degli Attacchi Smishing

Informazioni Fondamentali

ID Articolo: 2501.00260
Titolo: Detection and Prevention of Smishing Attacks
Autore: Diksha Goel (Numero di Matricola: 31603217)
Relatore: Mr. Ankit Kumar Jain (Professore Assistente)
Classificazione: cs.CR cs.SI
Data di Pubblicazione: Giugno 2018 (Dissertazione di Master in Tecnologia)
Istituzione: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (India)
Link Articolo: https://arxiv.org/abs/2501.00260

Riassunto

Con l'evoluzione delle funzionalità degli smartphone verso le capacità dei computer desktop, gli attaccanti hanno rivolto la loro attenzione agli utenti di dispositivi mobili. Lo smishing (phishing via SMS) è un attacco di phishing condotto attraverso il servizio di messaggistica SMS, mirato al furto di informazioni sensibili degli utenti. Nonostante il numero di attacchi smishing cresca esponenzialmente, la ricerca sul rilevamento di tali minacce rimane relativamente limitata. Questo studio propone un modello di rilevamento dello smishing basato sull'analisi dei contenuti, che normalizza il testo gestendo slang, abbreviazioni e forme abbreviate, utilizzando classificatori di apprendimento automatico per distinguere tra messaggi smishing e messaggi legittimi. I risultati sperimentali dimostrano che il modello raggiunge un'accuratezza di classificazione del 97,14% per i messaggi smishing, del 96,12% per i messaggi legittimi, con un'accuratezza complessiva del 96,20%.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Principale: Con l'aumento esponenziale degli utenti di smartphone (previsto raggiungere 2,87 miliardi nel 2020), l'SMS è diventato il canale principale per gli attacchi di phishing. Gli attacchi smishing sfruttano l'elevata fiducia degli utenti negli SMS (il 35% degli utenti considera l'SMS la piattaforma di messaggistica più affidabile) per perpetrare frodi.
Importanza del Problema:
- Il 33% degli utenti mobili ha ricevuto messaggi smishing
- Il 42% degli utenti mobili fa clic su link malevoli
- Gli utenti di smartphone corrono un rischio 3 volte maggiore di subire attacchi di phishing rispetto agli utenti desktop
- Nel 2017, il 45% degli utenti ha ricevuto messaggi smishing, con un aumento del 2% rispetto al 2016
Limitazioni dei Metodi Esistenti:
- Sebbene esistano molte tecniche di rilevamento dello spam SMS, la ricerca specificamente dedicata allo smishing è limitata
- La presenza di slang, abbreviazioni e forme abbreviate nel testo riduce l'efficienza dei classificatori
- Mancano meccanismi efficaci di normalizzazione del testo
Motivazione della Ricerca:
- I vincoli hardware dei dispositivi mobili (schermi piccoli, mancanza di indicatori di sicurezza) aumentano il tasso di successo degli attacchi
- È necessario rilevare efficacemente gli attacchi smishing proteggendo la privacy degli utenti
- Le soluzioni esistenti presentano accuratezza insufficiente

Contributi Principali

Propone un modello di sicurezza smishing completo: Framework di rilevamento a due fasi basato sull'analisi dei contenuti
Metodo innovativo di normalizzazione del testo: Utilizza il dizionario NoSlang per gestire slang, abbreviazioni e forme abbreviate, migliorando significativamente l'accuratezza della classificazione
Tassonomia completa degli attacchi di phishing mobile: Sistematizza 7 categorie principali di attacchi di phishing mobile
Prestazioni di rilevamento eccellenti: Raggiunge un'accuratezza complessiva del 96,20% su dataset pubblici
Revisione della letteratura approfondita: Fornisce un'analisi completa degli attacchi di phishing mobile e dei meccanismi di difesa

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Messaggio di testo SMS Output: Risultato di classificazione binaria (messaggio smishing o messaggio ham) Vincoli: Protezione della privacy degli utenti, rilevamento in tempo reale, elevata accuratezza

Architettura del Modello

Il modello adotta un'architettura a due fasi:

Fase 1: Preprocessing e Normalizzazione

Algoritmo 1: Algoritmo di Preprocessing e Normalizzazione
Input: msg (messaggio), dict (dizionario NoSlang), stop (parole vuote)
Output: n_msg (messaggio preprocessato e normalizzato)

Passaggi Specifici:

Tokenizzazione: Divisione del testo in token
Conversione a Minuscole: Conversione uniforme a minuscole
Normalizzazione: Sostituzione di slang e abbreviazioni utilizzando il dizionario NoSlang
Rimozione delle Parole Vuote: Eliminazione di 153 parole vuote inglesi NLTK
Stemming: Riduzione del vocabolario alla forma radice

Fase 2: Classificazione

Algoritmo 2: Algoritmo di Classificazione
Input: D (dataset), n_msg (messaggio preprocessato e normalizzato)
Output: messaggio ham o smishing

Classificatore Bayesiano: Utilizza il teorema di Bayes ingenuo per la classificazione:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

Dove:

$p(C_k|x)$ : Probabilità posteriore di appartenenza alla classe $C_k$ dato il caratteristica x
$p(x|C_k)$ : Probabilità di verosimiglianza della caratteristica x data la classe $C_k$
$p(C_k)$ : Probabilità a priori della classe $C_k$

Punti di Innovazione Tecnica

Innovazione nella Normalizzazione del Testo:
- Prima applicazione del dizionario NoSlang al rilevamento dello smishing
- Gestione sistematica dell'espressione linguistica informale negli SMS
- Miglioramento significativo della capacità del classificatore di riconoscere testi deformati
Framework di Elaborazione a Due Fasi:
- La fase di preprocessing assicura la coerenza del testo
- La fase di classificazione esegue giudizi accurati basati su testo normalizzato
Progettazione della Protezione della Privacy:
- Elaborazione locale, senza coinvolgimento di servizi di terze parti
- Basato esclusivamente su caratteristiche di contenuto testuale, senza raccolta di informazioni personali degli utenti

Configurazione Sperimentale

Dataset

Fonte dei Dati: SMS Spam Dataset v.1 (dataset pubblico)
Scala Originale: 5574 messaggi (4827 ham, 747 spam)
Scala Dopo l'Elaborazione: 5169 messaggi (4807 ham, 362 smishing)
Fonti dei Dati:
- Sito web Grumbletext: 425 spam
- Dissertazione della Dott.ssa Caroline Tag: 450 ham
- NUS SMS Corpus: 3375 ham
- SMS Spam Corpus v.0.1: 1002 ham, 322 spam
- Raccolta da Pinterest: 71 smishing

Caratteristiche Statistiche del Dataset

Caratteristica	Messaggi Ham	Messaggi Smishing
Numero medio di caratteri	74,55	148,72
Numero medio di parole	14,76	24,72
Frequenza di URL	0,0027	0,2513
Frequenza di simboli ($,€)	0,0037	0,0193

Metriche di Valutazione

True Positive Rate (TPR): $TPR = \frac{TP}{TP + FN}$
True Negative Rate (TNR): $TNR = \frac{TN}{TN + FP}$
False Positive Rate (FPR): $FPR = \frac{FP}{FP + TN}$
Accuratezza: $A = \frac{TP + TN}{TP + TN + FP + FN}$

Metodi di Confronto

S-Detector (Joo et al.): Classificatore Bayesiano Ingenuo
SMSAssassin (Yadav et al.): Apprendimento Bayesiano + SVM
Lee et al.: Metodo di rilevamento in ambiente cloud

Dettagli di Implementazione

Piattaforma: Python
Configurazione di Sistema: Processore i5, 2,4GHz, 8GB RAM
Librerie Dipendenti: NLTK, CSV, SYS, ConfigParser
Divisione dei Dati: 90% addestramento, 10% test

Risultati Sperimentali

Risultati Principali

Metodo	TPR	TNR	FPR	FNR	Accuratezza
Senza preprocessing e normalizzazione	94,28%	87,74%	12,25%	5,71%	88,20%
Con preprocessing e normalizzazione	97,14%	96,12%	3,87%	2,85%	96,20%

Risultati degli Esperimenti di Confronto

Metodo	Analisi dei Contenuti	Normalizzazione del Testo	Algoritmo	Accuratezza
Joo et al.	✓	✗	Bayes Ingenuo	-
Yadav et al.	✓	✗	Bayes + SVM	84,75%
Lee et al.	✓	✗	Analisi del Contenuto Sorgente	-
Metodo Proposto	✓	✓	Bayes Ingenuo	96,20%

Esperimenti di Ablazione

Confrontando i risultati con e senza preprocessing e normalizzazione, viene provata l'importanza della normalizzazione del testo:

Miglioramento dell'Accuratezza: Da 88,20% a 96,20% (+8%)
Miglioramento del TPR: Da 94,28% a 97,14%
Miglioramento del TNR: Da 87,74% a 96,12%

Analisi dei Casi

Esempio dell'effetto della normalizzazione del testo:

La probabilità smishing della parola "call" aumenta da 0,443425 a 0,464832
La probabilità smishing della parola "offer" aumenta da 0,033639 a 0,055046
Dopo la normalizzazione, la semantica del vocabolario è più coerente, migliorando l'accuratezza del giudizio del classificatore

Lavori Correlati

Classificazione degli Attacchi di Phishing Mobile

L'articolo propone una tassonomia completa degli attacchi di phishing mobile:

Attacchi di Ingegneria Sociale: SMS, VoIP, siti web, posta elettronica
Attacchi alle Applicazioni Mobile: Attacchi di somiglianza, attacchi di inoltro, attacchi in background
Attacchi di Malware: Trojan, worm, rootkit, ransomware
Attacchi ai Social Network: Usurpazione di identità, link malevoli, profili falsi
Attacchi di Iniezione di Contenuti: Attacchi XSS
Attacchi su Mezzi Wireless: Attacchi Wi-Fi, Bluetooth
Attacchi di Inganno Tecnico: Avvelenamento DNS, attacchi man-in-the-middle

Classificazione dei Meccanismi di Difesa

Educazione degli Utenti: Meccanismi di avvertimento, formazione gamificata
Rilevamento dello Smishing: S-Detector, SMSAssassin, metodo DCA
Rilevamento di Pagine di Phishing: MobiFish, kAYO, MP-Shield
Rilevamento di Applicazioni Maligne: VeriUI, StopBankun, Andromaly
Tecnologia Codice QR: Single Sign-On, schemi di autenticazione
Indicatori di Sicurezza Personalizzati

Conclusioni e Discussione

Conclusioni Principali

Importanza della Normalizzazione del Testo: Il preprocessing e la normalizzazione migliorano significativamente l'accuratezza del rilevamento (+8%)
Efficacia del Metodo: Raggiunge un'accuratezza eccellente del 96,20% su dataset pubblici
Valore Pratico: Fornisce una soluzione completa di rilevamento dello smishing
Contributo Teorico: Sistematizza gli attacchi di phishing mobile e i meccanismi di difesa

Limitazioni

Limitazioni del Dataset:
- Mancanza di dataset dedicato allo smishing, necessità di estrazione manuale dallo spam
- Dimensione del dataset relativamente piccola (362 messaggi smishing)
- Supporto solo per testo in inglese
Limitazioni del Metodo:
- Basato esclusivamente su contenuto testuale, non considera URL, mittente e altre caratteristiche
- Dipende dalla qualità del dizionario, possibile copertura incompleta del dizionario
- L'adattabilità a nuove forme di attacco rimane da verificare
Limitazioni Sperimentali:
- Mancanza di confronto con più metodi recenti
- Assenza di validazione cross-dataset
- Mancanza di valutazione delle prestazioni in tempo reale

Direzioni Future

Analisi degli URL: Combinare caratteristiche degli URL per rilevare link malevoli e download
Comprensione Contestuale: Migliorare il processo di normalizzazione, selezionando il significato migliore in base al contesto
Espansione del Dataset: Costruire dataset smishing di dimensioni maggiori e multilingue
Fusione Multimodale: Combinare testo, URL, informazioni del mittente e altre caratteristiche multiple
Distribuzione in Tempo Reale: Ottimizzare l'efficienza dell'algoritmo, supportare il rilevamento in tempo reale su dispositivi mobili

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Affronta specificamente la minaccia smishing, importante ma poco studiata
Innovazione Metodologica: Prima applicazione sistematica della normalizzazione del testo al rilevamento dello smishing
Esperimenti Sufficienti: Esperimenti di ablazione provano il contributo di ogni componente
Revisione della Letteratura Completa: Fornisce una delle rassegne più complete in questo campo
Elevato Valore Pratico: Il metodo è semplice, efficace e facile da distribuire in pratica

Insufficienze

Profondità Tecnica Limitata: Utilizza principalmente metodi di apprendimento automatico tradizionali, non esplora l'apprendimento profondo
Ingegneria delle Caratteristiche Semplice: Utilizza solo contenuto testuale, caratteristiche relativamente singolari
Valutazione Non Sufficientemente Completa: Manca l'analisi dell'impatto del tasso di falsi positivi sull'esperienza utente
Problemi di Scalabilità: La capacità di generalizzazione a nuove forme di attacco rimane da verificare
Prestazioni in Tempo Reale Sconosciute: Mancano test di prestazioni su dispositivi mobili

Impatto

Contributo Accademico:
- Colma il vuoto nella ricerca sul rilevamento dello smishing
- Fornisce una tassonomia sistematica di attacchi e difese
- Dimostra l'importanza della normalizzazione del testo nel rilevamento della sicurezza
Valore Pratico:
- Applicabile direttamente ai prodotti di sicurezza mobile
- Fornisce soluzioni di filtro per gateway SMS
- Fornisce strumenti di protezione personale per gli utenti
Riproducibilità:
- Utilizza dataset pubblici
- Descrizione del metodo chiara
- Fornisce flussi di algoritmi dettagliati

Scenari Applicabili

Operatori Mobili: Filtro in tempo reale del gateway SMS
Fornitori di Sicurezza: Integrazione nei prodotti di sicurezza mobile
Utenti Aziendali: Monitoraggio della sicurezza SMS interno
Utenti Personali: Applicazioni di sicurezza per smartphone
Istituzioni di Ricerca: Come metodo baseline per ulteriori miglioramenti

Bibliografia

L'articolo cita 63 articoli correlati, che coprono:

Metodi classici di rilevamento del phishing
Analisi delle minacce alla sicurezza mobile
Applicazione dell'apprendimento automatico nella classificazione del testo
Tecniche di filtro dello spam SMS
Metodi di rilevamento del malware mobile

Fa principalmente riferimento ai rapporti APWG sugli attacchi di phishing, articoli di conferenze IEEE e ACM, e articoli di riviste importanti nel campo correlato, con citazioni di letteratura autorevoli e complete.

Valutazione Complessiva: Questo è uno studio pratico su un importante problema di sicurezza, con una certa innovazione metodologica e risultati sperimentali soddisfacenti. Sebbene la profondità tecnica sia limitata, fornisce un metodo baseline efficace per il rilevamento dello smishing, con buon valore accademico e pratico.