2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel
Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
academic

Rilevamento e Prevenzione degli Attacchi Smishing

Informazioni Fondamentali

  • ID Articolo: 2501.00260
  • Titolo: Detection and Prevention of Smishing Attacks
  • Autore: Diksha Goel (Numero di Matricola: 31603217)
  • Relatore: Mr. Ankit Kumar Jain (Professore Assistente)
  • Classificazione: cs.CR cs.SI
  • Data di Pubblicazione: Giugno 2018 (Dissertazione di Master in Tecnologia)
  • Istituzione: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (India)
  • Link Articolo: https://arxiv.org/abs/2501.00260

Riassunto

Con l'evoluzione delle funzionalità degli smartphone verso le capacità dei computer desktop, gli attaccanti hanno rivolto la loro attenzione agli utenti di dispositivi mobili. Lo smishing (phishing via SMS) è un attacco di phishing condotto attraverso il servizio di messaggistica SMS, mirato al furto di informazioni sensibili degli utenti. Nonostante il numero di attacchi smishing cresca esponenzialmente, la ricerca sul rilevamento di tali minacce rimane relativamente limitata. Questo studio propone un modello di rilevamento dello smishing basato sull'analisi dei contenuti, che normalizza il testo gestendo slang, abbreviazioni e forme abbreviate, utilizzando classificatori di apprendimento automatico per distinguere tra messaggi smishing e messaggi legittimi. I risultati sperimentali dimostrano che il modello raggiunge un'accuratezza di classificazione del 97,14% per i messaggi smishing, del 96,12% per i messaggi legittimi, con un'accuratezza complessiva del 96,20%.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Principale: Con l'aumento esponenziale degli utenti di smartphone (previsto raggiungere 2,87 miliardi nel 2020), l'SMS è diventato il canale principale per gli attacchi di phishing. Gli attacchi smishing sfruttano l'elevata fiducia degli utenti negli SMS (il 35% degli utenti considera l'SMS la piattaforma di messaggistica più affidabile) per perpetrare frodi.
  2. Importanza del Problema:
    • Il 33% degli utenti mobili ha ricevuto messaggi smishing
    • Il 42% degli utenti mobili fa clic su link malevoli
    • Gli utenti di smartphone corrono un rischio 3 volte maggiore di subire attacchi di phishing rispetto agli utenti desktop
    • Nel 2017, il 45% degli utenti ha ricevuto messaggi smishing, con un aumento del 2% rispetto al 2016
  3. Limitazioni dei Metodi Esistenti:
    • Sebbene esistano molte tecniche di rilevamento dello spam SMS, la ricerca specificamente dedicata allo smishing è limitata
    • La presenza di slang, abbreviazioni e forme abbreviate nel testo riduce l'efficienza dei classificatori
    • Mancano meccanismi efficaci di normalizzazione del testo
  4. Motivazione della Ricerca:
    • I vincoli hardware dei dispositivi mobili (schermi piccoli, mancanza di indicatori di sicurezza) aumentano il tasso di successo degli attacchi
    • È necessario rilevare efficacemente gli attacchi smishing proteggendo la privacy degli utenti
    • Le soluzioni esistenti presentano accuratezza insufficiente

Contributi Principali

  1. Propone un modello di sicurezza smishing completo: Framework di rilevamento a due fasi basato sull'analisi dei contenuti
  2. Metodo innovativo di normalizzazione del testo: Utilizza il dizionario NoSlang per gestire slang, abbreviazioni e forme abbreviate, migliorando significativamente l'accuratezza della classificazione
  3. Tassonomia completa degli attacchi di phishing mobile: Sistematizza 7 categorie principali di attacchi di phishing mobile
  4. Prestazioni di rilevamento eccellenti: Raggiunge un'accuratezza complessiva del 96,20% su dataset pubblici
  5. Revisione della letteratura approfondita: Fornisce un'analisi completa degli attacchi di phishing mobile e dei meccanismi di difesa

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Messaggio di testo SMS Output: Risultato di classificazione binaria (messaggio smishing o messaggio ham) Vincoli: Protezione della privacy degli utenti, rilevamento in tempo reale, elevata accuratezza

Architettura del Modello

Il modello adotta un'architettura a due fasi:

Fase 1: Preprocessing e Normalizzazione

Algoritmo 1: Algoritmo di Preprocessing e Normalizzazione
Input: msg (messaggio), dict (dizionario NoSlang), stop (parole vuote)
Output: n_msg (messaggio preprocessato e normalizzato)

Passaggi Specifici:

  1. Tokenizzazione: Divisione del testo in token
  2. Conversione a Minuscole: Conversione uniforme a minuscole
  3. Normalizzazione: Sostituzione di slang e abbreviazioni utilizzando il dizionario NoSlang
  4. Rimozione delle Parole Vuote: Eliminazione di 153 parole vuote inglesi NLTK
  5. Stemming: Riduzione del vocabolario alla forma radice

Fase 2: Classificazione

Algoritmo 2: Algoritmo di Classificazione
Input: D (dataset), n_msg (messaggio preprocessato e normalizzato)
Output: messaggio ham o smishing

Classificatore Bayesiano: Utilizza il teorema di Bayes ingenuo per la classificazione:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

Dove:

  • p(Ckx)p(C_k|x): Probabilità posteriore di appartenenza alla classe CkC_k dato il caratteristica x
  • p(xCk)p(x|C_k): Probabilità di verosimiglianza della caratteristica x data la classe CkC_k
  • p(Ck)p(C_k): Probabilità a priori della classe CkC_k

Punti di Innovazione Tecnica

  1. Innovazione nella Normalizzazione del Testo:
    • Prima applicazione del dizionario NoSlang al rilevamento dello smishing
    • Gestione sistematica dell'espressione linguistica informale negli SMS
    • Miglioramento significativo della capacità del classificatore di riconoscere testi deformati
  2. Framework di Elaborazione a Due Fasi:
    • La fase di preprocessing assicura la coerenza del testo
    • La fase di classificazione esegue giudizi accurati basati su testo normalizzato
  3. Progettazione della Protezione della Privacy:
    • Elaborazione locale, senza coinvolgimento di servizi di terze parti
    • Basato esclusivamente su caratteristiche di contenuto testuale, senza raccolta di informazioni personali degli utenti

Configurazione Sperimentale

Dataset

  • Fonte dei Dati: SMS Spam Dataset v.1 (dataset pubblico)
  • Scala Originale: 5574 messaggi (4827 ham, 747 spam)
  • Scala Dopo l'Elaborazione: 5169 messaggi (4807 ham, 362 smishing)
  • Fonti dei Dati:
    • Sito web Grumbletext: 425 spam
    • Dissertazione della Dott.ssa Caroline Tag: 450 ham
    • NUS SMS Corpus: 3375 ham
    • SMS Spam Corpus v.0.1: 1002 ham, 322 spam
    • Raccolta da Pinterest: 71 smishing

Caratteristiche Statistiche del Dataset

CaratteristicaMessaggi HamMessaggi Smishing
Numero medio di caratteri74,55148,72
Numero medio di parole14,7624,72
Frequenza di URL0,00270,2513
Frequenza di simboli ($,€)0,00370,0193

Metriche di Valutazione

  • True Positive Rate (TPR): TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • True Negative Rate (TNR): TNR=TNTN+FPTNR = \frac{TN}{TN + FP}
  • False Positive Rate (FPR): FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
  • Accuratezza: A=TP+TNTP+TN+FP+FNA = \frac{TP + TN}{TP + TN + FP + FN}

Metodi di Confronto

  • S-Detector (Joo et al.): Classificatore Bayesiano Ingenuo
  • SMSAssassin (Yadav et al.): Apprendimento Bayesiano + SVM
  • Lee et al.: Metodo di rilevamento in ambiente cloud

Dettagli di Implementazione

  • Piattaforma: Python
  • Configurazione di Sistema: Processore i5, 2,4GHz, 8GB RAM
  • Librerie Dipendenti: NLTK, CSV, SYS, ConfigParser
  • Divisione dei Dati: 90% addestramento, 10% test

Risultati Sperimentali

Risultati Principali

MetodoTPRTNRFPRFNRAccuratezza
Senza preprocessing e normalizzazione94,28%87,74%12,25%5,71%88,20%
Con preprocessing e normalizzazione97,14%96,12%3,87%2,85%96,20%

Risultati degli Esperimenti di Confronto

MetodoAnalisi dei ContenutiNormalizzazione del TestoAlgoritmoAccuratezza
Joo et al.Bayes Ingenuo-
Yadav et al.Bayes + SVM84,75%
Lee et al.Analisi del Contenuto Sorgente-
Metodo PropostoBayes Ingenuo96,20%

Esperimenti di Ablazione

Confrontando i risultati con e senza preprocessing e normalizzazione, viene provata l'importanza della normalizzazione del testo:

  • Miglioramento dell'Accuratezza: Da 88,20% a 96,20% (+8%)
  • Miglioramento del TPR: Da 94,28% a 97,14%
  • Miglioramento del TNR: Da 87,74% a 96,12%

Analisi dei Casi

Esempio dell'effetto della normalizzazione del testo:

  • La probabilità smishing della parola "call" aumenta da 0,443425 a 0,464832
  • La probabilità smishing della parola "offer" aumenta da 0,033639 a 0,055046
  • Dopo la normalizzazione, la semantica del vocabolario è più coerente, migliorando l'accuratezza del giudizio del classificatore

Lavori Correlati

Classificazione degli Attacchi di Phishing Mobile

L'articolo propone una tassonomia completa degli attacchi di phishing mobile:

  1. Attacchi di Ingegneria Sociale: SMS, VoIP, siti web, posta elettronica
  2. Attacchi alle Applicazioni Mobile: Attacchi di somiglianza, attacchi di inoltro, attacchi in background
  3. Attacchi di Malware: Trojan, worm, rootkit, ransomware
  4. Attacchi ai Social Network: Usurpazione di identità, link malevoli, profili falsi
  5. Attacchi di Iniezione di Contenuti: Attacchi XSS
  6. Attacchi su Mezzi Wireless: Attacchi Wi-Fi, Bluetooth
  7. Attacchi di Inganno Tecnico: Avvelenamento DNS, attacchi man-in-the-middle

Classificazione dei Meccanismi di Difesa

  1. Educazione degli Utenti: Meccanismi di avvertimento, formazione gamificata
  2. Rilevamento dello Smishing: S-Detector, SMSAssassin, metodo DCA
  3. Rilevamento di Pagine di Phishing: MobiFish, kAYO, MP-Shield
  4. Rilevamento di Applicazioni Maligne: VeriUI, StopBankun, Andromaly
  5. Tecnologia Codice QR: Single Sign-On, schemi di autenticazione
  6. Indicatori di Sicurezza Personalizzati

Conclusioni e Discussione

Conclusioni Principali

  1. Importanza della Normalizzazione del Testo: Il preprocessing e la normalizzazione migliorano significativamente l'accuratezza del rilevamento (+8%)
  2. Efficacia del Metodo: Raggiunge un'accuratezza eccellente del 96,20% su dataset pubblici
  3. Valore Pratico: Fornisce una soluzione completa di rilevamento dello smishing
  4. Contributo Teorico: Sistematizza gli attacchi di phishing mobile e i meccanismi di difesa

Limitazioni

  1. Limitazioni del Dataset:
    • Mancanza di dataset dedicato allo smishing, necessità di estrazione manuale dallo spam
    • Dimensione del dataset relativamente piccola (362 messaggi smishing)
    • Supporto solo per testo in inglese
  2. Limitazioni del Metodo:
    • Basato esclusivamente su contenuto testuale, non considera URL, mittente e altre caratteristiche
    • Dipende dalla qualità del dizionario, possibile copertura incompleta del dizionario
    • L'adattabilità a nuove forme di attacco rimane da verificare
  3. Limitazioni Sperimentali:
    • Mancanza di confronto con più metodi recenti
    • Assenza di validazione cross-dataset
    • Mancanza di valutazione delle prestazioni in tempo reale

Direzioni Future

  1. Analisi degli URL: Combinare caratteristiche degli URL per rilevare link malevoli e download
  2. Comprensione Contestuale: Migliorare il processo di normalizzazione, selezionando il significato migliore in base al contesto
  3. Espansione del Dataset: Costruire dataset smishing di dimensioni maggiori e multilingue
  4. Fusione Multimodale: Combinare testo, URL, informazioni del mittente e altre caratteristiche multiple
  5. Distribuzione in Tempo Reale: Ottimizzare l'efficienza dell'algoritmo, supportare il rilevamento in tempo reale su dispositivi mobili

Valutazione Approfondita

Punti di Forza

  1. Forte Specificità del Problema: Affronta specificamente la minaccia smishing, importante ma poco studiata
  2. Innovazione Metodologica: Prima applicazione sistematica della normalizzazione del testo al rilevamento dello smishing
  3. Esperimenti Sufficienti: Esperimenti di ablazione provano il contributo di ogni componente
  4. Revisione della Letteratura Completa: Fornisce una delle rassegne più complete in questo campo
  5. Elevato Valore Pratico: Il metodo è semplice, efficace e facile da distribuire in pratica

Insufficienze

  1. Profondità Tecnica Limitata: Utilizza principalmente metodi di apprendimento automatico tradizionali, non esplora l'apprendimento profondo
  2. Ingegneria delle Caratteristiche Semplice: Utilizza solo contenuto testuale, caratteristiche relativamente singolari
  3. Valutazione Non Sufficientemente Completa: Manca l'analisi dell'impatto del tasso di falsi positivi sull'esperienza utente
  4. Problemi di Scalabilità: La capacità di generalizzazione a nuove forme di attacco rimane da verificare
  5. Prestazioni in Tempo Reale Sconosciute: Mancano test di prestazioni su dispositivi mobili

Impatto

  1. Contributo Accademico:
    • Colma il vuoto nella ricerca sul rilevamento dello smishing
    • Fornisce una tassonomia sistematica di attacchi e difese
    • Dimostra l'importanza della normalizzazione del testo nel rilevamento della sicurezza
  2. Valore Pratico:
    • Applicabile direttamente ai prodotti di sicurezza mobile
    • Fornisce soluzioni di filtro per gateway SMS
    • Fornisce strumenti di protezione personale per gli utenti
  3. Riproducibilità:
    • Utilizza dataset pubblici
    • Descrizione del metodo chiara
    • Fornisce flussi di algoritmi dettagliati

Scenari Applicabili

  1. Operatori Mobili: Filtro in tempo reale del gateway SMS
  2. Fornitori di Sicurezza: Integrazione nei prodotti di sicurezza mobile
  3. Utenti Aziendali: Monitoraggio della sicurezza SMS interno
  4. Utenti Personali: Applicazioni di sicurezza per smartphone
  5. Istituzioni di Ricerca: Come metodo baseline per ulteriori miglioramenti

Bibliografia

L'articolo cita 63 articoli correlati, che coprono:

  • Metodi classici di rilevamento del phishing
  • Analisi delle minacce alla sicurezza mobile
  • Applicazione dell'apprendimento automatico nella classificazione del testo
  • Tecniche di filtro dello spam SMS
  • Metodi di rilevamento del malware mobile

Fa principalmente riferimento ai rapporti APWG sugli attacchi di phishing, articoli di conferenze IEEE e ACM, e articoli di riviste importanti nel campo correlato, con citazioni di letteratura autorevoli e complete.


Valutazione Complessiva: Questo è uno studio pratico su un importante problema di sicurezza, con una certa innovazione metodologica e risultati sperimentali soddisfacenti. Sebbene la profondità tecnica sia limitata, fornisce un metodo baseline efficace per il rilevamento dello smishing, con buon valore accademico e pratico.