2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

Erkennung und Prävention von Smishing-Angriffen

Grundlegende Informationen

Papier-ID: 2501.00260
Titel: Detection and Prevention of Smishing Attacks
Autor: Diksha Goel (Matrikelnummer: 31603217)
Betreuer: Mr. Ankit Kumar Jain (Assistenzprofessor)
Klassifizierung: cs.CR cs.SI
Veröffentlichungsdatum: Juni 2018 (Master of Technology Dissertation)
Institution: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (Indien)
Papierlink: https://arxiv.org/abs/2501.00260

Zusammenfassung

Mit der zunehmenden Funktionalität von Smartphones, die der Desktop-Computertechnik ähnelt, richten Angreifer ihre Ziele auf Benutzer mobiler Geräte aus. Smishing (SMS-Phishing-Angriffe) sind Phishing-Angriffe über SMS-Dienste, die darauf abzielen, vertrauliche Benutzerinformationen zu stehlen. Obwohl die Anzahl der Smishing-Angriffe exponentiell wächst, ist die Forschung zu Erkennungsmethoden für diese Bedrohungen relativ begrenzt. Diese Forschung schlägt ein auf Inhaltsanalyse basierendes Smishing-Erkennungsmodell vor, das durch Textnormalisierung Slang, Abkürzungen und Kurzformen verarbeitet und Machine-Learning-Klassifizierer verwendet, um Smishing- und normale SMS zu unterscheiden. Die experimentellen Ergebnisse zeigen, dass das Modell eine Klassifizierungsgenauigkeit von 97,14% für Smishing-Nachrichten und 96,12% für normale Nachrichten mit einer Gesamtgenauigkeit von 96,20% erreicht.

Forschungshintergrund und Motivation

Problembeschreibung

Hauptproblem: Mit der Zunahme von Smartphone-Nutzern (prognostiziert 2,87 Milliarden bis 2020) wird SMS zum Hauptkanal für Phishing-Angriffe durch Angreifer. Smishing-Angriffe nutzen das hohe Vertrauen der Benutzer in SMS (35% der Benutzer halten SMS für die vertrauenswürdigste Nachrichtenplattform) für Betrügereien aus.
Problemrelevanz:
- 33% der Mobilfunknutzer haben Smishing-Nachrichten erhalten
- 42% der Mobilfunknutzer klicken auf bösartige Links
- Smartphone-Benutzer sind 3-mal häufiger Phishing-Angriffen ausgesetzt als Desktop-Benutzer
- 2017 erhielten 45% der Benutzer Smishing-Nachrichten, ein Anstieg von 2% gegenüber 2016
Einschränkungen bestehender Methoden:
- Es gibt viele Techniken zur Spam-SMS-Erkennung, aber spezialisierte Forschung zu Smishing ist begrenzt
- Slang, Abkürzungen und Kurzformen im Text verringern die Klassifizierereffektivität
- Es fehlen wirksame Mechanismen zur Textnormalisierung
Forschungsmotivation:
- Hardwarebeschränkungen mobiler Geräte (kleine Bildschirme, fehlende Sicherheitsindikatoren) erhöhen die Erfolgsquote von Angriffen
- Notwendigkeit, Smishing-Angriffe wirksam zu erkennen und gleichzeitig die Benutzervertraulichkeit zu schützen
- Bestehende Lösungen erfordern verbesserte Genauigkeit

Kernbeiträge

Vorschlag eines umfassenden Smishing-Sicherheitsmodells: Zweistufiges Erkennungsframework basierend auf Inhaltsanalyse
Innovative Textnormalisierungsmethode: Verwendung des NoSlang-Wörterbuchs zur Verarbeitung von Slang, Abkürzungen und Kurzformen, signifikante Verbesserung der Klassifizierungsgenauigkeit
Umfassende Klassifizierung von Mobile-Phishing-Angriffen: Systematische Dokumentation von 7 Kategorien von Mobile-Phishing-Angriffsarten
Hervorragende Erkennungsleistung: Erreichung einer Gesamtgenauigkeit von 96,20% auf öffentlichen Datensätzen
Gründliche Literaturübersicht: Umfassende Analyse von Mobile-Phishing-Angriffen und Abwehrmechanismen

Methodische Details

Aufgabendefinition

Eingabe: SMS-Textnachrichten Ausgabe: Binäres Klassifizierungsergebnis (Smishing-Nachricht oder Ham-Nachricht) Einschränkungen: Benutzervertraulichkeit schützen, Echtzeiterkennung, hohe Genauigkeit

Modellarchitektur

Das Modell verwendet eine zweistufige Architektur:

Stufe 1: Vorverarbeitung und Normalisierung

Algorithmus 1: Vorverarbeitungs- und Normalisierungsalgorithmus
Eingabe: msg (Nachricht), dict (NoSlang-Wörterbuch), stop (Stoppwörter)
Ausgabe: n_msg (vorverarbeitete und normalisierte Nachricht)

Spezifische Schritte:

Tokenisierung (Tokenization): Text in Token aufteilen
Kleinschreibung (Lowercasing): Einheitliche Umwandlung in Kleinbuchstaben
Normalisierung (Normalization): Slang und Abkürzungen mit NoSlang-Wörterbuch ersetzen
Stoppwort-Entfernung: 153 NLTK-Englisch-Stoppwörter löschen
Stammformextraktion (Stemming): Wörter auf Wurzelform zurückführen

Stufe 2: Klassifizierung

Algorithmus 2: Klassifizierungsalgorithmus
Eingabe: D (Datensatz), n_msg (vorverarbeitete und normalisierte Nachricht)
Ausgabe: Ham- oder Smishing-Nachricht

Bayes-Klassifizierer: Verwendung des Naiven-Bayes-Theorems für die Klassifizierung:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

Wobei:

$p(C_k|x)$ : Posteriore Wahrscheinlichkeit, dass die Klasse $C_k$ gegeben das Merkmal x angehört
$p(x|C_k)$ : Likelihood-Wahrscheinlichkeit des Merkmals x gegeben die Klasse $C_k$
$p(C_k)$ : Priore Wahrscheinlichkeit der Klasse $C_k$

Technische Innovationspunkte

Textnormalisierungsinnovation:
- Erstmalige Anwendung des NoSlang-Wörterbuchs auf Smishing-Erkennung
- Systematische Verarbeitung informeller Sprachausdrücke in SMS
- Signifikante Verbesserung der Klassifizierer-Erkennungsfähigkeit für verformte Texte
Zweistufiges Verarbeitungsframework:
- Vorverarbeitungsstufe gewährleistet Textkonsistenz
- Klassifizierungsstufe basiert auf standardisiertem Text für genaue Bestimmung
Datenschutzschutz-Design:
- Lokale Verarbeitung ohne Beteiligung von Drittanbieterdiensten
- Basierend nur auf Textinhaltsmerkmalen, keine Erfassung persönlicher Benutzerinformationen

Experimentelle Einrichtung

Datensatz

Datenquelle: SMS Spam Dataset v.1 (öffentlicher Datensatz)
Ursprüngliche Größe: 5.574 Nachrichten (4.827 Ham, 747 Spam)
Verarbeitete Größe: 5.169 Nachrichten (4.807 Ham, 362 Smishing)
Datenquellen:
- Grumbletext-Website: 425 Spam
- Dissertation von Dr. Caroline Tag: 450 Ham
- NUS SMS Corpus: 3.375 Ham
- SMS Spam Corpus v.0.1: 1.002 Ham, 322 Spam
- Pinterest-Sammlung: 71 Smishing

Datensatz-Statistikmerkmale

Merkmal	Ham-Nachrichten	Smishing-Nachrichten
Durchschnittliche Zeichenanzahl	74,55	148,72
Durchschnittliche Wortanzahl	14,76	24,72
URL-Häufigkeit	0,0027	0,2513
Symbole ($,€) Häufigkeit	0,0037	0,0193

Bewertungsmetriken

True Positive Rate (TPR): $TPR = \frac{TP}{TP + FN}$
True Negative Rate (TNR): $TNR = \frac{TN}{TN + FP}$
False Positive Rate (FPR): $FPR = \frac{FP}{FP + TN}$
Genauigkeit (Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

Vergleichsmethoden

S-Detector (Joo et al.): Naiver-Bayes-Klassifizierer
SMSAssassin (Yadav et al.): Bayes-Lernen + SVM
Lee et al.: Cloud-Umgebungs-Erkennungsmethode

Implementierungsdetails

Plattform: Python
Systemkonfiguration: i5-Prozessor, 2,4 GHz, 8 GB RAM
Abhängigkeitsbibliotheken: NLTK, CSV, SYS, ConfigParser
Datenteilung: 90% Training, 10% Test

Experimentelle Ergebnisse

Hauptergebnisse

Methode	TPR	TNR	FPR	FNR	Genauigkeit
Ohne Vorverarbeitung und Normalisierung	94,28%	87,74%	12,25%	5,71%	88,20%
Mit Vorverarbeitung und Normalisierung	97,14%	96,12%	3,87%	2,85%	96,20%

Vergleichsexperimentelle Ergebnisse

Methode	Inhaltsanalyse	Textnormalisierung	Algorithmus	Genauigkeit
Joo et al.	✓	✗	Naiver Bayes	-
Yadav et al.	✓	✗	Bayes + SVM	84,75%
Lee et al.	✓	✗	Quellinhalt-Analyse	-
Diese Arbeit	✓	✓	Naiver Bayes	96,20%

Ablationsstudie

Durch Vergleich der Ergebnisse mit und ohne Vorverarbeitung und Normalisierung wird die Wichtigkeit der Textnormalisierung nachgewiesen:

Genauigkeitssteigerung: Von 88,20% auf 96,20% (+8%)
TPR-Steigerung: Von 94,28% auf 97,14%
TNR-Steigerung: Von 87,74% auf 96,12%

Fallanalyse

Beispiele für Textnormalisierungseffekte:

Die Smishing-Wahrscheinlichkeit des Wortes "call" stieg von 0,443425 auf 0,464832
Die Smishing-Wahrscheinlichkeit des Wortes "offer" stieg von 0,033639 auf 0,055046
Nach der Normalisierung ist die Wort-Semantik konsistenter, was die Klassifizierer-Genauigkeit verbessert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Wichtigkeit der Textnormalisierung: Vorverarbeitung und Normalisierung verbessern die Erkennungsgenauigkeit signifikant (+8%)
Methodeneffektivität: Erreichung einer hervorragenden Genauigkeit von 96,20% auf öffentlichen Datensätzen
Praktischer Wert: Bereitstellung einer umfassenden Smishing-Erkennungslösung
Theoretischer Beitrag: Systematische Dokumentation von Mobile-Phishing-Angriffen und Abwehrmechanismen

Einschränkungen

Datensatz-Einschränkungen:
- Fehlender spezialisierter Smishing-Datensatz, manuelle Extraktion aus Spam erforderlich
- Relativ kleine Datensatzgröße (362 Smishing-Nachrichten)
- Unterstützt nur englische Texte
Methodische Einschränkungen:
- Basierend nur auf Textinhalten, berücksichtigt keine URL-, Absender- und andere Merkmale
- Abhängig von Wörterbuchqualität, mögliche unvollständige Wörterbucherfassung
- Anpassungsfähigkeit an neue Angriffsarten muss noch überprüft werden
Experimentelle Einschränkungen:
- Fehlender Vergleich mit mehr neuesten Methoden
- Keine datensatzübergreifende Validierung durchgeführt
- Fehlende Echtzeit-Leistungsbewertung

Zukünftige Richtungen

URL-Analyse: Kombination mit URL-Merkmalen zur Erkennung bösartiger Links und Downloads
Kontextverständnis: Verbesserung des Normalisierungsprozesses, kontextabhängige Wortbedeutungsauswahl
Datensatz-Erweiterung: Aufbau größerer, mehrsprachiger Smishing-Datensätze
Multimodale Fusion: Kombination von Text-, URL-, Absender- und anderen Merkmalen
Echtzeit-Bereitstellung: Algorithmus-Optimierung für Echtzeiterkennung auf mobilen Geräten

Tiefgreifende Bewertung

Stärken

Starke Problemorientierung: Spezialisierung auf wichtige, aber unterforschte Smishing-Sicherheitsbedrohung
Methodische Innovation: Erstmalige systematische Anwendung von Textnormalisierung auf Smishing-Erkennung
Umfangreiche Experimente: Ablationsstudien beweisen den Beitrag jeder Komponente
Umfassende Literaturübersicht: Eine der umfassendsten Übersichten in diesem Bereich
Hoher praktischer Wert: Einfache und wirksame Methode, leicht praktisch einsetzbar

Mängel

Begrenzte technische Tiefe: Hauptsächlich traditionelle Machine-Learning-Methoden, keine Deep-Learning-Erkundung
Einfache Feature-Engineering: Nur Textinhalte verwendet, relativ einzelne Merkmale
Unvollständige Bewertung: Fehlende Analyse der Auswirkungen von Fehlalarmen auf Benutzerfreundlichkeit
Skalierungsprobleme: Verallgemeinerungsfähigkeit für neue Angriffsarten muss überprüft werden
Echtzeit-Leistung unbekannt: Fehlende Leistungstests auf mobilen Geräten

Einfluss

Akademischer Beitrag:
- Schließung der Forschungslücke bei Smishing-Erkennung
- Bereitstellung systematischer Angriffs- und Abwehrklassifizierung
- Nachweis der Wichtigkeit von Textnormalisierung in der Sicherheitserkennung
Praktischer Wert:
- Direkte Anwendung in mobilen Sicherheitsprodukten
- Filterlösungen für SMS-Gateways
- Persönliche Schutztools für Benutzer
Reproduzierbarkeit:
- Verwendung öffentlicher Datensätze
- Klare Methodenbeschreibung
- Detaillierte Algorithmus-Workflows

Anwendungsszenarien

Mobilfunkbetreiber: SMS-Gateway-Echtzeit-Filterung
Sicherheitsunternehmen: Integration in mobile Sicherheitsprodukte
Unternehmensbenutzer: Interne SMS-Sicherheitsüberwachung
Privatbenutzer: Smartphone-Sicherheitsanwendungen
Forschungsinstitutionen: Baseline-Methode für weitere Verbesserungen

Literaturverzeichnis

Das Papier zitiert 63 relevante Referenzen, die folgende Bereiche abdecken:

Klassische Methoden zur Phishing-Angriffserkennung
Analyse von Mobile-Sicherheitsbedrohungen
Machine-Learning-Anwendungen in der Textklassifizierung
SMS-Spam-Filterungstechniken
Erkennungsmethoden für mobile Malware

Die Hauptreferenzen stammen von APWG-Phishing-Angriffsberichten, IEEE- und ACM-Konferenzbeiträgen sowie relevanten Fachjournalen. Die Literaturzitate sind autoritativ und umfassend.

Gesamtbewertung: Dies ist eine praktische Forschungsarbeit zu einem wichtigen Sicherheitsproblem mit gewisser methodischer Innovation und zufriedenstellenden experimentellen Ergebnissen. Obwohl die technische Tiefe begrenzt ist, bietet sie eine wirksame Baseline-Methode für Smishing-Erkennung mit gutem akademischen und praktischen Wert.