2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel
Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
academic

Erkennung und Prävention von Smishing-Angriffen

Grundlegende Informationen

  • Papier-ID: 2501.00260
  • Titel: Detection and Prevention of Smishing Attacks
  • Autor: Diksha Goel (Matrikelnummer: 31603217)
  • Betreuer: Mr. Ankit Kumar Jain (Assistenzprofessor)
  • Klassifizierung: cs.CR cs.SI
  • Veröffentlichungsdatum: Juni 2018 (Master of Technology Dissertation)
  • Institution: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (Indien)
  • Papierlink: https://arxiv.org/abs/2501.00260

Zusammenfassung

Mit der zunehmenden Funktionalität von Smartphones, die der Desktop-Computertechnik ähnelt, richten Angreifer ihre Ziele auf Benutzer mobiler Geräte aus. Smishing (SMS-Phishing-Angriffe) sind Phishing-Angriffe über SMS-Dienste, die darauf abzielen, vertrauliche Benutzerinformationen zu stehlen. Obwohl die Anzahl der Smishing-Angriffe exponentiell wächst, ist die Forschung zu Erkennungsmethoden für diese Bedrohungen relativ begrenzt. Diese Forschung schlägt ein auf Inhaltsanalyse basierendes Smishing-Erkennungsmodell vor, das durch Textnormalisierung Slang, Abkürzungen und Kurzformen verarbeitet und Machine-Learning-Klassifizierer verwendet, um Smishing- und normale SMS zu unterscheiden. Die experimentellen Ergebnisse zeigen, dass das Modell eine Klassifizierungsgenauigkeit von 97,14% für Smishing-Nachrichten und 96,12% für normale Nachrichten mit einer Gesamtgenauigkeit von 96,20% erreicht.

Forschungshintergrund und Motivation

Problembeschreibung

  1. Hauptproblem: Mit der Zunahme von Smartphone-Nutzern (prognostiziert 2,87 Milliarden bis 2020) wird SMS zum Hauptkanal für Phishing-Angriffe durch Angreifer. Smishing-Angriffe nutzen das hohe Vertrauen der Benutzer in SMS (35% der Benutzer halten SMS für die vertrauenswürdigste Nachrichtenplattform) für Betrügereien aus.
  2. Problemrelevanz:
    • 33% der Mobilfunknutzer haben Smishing-Nachrichten erhalten
    • 42% der Mobilfunknutzer klicken auf bösartige Links
    • Smartphone-Benutzer sind 3-mal häufiger Phishing-Angriffen ausgesetzt als Desktop-Benutzer
    • 2017 erhielten 45% der Benutzer Smishing-Nachrichten, ein Anstieg von 2% gegenüber 2016
  3. Einschränkungen bestehender Methoden:
    • Es gibt viele Techniken zur Spam-SMS-Erkennung, aber spezialisierte Forschung zu Smishing ist begrenzt
    • Slang, Abkürzungen und Kurzformen im Text verringern die Klassifizierereffektivität
    • Es fehlen wirksame Mechanismen zur Textnormalisierung
  4. Forschungsmotivation:
    • Hardwarebeschränkungen mobiler Geräte (kleine Bildschirme, fehlende Sicherheitsindikatoren) erhöhen die Erfolgsquote von Angriffen
    • Notwendigkeit, Smishing-Angriffe wirksam zu erkennen und gleichzeitig die Benutzervertraulichkeit zu schützen
    • Bestehende Lösungen erfordern verbesserte Genauigkeit

Kernbeiträge

  1. Vorschlag eines umfassenden Smishing-Sicherheitsmodells: Zweistufiges Erkennungsframework basierend auf Inhaltsanalyse
  2. Innovative Textnormalisierungsmethode: Verwendung des NoSlang-Wörterbuchs zur Verarbeitung von Slang, Abkürzungen und Kurzformen, signifikante Verbesserung der Klassifizierungsgenauigkeit
  3. Umfassende Klassifizierung von Mobile-Phishing-Angriffen: Systematische Dokumentation von 7 Kategorien von Mobile-Phishing-Angriffsarten
  4. Hervorragende Erkennungsleistung: Erreichung einer Gesamtgenauigkeit von 96,20% auf öffentlichen Datensätzen
  5. Gründliche Literaturübersicht: Umfassende Analyse von Mobile-Phishing-Angriffen und Abwehrmechanismen

Methodische Details

Aufgabendefinition

Eingabe: SMS-Textnachrichten Ausgabe: Binäres Klassifizierungsergebnis (Smishing-Nachricht oder Ham-Nachricht) Einschränkungen: Benutzervertraulichkeit schützen, Echtzeiterkennung, hohe Genauigkeit

Modellarchitektur

Das Modell verwendet eine zweistufige Architektur:

Stufe 1: Vorverarbeitung und Normalisierung

Algorithmus 1: Vorverarbeitungs- und Normalisierungsalgorithmus
Eingabe: msg (Nachricht), dict (NoSlang-Wörterbuch), stop (Stoppwörter)
Ausgabe: n_msg (vorverarbeitete und normalisierte Nachricht)

Spezifische Schritte:

  1. Tokenisierung (Tokenization): Text in Token aufteilen
  2. Kleinschreibung (Lowercasing): Einheitliche Umwandlung in Kleinbuchstaben
  3. Normalisierung (Normalization): Slang und Abkürzungen mit NoSlang-Wörterbuch ersetzen
  4. Stoppwort-Entfernung: 153 NLTK-Englisch-Stoppwörter löschen
  5. Stammformextraktion (Stemming): Wörter auf Wurzelform zurückführen

Stufe 2: Klassifizierung

Algorithmus 2: Klassifizierungsalgorithmus
Eingabe: D (Datensatz), n_msg (vorverarbeitete und normalisierte Nachricht)
Ausgabe: Ham- oder Smishing-Nachricht

Bayes-Klassifizierer: Verwendung des Naiven-Bayes-Theorems für die Klassifizierung:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

Wobei:

  • p(Ckx)p(C_k|x): Posteriore Wahrscheinlichkeit, dass die Klasse CkC_k gegeben das Merkmal x angehört
  • p(xCk)p(x|C_k): Likelihood-Wahrscheinlichkeit des Merkmals x gegeben die Klasse CkC_k
  • p(Ck)p(C_k): Priore Wahrscheinlichkeit der Klasse CkC_k

Technische Innovationspunkte

  1. Textnormalisierungsinnovation:
    • Erstmalige Anwendung des NoSlang-Wörterbuchs auf Smishing-Erkennung
    • Systematische Verarbeitung informeller Sprachausdrücke in SMS
    • Signifikante Verbesserung der Klassifizierer-Erkennungsfähigkeit für verformte Texte
  2. Zweistufiges Verarbeitungsframework:
    • Vorverarbeitungsstufe gewährleistet Textkonsistenz
    • Klassifizierungsstufe basiert auf standardisiertem Text für genaue Bestimmung
  3. Datenschutzschutz-Design:
    • Lokale Verarbeitung ohne Beteiligung von Drittanbieterdiensten
    • Basierend nur auf Textinhaltsmerkmalen, keine Erfassung persönlicher Benutzerinformationen

Experimentelle Einrichtung

Datensatz

  • Datenquelle: SMS Spam Dataset v.1 (öffentlicher Datensatz)
  • Ursprüngliche Größe: 5.574 Nachrichten (4.827 Ham, 747 Spam)
  • Verarbeitete Größe: 5.169 Nachrichten (4.807 Ham, 362 Smishing)
  • Datenquellen:
    • Grumbletext-Website: 425 Spam
    • Dissertation von Dr. Caroline Tag: 450 Ham
    • NUS SMS Corpus: 3.375 Ham
    • SMS Spam Corpus v.0.1: 1.002 Ham, 322 Spam
    • Pinterest-Sammlung: 71 Smishing

Datensatz-Statistikmerkmale

MerkmalHam-NachrichtenSmishing-Nachrichten
Durchschnittliche Zeichenanzahl74,55148,72
Durchschnittliche Wortanzahl14,7624,72
URL-Häufigkeit0,00270,2513
Symbole ($,€) Häufigkeit0,00370,0193

Bewertungsmetriken

  • True Positive Rate (TPR): TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • True Negative Rate (TNR): TNR=TNTN+FPTNR = \frac{TN}{TN + FP}
  • False Positive Rate (FPR): FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
  • Genauigkeit (Accuracy): A=TP+TNTP+TN+FP+FNA = \frac{TP + TN}{TP + TN + FP + FN}

Vergleichsmethoden

  • S-Detector (Joo et al.): Naiver-Bayes-Klassifizierer
  • SMSAssassin (Yadav et al.): Bayes-Lernen + SVM
  • Lee et al.: Cloud-Umgebungs-Erkennungsmethode

Implementierungsdetails

  • Plattform: Python
  • Systemkonfiguration: i5-Prozessor, 2,4 GHz, 8 GB RAM
  • Abhängigkeitsbibliotheken: NLTK, CSV, SYS, ConfigParser
  • Datenteilung: 90% Training, 10% Test

Experimentelle Ergebnisse

Hauptergebnisse

MethodeTPRTNRFPRFNRGenauigkeit
Ohne Vorverarbeitung und Normalisierung94,28%87,74%12,25%5,71%88,20%
Mit Vorverarbeitung und Normalisierung97,14%96,12%3,87%2,85%96,20%

Vergleichsexperimentelle Ergebnisse

MethodeInhaltsanalyseTextnormalisierungAlgorithmusGenauigkeit
Joo et al.Naiver Bayes-
Yadav et al.Bayes + SVM84,75%
Lee et al.Quellinhalt-Analyse-
Diese ArbeitNaiver Bayes96,20%

Ablationsstudie

Durch Vergleich der Ergebnisse mit und ohne Vorverarbeitung und Normalisierung wird die Wichtigkeit der Textnormalisierung nachgewiesen:

  • Genauigkeitssteigerung: Von 88,20% auf 96,20% (+8%)
  • TPR-Steigerung: Von 94,28% auf 97,14%
  • TNR-Steigerung: Von 87,74% auf 96,12%

Fallanalyse

Beispiele für Textnormalisierungseffekte:

  • Die Smishing-Wahrscheinlichkeit des Wortes "call" stieg von 0,443425 auf 0,464832
  • Die Smishing-Wahrscheinlichkeit des Wortes "offer" stieg von 0,033639 auf 0,055046
  • Nach der Normalisierung ist die Wort-Semantik konsistenter, was die Klassifizierer-Genauigkeit verbessert

Verwandte Arbeiten

Klassifizierung von Mobile-Phishing-Angriffen

Das Papier schlägt eine umfassende Klassifizierung von Mobile-Phishing-Angriffen vor:

  1. Social-Engineering-Angriffe: SMS, VoIP, Website, E-Mail
  2. Mobile-Anwendungsangriffe: Ähnlichkeitsangriffe, Weiterleitungsangriffe, Hintergrund-Angriffe
  3. Malware-Angriffe: Trojaner, Würmer, Rootkits, Ransomware
  4. Social-Network-Angriffe: Identitätsdiebstahl, bösartige Links, gefälschte Profile
  5. Content-Injection-Angriffe: XSS-Angriffe
  6. Wireless-Medium-Angriffe: Wi-Fi-, Bluetooth-Angriffe
  7. Technische Täuschungsangriffe: DNS-Poisoning, Man-in-the-Middle-Angriffe

Klassifizierung von Abwehrmechanismen

  1. Benutzeraufklärung: Warnmechanismen, gamifiziertes Training
  2. Smishing-Erkennung: S-Detector, SMSAssassin, DCA-Methode
  3. Phishing-Webseiten-Erkennung: MobiFish, kAYO, MP-Shield
  4. Bösartige Anwendungserkennung: VeriUI, StopBankun, Andromaly
  5. QR-Code-Technologie: Single Sign-On, Authentifizierungsschema
  6. Personalisierte Sicherheitsindikatoren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wichtigkeit der Textnormalisierung: Vorverarbeitung und Normalisierung verbessern die Erkennungsgenauigkeit signifikant (+8%)
  2. Methodeneffektivität: Erreichung einer hervorragenden Genauigkeit von 96,20% auf öffentlichen Datensätzen
  3. Praktischer Wert: Bereitstellung einer umfassenden Smishing-Erkennungslösung
  4. Theoretischer Beitrag: Systematische Dokumentation von Mobile-Phishing-Angriffen und Abwehrmechanismen

Einschränkungen

  1. Datensatz-Einschränkungen:
    • Fehlender spezialisierter Smishing-Datensatz, manuelle Extraktion aus Spam erforderlich
    • Relativ kleine Datensatzgröße (362 Smishing-Nachrichten)
    • Unterstützt nur englische Texte
  2. Methodische Einschränkungen:
    • Basierend nur auf Textinhalten, berücksichtigt keine URL-, Absender- und andere Merkmale
    • Abhängig von Wörterbuchqualität, mögliche unvollständige Wörterbucherfassung
    • Anpassungsfähigkeit an neue Angriffsarten muss noch überprüft werden
  3. Experimentelle Einschränkungen:
    • Fehlender Vergleich mit mehr neuesten Methoden
    • Keine datensatzübergreifende Validierung durchgeführt
    • Fehlende Echtzeit-Leistungsbewertung

Zukünftige Richtungen

  1. URL-Analyse: Kombination mit URL-Merkmalen zur Erkennung bösartiger Links und Downloads
  2. Kontextverständnis: Verbesserung des Normalisierungsprozesses, kontextabhängige Wortbedeutungsauswahl
  3. Datensatz-Erweiterung: Aufbau größerer, mehrsprachiger Smishing-Datensätze
  4. Multimodale Fusion: Kombination von Text-, URL-, Absender- und anderen Merkmalen
  5. Echtzeit-Bereitstellung: Algorithmus-Optimierung für Echtzeiterkennung auf mobilen Geräten

Tiefgreifende Bewertung

Stärken

  1. Starke Problemorientierung: Spezialisierung auf wichtige, aber unterforschte Smishing-Sicherheitsbedrohung
  2. Methodische Innovation: Erstmalige systematische Anwendung von Textnormalisierung auf Smishing-Erkennung
  3. Umfangreiche Experimente: Ablationsstudien beweisen den Beitrag jeder Komponente
  4. Umfassende Literaturübersicht: Eine der umfassendsten Übersichten in diesem Bereich
  5. Hoher praktischer Wert: Einfache und wirksame Methode, leicht praktisch einsetzbar

Mängel

  1. Begrenzte technische Tiefe: Hauptsächlich traditionelle Machine-Learning-Methoden, keine Deep-Learning-Erkundung
  2. Einfache Feature-Engineering: Nur Textinhalte verwendet, relativ einzelne Merkmale
  3. Unvollständige Bewertung: Fehlende Analyse der Auswirkungen von Fehlalarmen auf Benutzerfreundlichkeit
  4. Skalierungsprobleme: Verallgemeinerungsfähigkeit für neue Angriffsarten muss überprüft werden
  5. Echtzeit-Leistung unbekannt: Fehlende Leistungstests auf mobilen Geräten

Einfluss

  1. Akademischer Beitrag:
    • Schließung der Forschungslücke bei Smishing-Erkennung
    • Bereitstellung systematischer Angriffs- und Abwehrklassifizierung
    • Nachweis der Wichtigkeit von Textnormalisierung in der Sicherheitserkennung
  2. Praktischer Wert:
    • Direkte Anwendung in mobilen Sicherheitsprodukten
    • Filterlösungen für SMS-Gateways
    • Persönliche Schutztools für Benutzer
  3. Reproduzierbarkeit:
    • Verwendung öffentlicher Datensätze
    • Klare Methodenbeschreibung
    • Detaillierte Algorithmus-Workflows

Anwendungsszenarien

  1. Mobilfunkbetreiber: SMS-Gateway-Echtzeit-Filterung
  2. Sicherheitsunternehmen: Integration in mobile Sicherheitsprodukte
  3. Unternehmensbenutzer: Interne SMS-Sicherheitsüberwachung
  4. Privatbenutzer: Smartphone-Sicherheitsanwendungen
  5. Forschungsinstitutionen: Baseline-Methode für weitere Verbesserungen

Literaturverzeichnis

Das Papier zitiert 63 relevante Referenzen, die folgende Bereiche abdecken:

  • Klassische Methoden zur Phishing-Angriffserkennung
  • Analyse von Mobile-Sicherheitsbedrohungen
  • Machine-Learning-Anwendungen in der Textklassifizierung
  • SMS-Spam-Filterungstechniken
  • Erkennungsmethoden für mobile Malware

Die Hauptreferenzen stammen von APWG-Phishing-Angriffsberichten, IEEE- und ACM-Konferenzbeiträgen sowie relevanten Fachjournalen. Die Literaturzitate sind autoritativ und umfassend.


Gesamtbewertung: Dies ist eine praktische Forschungsarbeit zu einem wichtigen Sicherheitsproblem mit gewisser methodischer Innovation und zufriedenstellenden experimentellen Ergebnissen. Obwohl die technische Tiefe begrenzt ist, bietet sie eine wirksame Baseline-Methode für Smishing-Erkennung mit gutem akademischen und praktischen Wert.