2025-11-18T15:52:13.572441

Detection and Prevention of Smishing Attacks

Goel

Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.

academic

스미싱 공격의 탐지 및 방지

기본 정보

논문 ID: 2501.00260
제목: Detection and Prevention of Smishing Attacks
저자: Diksha Goel (학번: 31603217)
지도교수: Mr. Ankit Kumar Jain (조교수)
분류: cs.CR cs.SI
발표 시간: 2018년 6월 (기술석사 학위논문)
기관: Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (인도)
논문 링크: https://arxiv.org/abs/2501.00260

초록

스마트폰의 기능이 데스크톱 컴퓨터에 점점 가까워짐에 따라, 공격자들의 목표가 모바일 기기 사용자로 전환되고 있습니다. 스미싱(SMS 피싱 공격)은 단문 메시지 서비스를 통해 수행되는 피싱 공격으로, 사용자의 민감한 정보를 탈취하는 것을 목표로 합니다. 스미싱 공격의 수가 기하급수적으로 증가하고 있음에도 불구하고, 이러한 위협에 대한 탐지 연구는 상대적으로 제한적입니다. 본 연구는 내용 분석 기반의 스미싱 탐지 모델을 제안하며, 텍스트 정규화를 통해 속어, 약자 및 축약형을 처리하고, 기계학습 분류기를 사용하여 스미싱과 정상 단문을 구분합니다. 실험 결과는 해당 모델이 스미싱 메시지에 대해 97.14%의 분류 정확도, 정상 메시지에 대해 96.12%의 정확도, 전체 정확도 96.20%를 달성함을 보여줍니다.

연구 배경 및 동기

문제 정의

주요 문제: 스마트폰 사용자의 급증(2020년 28.7억 명 예상)에 따라 SMS가 공격자의 피싱 공격 주요 채널이 되고 있습니다. 스미싱 공격은 사용자의 SMS에 대한 높은 신뢰도(35%의 사용자가 SMS를 가장 신뢰할 수 있는 메시지 플랫폼으로 인식)를 악용합니다.
문제의 중요성:
- 33%의 모바일 사용자가 스미싱 메시지를 수신한 경험이 있음
- 42%의 모바일 사용자가 악성 링크를 클릭함
- 스마트폰 사용자가 피싱 공격을 받을 위험은 데스크톱 사용자의 3배
- 2017년 45%의 사용자가 스미싱 메시지를 수신(2016년 대비 2% 증가)
기존 방법의 한계:
- 스팸 단문 탐지 기술은 많지만, 스미싱에 특화된 연구는 부족함
- 텍스트의 속어, 약자 및 축약형이 분류기의 효율성을 저하시킴
- 효과적인 텍스트 정규화 처리 메커니즘 부재
연구 동기:
- 모바일 기기의 하드웨어 제약(작은 화면, 보안 지표 부재)이 공격 성공률을 증가시킴
- 사용자 개인정보 보호를 전제로 스미싱 공격을 효과적으로 탐지할 필요성
- 기존 솔루션의 정확도 개선 필요

핵심 기여

완전한 스미싱 보안 모델 제시: 내용 분석 기반의 2단계 탐지 프레임워크
혁신적인 텍스트 정규화 방법: NoSlang 사전을 사용하여 속어, 약자 및 축약형을 처리하고 분류 정확도를 현저히 향상
포괄적인 모바일 피싱 공격 분류법: 7가지 주요 모바일 피싱 공격 방식을 체계적으로 정리
우수한 탐지 성능: 공개 데이터셋에서 96.20%의 전체 정확도 달성
심층적인 문헌 검토: 모바일 피싱 공격 및 방어 메커니즘에 대한 포괄적 분석 제공

방법론 상세 설명

작업 정의

입력: SMS 텍스트 메시지 출력: 이진 분류 결과(스미싱 메시지 또는 정상 메시지) 제약: 사용자 개인정보 보호, 실시간 탐지, 높은 정확도

모델 아키텍처

본 모델은 2단계 아키텍처를 채택합니다:

단계 1: 전처리 및 정규화

Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)

구체적 단계:

토큰화(Tokenization): 텍스트를 토큰으로 분할
소문자화(Lowercasing): 모든 문자를 소문자로 통일
정규화(Normalization): NoSlang 사전을 사용하여 속어 및 약자 대체
불용어 제거: 153개의 NLTK 영어 불용어 삭제
어간 추출(Stemming): 어휘를 근본 형태로 복원

단계 2: 분류

Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message

베이즈 분류기: 나이브 베이즈 정리를 사용한 분류:

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}$

여기서:

$p(C_k|x)$ : 특징 x가 주어졌을 때 클래스 $C_k$ 에 속할 사후 확률
$p(x|C_k)$ : 클래스 $C_k$ 가 주어졌을 때 특징 x의 우도 확률
$p(C_k)$ : 클래스 $C_k$ 의 사전 확률

기술 혁신점

텍스트 정규화 혁신:
- 스미싱 탐지에 NoSlang 사전을 처음으로 적용
- SMS의 비공식적 언어 표현을 체계적으로 처리
- 변형된 텍스트에 대한 분류기의 인식 능력을 현저히 향상
2단계 처리 프레임워크:
- 전처리 단계에서 텍스트 일관성 보장
- 분류 단계에서 정규화된 텍스트를 기반으로 정확한 판단 수행
개인정보 보호 설계:
- 로컬 처리로 제3자 서비스 미포함
- 텍스트 내용 특징만을 기반으로 하며 사용자 개인정보 수집 없음

실험 설정

데이터셋

데이터 출처: SMS Spam Dataset v.1(공개 데이터셋)
원본 규모: 5,574개 메시지(4,827개 정상, 747개 스팸)
처리 후 규모: 5,169개 메시지(4,807개 정상, 362개 스미싱)
데이터 소스:
- Grumbletext 웹사이트: 425개 스팸
- Caroline Tag 박사 논문: 450개 정상
- NUS SMS Corpus: 3,375개 정상
- SMS Spam Corpus v.0.1: 1,002개 정상, 322개 스팸
- Pinterest 수집: 71개 스미싱

데이터셋 통계 특성

특징	정상 메시지	스미싱 메시지
평균 문자 수	74.55	148.72
평균 단어 수	14.76	24.72
URL 출현 빈도	0.0027	0.2513
기호($,€) 빈도	0.0037	0.0193

평가 지표

참 양성률(True Positive Rate, TPR): $TPR = \frac{TP}{TP + FN}$
참 음성률(True Negative Rate, TNR): $TNR = \frac{TN}{TN + FP}$
거짓 양성률(False Positive Rate, FPR): $FPR = \frac{FP}{FP + TN}$
정확도(Accuracy): $A = \frac{TP + TN}{TP + TN + FP + FN}$

비교 방법

S-Detector (Joo et al.): 나이브 베이즈 분류기
SMSAssassin (Yadav et al.): 베이즈 학습 + SVM
Lee et al.: 클라우드 환경 탐지 방법

구현 세부사항

플랫폼: Python
시스템 구성: i5 프로세서, 2.4GHz, 8GB RAM
의존 라이브러리: NLTK, CSV, SYS, ConfigParser
데이터 분할: 90% 훈련, 10% 테스트

실험 결과

주요 결과

방법	TPR	TNR	FPR	FNR	정확도
전처리 정규화 없음	94.28%	87.74%	12.25%	5.71%	88.20%
전처리 정규화 포함	97.14%	96.12%	3.87%	2.85%	96.20%

비교 실험 결과

방법	내용 분석	텍스트 정규화	알고리즘	정확도
Joo et al.	✓	✗	나이브 베이즈	-
Yadav et al.	✓	✗	베이즈+SVM	84.75%
Lee et al.	✓	✗	소스 내용 분석	-
본 논문 방법	✓	✓	나이브 베이즈	96.20%

소거 실험

전처리 정규화 유무 결과 비교를 통해 텍스트 정규화의 중요성을 입증:

정확도 향상: 88.20%에서 96.20%로 향상(+8%)
TPR 향상: 94.28%에서 97.14%로 향상
TNR 향상: 87.74%에서 96.12%로 향상

사례 분석

텍스트 정규화 효과 예시:

"call" 어휘의 스미싱 확률이 0.443425에서 0.464832로 향상
"offer" 어휘의 스미싱 확률이 0.033639에서 0.055046으로 향상
정규화 후 어휘 의미가 더욱 일관되어 분류기의 판단 정확성 향상

결론 및 논의

주요 결론

텍스트 정규화의 중요성: 전처리 및 정규화가 탐지 정확도를 현저히 향상(+8%)
방법의 효과성: 공개 데이터셋에서 96.20%의 우수한 정확도 달성
실용적 가치: 완전한 스미싱 탐지 솔루션 제공
이론적 기여: 모바일 피싱 공격 및 방어 메커니즘을 체계적으로 정리

한계점

데이터셋 제약:
- 전문 스미싱 데이터셋 부재로 스팸에서 수동 추출 필요
- 데이터셋 규모가 상대적으로 작음(스미싱 메시지 362개)
- 영어 텍스트만 지원
방법론 한계:
- 텍스트 내용만 기반으로 URL, 발신자 등 특징 미고려
- 사전 품질에 의존하며 사전 커버리지 불완전 가능성
- 새로운 공격 수법에 대한 적응성 검증 필요
실험 한계:
- 더 많은 최신 방법과의 비교 부족
- 교차 데이터셋 검증 미실시
- 실시간 성능 평가 부재

향후 방향

URL 분석: URL 특징을 결합하여 악성 링크 및 다운로드 탐지
문맥 이해: 정규화 프로세스 개선, 문맥에 따른 최적 어의 선택
데이터셋 확장: 더 큰 규모의 다국어 스미싱 데이터셋 구축
다중 모달 융합: 텍스트, URL, 발신자 정보 등 다양한 특징 결합
실시간 배포: 알고리즘 효율성 최적화, 모바일 기기 실시간 탐지 지원

심층 평가

장점

문제 지향성 강함: 중요하지만 연구 부족한 스미싱이라는 보안 위협에 특화
방법 혁신성: 텍스트 정규화를 스미싱 탐지에 처음으로 체계적 적용
실험 충분함: 소거 실험을 통해 각 구성 요소의 기여도 입증
문헌 검토 포괄적: 해당 분야 가장 포괄적인 검토 중 하나 제공
실용적 가치 높음: 방법이 단순하고 효과적이며 실제 배포 용이

부족한 점

기술 깊이 제한: 주로 전통 기계학습 방법 사용, 심층학습 미탐색
특징 공학 단순: 텍스트 내용만 사용하여 특징이 상대적으로 단순
평가 불완전: 오탐지율이 사용자 경험에 미치는 영향 분석 부재
확장성 문제: 새로운 공격 수법에 대한 일반화 능력 검증 필요
실시간 성능 미지: 모바일 기기에서의 성능 테스트 부재

영향력

학술적 기여:
- 스미싱 탐지 연구의 공백 메우기
- 체계적인 공격 및 방어 분류법 제공
- 보안 탐지에서 텍스트 정규화의 중요성 입증
실용적 가치:
- 모바일 보안 제품에 직접 적용 가능
- SMS 게이트웨이 필터링 솔루션 제공
- 사용자 개인 방호 도구 제공
재현성:
- 공개 데이터셋 사용
- 명확한 방법 설명
- 상세한 알고리즘 프로세스 제공

적용 시나리오

이동통신사: SMS 게이트웨이 실시간 필터링
보안 업체: 모바일 보안 제품 통합
기업 사용자: 내부 SMS 보안 모니터링
개인 사용자: 스마트폰 보안 애플리케이션
연구 기관: 기준 방법으로 추가 개선

참고문헌

논문은 63개의 관련 문헌을 인용하며, 다음을 포함합니다:

피싱 공격 탐지의 고전적 방법
모바일 보안 위협 분석
텍스트 분류에서의 기계학습 응용
SMS 스팸 필터링 기술
모바일 악성 소프트웨어 탐지 방법

주로 APWG 피싱 공격 보고서, IEEE 및 ACM 회의 논문, 관련 분야의 중요 저널 기사를 참고하였으며, 문헌 인용이 권위 있고 포괄적입니다.

종합 평가: 중요한 보안 문제에 대한 실용적 연구로, 방법론상 일정한 혁신성을 갖추고 있습니다. 실험 결과도 만족스럽습니다. 기술 깊이는 제한적이지만, 스미싱 탐지를 위한 효과적인 기준 방법을 제공하며 학술적, 실용적 가치가 양호합니다.