Phishing is an online identity theft technique where attackers steal users personal information, leading to financial losses for individuals and organizations. With the increasing adoption of smartphones, which provide functionalities similar to desktop computers, attackers are targeting mobile users. Smishing, a phishing attack carried out through Short Messaging Service (SMS), has become prevalent due to the widespread use of SMS-based services. It involves deceptive messages designed to extract sensitive information. Despite the growing number of smishing attacks, limited research focuses on detecting these threats. This work presents a smishing detection model using a content-based analysis approach. To address the challenge posed by slang, abbreviations, and short forms in text communication, the model normalizes these into standard forms. A machine learning classifier is employed to classify messages as smishing or ham. Experimental results demonstrate the model effectiveness, achieving classification accuracies of 97.14% for smishing and 96.12% for ham messages, with an overall accuracy of 96.20%.
논문 ID : 2501.00260제목 : Detection and Prevention of Smishing Attacks저자 : Diksha Goel (학번: 31603217)지도교수 : Mr. Ankit Kumar Jain (조교수)분류 : cs.CR cs.SI발표 시간 : 2018년 6월 (기술석사 학위논문)기관 : Department of Computer Engineering, National Institute of Technology Kurukshetra-136119, Haryana (인도)논문 링크 : https://arxiv.org/abs/2501.00260 스마트폰의 기능이 데스크톱 컴퓨터에 점점 가까워짐에 따라, 공격자들의 목표가 모바일 기기 사용자로 전환되고 있습니다. 스미싱(SMS 피싱 공격)은 단문 메시지 서비스를 통해 수행되는 피싱 공격으로, 사용자의 민감한 정보를 탈취하는 것을 목표로 합니다. 스미싱 공격의 수가 기하급수적으로 증가하고 있음에도 불구하고, 이러한 위협에 대한 탐지 연구는 상대적으로 제한적입니다. 본 연구는 내용 분석 기반의 스미싱 탐지 모델을 제안하며, 텍스트 정규화를 통해 속어, 약자 및 축약형을 처리하고, 기계학습 분류기를 사용하여 스미싱과 정상 단문을 구분합니다. 실험 결과는 해당 모델이 스미싱 메시지에 대해 97.14%의 분류 정확도, 정상 메시지에 대해 96.12%의 정확도, 전체 정확도 96.20%를 달성함을 보여줍니다.
주요 문제 : 스마트폰 사용자의 급증(2020년 28.7억 명 예상)에 따라 SMS가 공격자의 피싱 공격 주요 채널이 되고 있습니다. 스미싱 공격은 사용자의 SMS에 대한 높은 신뢰도(35%의 사용자가 SMS를 가장 신뢰할 수 있는 메시지 플랫폼으로 인식)를 악용합니다.문제의 중요성 :33%의 모바일 사용자가 스미싱 메시지를 수신한 경험이 있음 42%의 모바일 사용자가 악성 링크를 클릭함 스마트폰 사용자가 피싱 공격을 받을 위험은 데스크톱 사용자의 3배 2017년 45%의 사용자가 스미싱 메시지를 수신(2016년 대비 2% 증가) 기존 방법의 한계 :스팸 단문 탐지 기술은 많지만, 스미싱에 특화된 연구는 부족함 텍스트의 속어, 약자 및 축약형이 분류기의 효율성을 저하시킴 효과적인 텍스트 정규화 처리 메커니즘 부재 연구 동기 :모바일 기기의 하드웨어 제약(작은 화면, 보안 지표 부재)이 공격 성공률을 증가시킴 사용자 개인정보 보호를 전제로 스미싱 공격을 효과적으로 탐지할 필요성 기존 솔루션의 정확도 개선 필요 완전한 스미싱 보안 모델 제시 : 내용 분석 기반의 2단계 탐지 프레임워크혁신적인 텍스트 정규화 방법 : NoSlang 사전을 사용하여 속어, 약자 및 축약형을 처리하고 분류 정확도를 현저히 향상포괄적인 모바일 피싱 공격 분류법 : 7가지 주요 모바일 피싱 공격 방식을 체계적으로 정리우수한 탐지 성능 : 공개 데이터셋에서 96.20%의 전체 정확도 달성심층적인 문헌 검토 : 모바일 피싱 공격 및 방어 메커니즘에 대한 포괄적 분석 제공입력 : SMS 텍스트 메시지
출력 : 이진 분류 결과(스미싱 메시지 또는 정상 메시지)
제약 : 사용자 개인정보 보호, 실시간 탐지, 높은 정확도
본 모델은 2단계 아키텍처를 채택합니다:
Algorithm 1: Preprocessing and Normalization Algorithm
Input: msg (message), dict (NoSlang dictionary), stop (stop words)
Output: n_msg (preprocessed and normalized message)
구체적 단계 :
토큰화(Tokenization) : 텍스트를 토큰으로 분할소문자화(Lowercasing) : 모든 문자를 소문자로 통일정규화(Normalization) : NoSlang 사전을 사용하여 속어 및 약자 대체불용어 제거 : 153개의 NLTK 영어 불용어 삭제어간 추출(Stemming) : 어휘를 근본 형태로 복원Algorithm 2: Classification Algorithm
Input: D (dataset), n_msg (preprocessed and normalized message)
Output: ham or smishing message
베이즈 분류기 :
나이브 베이즈 정리를 사용한 분류:
p ( C k ∣ x ) = p ( x ∣ C k ) p ( C k ) p ( x ) p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)} p ( C k ∣ x ) = p ( x ) p ( x ∣ C k ) p ( C k )
여기서:
p ( C k ∣ x ) p(C_k|x) p ( C k ∣ x ) : 특징 x가 주어졌을 때 클래스 C k C_k C k 에 속할 사후 확률p ( x ∣ C k ) p(x|C_k) p ( x ∣ C k ) : 클래스 C k C_k C k 가 주어졌을 때 특징 x의 우도 확률p ( C k ) p(C_k) p ( C k ) : 클래스 C k C_k C k 의 사전 확률텍스트 정규화 혁신 :스미싱 탐지에 NoSlang 사전을 처음으로 적용 SMS의 비공식적 언어 표현을 체계적으로 처리 변형된 텍스트에 대한 분류기의 인식 능력을 현저히 향상 2단계 처리 프레임워크 :전처리 단계에서 텍스트 일관성 보장 분류 단계에서 정규화된 텍스트를 기반으로 정확한 판단 수행 개인정보 보호 설계 :로컬 처리로 제3자 서비스 미포함 텍스트 내용 특징만을 기반으로 하며 사용자 개인정보 수집 없음 데이터 출처 : SMS Spam Dataset v.1(공개 데이터셋)원본 규모 : 5,574개 메시지(4,827개 정상, 747개 스팸)처리 후 규모 : 5,169개 메시지(4,807개 정상, 362개 스미싱)데이터 소스 :
Grumbletext 웹사이트: 425개 스팸 Caroline Tag 박사 논문: 450개 정상 NUS SMS Corpus: 3,375개 정상 SMS Spam Corpus v.0.1: 1,002개 정상, 322개 스팸 Pinterest 수집: 71개 스미싱 특징 정상 메시지 스미싱 메시지 평균 문자 수 74.55 148.72 평균 단어 수 14.76 24.72 URL 출현 빈도 0.0027 0.2513 기호($,€) 빈도 0.0037 0.0193
참 양성률(True Positive Rate, TPR) : T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR = TP + FN TP 참 음성률(True Negative Rate, TNR) : T N R = T N T N + F P TNR = \frac{TN}{TN + FP} TNR = TN + FP TN 거짓 양성률(False Positive Rate, FPR) : F P R = F P F P + T N FPR = \frac{FP}{FP + TN} FPR = FP + TN FP 정확도(Accuracy) : A = T P + T N T P + T N + F P + F N A = \frac{TP + TN}{TP + TN + FP + FN} A = TP + TN + FP + FN TP + TN S-Detector (Joo et al.): 나이브 베이즈 분류기 SMSAssassin (Yadav et al.): 베이즈 학습 + SVM Lee et al.: 클라우드 환경 탐지 방법 플랫폼 : Python시스템 구성 : i5 프로세서, 2.4GHz, 8GB RAM의존 라이브러리 : NLTK, CSV, SYS, ConfigParser데이터 분할 : 90% 훈련, 10% 테스트방법 TPR TNR FPR FNR 정확도 전처리 정규화 없음 94.28% 87.74% 12.25% 5.71% 88.20% 전처리 정규화 포함 97.14% 96.12% 3.87% 2.85% 96.20%
방법 내용 분석 텍스트 정규화 알고리즘 정확도 Joo et al. ✓ ✗ 나이브 베이즈 - Yadav et al. ✓ ✗ 베이즈+SVM 84.75% Lee et al. ✓ ✗ 소스 내용 분석 - 본 논문 방법 ✓ ✓ 나이브 베이즈 96.20%
전처리 정규화 유무 결과 비교를 통해 텍스트 정규화의 중요성을 입증:
정확도 향상 : 88.20%에서 96.20%로 향상(+8%)TPR 향상 : 94.28%에서 97.14%로 향상TNR 향상 : 87.74%에서 96.12%로 향상텍스트 정규화 효과 예시:
"call" 어휘의 스미싱 확률이 0.443425에서 0.464832로 향상 "offer" 어휘의 스미싱 확률이 0.033639에서 0.055046으로 향상 정규화 후 어휘 의미가 더욱 일관되어 분류기의 판단 정확성 향상 논문은 완전한 모바일 피싱 공격 분류법을 제시합니다:
사회공학 공격 : SMS, VoIP, 웹사이트, 이메일모바일 애플리케이션 공격 : 유사성 공격, 전달 공격, 백그라운드 공격악성 소프트웨어 공격 : 트로이 목마, 웜, 루트킷, 랜섬웨어소셜 네트워크 공격 : 신원 사칭, 악성 링크, 허위 프로필내용 주입 공격 : XSS 공격무선 매체 공격 : Wi-Fi, 블루투스 공격기술 사기 공격 : DNS 오염, 중간자 공격사용자 교육 : 경고 메커니즘, 게임화 훈련스미싱 탐지 : S-Detector, SMSAssassin, DCA 방법피싱 웹페이지 탐지 : MobiFish, kAYO, MP-Shield악성 애플리케이션 탐지 : VeriUI, StopBankun, AndromalyQR 코드 기술 : 단일 로그인, 인증 방식개인화된 보안 지표 텍스트 정규화의 중요성 : 전처리 및 정규화가 탐지 정확도를 현저히 향상(+8%)방법의 효과성 : 공개 데이터셋에서 96.20%의 우수한 정확도 달성실용적 가치 : 완전한 스미싱 탐지 솔루션 제공이론적 기여 : 모바일 피싱 공격 및 방어 메커니즘을 체계적으로 정리데이터셋 제약 :전문 스미싱 데이터셋 부재로 스팸에서 수동 추출 필요 데이터셋 규모가 상대적으로 작음(스미싱 메시지 362개) 영어 텍스트만 지원 방법론 한계 :텍스트 내용만 기반으로 URL, 발신자 등 특징 미고려 사전 품질에 의존하며 사전 커버리지 불완전 가능성 새로운 공격 수법에 대한 적응성 검증 필요 실험 한계 :더 많은 최신 방법과의 비교 부족 교차 데이터셋 검증 미실시 실시간 성능 평가 부재 URL 분석 : URL 특징을 결합하여 악성 링크 및 다운로드 탐지문맥 이해 : 정규화 프로세스 개선, 문맥에 따른 최적 어의 선택데이터셋 확장 : 더 큰 규모의 다국어 스미싱 데이터셋 구축다중 모달 융합 : 텍스트, URL, 발신자 정보 등 다양한 특징 결합실시간 배포 : 알고리즘 효율성 최적화, 모바일 기기 실시간 탐지 지원문제 지향성 강함 : 중요하지만 연구 부족한 스미싱이라는 보안 위협에 특화방법 혁신성 : 텍스트 정규화를 스미싱 탐지에 처음으로 체계적 적용실험 충분함 : 소거 실험을 통해 각 구성 요소의 기여도 입증문헌 검토 포괄적 : 해당 분야 가장 포괄적인 검토 중 하나 제공실용적 가치 높음 : 방법이 단순하고 효과적이며 실제 배포 용이기술 깊이 제한 : 주로 전통 기계학습 방법 사용, 심층학습 미탐색특징 공학 단순 : 텍스트 내용만 사용하여 특징이 상대적으로 단순평가 불완전 : 오탐지율이 사용자 경험에 미치는 영향 분석 부재확장성 문제 : 새로운 공격 수법에 대한 일반화 능력 검증 필요실시간 성능 미지 : 모바일 기기에서의 성능 테스트 부재학술적 기여 :스미싱 탐지 연구의 공백 메우기 체계적인 공격 및 방어 분류법 제공 보안 탐지에서 텍스트 정규화의 중요성 입증 실용적 가치 :모바일 보안 제품에 직접 적용 가능 SMS 게이트웨이 필터링 솔루션 제공 사용자 개인 방호 도구 제공 재현성 :공개 데이터셋 사용 명확한 방법 설명 상세한 알고리즘 프로세스 제공 이동통신사 : SMS 게이트웨이 실시간 필터링보안 업체 : 모바일 보안 제품 통합기업 사용자 : 내부 SMS 보안 모니터링개인 사용자 : 스마트폰 보안 애플리케이션연구 기관 : 기준 방법으로 추가 개선논문은 63개의 관련 문헌을 인용하며, 다음을 포함합니다:
피싱 공격 탐지의 고전적 방법 모바일 보안 위협 분석 텍스트 분류에서의 기계학습 응용 SMS 스팸 필터링 기술 모바일 악성 소프트웨어 탐지 방법 주로 APWG 피싱 공격 보고서, IEEE 및 ACM 회의 논문, 관련 분야의 중요 저널 기사를 참고하였으며, 문헌 인용이 권위 있고 포괄적입니다.
종합 평가 : 중요한 보안 문제에 대한 실용적 연구로, 방법론상 일정한 혁신성을 갖추고 있습니다. 실험 결과도 만족스럽습니다. 기술 깊이는 제한적이지만, 스미싱 탐지를 위한 효과적인 기준 방법을 제공하며 학술적, 실용적 가치가 양호합니다.