2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic

HoneypotNet: 모델 추출 공격에 대한 백도어 공격

기본 정보

  • 논문 ID: 2501.01090
  • 제목: HoneypotNet: Backdoor Attacks Against Model Extraction
  • 저자: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
  • 분류: cs.CR (암호화 및 보안), cs.CV (컴퓨터 비전)
  • 발표 시간/학회: 2025년 1월 2일 arXiv 제출
  • 논문 링크: https://arxiv.org/abs/2501.01090

초록

모델 추출 공격은 추론 시간 공격으로, 블랙박스 피해 모델에 대한 일정 수의 쿼리를 통해 모델의 예측 결과를 이용하여 대체 모델을 훈련함으로써 피해 모델의 기능과 성능을 근사하는 방식입니다. 이러한 공격은 프로덕션 모델과 MLaaS 플랫폼에 심각한 보안 위협을 초래하며, 모델 소유자에게 상당한 경제적 손실을 야기할 수 있습니다. 본 논문은 "공격으로 방어한다"(attack as defense)는 새로운 방어 패러다임을 제안하며, 모델 출력을 수정하여 독성을 띠게 함으로써 이러한 출력을 이용하여 대체 모델을 훈련하려는 악의적 사용자가 중독되도록 합니다. 이를 위해 저자들은 HoneypotNet이라는 경량 백도어 공격 방법을 제안하며, 이 방법은 피해 모델의 분류층을 허니팟 층으로 대체하고 이중층 최적화와 섀도우 모델(모델 추출 과정 시뮬레이션)을 통해 허니팟 층을 미세 조정하여 원래 성능을 유지하면서 출력에 독성을 부여합니다.

연구 배경 및 동기

문제 정의

모델 추출 공격은 머신러닝 서비스(MLaaS) 플랫폼이 직면한 주요 위협 중 하나가 되었습니다. 공격자는 API 쿼리를 통해 블랙박스 모델에 접근하고, 반환된 예측 결과를 이용하여 기능이 유사한 대체 모델을 훈련함으로써 모델의 지적 재산권을 탈취합니다.

문제의 중요성

  1. 경제적 손실: 모델 추출 공격은 모델 소유자에게 상당한 경제적 손실을 야기할 수 있음
  2. 지적 재산권 보호: 심층 학습 모델의 훈련 비용이 높으므로 효과적인 보호 필요
  3. 보안 위협: 공격자는 추출된 모델을 이용하여 추가적인 적대적 공격 수행 가능

기존 방법의 한계

기존 방어 방법은 주로 두 가지로 분류됩니다:

  1. 수동 방어: 악의적 쿼리 탐지 또는 워터마크를 통한 사후 검증이지만, 사전 지식에 의존하며 효과 제한적
  2. 능동 방어: 모델 출력 교란 또는 쿼리 비용 증가를 통해 추출 방지하지만, 계산 오버헤드가 크고 고급 공격에 우회될 수 있음

연구 동기

전통적 방어 방법은 군비 경쟁 문제를 내포하고 있으므로, 본 논문은 대체 모델에 능동적으로 백도어 공격을 수행하여 기능을 파괴하는 "공격으로 방어한다"는 새로운 패러다임을 제안합니다.

핵심 기여

  1. 새로운 방어 패러다임: "공격으로 방어한다"(attack as defense) 방어 패러다임을 최초로 제안하여 대체 모델에 능동적으로 백도어 공격 수행
  2. HoneypotNet 방법: 원래 분류층을 대체하는 경량 허니팟 층을 설계하고, 이중층 최적화를 통해 독성 확률 벡터 생성
  3. 트리거 없는 백도어: 범용 적대적 교란(UAP)을 백도어 트리거로 혁신적으로 사용하여 이미지에 명시적 트리거 주입 불필요
  4. 이중 기능: 주입된 백도어는 소유권 검증과 대체 모델 기능 파괴를 동시에 수행하여 강력한 억제 효과 형성
  5. 실험 검증: 4개 벤치마크 데이터셋에서 방법의 유효성 검증, 공격 성공률 56.99%-92.35% 달성

방법 상세 설명

작업 정의

피해 모델 F가 주어졌을 때, 허니팟 층 H를 설계하여 다음을 만족하는 것이 목표입니다:

  • 정상 입력에서 원래 성능 유지
  • 공격자가 H의 출력을 이용하여 대체 모델 F̂를 훈련할 때, F̂에 백도어 주입
  • 백도어는 소유권 검증 및 역공격에 활용 가능

모델 아키텍처

허니팟 층 설계

허니팟 층 H는 완전 연결층으로 정의됩니다:

H(x) = W · F_feat(x) + b

여기서 F_feat(x)는 피해 모델의 특성 출력이고, W와 b는 학습 가능한 매개변수입니다.

이중층 최적화 프레임워크

핵심 최적화 목표:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

제약 조건:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

3단계 반복 과정

  1. 추출 시뮬레이션: 섀도우 모델 Fs를 사용하여 공격자의 모델 추출 과정 시뮬레이션
  2. 트리거 생성: 그래디언트 부호 업데이트를 통해 UAP 트리거 δ 생성
  3. 미세 조정: 백도어 주입 동시에 정상 기능 유지를 위해 허니팟 층 매개변수 업데이트

기술 혁신점

범용 적대적 교란을 트리거로 사용

  • 심층 학습 모델의 내재적 적대적 취약성 활용
  • UAP는 명시적 주입 없이 무독성 트리거로 작용
  • 공유된 적대적 취약성을 통해 백도어 전달 실현

모멘텀 최적화 트리거 업데이트

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

마스크 제약

사전 정의된 마스크 M을 사용하여 트리거 위치를 제한하고 은폐성 강화합니다.

실험 설정

데이터셋

  • 피해 모델 데이터셋: CIFAR10, CIFAR100, Caltech256, CUBS200
  • 공격 데이터셋: ImageNet (120만 이미지)
  • 섀도우 데이터셋: CC3M (무작위 선택 5000장 이미지)
  • 검증 데이터셋: 소규모 작업 관련 데이터셋

평가 지표

  1. Clean Test Accuracy (Acc_c): 대체 모델의 깨끗한 테스트 샘플에 대한 정확도
  2. Verification Test Accuracy (Acc_v): 대체 모델이 트리거 샘플에서 목표 레이블을 예측하는 정확도
  3. Attack Success Rate (ASR): 방어자가 역공격을 성공적으로 수행하는 성공률

비교 방법

  • 추출 공격: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
  • 기준선 방어: 방어 없음, DVBW (데이터셋 소유권 검증 방법)

구현 세부사항

  • BLO 반복: 30회 반복, 각 반복마다 3개 단계 각 5 에포크
  • 섀도우 모델: ResNet18 (경량)
  • 트리거 크기: CIFAR 데이터셋 6×6, 기타 데이터셋 28×28
  • 최적화기: SGD, 모멘텀 0.9, 학습률 0.1 (섀도우 모델)/0.02 (허니팟 층)

실험 결과

주요 결과

30k 쿼리 예산 하에서 HoneypotNet은 모든 데이터셋과 공격 방법에서 현저한 효과를 달성했습니다:

공격 방법CIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
KnockoffNets59.35%85.71%78.31%79.13%
ActiveThief (Entropy)56.99%74.35%83.22%77.43%
ActiveThief (k-Center)67.49%74.63%80.27%80.80%
SPSG66.12%77.11%83.51%77.88%
BlackBox Dissector78.59%80.05%92.35%78.98%

주요 발견

  1. 높은 성공률: 모든 테스트 시나리오에서 ASR이 56% 이상
  2. 성능 유지: Acc_c는 방어 없는 경우와 거의 동일하여 공격자의 의심 유발 안 함
  3. 강력한 검증 능력: Acc_v는 기준선 방법보다 현저히 높아 소유권 검증을 효과적으로 지원
  4. 하드 레이블 견고성: BlackBox Dissector의 하드 레이블 공격에서도 높은 효율성 유지

소거 실험

트리거 크기 영향

  • 트리거 크기 1×1에서 15×15까지의 실험 결과:
  • 더 큰 트리거가 더 높은 ASR 제공
  • 트리거 크기와 은폐성 간 균형 필요

다양한 대체 모델 아키텍처

아키텍처CIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
ResNet3459.35%85.71%78.31%79.13%
VGG1697.16%87.10%89.82%62.17%
DenseNet12151.68%53.72%65.46%58.00%

방어 견고성 분석

백도어 탐지 회피

Cognitive Distillation (CD) 탐지 방법을 사용한 테스트 결과, 깨끗한 샘플과 백도어 샘플의 L1 노름 분포가 매우 유사하여 UAP 트리거의 우수한 은폐성을 나타냅니다.

신경원 가지치기 견고성

Reconstructive Neuron Pruning (RNP) 방어에 대한 테스트 결과, 가지치기 처리 후에도 ASR이 높은 수준으로 유지되어 백도어의 견고성을 보여줍니다.

관련 연구

모델 추출 공격

  1. 데이터 합성 방법: GAN 또는 확산 모델을 사용한 합성 훈련 데이터 생성
  2. 데이터 선택 방법: 사전 저장된 데이터 풀에서 정보 풍부한 샘플 선택 (예: KnockoffNets, ActiveThief)

모델 추출 방어

  1. 추출 탐지: 사용자 쿼리 행동 모니터링을 통한 악의적 사용자 탐지
  2. 작업 증명: 쿼리 비용 증가
  3. 모델 워터마크: 검증 가능한 특성 임베딩
  4. 예측 교란: 모델 예측에 교란 추가

백도어 공격

  1. 더티 이미지 공격: 훈련 데이터에 트리거가 있는 샘플 주입
  2. 클린 이미지 공격: 이미지 수정 없이 직접 백도어 주입

결론 및 논의

주요 결론

  1. 새로운 패러다임의 유효성: "공격으로 방어한다" 패러다임이 모델 추출 방어를 위한 새로운 사고방식 제공
  2. 기술 실현 가능성: HoneypotNet이 경량 백도어 주입을 성공적으로 구현
  3. 실용적 가치: 다양한 공격 시나리오에서 우수한 성능 발휘, 실제 응용 가능성 보유

한계

  1. 계산 오버헤드: 상대적으로 경량이지만 여전히 이중층 최적화 과정 필요
  2. 트리거 가시성: 더 큰 트리거는 발견될 가능성 있음
  3. 아키텍처 의존성: 다양한 대체 모델 아키텍처에 대한 효과 차이 존재
  4. 방어 대항: 더 고급 방어 방법의 도전 가능성

향후 방향

  1. 섀도우 모델 통합: 다중 섀도우 모델 사용으로 견고성 향상
  2. 자적응 트리거: 더 은폐된 트리거 생성 방법 설계
  3. 응용 확장: 다른 유형의 모델 및 작업으로 방법 확장
  4. 이론 분석: 수렴성 및 보안에 대한 더 깊은 이론적 보증 제공

심층 평가

장점

  1. 높은 혁신성: "공격으로 방어한다" 방어 패러다임을 최초로 제안, 사고방식 신선함
  2. 기술 선진성: UAP와 백도어 공격을 교묘하게 결합하여 트리거 없는 주입의 기술적 난제 해결
  3. 충분한 실험: 다중 데이터셋, 다양한 공격 방법에서 포괄적 평가 수행
  4. 높은 실용적 가치: 경량 방법으로 실제 시스템 배포에 적합
  5. 이중 기능: 소유권 검증과 기능 파괴를 동시에 실현하여 강력한 억제 효과

부족한 점

  1. 이론 분석 부족: 방법의 수렴성 및 보안에 대한 이론적 보증 부재
  2. 방어 한계: 특정 고급 공격 방법에 대한 견고성 추가 검증 필요
  3. 윤리적 고려: 대체 모델에 대한 능동적 공격이 윤리 및 법적 문제 야기 가능
  4. 적용 범위: 주로 이미지 분류 작업에 초점, 다른 작업의 적용성 미지수

영향력

  1. 학술 기여: 모델 보안 방어 분야에 새로운 연구 방향 제시
  2. 실용적 가치: MLaaS 플랫폼에 실용적 방어 도구 제공
  3. 재현 가능성: 상세한 구현 세부사항 제공으로 재현 용이
  4. 영감 제공: 더 많은 "공격으로 방어한다" 유형의 방어 방법 연구 영감

적용 시나리오

  1. MLaaS 플랫폼: 클라우드 머신러닝 서비스의 모델 보호
  2. 상용 모델: 고가치 심층 학습 모델의 지적 재산권 보호
  3. API 서비스: 모델 탈취 방지가 필요한 온라인 추론 서비스
  4. 엣지 배포: 자원 제약 환경에서의 경량 방어

참고문헌

본 논문은 머신러닝 보안, 모델 추출 공격 및 방어, 백도어 공격 등 분야의 중요한 연구를 인용하고 있으며, KnockoffNets, ActiveThief, 백도어 공격의 개척적 연구 등을 포함하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 본 논문에서 제안한 HoneypotNet 방법은 모델 추출 방어 분야에서 중요한 혁신적 의의를 가지며, "공격으로 방어한다"는 사고방식이 해당 분야에 새로운 연구 방향을 개척했습니다. 기술 구현이 교묘하고 실험 평가가 포괄적이며 학술적 가치와 실용적 가치가 높습니다. 이론 분석과 일부 기술 세부사항에서 개선 여지가 있지만, 전반적으로 높은 품질의 연구 성과입니다.