HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
모델 추출 공격은 추론 시간 공격으로, 블랙박스 피해 모델에 대한 일정 수의 쿼리를 통해 모델의 예측 결과를 이용하여 대체 모델을 훈련함으로써 피해 모델의 기능과 성능을 근사하는 방식입니다. 이러한 공격은 프로덕션 모델과 MLaaS 플랫폼에 심각한 보안 위협을 초래하며, 모델 소유자에게 상당한 경제적 손실을 야기할 수 있습니다. 본 논문은 "공격으로 방어한다"(attack as defense)는 새로운 방어 패러다임을 제안하며, 모델 출력을 수정하여 독성을 띠게 함으로써 이러한 출력을 이용하여 대체 모델을 훈련하려는 악의적 사용자가 중독되도록 합니다. 이를 위해 저자들은 HoneypotNet이라는 경량 백도어 공격 방법을 제안하며, 이 방법은 피해 모델의 분류층을 허니팟 층으로 대체하고 이중층 최적화와 섀도우 모델(모델 추출 과정 시뮬레이션)을 통해 허니팟 층을 미세 조정하여 원래 성능을 유지하면서 출력에 독성을 부여합니다.
본 논문은 머신러닝 보안, 모델 추출 공격 및 방어, 백도어 공격 등 분야의 중요한 연구를 인용하고 있으며, KnockoffNets, ActiveThief, 백도어 공격의 개척적 연구 등을 포함하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가: 본 논문에서 제안한 HoneypotNet 방법은 모델 추출 방어 분야에서 중요한 혁신적 의의를 가지며, "공격으로 방어한다"는 사고방식이 해당 분야에 새로운 연구 방향을 개척했습니다. 기술 구현이 교묘하고 실험 평가가 포괄적이며 학술적 가치와 실용적 가치가 높습니다. 이론 분석과 일부 기술 세부사항에서 개선 여지가 있지만, 전반적으로 높은 품질의 연구 성과입니다.