HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
モデル抽出攻撃は推論時攻撃であり、ブラックボックス被害モデルに対して一定数のクエリを発行し、モデルの予測結果を利用して代替モデルを訓練することで、被害モデルの機能と性能を近似するものである。このような攻撃は本番環境のモデルとMLaaS(Machine Learning as a Service)プラットフォームに対して深刻なセキュリティ脅威をもたらし、モデル所有者に大きな経済的損失をもたらす可能性がある。本論文は「攻撃による防御」(attack as defense)という新しい防御パラダイムを提案し、モデル出力を有毒化することで、これらの出力を使用して代替モデルを訓練しようとする悪意のあるユーザーが毒害されるようにする。このため、著者らはHoneypotNetという軽量なバックドア攻撃方法を提案している。この方法は被害モデルの分類層をハニーポット層で置き換え、二層最適化と影シャドウモデル(モデル抽出プロセスをシミュレート)を通じてハニーポット層を微調整し、元の性能を維持しながら出力を有毒化する。
モデル抽出攻撃は、MLaaS(Machine Learning as a Service)プラットフォームが直面する主要な脅威の一つとなっている。攻撃者はAPIクエリを通じてブラックボックスモデルにアクセスし、返された予測結果を利用して機能的に類似した代替モデルを訓練することで、モデルの知的財産を窃取する。