2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.

Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.

academic

HoneypotNet: モデル抽出に対するバックドア攻撃

基本情報

論文ID: 2501.01090
タイトル: HoneypotNet: Backdoor Attacks Against Model Extraction
著者: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
分類: cs.CR（暗号化とセキュリティ）、cs.CV（コンピュータビジョン）
投稿日時/会議: 2025年1月2日arXivに投稿
論文リンク: https://arxiv.org/abs/2501.01090

概要

モデル抽出攻撃は推論時攻撃であり、ブラックボックス被害モデルに対して一定数のクエリを発行し、モデルの予測結果を利用して代替モデルを訓練することで、被害モデルの機能と性能を近似するものである。このような攻撃は本番環境のモデルとMLaaS（Machine Learning as a Service）プラットフォームに対して深刻なセキュリティ脅威をもたらし、モデル所有者に大きな経済的損失をもたらす可能性がある。本論文は「攻撃による防御」(attack as defense)という新しい防御パラダイムを提案し、モデル出力を有毒化することで、これらの出力を使用して代替モデルを訓練しようとする悪意のあるユーザーが毒害されるようにする。このため、著者らはHoneypotNetという軽量なバックドア攻撃方法を提案している。この方法は被害モデルの分類層をハニーポット層で置き換え、二層最適化と影シャドウモデル（モデル抽出プロセスをシミュレート）を通じてハニーポット層を微調整し、元の性能を維持しながら出力を有毒化する。

研究背景と動機

問題定義

モデル抽出攻撃は、MLaaS（Machine Learning as a Service）プラットフォームが直面する主要な脅威の一つとなっている。攻撃者はAPIクエリを通じてブラックボックスモデルにアクセスし、返された予測結果を利用して機能的に類似した代替モデルを訓練することで、モデルの知的財産を窃取する。

問題の重要性

経済的損失: モデル抽出攻撃はモデル所有者に大きな経済的損失をもたらす可能性がある
知的財産保護: 深層学習モデルの訓練コストは高く、効果的な保護が必要である
セキュリティ脅威: 攻撃者は抽出されたモデルを利用してさらなる敵対的攻撃を実行できる

既存方法の限界

既存の防御方法は主に2つのカテゴリに分類される：

受動的防御: 悪意のあるクエリの検出または事後検証のための透かしの使用を通じて行われるが、事前知識に依存し、効果は限定的である
能動的防御: モデル出力の摂動またはクエリコストの増加を通じて抽出を防止しようとするが、計算オーバーヘッドが大きく、高度な攻撃によって回避される可能性がある

研究動機

従来の防御方法は軍拡競争の問題に直面しており、本論文は「攻撃による防御」という新しいパラダイムを提案し、代替モデルに対して能動的にバックドア攻撃を実行してその機能を破壊し、攻撃者に対して強力な抑止力を形成する。

核心的貢献

新しい防御パラダイム: 初めて「攻撃による防御」(attack as defense)防御パラダイムを提案し、代替モデルに対して能動的にバックドア攻撃を実行する
HoneypotNetメソッド: 元の分類層を置き換える軽量なハニーポット層を設計し、二層最適化を通じて有毒な確率ベクトルを生成する
トリガーレスバックドア: 汎用敵対的摂動（UAP）をバックドアトリガーとして革新的に使用し、画像に明示的にトリガーを注入する必要がない
二重機能: 注入されたバックドアは所有権検証と代替モデル機能の破壊の両方を実行でき、強力な抑止効果を形成する
実験検証: 4つのベンチマークデータセットで方法の有効性を検証し、攻撃成功率は56.99%-92.35%に達する

方法の詳細

タスク定義

被害モデルFが与えられた場合、ハニーポット層Hを設計することが目標であり、以下を満たす必要がある：

正常な入力に対して元の性能を維持する
攻撃者がHの出力を使用して代替モデルF̂を訓練する場合、F̂はバックドアが注入される
バックドアは所有権検証と逆向き攻撃に使用できる

モデルアーキテクチャ

ハニーポット層の設計

ハニーポット層Hは全結合層として定義される：

H(x) = W · F_feat(x) + b

ここでF_feat(x)は被害モデルの特徴出力であり、Wとbはパラメータである。

二層最適化フレームワーク

コア最適化目標は以下の通りである：

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

制約条件：

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

3段階の反復プロセス

抽出シミュレーション: シャドウモデルFsを使用して攻撃者のモデル抽出プロセスをシミュレートする
トリガー生成: 勾配符号更新を通じてUAPトリガーδを生成する
微調整: ハニーポット層パラメータを更新してバックドアを注入しながら正常な機能を維持する

技術的革新点

汎用敵対的摂動をトリガーとして使用

深層学習モデルの固有の敵対的脆弱性を利用する
UAPは無毒化トリガーとして機能し、明示的な注入が不要である
共有敵対的脆弱性を通じてバックドア転送を実現する

モーメンタム最適化によるトリガー更新

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

マスク制約

事前定義されたマスクMを使用してトリガー位置を制限し、隠蔽性を向上させる。

実験設定

データセット

被害モデルデータセット: CIFAR10、CIFAR100、Caltech256、CUBS200
攻撃データセット: ImageNet（120万画像）
シャドウデータセット: CC3M（ランダムに選択された5000画像）
検証データセット: 小規模なタスク関連データセット

評価指標

Clean Test Accuracy (Acc_c): 代替モデルのクリーンテストサンプルに対する精度
Verification Test Accuracy (Acc_v): 代替モデルがトリガーサンプルに対してターゲットラベルを予測する精度
Attack Success Rate (ASR): 防御者が逆向き攻撃に成功する成功率

比較方法

抽出攻撃: KnockoffNets、ActiveThief（Entropy & k-Center）、SPSG、BlackBox Dissector
ベースライン防御: 防御なし、DVBW（データセット所有権検証方法）

実装の詳細

BLO反復: 30回の反復、各反復は3つのステップで各5エポック
シャドウモデル: ResNet18（軽量）
トリガーサイズ: CIFARデータセット6×6、その他のデータセット28×28
オプティマイザー: SGD、モーメンタム0.9、学習率0.1（シャドウモデル）/0.02（ハニーポット層）

実験結果

主要な結果

30kクエリ予算下で、HoneypotNetはすべてのデータセットと攻撃方法で顕著な効果を達成した：

攻撃方法	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
KnockoffNets	59.35%	85.71%	78.31%	79.13%
ActiveThief (Entropy)	56.99%	74.35%	83.22%	77.43%
ActiveThief (k-Center)	67.49%	74.63%	80.27%	80.80%
SPSG	66.12%	77.11%	83.51%	77.88%
BlackBox Dissector	78.59%	80.05%	92.35%	78.98%

主要な発見

高い成功率: すべてのテストシナリオでASRが56%を超える
性能の維持: Acc_cは防御なしの場合とほぼ同等であり、攻撃者の疑いを引き起こさない
強力な検証能力: Acc_vはベースライン方法を大幅に上回り、所有権検証を効果的にサポートする
ハードラベルの堅牢性: BlackBox Dissectorのハードラベル攻撃下でも高い効果を維持する

アブレーション実験

トリガーサイズの影響

1×1から15×15のトリガーサイズの実験は以下を示している：

より大きなトリガーはより高いASRをもたらす
トリガーサイズと隠蔽性のバランスが必要である

異なる代替モデルアーキテクチャ

アーキテクチャ	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
ResNet34	59.35%	85.71%	78.31%	79.13%
VGG16	97.16%	87.10%	89.82%	62.17%
DenseNet121	51.68%	53.72%	65.46%	58.00%

防御堅牢性分析

バックドア検出の回避

Cognitive Distillation（CD）検出方法を使用したテストは、クリーンサンプルとバックドアサンプルのL1ノルム分布が高度に類似していることを示し、UAPトリガーが優れた隠蔽性を持つことを示している。

ニューロン剪定の堅牢性

Reconstructive Neuron Pruning（RNP）防御に対するテストは、剪定処理後でもASRが高いレベルに保たれることを示し、バックドアの堅牢性を示している。

結論と議論

主要な結論

新パラダイムの有効性: 「攻撃による防御」パラダイムはモデル抽出防御に新しい視点を提供する
技術的実現可能性: HoneypotNetは軽量なバックドア注入を成功裏に実現する
実用的価値: 方法は複数の攻撃シナリオで優れた性能を示し、実際の応用の可能性がある

限界

計算オーバーヘッド: 相対的に軽量であるが、二層最適化プロセスが必要である
トリガーの可視性: より大きなトリガーは検出される可能性がある
アーキテクチャ依存性: 異なる代替モデルアーキテクチャに対する効果に差異がある
防御対抗: より高度な防御方法による課題に直面する可能性がある

今後の方向性

シャドウモデルの統合: 複数のシャドウモデルを使用して堅牢性を向上させる
適応的トリガー: より隠蔽的なトリガー生成方法を設計する
応用の拡張: 方法を他のタイプのモデルとタスクに拡張する
理論分析: 収束性とセキュリティに関するより深い理論的保証を提供する

深い評価

利点

革新性が強い: 初めて「攻撃による防御」防御パラダイムを提案し、思想が新しい
技術が先進的: UAPとバックドア攻撃を巧みに組み合わせ、トリガーレス注入の技術的課題を解決する
実験が充分: 複数のデータセット、複数の攻撃方法で包括的な評価を実施
実用的価値が高い: 方法は軽量で、実際のシステムへの展開に適している
二重機能: 所有権検証と機能破壊を同時に実現し、抑止効果が強い

不足

理論分析が不足: 方法の収束性とセキュリティに関する理論的保証が不足している
防御の限界: 特定の高度な攻撃方法に対する堅牢性はさらなる検証が必要である
倫理的考慮: 代替モデルへの能動的攻撃は倫理的および法的問題を含む可能性がある
適用範囲: 主に画像分類タスクを対象としており、他のタスクへの適用性は不明である

影響力

学術的貢献: モデルセキュリティ防御分野に新しい研究方向を提供する
実用的価値: MLaaS プラットフォームに実用的な防御ツールを提供する
再現性: 論文は詳細な実装の詳細を提供し、再現を容易にする
啓発性: より多くの「攻撃による防御」タイプの防御方法を啓発する可能性がある

適用シナリオ

MLaaS プラットフォーム: クラウド機械学習サービスのモデル保護
商用モデル: 高価値深層学習モデルの知的財産保護
API サービス: モデル窃取の防止が必要なオンライン推論サービス
エッジ展開: リソース制限環境での軽量防御

参考文献

論文は機械学習セキュリティ、モデル抽出攻撃と防御、バックドア攻撃などの分野の重要な研究を引用しており、KnockoffNets、ActiveThief、バックドア攻撃の開拓的研究などを含み、研究に堅実な理論的基礎を提供している。

全体的評価: 本論文で提案されたHoneypotNetメソッドはモデル抽出防御分野において重要な革新的意義を持ち、「攻撃による防御」の思想はこの分野に新しい研究方向を開拓している。技術実装は巧妙で、実験評価は包括的であり、高い学術的価値と実用的価値を持つ。理論分析と特定の技術的詳細にはまだ改善の余地があるが、全体的には高品質の研究成果である。