2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

バックドア学習解除による線形タスク分解

基本情報

  • 論文ID: 2510.14845
  • タイトル: Backdoor Unlearning by Linear Task Decomposition
  • 著者: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • 分類: cs.LG cs.CV
  • 発表時期/会議: arXiv プレプリント (2025年10月16日提出)
  • 論文リンク: https://arxiv.org/abs/2510.14845

要約

基盤モデル(Foundation Models)はコンピュータビジョンに革命をもたらし、多様なタスク間での広範な汎化を実現しました。しかし、これらは敵対的摂動と標的型バックドア攻撃に対して極めて脆弱なままです。特にモデルの大規模性により安全性確保のための再訓練が禁止されているため、このような脆弱性の軽減は未解決の課題です。既存のバックドア除去アプローチは有害な動作を上書きするための高コストなファインチューニングに依存しており、しばしば他の無関係なタスクでのパフォーマンスを低下させます。本研究では、バックドアを除去しながらモデルの一般的な能力を損なわないことが可能かという問題に取り組みます。バックドアがモデルの重みの空間にどのようにエンコードされているかを調査し、それらが他の良性タスクから分離されていることを発見しました。特に、この分離によりバックドアの影響を分離して消去でき、クリーンなパフォーマンスへの影響は最小限に抑えられます。この知見に基づき、そのような分離を活用する単純な学習解除方法を導入します。CLIPベースのモデルと一般的な敵対的トリガーを用いた広範な実験を通じて、攻撃の知識が与えられた場合、本手法はほぼ完全な学習解除を達成しながら、平均してクリーン精度の96%を保持することを示します。さらに、攻撃とその存在が不明な場合でも、逆エンジニアリングされたトリガーを用いた適切な推定により、本手法はバックドアを成功裏に学習解除することを実証します。全体として、本手法は現在の最先端防御と比較して、一貫してより優れた学習解除とクリーン精度のトレードオフを実現します。

研究背景と動機

問題定義

本研究は大規模基盤モデル(Foundation Models)におけるバックドア攻撃(Backdoor Attacks)防御の問題に対処しています。バックドア攻撃は、訓練データに特定のトリガー(trigger)を含む少数のサンプルを注入することで、モデルがそのトリガーを含む入力に遭遇した際に予定された悪意のある動作を生じさせ、通常の入力では正常に機能するようにします。

問題の重要性

  1. セキュリティ脅威: バックドア攻撃は自動運転、医療診断などの安全関連アプリケーションに深刻な脅威をもたらします
  2. 規模の課題: 大規模基盤モデルの訓練コストは極めて高く、バックドアを排除するための完全な再訓練は実践的に不可能です
  3. 汎用性の要件: 既存の防御方法は他のタスクでのモデルのパフォーマンスを損なうことが多く、破滅的な忘却の問題が存在します

既存手法の限界

  1. 再訓練方法: 計算コストが高すぎ、大規模モデルには実行不可能です
  2. ファインチューニング方法: 破滅的な忘却を引き起こしやすく、クリーンなタスクでのモデルパフォーマンスを低下させます
  3. 従来の機械学習解除: バックドア除去タスクでの効果は限定的であり、特に小規模設定での性能が不十分です

研究の動機

著者は重み分離(weight disentanglement)理論に基づき、バックドア動作がモデルの重み空間において通常のタスクから分離されているという仮説を立てており、したがって線形操作を通じてバックドアを正確に除去しながら通常の機能に影響を与えないことが可能であると考えています。

主要な貢献

  1. 理論的洞察: 重み分離理論をバックドア分析に初めて適用し、CLIPのようなTransformerモデルにおいてバックドア知識とクリーン知識が重み空間で分離されていることを証明しました
  2. TBAR手法: トリガー除去によるバックドア算術(Trigger removal by Backdoor ARithmetic, TBAR)を提案しました。これはタスクベクトル算術に基づく軽量なバックドア学習解除方法です
  3. 優れたパフォーマンス: トリガーが既知の場合、99%のバックドア除去率を達成しながら、96%のクリーン精度を保持し、データ要件は既存手法より2桁少なくなります
  4. 攻撃未知シナリオ: 逆エンジニアリング技術と組み合わせることで、攻撃が不明な場合でもバックドアを成功裏に除去し、90%以上のクリーン精度を保持します

手法の詳細

タスク定義

バックドア攻撃に感染したモデルθbが与えられた場合、目標はバックドア動作を除去し(攻撃成功率ASRをゼロに低下させ)、同時にクリーンデータ上でのモデルのパフォーマンス(クリーン精度CA)をできるだけ保持することです。

中核的仮説: 重み分離

著者は中核的仮説を提案しています。視覚基盤モデルの重みは一般的なバックドア攻撃に対して重み分離特性を満たすというものです:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

ここで:

  • τc: クリーンタスクベクトル
  • τt: トリガータスクベクトル
  • Dc: クリーン画像ドメイン
  • Dt: トリガー画像ドメイン

TBARアルゴリズムの流れ

1. トリガーベクトル推定

小規模な学習解除セット(トリガーサンプルのみを含む)を使用して感染したモデルをファインチューニングします:

τ̂t = θb+t - θb

2. バックドア除去

タスク否定(task negation)を通じてバックドアを除去します:

θ̂c = θb - ατ̂t

ここでαは学習解除の強度を制御するスカラー係数です。

3. 係数最適化

小規模な検証セットを使用してグリッドサーチにより最適なα値を決定します。

攻撃未知シナリオへの拡張

DECREE逆エンジニアリング方法と組み合わせます:

  1. DECREEを使用して感染したモデルからプロキシトリガーを復元します
  2. モデルの応答を探索することで目標ラベルを推測します
  3. プロキシトリガーサンプルセットを構築します
  4. バックドア除去のためにTBARを適用します

実験設定

データセット

  1. 単一タスク分類: SUN397、CIFAR100、ImageNet-1K
  2. 大規模画像テキスト: Conceptual Captions 3M (CC3M)の500kサブセット

バックドア攻撃の種類

  • BadNet: ランダムな位置に16×16のランダムノイズブロックを挿入
  • Blended: 画像全体にガウス摂動を重ね合わせ(8:2比率)
  • WaNet: 微妙な画像歪み変換を適用
  • BadCLIP: CLIPに最適化されたパッチ攻撃
  • SIG: 水平軸に沿った正弦波摂動
  • BadMerging: モデルマージ後に存続するように設計された攻撃

評価指標

  • クリーン精度(CA): クリーンデータ上でのモデルの精度
  • 攻撃成功率(ASR): トリガーサンプルが目標ラベルとして予測される比率
  • 重み分離誤差(ξ): タスクベクトルの組み合わせと個別適用の予測差異を測定

比較手法

  • クリーンデータファインチューニング: CleanCLIP、RoCLIP、標準CLIPファインチューニング
  • 機械学習解除: 勾配上昇(Gradient Ascent)
  • 逆エンジニアリング: DECREE

実験結果

主要な結果

単一タスク分類実験

CLIP ViT-B/32での結果は以下を示しています:

  • SUN397: ASRが91.40%から1.25%に低下、CAは94.96%を保持
  • CIFAR100: ASRが99.96%から0.02%に低下、CAは96.44%を保持
  • ImageNet-1K: ASRが93.56%から1.96%に低下、CAは94.97%を保持

大規模画像テキスト実験

CC3Mデータセットを使用した結果:

  • データ効率: TBARはわずか1.5kサンプルを必要とし、ベースライン手法は100kサンプルが必要です
  • パフォーマンス優位性: すべての攻撃タイプで既存の防御方法を上回ります
  • BadCLIP攻撃: ASRが99.98%から0.77%に低下、CAは56.58%を保持

重み分離の検証

重み分離誤差ξ(αc, αt)を可視化することで、クリーンタスクとトリガータスクが重み空間で実際に分離されていることを確認し、中核的仮説の正確性を検証しました。

転移性実験

ImageNet-1Kで訓練されたTBARベクトルはCIFAR100とSUN397でも有効です:

  • CIFAR100: 共有トリガーと目標ラベル、ASR除去率は99.98%に達します
  • SUN397: トリガーのみ共有、ASR除去率は98.91%に達します

攻撃未知シナリオ

DECREEと組み合わせた結果は以下を示しています:

  • BadNet: ASRが84.48%から0.33%に低下、CAは60.29%を保持
  • WaNet: ASRが93.12%から0.64%に低下、CAは56.85%を保持

アブレーション実験

学習解除セットサイズの影響

実験は学習解除セットサイズの増加(300から30k)がパフォーマンス向上に限定的であることを示し、正確に学習解除する必要があるものを特定することがデータ規模より重要であることを示しています。

クリーン・トリガーデータ比率

異なる比率のクリーンデータとトリガーデータの混合を使用した結果、純粋なトリガーデータが最適なCA-ASRトレードオフを得ることを示しています。

関連研究

データポイズニング攻撃

バックドア攻撃はデータポイズニング攻撃の一種であり、少数の訓練データを修正することでモデルに隠れた脆弱性を植え込みます。CLIPなどのマルチモーダルモデルはその広範な応用のため主な攻撃対象です。

機械学習解除

機械学習解除は特定の学習動作を選択的に除去することを目的とし、正確な学習解除と近似的な学習解除の2つのカテゴリに分かれます。既存の手法はバックドア除去タスクでの効果は限定的です。

重み補間とタスク算術

タスク算術は学習タスクを重み空間のベクトルとしてエンコードし、線形操作を通じてタスクの追加、除去、組み合わせを実現できます。重み分離特性はこれらの操作の有効性の理論的基礎です。

結論と考察

主要な結論

  1. 理論的検証: バックドア動作と通常のタスクが重み空間で分離されていることを確認しました
  2. 手法の有効性: TBARは複数の攻撃と設定で優れたパフォーマンスを示します
  3. 実用的価値: バックドア防御のデータと計算要件を大幅に削減します

制限事項

  1. 仮説への依存: 手法は重み分離仮説に基づいており、すべてのモデルアーキテクチャに適用できない可能性があります
  2. 攻撃タイプ: 主に標準的な攻撃で検証されており、より複雑な攻撃に対する堅牢性にはさらなる研究が必要です
  3. DECREE依存: 攻撃未知シナリオはDECREEの検出能力に依存し、一部の攻撃(BadCLIPなど)での効果は限定的です

今後の方向性

  1. 他のモデルアーキテクチャと事前訓練パラダイムへの拡張
  2. より複雑な適応攻撃に対する防御の研究
  3. 他のセキュリティタスクにおける重み分離の応用の探索

深い評価

利点

  1. 理論的革新: 重み分離理論をバックドア防御に初めて体系的に適用し、新しい理論的視点を提供しました
  2. 手法の簡潔性: TBAR手法は単純で効果的であり、実装と展開が容易です
  3. 包括的な実験: 複数の攻撃タイプ、データセット、モデルアーキテクチャをカバーし、実験設計は十分です
  4. 実用的価値: データ要件を大幅に削減し、実際の展開で重要な価値があります

不足点

  1. 理論的制限: 重み分離仮説の普遍性にはさらなる理論分析が必要です
  2. 攻撃への適応性: この防御方法に対する適応攻撃を十分に検討していません
  3. 計算分析: 詳細な計算複雑度分析と比較が不足しています

影響力

  1. 学術的価値: バックドア防御研究に新しい視点を提供し、重み空間に基づくより多くの防御方法を刺激する可能性があります
  2. 実用的価値: 大規模モデルの展開において重要な応用見通しがあります
  3. 再現性: 詳細な実験設定と実装の詳細を提供し、再現を容易にします

適用シナリオ

  1. 大規模モデル展開: 特に再訓練ができない大型基盤モデルに適しています
  2. リソース制限環境: データと計算リソースが限定されたシナリオ
  3. マルチタスクモデル: マルチタスク性能を保持する必要があるアプリケーションシナリオ

参考文献

論文は本分野の重要な研究を引用しており、以下を含みます:

  • Ilharco et al. (2022): タスク算術の開拓的研究
  • Ortiz-Jimenez et al. (2024): 重み分離の理論的基礎
  • Bansal et al. (2023): CLIP後門防御のベンチマーク手法
  • Carlini & Terzis (2021): CLIP後門攻撃の古典的研究