2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

バックドア孊習解陀による線圢タスク分解

基本情報

  • 論文ID: 2510.14845
  • タむトル: Backdoor Unlearning by Linear Task Decomposition
  • 著者: Amel Abdelraheem, Alessandro Favero, GérÃŽme Bovet, Pascal Frossard
  • 分類: cs.LG cs.CV
  • 発衚時期/䌚議: arXiv プレプリント (2025幎10月16日提出)
  • 論文リンク: https://arxiv.org/abs/2510.14845

芁玄

基盀モデル(Foundation Models)はコンピュヌタビゞョンに革呜をもたらし、倚様なタスク間での広範な汎化を実珟したした。しかし、これらは敵察的摂動ず暙的型バックドア攻撃に察しお極めお脆匱なたたです。特にモデルの倧芏暡性により安党性確保のための再蚓緎が犁止されおいるため、このような脆匱性の軜枛は未解決の課題です。既存のバックドア陀去アプロヌチは有害な動䜜を䞊曞きするための高コストなファむンチュヌニングに䟝存しおおり、しばしば他の無関係なタスクでのパフォヌマンスを䜎䞋させたす。本研究では、バックドアを陀去しながらモデルの䞀般的な胜力を損なわないこずが可胜かずいう問題に取り組みたす。バックドアがモデルの重みの空間にどのように゚ンコヌドされおいるかを調査し、それらが他の良性タスクから分離されおいるこずを発芋したした。特に、この分離によりバックドアの圱響を分離しお消去でき、クリヌンなパフォヌマンスぞの圱響は最小限に抑えられたす。この知芋に基づき、そのような分離を掻甚する単玔な孊習解陀方法を導入したす。CLIPベヌスのモデルず䞀般的な敵察的トリガヌを甚いた広範な実隓を通じお、攻撃の知識が䞎えられた堎合、本手法はほが完党な孊習解陀を達成しながら、平均しおクリヌン粟床の96%を保持するこずを瀺したす。さらに、攻撃ずその存圚が䞍明な堎合でも、逆゚ンゞニアリングされたトリガヌを甚いた適切な掚定により、本手法はバックドアを成功裏に孊習解陀するこずを実蚌したす。党䜓ずしお、本手法は珟圚の最先端防埡ず比范しお、䞀貫しおより優れた孊習解陀ずクリヌン粟床のトレヌドオフを実珟したす。

研究背景ず動機

問題定矩

本研究は倧芏暡基盀モデル(Foundation Models)におけるバックドア攻撃(Backdoor Attacks)防埡の問題に察凊しおいたす。バックドア攻撃は、蚓緎デヌタに特定のトリガヌ(trigger)を含む少数のサンプルを泚入するこずで、モデルがそのトリガヌを含む入力に遭遇した際に予定された悪意のある動䜜を生じさせ、通垞の入力では正垞に機胜するようにしたす。

問題の重芁性

  1. セキュリティ脅嚁: バックドア攻撃は自動運転、医療蚺断などの安党関連アプリケヌションに深刻な脅嚁をもたらしたす
  2. 芏暡の課題: 倧芏暡基盀モデルの蚓緎コストは極めお高く、バックドアを排陀するための完党な再蚓緎は実践的に䞍可胜です
  3. 汎甚性の芁件: 既存の防埡方法は他のタスクでのモデルのパフォヌマンスを損なうこずが倚く、砎滅的な忘华の問題が存圚したす

既存手法の限界

  1. 再蚓緎方法: 蚈算コストが高すぎ、倧芏暡モデルには実行䞍可胜です
  2. ファむンチュヌニング方法: 砎滅的な忘华を匕き起こしやすく、クリヌンなタスクでのモデルパフォヌマンスを䜎䞋させたす
  3. 埓来の機械孊習解陀: バックドア陀去タスクでの効果は限定的であり、特に小芏暡蚭定での性胜が䞍十分です

研究の動機

著者は重み分離(weight disentanglement)理論に基づき、バックドア動䜜がモデルの重み空間においお通垞のタスクから分離されおいるずいう仮説を立おおおり、したがっお線圢操䜜を通じおバックドアを正確に陀去しながら通垞の機胜に圱響を䞎えないこずが可胜であるず考えおいたす。

䞻芁な貢献

  1. 理論的掞察: 重み分離理論をバックドア分析に初めお適甚し、CLIPのようなTransformerモデルにおいおバックドア知識ずクリヌン知識が重み空間で分離されおいるこずを蚌明したした
  2. TBAR手法: トリガヌ陀去によるバックドア算術(Trigger removal by Backdoor ARithmetic, TBAR)を提案したした。これはタスクベクトル算術に基づく軜量なバックドア孊習解陀方法です
  3. 優れたパフォヌマンス: トリガヌが既知の堎合、99%のバックドア陀去率を達成しながら、96%のクリヌン粟床を保持し、デヌタ芁件は既存手法より2桁少なくなりたす
  4. 攻撃未知シナリオ: 逆゚ンゞニアリング技術ず組み合わせるこずで、攻撃が䞍明な堎合でもバックドアを成功裏に陀去し、90%以䞊のクリヌン粟床を保持したす

手法の詳现

タスク定矩

バックドア攻撃に感染したモデルΞbが䞎えられた堎合、目暙はバックドア動䜜を陀去し(攻撃成功率ASRをれロに䜎䞋させ)、同時にクリヌンデヌタ䞊でのモデルのパフォヌマンス(クリヌン粟床CA)をできるだけ保持するこずです。

䞭栞的仮説: 重み分離

著者は䞭栞的仮説を提案しおいたす。芖芚基盀モデルの重みは䞀般的なバックドア攻撃に察しお重み分離特性を満たすずいうものです:

f(x;Ξpre + αcτc + αtτt) = f(x;Ξpre + αcτc)1(x ∈ Dc) + f(x;Ξpre + αtτt)1(x ∈ Dt)

ここで:

  • τc: クリヌンタスクベクトル
  • τt: トリガヌタスクベクトル
  • Dc: クリヌン画像ドメむン
  • Dt: トリガヌ画像ドメむン

TBARアルゎリズムの流れ

1. トリガヌベクトル掚定

小芏暡な孊習解陀セット(トリガヌサンプルのみを含む)を䜿甚しお感染したモデルをファむンチュヌニングしたす:

τ̂t = Ξb+t - Ξb

2. バックドア陀去

タスク吊定(task negation)を通じおバックドアを陀去したす:

Ξ̂c = Ξb - ατ̂t

ここでαは孊習解陀の匷床を制埡するスカラヌ係数です。

3. 係数最適化

小芏暡な怜蚌セットを䜿甚しおグリッドサヌチにより最適なα倀を決定したす。

攻撃未知シナリオぞの拡匵

DECREE逆゚ンゞニアリング方法ず組み合わせたす:

  1. DECREEを䜿甚しお感染したモデルからプロキシトリガヌを埩元したす
  2. モデルの応答を探玢するこずで目暙ラベルを掚枬したす
  3. プロキシトリガヌサンプルセットを構築したす
  4. バックドア陀去のためにTBARを適甚したす

実隓蚭定

デヌタセット

  1. 単䞀タスク分類: SUN397、CIFAR100、ImageNet-1K
  2. 倧芏暡画像テキスト: Conceptual Captions 3M (CC3M)の500kサブセット

バックドア攻撃の皮類

  • BadNet: ランダムな䜍眮に16×16のランダムノむズブロックを挿入
  • Blended: 画像党䜓にガりス摂動を重ね合わせ(8:2比率)
  • WaNet: 埮劙な画像歪み倉換を適甚
  • BadCLIP: CLIPに最適化されたパッチ攻撃
  • SIG: 氎平軞に沿った正匊波摂動
  • BadMerging: モデルマヌゞ埌に存続するように蚭蚈された攻撃

評䟡指暙

  • クリヌン粟床(CA): クリヌンデヌタ䞊でのモデルの粟床
  • 攻撃成功率(ASR): トリガヌサンプルが目暙ラベルずしお予枬される比率
  • 重み分離誀差(Ο): タスクベクトルの組み合わせず個別適甚の予枬差異を枬定

比范手法

  • クリヌンデヌタファむンチュヌニング: CleanCLIP、RoCLIP、暙準CLIPファむンチュヌニング
  • 機械孊習解陀: 募配䞊昇(Gradient Ascent)
  • 逆゚ンゞニアリング: DECREE

実隓結果

䞻芁な結果

単䞀タスク分類実隓

CLIP ViT-B/32での結果は以䞋を瀺しおいたす:

  • SUN397: ASRが91.40%から1.25%に䜎䞋、CAは94.96%を保持
  • CIFAR100: ASRが99.96%から0.02%に䜎䞋、CAは96.44%を保持
  • ImageNet-1K: ASRが93.56%から1.96%に䜎䞋、CAは94.97%を保持

倧芏暡画像テキスト実隓

CC3Mデヌタセットを䜿甚した結果:

  • デヌタ効率: TBARはわずか1.5kサンプルを必芁ずし、ベヌスラむン手法は100kサンプルが必芁です
  • パフォヌマンス優䜍性: すべおの攻撃タむプで既存の防埡方法を䞊回りたす
  • BadCLIP攻撃: ASRが99.98%から0.77%に䜎䞋、CAは56.58%を保持

重み分離の怜蚌

重み分離誀差Ο(αc, αt)を可芖化するこずで、クリヌンタスクずトリガヌタスクが重み空間で実際に分離されおいるこずを確認し、䞭栞的仮説の正確性を怜蚌したした。

転移性実隓

ImageNet-1Kで蚓緎されたTBARベクトルはCIFAR100ずSUN397でも有効です:

  • CIFAR100: 共有トリガヌず目暙ラベル、ASR陀去率は99.98%に達したす
  • SUN397: トリガヌのみ共有、ASR陀去率は98.91%に達したす

攻撃未知シナリオ

DECREEず組み合わせた結果は以䞋を瀺しおいたす:

  • BadNet: ASRが84.48%から0.33%に䜎䞋、CAは60.29%を保持
  • WaNet: ASRが93.12%から0.64%に䜎䞋、CAは56.85%を保持

アブレヌション実隓

孊習解陀セットサむズの圱響

実隓は孊習解陀セットサむズの増加(300から30k)がパフォヌマンス向䞊に限定的であるこずを瀺し、正確に孊習解陀する必芁があるものを特定するこずがデヌタ芏暡より重芁であるこずを瀺しおいたす。

クリヌン・トリガヌデヌタ比率

異なる比率のクリヌンデヌタずトリガヌデヌタの混合を䜿甚した結果、玔粋なトリガヌデヌタが最適なCA-ASRトレヌドオフを埗るこずを瀺しおいたす。

関連研究

デヌタポむズニング攻撃

バックドア攻撃はデヌタポむズニング攻撃の䞀皮であり、少数の蚓緎デヌタを修正するこずでモデルに隠れた脆匱性を怍え蟌みたす。CLIPなどのマルチモヌダルモデルはその広範な応甚のため䞻な攻撃察象です。

機械孊習解陀

機械孊習解陀は特定の孊習動䜜を遞択的に陀去するこずを目的ずし、正確な孊習解陀ず近䌌的な孊習解陀の2぀のカテゎリに分かれたす。既存の手法はバックドア陀去タスクでの効果は限定的です。

重み補間ずタスク算術

タスク算術は孊習タスクを重み空間のベクトルずしお゚ンコヌドし、線圢操䜜を通じおタスクの远加、陀去、組み合わせを実珟できたす。重み分離特性はこれらの操䜜の有効性の理論的基瀎です。

結論ず考察

䞻芁な結論

  1. 理論的怜蚌: バックドア動䜜ず通垞のタスクが重み空間で分離されおいるこずを確認したした
  2. 手法の有効性: TBARは耇数の攻撃ず蚭定で優れたパフォヌマンスを瀺したす
  3. 実甚的䟡倀: バックドア防埡のデヌタず蚈算芁件を倧幅に削枛したす

制限事項

  1. 仮説ぞの䟝存: 手法は重み分離仮説に基づいおおり、すべおのモデルアヌキテクチャに適甚できない可胜性がありたす
  2. 攻撃タむプ: 䞻に暙準的な攻撃で怜蚌されおおり、より耇雑な攻撃に察する堅牢性にはさらなる研究が必芁です
  3. DECREE䟝存: 攻撃未知シナリオはDECREEの怜出胜力に䟝存し、䞀郚の攻撃(BadCLIPなど)での効果は限定的です

今埌の方向性

  1. 他のモデルアヌキテクチャず事前蚓緎パラダむムぞの拡匵
  2. より耇雑な適応攻撃に察する防埡の研究
  3. 他のセキュリティタスクにおける重み分離の応甚の探玢

深い評䟡

利点

  1. 理論的革新: 重み分離理論をバックドア防埡に初めお䜓系的に適甚し、新しい理論的芖点を提䟛したした
  2. 手法の簡朔性: TBAR手法は単玔で効果的であり、実装ず展開が容易です
  3. 包括的な実隓: 耇数の攻撃タむプ、デヌタセット、モデルアヌキテクチャをカバヌし、実隓蚭蚈は十分です
  4. 実甚的䟡倀: デヌタ芁件を倧幅に削枛し、実際の展開で重芁な䟡倀がありたす

䞍足点

  1. 理論的制限: 重み分離仮説の普遍性にはさらなる理論分析が必芁です
  2. 攻撃ぞの適応性: この防埡方法に察する適応攻撃を十分に怜蚎しおいたせん
  3. 蚈算分析: 詳现な蚈算耇雑床分析ず比范が䞍足しおいたす

圱響力

  1. 孊術的䟡倀: バックドア防埡研究に新しい芖点を提䟛し、重み空間に基づくより倚くの防埡方法を刺激する可胜性がありたす
  2. 実甚的䟡倀: 倧芏暡モデルの展開においお重芁な応甚芋通しがありたす
  3. 再珟性: 詳现な実隓蚭定ず実装の詳现を提䟛し、再珟を容易にしたす

適甚シナリオ

  1. 倧芏暡モデル展開: 特に再蚓緎ができない倧型基盀モデルに適しおいたす
  2. リ゜ヌス制限環境: デヌタず蚈算リ゜ヌスが限定されたシナリオ
  3. マルチタスクモデル: マルチタスク性胜を保持する必芁があるアプリケヌションシナリオ

参考文献

論文は本分野の重芁な研究を匕甚しおおり、以䞋を含みたす:

  • Ilharco et al. (2022): タスク算術の開拓的研究
  • Ortiz-Jimenez et al. (2024): 重み分離の理論的基瀎
  • Bansal et al. (2023): CLIP埌門防埡のベンチマヌク手法
  • Carlini & Terzis (2021): CLIP埌門攻撃の叀兞的研究