2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

機械学習の忘却と対抗的堅牢性が制約付き介入を通じてLLMで出会う

基本情報

論文ID: 2510.03567
タイトル: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
著者: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
分類: cs.LG cs.CL cs.CR cs.CY math.OC
発表会議: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
論文リンク: https://arxiv.org/abs/2510.03567

概要

大規模言語モデル(LLM)の広範な採用に伴い、プライバシー保護と安全な生成を確保するためのより多くのカスタマイズが必要とされています。本論文は、2つの重要な側面からこの目標に対処しています：機密情報の忘却と越狱攻撃に対する堅牢性です。研究者は、LLMの重みに対する最小限の可能な介入を見つけることにより、これら2つの側面を統一的に解決する様々な制約付き最適化定式化を提案しています。これにより、与えられた語彙集を到達不可能にするか、部分的な重みをより安全な領域に転移させることでカスタマイズされた攻撃に対するLLMの堅牢性を強化します。本手法は、通常利用不可能であるか計算上のオーバーヘッドを表すオラクル分類器を必要としません。興味深いことに、著者は提案された最も単純な点制約介入手法が、最大-最小介入よりも優れた性能を示しながら、計算コストが低いことを発見しました。

研究背景と動機

問題定義

本研究は2つの核心的な問題に対処しています：

機械学習の忘却問題：言語モデルの生成空間から特定の情報（特定の語彙集）を最小限の計算コストで削除する方法
対抗的堅牢性問題：危険または有毒なコンテンツをもたらす越狱対抗攻撃に対して言語モデルをより堅牢にする方法

重要性

安全に敏感なアプリケーション（オンラインコンテンツ審査、機密データ処理など）におけるLLMの展開に伴い、生成モデル出力の安全性を確保することが重要な要件となっています。既存の手法は計算効率と防御効果の間にトレードオフが存在します。

既存手法の限界

微調整とモデル拡張：計算オーバーヘッドが大きい
プロンプトベースの防御：脆弱で対抗的操作に容易に影響を受ける
軽量プローブ手法：限定的な訓練データに制限され、対抗攻撃に対して無効
忘却手法：主に師弟フレームワークの部分的な再訓練または反復的な微調整を通じて行われ、計算コストが高い

研究動機

著者は回帰における原則的な堅牢性手法に触発され、対抗的堅牢性と忘却問題を同時に解決する統一フレームワークを提案しています。これは潜在空間パス内の情報の暗黙的な保存という事実を利用しています。

核心的な貢献

統一フレームワーク：様々な制約付き最適化問題を提案・解決し、LLMに対抗攻撃に対する堅牢性と不要なコンテンツの忘却能力を同時に付与します
外部分類器不要：プロンプト空間上での連続緩和の導入と直接的な制約概念埋め込みの実行により、人工プローブの必要性を克服します
性能向上：最先端の防御アルゴリズムと比較して性能向上を実証し、LLM上の経済的忘却の新しい最先端水準を設定します
計算効率：最も単純な点制約手法が、複雑な最大-最小介入よりも性能と計算コストの両面で優れています

手法の詳細

タスク定義

訓練済み言語モデル ℓ : Σ → Σ が与えられたとき、2つの基本的なセキュリティ関連タスクを考慮します：

ℓの生成空間から特定の情報（語彙集）を最小限の計算コストで削除する方法
危険または有毒なコンテンツをもたらす越狱対抗攻撃に対してℓをより堅牢にする方法

3つの制約付き介入手法

1. 安全領域への方向付け (TSR)

越狱プロンプトに対する安全な応答確率を最大化するための最小重み摂動を見つけます：

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

ここで安全損失関数は以下のように定義されます：

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

利点：危険な生成の例を必要とせず、投影勾配降下法で解くことができます欠点：安全な生成への制約はソフト制約であり、性能が弱い

2. リスク領域からの遠ざかり (ARR)

最大-最小問題を採用します：

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

有害損失関数は以下のように定義されます：

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

特徴：最悪ケースの入力シナリオを考慮し、離散構造を処理するために確率緩和を使用します欠点：有害概念集の知識が必要であり、過度に保守的である可能性があります

3. 点制約領域 (PCR)

最小介入に基づいた単純な点制約戦略。LLM MLP活性化が越狱プロンプトに対して危険な出力埋め込みと等しくないようにします：

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

利点：KKT条件に基づく半閉式解、計算効率が高く、性能が最良欠点：禁止概念集Cを必要とします

閉式解

単一制約の場合、閉式解は以下の通りです：

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

複数制約の場合は、最も違反した制約を処理するための反復アルゴリズムが採用されます。

実験設定

データセット

カスタム服従データセット：100個の禁止キーワード（「abuse」、「attack」、「bomb」など暴力・犯罪関連の語彙）を含む
HarmBench：標準的なLLM防御ベンチマークテストセット

評価指標

攻撃成功率 (ASR)：対抗攻撃の成功程度を測定（低いほど良い）
拒否レベル：モデルが応答を完全に拒否する割合（高いほど良い）
困惑度：介入前後の与えられたシーケンスの困惑度を比較して忘却レベルを測定

比較手法

SmoothLLM：最先端の対抗防御アルゴリズム
Self-reminder：自己想起防御手法
無防護ベースライン：元のモデル

テストモデル

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

実験結果

主要結果

対抗的堅牢性の結果

HarmBenchデータセット上の攻撃成功率：

モデル	無防護	点制約(本論文)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

拒否パターン分析：

モデル	本論文手法(%)	SmoothLLM(%)	Self-Reminder(%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

機械学習の忘却結果

禁止語の困惑度分析（困惑度が高いほど忘却効果が良い）：

モデル	データセット	ベースライン	点制約介入
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

計算効率

テストケースあたりの平均時間：

モデル	攻撃時間(s)	PCR手法(s)	SmoothLLM(s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

重要な発見

点制約手法が最適：最も単純なPCR手法が、性能と計算効率の両面でより複雑なTSRおよびARR手法を上回ります
統一フレームワークが有効：同じ手法が忘却と堅牢性の問題を同時に処理できます
層数の影響：より多くのMLP層への介入がより優れた性能をもたらします
計算上の利点が明確：既存手法と比較して計算オーバーヘッドが大幅に削減されます

結論と考察

主要な結論

LLMの忘却と堅牢性を統一的に処理する制約付き最適化フレームワークを提案しました
点制約手法は単純性と有効性の間で最適なバランスを達成します
外部分類器を必要とせず、計算オーバーヘッドと実装の複雑さを削減します
複数のベンチマークで既存の最先端手法を上回ります

限界

概念集への依存：PCRおよびARR手法は事前定義された禁止概念集を必要とします
評価指標：忘却評価は主に困惑度に基づいており、十分に包括的ではない可能性があります
汎化能力：異なるタイプの攻撃とモデルにおける汎化能力は、さらなる検証が必要です
理論分析：手法の理論的保証に関する深い分析が不足しています

今後の方向性

事前定義された概念集を必要としない適応的手法の開発
より包括的な忘却評価指標の探索
より大規模なモデルでの手法のスケーラビリティの研究
理論的収束性と安全性保証の提供

深い評価

利点

問題の重要性：LLMの安全な展開における2つの重要な問題に対処しています
手法の革新性：忘却と堅牢性を制約付き最適化フレームワークで初めて統一しました
実用的価値：計算効率の高い解決策を提供します
実験の充実：複数のモデルとデータセットで包括的な評価を実施しました
理論的基礎：KKT条件に基づいて閉式解を提供します

不足点

理論分析の不足：手法の収束性と最適性に関する理論分析が不足しています
評価の限界：忘却評価は主に困惑度という単一の指標に依存しています
攻撃の多様性：特定のタイプの越狱攻撃に主に焦点を当てており、他の攻撃タイプへの効果は不明です
長期的影響：重み介入がモデルの長期的性能に与える影響はさらなる研究が必要です

影響力

学術的貢献：LLMセキュリティ研究に新しい統一的視点を提供します
実用的価値：リソースが限定された組織に経済的なセキュリティソリューションを提供します
再現性：詳細なアルゴリズム説明と実装詳細を提供します
拡張性：フレームワークは他のセキュリティ関連タスクに拡張可能です

適用シーン

教育分野：不適切なコンテンツの生成を防止
医療保健：機密医療情報の保護
オンラインプラットフォーム：コンテンツセキュリティ審査
企業アプリケーション：機密情報保護

参考文献

論文は対抗的訓練、機械学習の忘却、LLMセキュリティなど複数の関連分野の重要な研究を引用しており、本研究に堅実な理論的基礎と比較ベンチマークを提供しています。

総合評価：これはLLMセキュリティ分野における重要な貢献を持つ論文です。統一された制約付き最適化フレームワークを通じて忘却と堅牢性の問題を同時に解決し、計算効率の高いソリューションを提供しています。理論分析と評価の側面でいくつかの不足がありますが、その実用的価値と革新性により、この分野における重要な進展となっています。