With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
論文ID : 2510.03567タイトル : Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs著者 : Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)分類 : cs.LG cs.CL cs.CR cs.CY math.OC発表会議 : 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)論文リンク : https://arxiv.org/abs/2510.03567 大規模言語モデル(LLM)の広範な採用に伴い、プライバシー保護と安全な生成を確保するためのより多くのカスタマイズが必要とされています。本論文は、2つの重要な側面からこの目標に対処しています:機密情報の忘却と越狱攻撃に対する堅牢性です。研究者は、LLMの重みに対する最小限の可能な介入を見つけることにより、これら2つの側面を統一的に解決する様々な制約付き最適化定式化を提案しています。これにより、与えられた語彙集を到達不可能にするか、部分的な重みをより安全な領域に転移させることでカスタマイズされた攻撃に対するLLMの堅牢性を強化します。本手法は、通常利用不可能であるか計算上のオーバーヘッドを表すオラクル分類器を必要としません。興味深いことに、著者は提案された最も単純な点制約介入手法が、最大-最小介入よりも優れた性能を示しながら、計算コストが低いことを発見しました。
本研究は2つの核心的な問題に対処しています:
機械学習の忘却問題 :言語モデルの生成空間から特定の情報(特定の語彙集)を最小限の計算コストで削除する方法対抗的堅牢性問題 :危険または有毒なコンテンツをもたらす越狱対抗攻撃に対して言語モデルをより堅牢にする方法安全に敏感なアプリケーション(オンラインコンテンツ審査、機密データ処理など)におけるLLMの展開に伴い、生成モデル出力の安全性を確保することが重要な要件となっています。既存の手法は計算効率と防御効果の間にトレードオフが存在します。
微調整とモデル拡張 :計算オーバーヘッドが大きいプロンプトベースの防御 :脆弱で対抗的操作に容易に影響を受ける軽量プローブ手法 :限定的な訓練データに制限され、対抗攻撃に対して無効忘却手法 :主に師弟フレームワークの部分的な再訓練または反復的な微調整を通じて行われ、計算コストが高い著者は回帰における原則的な堅牢性手法に触発され、対抗的堅牢性と忘却問題を同時に解決する統一フレームワークを提案しています。これは潜在空間パス内の情報の暗黙的な保存という事実を利用しています。
統一フレームワーク :様々な制約付き最適化問題を提案・解決し、LLMに対抗攻撃に対する堅牢性と不要なコンテンツの忘却能力を同時に付与します外部分類器不要 :プロンプト空間上での連続緩和の導入と直接的な制約概念埋め込みの実行により、人工プローブの必要性を克服します性能向上 :最先端の防御アルゴリズムと比較して性能向上を実証し、LLM上の経済的忘却の新しい最先端水準を設定します計算効率 :最も単純な点制約手法が、複雑な最大-最小介入よりも性能と計算コストの両面で優れています訓練済み言語モデル ℓ : Σ → Σ が与えられたとき、2つの基本的なセキュリティ関連タスクを考慮します:
ℓの生成空間から特定の情報(語彙集)を最小限の計算コストで削除する方法 危険または有毒なコンテンツをもたらす越狱対抗攻撃に対してℓをより堅牢にする方法 越狱プロンプトに対する安全な応答確率を最大化するための最小重み摂動を見つけます:
min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)
ここで安全損失関数は以下のように定義されます:
L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))
利点 :危険な生成の例を必要とせず、投影勾配降下法で解くことができます
欠点 :安全な生成への制約はソフト制約であり、性能が弱い
最大-最小問題を採用します:
max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)
有害損失関数は以下のように定義されます:
L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))
特徴 :最悪ケースの入力シナリオを考慮し、離散構造を処理するために確率緩和を使用します
欠点 :有害概念集の知識が必要であり、過度に保守的である可能性があります
最小介入に基づいた単純な点制約戦略。LLM MLP活性化が越狱プロンプトに対して危険な出力埋め込みと等しくないようにします:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
利点 :KKT条件に基づく半閉式解、計算効率が高く、性能が最良
欠点 :禁止概念集Cを必要とします
単一制約の場合、閉式解は以下の通りです:
δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2
複数制約の場合は、最も違反した制約を処理するための反復アルゴリズムが採用されます。
カスタム服従データセット :100個の禁止キーワード(「abuse」、「attack」、「bomb」など暴力・犯罪関連の語彙)を含むHarmBench :標準的なLLM防御ベンチマークテストセット攻撃成功率 (ASR) :対抗攻撃の成功程度を測定(低いほど良い)拒否レベル :モデルが応答を完全に拒否する割合(高いほど良い)困惑度 :介入前後の与えられたシーケンスの困惑度を比較して忘却レベルを測定SmoothLLM :最先端の対抗防御アルゴリズムSelf-reminder :自己想起防御手法無防護ベースライン :元のモデルLlama-3.1 8B Instruct Mistral 7B v0.2 Gemma 2B-IT HarmBenchデータセット上の攻撃成功率:
モデル 無防護 点制約(本論文) SmoothLLM Self-Reminder Llama-3.1 8B 11.0 0.0 7.245 0.8 Mistral 7B 30.0 5.88 18.9 28.5 Gemma 2B-IT 22.0 2.508 8.225 19.58
拒否パターン分析:
モデル 本論文手法(%) SmoothLLM(%) Self-Reminder(%) Llama-3.1 8B 100.0 87.5 24.3 Gemma 2B-IT 97.4 10 36.9 Mistral 7B 26.7 37.5 20
禁止語の困惑度分析(困惑度が高いほど忘却効果が良い):
モデル データセット ベースライン 点制約介入 Gemma-2B-IT Obedience 8.816 12.72 Gemma-2B-IT HarmBench 16.757 18.157 Mistral-7B Obedience 8.627 13.74 Llama-3-8B Obedience 6.48 7.735
テストケースあたりの平均時間:
モデル 攻撃時間(s) PCR手法(s) SmoothLLM(s) LLaMA 3 8B 38.89 20.16 36.12 Mistral-7B 27.43 17.28 40.17 Gemma 2B 14.375 10.44 11.62
点制約手法が最適 :最も単純なPCR手法が、性能と計算効率の両面でより複雑なTSRおよびARR手法を上回ります統一フレームワークが有効 :同じ手法が忘却と堅牢性の問題を同時に処理できます層数の影響 :より多くのMLP層への介入がより優れた性能をもたらします計算上の利点が明確 :既存手法と比較して計算オーバーヘッドが大幅に削減されます微調整手法 :計算オーバーヘッドが大きいプロンプトエンジニアリング :対抗的操作に容易に影響を受ける不確実性定量化 :計算が複雑モデル拡張 :リソース要件が高い活性化空間プローブ :訓練データの制限を受ける対抗的検出 :摂動入力の統計的特性を分析師弟フレームワーク :部分的な再訓練、計算コストが高い反復的微調整 :同様の計算上の課題に直面LLMの忘却と堅牢性を統一的に処理する制約付き最適化フレームワークを提案しました 点制約手法は単純性と有効性の間で最適なバランスを達成します 外部分類器を必要とせず、計算オーバーヘッドと実装の複雑さを削減します 複数のベンチマークで既存の最先端手法を上回ります 概念集への依存 :PCRおよびARR手法は事前定義された禁止概念集を必要とします評価指標 :忘却評価は主に困惑度に基づいており、十分に包括的ではない可能性があります汎化能力 :異なるタイプの攻撃とモデルにおける汎化能力は、さらなる検証が必要です理論分析 :手法の理論的保証に関する深い分析が不足しています事前定義された概念集を必要としない適応的手法の開発 より包括的な忘却評価指標の探索 より大規模なモデルでの手法のスケーラビリティの研究 理論的収束性と安全性保証の提供 問題の重要性 :LLMの安全な展開における2つの重要な問題に対処しています手法の革新性 :忘却と堅牢性を制約付き最適化フレームワークで初めて統一しました実用的価値 :計算効率の高い解決策を提供します実験の充実 :複数のモデルとデータセットで包括的な評価を実施しました理論的基礎 :KKT条件に基づいて閉式解を提供します理論分析の不足 :手法の収束性と最適性に関する理論分析が不足しています評価の限界 :忘却評価は主に困惑度という単一の指標に依存しています攻撃の多様性 :特定のタイプの越狱攻撃に主に焦点を当てており、他の攻撃タイプへの効果は不明です長期的影響 :重み介入がモデルの長期的性能に与える影響はさらなる研究が必要です学術的貢献 :LLMセキュリティ研究に新しい統一的視点を提供します実用的価値 :リソースが限定された組織に経済的なセキュリティソリューションを提供します再現性 :詳細なアルゴリズム説明と実装詳細を提供します拡張性 :フレームワークは他のセキュリティ関連タスクに拡張可能です教育分野 :不適切なコンテンツの生成を防止医療保健 :機密医療情報の保護オンラインプラットフォーム :コンテンツセキュリティ審査企業アプリケーション :機密情報保護論文は対抗的訓練、機械学習の忘却、LLMセキュリティなど複数の関連分野の重要な研究を引用しており、本研究に堅実な理論的基礎と比較ベンチマークを提供しています。
総合評価 :これはLLMセキュリティ分野における重要な貢献を持つ論文です。統一された制約付き最適化フレームワークを通じて忘却と堅牢性の問題を同時に解決し、計算効率の高いソリューションを提供しています。理論分析と評価の側面でいくつかの不足がありますが、その実用的価値と革新性により、この分野における重要な進展となっています。