Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
대규모 언어 모델(LLMs)의 광범위한 채택으로 인해 개인정보 보호 및 안전한 생성을 보장하기 위한 더 많은 맞춤화가 필요하다. 본 논문은 두 가지 핵심 측면에서 이 목표를 해결한다: 민감한 정보의 제거 및 탈옥 공격에 대한 견고성. 연구자들은 LLM 가중치에 대한 최소한의 개입을 찾아 이 두 측면을 통합적으로 해결하는 다양한 제약 최적화 공식을 제안한다. 주어진 어휘 집합을 도달 불가능하게 만들거나 부분 가중치를 더 안전한 영역으로 이동시켜 LLM의 맞춤형 공격에 대한 견고성을 향상시킨다. 이 방법은 일반적으로 이용 불가능하거나 계산 오버헤드를 나타내는 오라클 분류기를 필요로 하지 않는다. 놀랍게도, 저자들은 제안된 가장 간단한 점 제약 개입 방법이 최대-최소 개입보다 더 나은 성능을 보이면서 계산 비용이 더 낮음을 발견했다.
논문은 대적 훈련, 기계 학습 제거, LLM 안전 등 관련 분야의 최신 연구 성과를 포함한 다양한 관련 작업을 인용하여 본 연구에 견고한 이론적 기초 및 비교 기준을 제공한다.
종합 평가: 이것은 LLM 안전 분야에 중요한 기여를 하는 논문으로, 통합된 제약 최적화 프레임워크를 통해 제거와 견고성 문제를 동시에 해결하며 계산 효율적인 솔루션을 제공한다. 일부 이론적 분석 및 평가 측면의 부족함에도 불구하고, 그 실용적 가치와 혁신성은 이를 해당 분야의 중요한 진전으로 만든다.