2025-11-11T15:40:09.573035

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

Kawakami, Egashira, Miyai et al.
In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
academic

PULSE: 대규모 멀티모달 모델 언러닝을 위한 실용적 평가 시나리오

기본 정보

  • 논문 ID: 2507.01271
  • 제목: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
  • 저자: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (도쿄대학교)
  • 분류: cs.LG cs.AI
  • 발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop
  • 논문 링크: https://arxiv.org/abs/2507.01271

초록

최근 기계 언러닝(machine unlearning) 기술이 대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)의 개인정보 보호 및 저작권 문제를 해결하는 방법으로 주목받고 있습니다. LLMs을 위한 여러 언러닝 벤치마크가 구축되었지만, LMMs의 실용적 언러닝 평가 프레임워크에 대한 탐색은 상대적으로 부족합니다. 기존 LMMs 언러닝 벤치마크는 단일 언러닝 작업을 통해 미세조정 지식을 언러닝하는 시나리오만 고려합니다. 본 연구는 두 가지 핵심 관점을 도입하여 PULSE 프로토콜을 제시합니다: (i) 사전학습 지식 언러닝으로 지식 획득 단계의 영향을 분석하고, (ii) 연속 요청에 대응하기 위한 장기 지속성 평가입니다. 연구 결과는 일부 기술이 미세조정을 통해 획득한 지식을 성공적으로 언러닝할 수 있지만, 사전학습 중에 학습된 정보를 제거하는 데 어려움이 있음을 보여줍니다. 또한 단일 작업에서 대량의 목표 데이터를 효과적으로 언러닝하는 방법이 데이터를 배치로 나누어 연속적으로 언러닝할 때 현저한 성능 저하를 나타냅니다.

연구 배경 및 동기

문제 정의

대규모 멀티모달 모델이 다양한 작업에서 큰 성공을 거두면서, 학습 데이터에 개인정보와 저작권 콘텐츠가 포함될 수 있어 개인정보 보호 및 지적재산권 침해 우려가 제기되고 있습니다. 기계 언러닝 기술은 모델이 이전에 학습한 정보를 "잊게" 하면서 다른 작업에서의 성능을 유지하는 것을 목표로 합니다.

문제의 중요성

  1. 개인정보 보호 필요성: 데이터 개인정보 보호 규정이 강화됨에 따라 학습된 모델에서 특정 개인정보를 삭제할 수 있는 기술이 필요합니다.
  2. 저작권 보호: 학습 데이터에 포함될 수 있는 저작권 콘텐츠를 처리해야 합니다.
  3. 실제 응용 필요성: 실제 시나리오에서는 연속적으로 여러 번의 언러닝 작업이 필요할 수 있습니다.

기존 방법의 한계

  1. 제한된 평가 범위: 기존 LMMs 언러닝 벤치마크(예: MLLMU-Bench)는 미세조정 지식의 언러닝만 고려합니다.
  2. 일회성 작업 가정: 일회성 언러닝 작업만 평가하며 연속 언러닝 요청 시나리오를 무시합니다.
  3. 사전학습 지식 평가 부재: 사전학습 단계에서 획득한 지식의 언러닝을 고려하지 않습니다.

연구 동기

본 논문은 더욱 실용적이고 포괄적인 LMMs 언러닝 평가 프레임워크를 구축하여 사전학습 지식 언러닝 및 지속성 측면에서 기존 평가 방법의 공백을 메우는 것을 목표로 합니다.

핵심 기여

  1. PULSE 프로토콜 제시: LMMs에서 (i) 사전학습 지식 언러닝 및 (ii) 장기 지속성 평가를 평가하는 새로운 프로토콜 설계
  2. 사전학습 지식 언러닝의 어려움 규명: PULSE 프로토콜을 통해 기존 언러닝 기술이 사전학습 중에 획득한 지식에 대해 효과적이지 못함을 발견
  3. 지속성 문제 발견: 현재 방법이 여러 번의 연속 언러닝 요청에 직면했을 때 모델 성능이 현저히 저하됨을 증명
  4. 실용적 평가 기초 제공: LMMs 언러닝 기술의 향후 설계에 중요한 통찰력 제공

방법론 상세 설명

작업 정의

DunlearnD_{unlearn}을 언러닝해야 할 데이터, DretainD_{retain}을 보존해야 할 데이터로 정의합니다. 언러닝 방법의 평가는 두 가지 측면을 포함합니다:

  • 유효성(Effectiveness): 목표 DunlearnD_{unlearn}에 대한 언러닝 성능
  • 일반화성(Generality): 무관한 데이터 DretainD_{retain}에 대한 정확도 유지

PULSE 프로토콜 아키텍처

1. 미세조정 지식 언러닝 (Fine-tuned Knowledge Unlearning)

  • 표준 관행을 따르며 미세조정 지식의 부분집합을 DunlearnD_{unlearn}으로 선택
  • 모델이 단일 작업에서 해당 부분집합을 언러닝
  • 언러닝 효과 및 일반화 성능 유지 평가

2. 사전학습 지식 언러닝 (Pre-trained Knowledge Unlearning)

  • 사전학습 중에 획득한 지식을 DunlearnD_{unlearn}으로 설정
  • 모델의 실제 행동을 기반으로 모델이 "알고 있는" 개인 식별
  • 사전학습 말뭉치가 완전히 공개되지 않은 경우에 적용 가능한 더욱 실용적인 방법

3. 지속성 평가 (Long-term Sustainability Evaluation)

  • DunlearnD_{unlearn}을 여러 부분집합으로 분할
  • 이러한 부분집합에 대해 순차적으로 연속 언러닝 작업 수행
  • 각 작업 후 모델의 일반화성 및 유효성 변화 추적

기술적 혁신점

  1. 다차원 평가 프레임워크: LMMs에서 처음으로 지식 출처 유형과 작업 지속성을 동시에 고려
  2. 실용성 지향 설계: 실제 응용 시나리오를 기반으로 평가 프로토콜 설계
  3. 크로스모달 일관성 요구: 멀티모달 및 순수 텍스트 작업 모두에서 모델이 목표 정보를 유출하지 않도록 요구

실험 설정

데이터셋

MLLMU-Bench에서 공개한 데이터셋 사용:

  • 각 개인은 1개의 얼굴 이미지와 10개의 질답 쌍으로 구성
  • 5개의 멀티모달 작업, 5개의 순수 텍스트 작업
  • 질문은 개인 상세 정보(예: 직업, 거주지)를 포함

실험 구성:

  • 미세조정 지식 언러닝: 100개의 가상 개인, 50개는 DunlearnD_{unlearn}, 50개는 DretainD_{retain}
  • 사전학습 지식 언러닝: 153명의 실제 유명인 중 높은 정확도의 45명 선택, 20명은 DunlearnD_{unlearn}, 25명은 DretainD_{retain}
  • 지속성 평가: 50명의 개인을 5개 부분집합으로 분할하여 5회 연속 언러닝 작업 수행

평가 지표

  • 유효성 지표: DunlearnD_{unlearn}에 대한 정확도(낮을수록 좋음)
  • 일반화성 지표:
    • DretainD_{retain}에 대한 정확도(높을수록 좋음)
    • MMBench 점수(멀티모달 능력 평가)

비교 방법

  1. Gradient Ascent (GA): DunlearnD_{unlearn}을 언러닝 데이터로 사용하며, 매개변수 업데이트 방향이 표준 경사하강법과 반대
  2. GA with KL Regularization (GA+KLR): KL 발산 페널티 항을 추가하여 업데이트된 모델을 원본 모델에 가깝게 유지
  3. Negative Preference Optimization (NPO): 언러닝 데이터를 부정적 예시로 하는 선호도 최적화 방법

구현 세부사항

  • 기본 모델: LLaVA-v1.5-13B
  • 미세조정 방법: LoRA (Low-Rank Adaptation)
  • 매개변수 업데이트: 미세조정 및 언러닝 과정 모두에서 LoRA 사용

실험 결과

주요 결과

사전학습 지식 언러닝 성능

  • 모든 방법에서 DunlearnD_{unlearn}의 정확도가 감소하여 언러닝이 어느 정도 유효함을 나타냄
  • 핵심 발견:
    • 미세조정 지식 언러닝: MMBench 능력 최대 약 10% 손실
    • 사전학습 지식 언러닝: MMBench 능력 90% 이상 손실
    • DretainD_{retain} 정확도도 현저히 감소하여 선택적 언러닝이 어려움을 나타냄

지속성 평가 결과

  • 언러닝 작업 횟수가 증가함에 따라 DunlearnD_{unlearn} 성능뿐만 아니라 일반화성 지표도 점진적으로 악화
  • 5회 언러닝 작업 후 일반화성이 거의 완전히 상실
  • 현재 주류 언러닝 방법이 LMM 언러닝에서 지속성을 유지할 수 없음을 나타냄

심층 분석

작업 모달리티 차이

매개변수 업데이트에 투영 행렬과 언어 모델이 포함될 때:

  • 멀티모달 작업 정확도: 78.0% → 9.6%
  • 순수 텍스트 작업 정확도: 76.8% → 35.2%

중요 발견: 순수 텍스트 작업이 언러닝에 더 강한 저항성을 보이며, 이는 "이미지와 지식의 정렬만 파괴했을 가능성"이 있어 목표 정보를 진정으로 언러닝하지 못했을 수 있습니다.

매개변수 업데이트 전략의 영향

  • LLM만 업데이트: MMBench 성능 현저히 감소
  • 투영 행렬과 LLM 동시 업데이트: MMBench 성능 미미하게 감소
  • 가설: 투영 행렬 업데이트 허용이 모달리티 간 정렬을 파괴하여 언러닝을 용이하게 함

실험 발견

  1. 사전학습 지식이 더 어렵게 언러닝됨: 사전학습 중 모델이 목표 개인과 다른 개체 간의 관계를 학습했을 가능성
  2. 연속 언러닝으로 인한 재앙적 언러닝: 반복적 언러닝이 보존 작업에도 중요한 매개변수를 업데이트
  3. 모달리티 간 불일치: 기존 방법이 크로스모달 일관된 언러닝 효과를 보장하지 못할 수 있음

관련 연구

언러닝 방법론

  • Gradient Ascent 변형: GA, GA+정규화, NPO 등의 방법이 LLMs 및 LMMs에서 일정한 효과를 보임
  • LMM 특정 방법: SIU는 멀티모달 작업에만 제한되어 순수 텍스트 작업 평가에 부적합

언러닝 벤치마크

  • LLMs 벤치마크: MUSE, TOFU 등이 포괄적인 평가 프레임워크 제공
  • LMMs 벤치마크: MLLMU-Bench가 기초적이지만 불완전한 평가 제공
  • 본 논문의 기여: LMMs에서 처음으로 사전학습 지식 언러닝 및 지속성 평가 제공

결론 및 논의

주요 결론

  1. 기존 언러닝 방법이 사전학습 지식 처리에 효과적이지 못하며 모델 일반화성이 심각하게 저하됨
  2. 연속 언러닝 작업으로 인해 성능이 점진적으로 악화되어 현재 방법이 실제 배포에 부적합
  3. 멀티모달 및 순수 텍스트 작업 간 언러닝 효과에 불일치 존재

한계

  1. 데이터셋 규모: 실험에 사용된 데이터셋이 상대적으로 작아 대규모 응용 시나리오를 완전히 반영하지 못할 수 있음
  2. 방법 범위: 3가지 주류 언러닝 방법만 평가하여 모든 기존 기술을 포함하지 못함
  3. 평가 지표: 언러닝 효과를 포괄적으로 측정하기 위해 더욱 세분화된 평가 지표가 필요할 수 있음

향후 방향

  1. 사전학습 지식을 위한 전문 언러닝 방법 개발
  2. 장기 지속성을 유지할 수 있는 언러닝 기술 설계
  3. 크로스모달 일관된 언러닝 방법 연구
  4. 더욱 정교한 매개변수 업데이트 전략 탐색

심층 평가

장점

  1. 정확한 문제 식별: 기존 LMM 언러닝 평가의 핵심 결함을 정확히 식별
  2. 완전한 평가 프레임워크: PULSE 프로토콜이 중요한 평가 공백 메움
  3. 합리적 실험 설계: 실험 설정이 실제 응용 시나리오에 부합
  4. 통찰력 있는 발견: 사전학습 지식 언러닝 및 지속성의 중요한 문제 규명
  5. 명확한 작성: 논문 구조가 명확하고 기술 설명이 정확

부족한 점

  1. 제한된 방법 혁신: 주요 기여가 평가 프로토콜이며 새로운 언러닝 방법이 아님
  2. 해결책 부재: 문제를 지적하지만 효과적인 해결책을 제시하지 못함
  3. 불충분한 이론 분석: 관찰된 현상에 대한 이론적 설명이 상대적으로 단순
  4. 제한된 실험 규모: 기존 데이터셋의 제약으로 실험 규모가 상대적으로 작음

영향력

  1. 학술적 가치: LMM 언러닝 연구에 중요한 평가 벤치마크 제공
  2. 실용적 가치: 규명된 문제가 실제 응용에 중요한 지도 의미 제공
  3. 추진 효과: 더욱 실용적인 언러닝 방법 개발을 촉진할 수 있음
  4. 재현성: 실험 설정이 명확하고 공개 데이터셋 기반으로 우수한 재현성 보유

적용 시나리오

  1. 연구 평가: LMM 언러닝 방법의 평가를 위한 표준 프로토콜 제공
  2. 방법 개발: 새로운 언러닝 방법 설계를 위한 평가 벤치마크 제공
  3. 실제 배포: 실제 응용의 언러닝 필요성에 대한 성능 예측 제공
  4. 정책 수립: 관련 개인정보 보호 정책에 기술적 참고 제공

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

  • MUSE, TOFU 등의 LLM 언러닝 벤치마크
  • MLLMU-Bench 등의 LMM 언러닝 벤치마크
  • LLaVA 등의 멀티모달 모델
  • LoRA 등의 매개변수 효율적 미세조정 방법

종합 평가: 이는 높은 품질의 평가 연구 논문입니다. 방법 혁신 측면에서는 상대적으로 제한적이지만, 문제 식별 및 평가 프레임워크 구축 측면에서 중요한 기여를 했습니다. 논문이 규명한 사전학습 지식 언러닝의 어려움과 지속성 문제는 해당 분야의 발전에 중요한 지도 의미를 가지며, 향후 연구의 핵심 방향을 제시합니다.