Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
- 논문 ID: 2510.13606
- 제목: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
- 저자: Riccardo Santi, Riccardo Salami, Simone Calderara (이탈리아 모데나 레조 에밀리아 대학교)
- 분류: cs.LG (기계학습)
- 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.13606v1
휴대용 기기의 계산 능력 향상과 데이터 수집 능력 증대로 인해 분산 AI 모델 훈련이 가능해졌으며, 동시에 참여 클라이언트의 개인정보를 보호할 수 있게 되었습니다. 그러나 개인정보 보호법규 및 보안 요구사항으로 인해 필요시 클라이언트의 모델 기여도를 제거하는 것이 필수 요구사항이 되었습니다. 정제 과정은 특정한 효율성 및 시간 요구사항을 충족해야 합니다. 최근 연구에서는 다양한 지식 제거 방법이 제시되었으나, 이러한 방법들은 데이터 보유자와 프로세스 조정자 간의 다중 라운드 통신이 필요하여, 제거 과정이 완료되기 전에 유효한 모델을 사용할 수 없게 되어 시스템 사용자에게 서비스 중단을 초래할 수 있습니다. 본 논문은 작업 산술(Task Arithmetic)과 신경 접선 커널(Neural Tangent Kernel)을 기반으로 클라이언트 영향을 빠르게 제거하는 혁신적인 솔루션을 제시합니다.
본 연구가 해결하고자 하는 핵심 문제는 **연합 망각(Federated Unlearning, FU)**입니다: 연합학습 환경에서 특정 클라이언트의 전역 모델에 대한 기여도를 빠르고 효과적으로 제거하면서 동시에 모델 성능과 개인정보 보호를 유지하는 것입니다.
- 법규 준수: GDPR, CCPA 등의 개인정보 보호법규에서 요구하는 "잊혀질 권리"
- 보안 요구사항: 악의적이거나 오염된 클라이언트 데이터 기여도 제거 필요성
- 의료 등 민감한 분야: 환자 데이터 철회 요구사항
- 서비스 연속성: 기존 방법은 다중 라운드 통신이 필요하여 모델이 장시간 사용 불가능
- FedEraser 등의 방법은 효과적인 정제 모델을 생성하기 위해 다중 라운드 통신 필요
- 망각 과정 중 모델 사용 불가로 인한 서비스 중단
- 높은 데이터 이질성 환경에서의 견고성 부족
단일 라운드 통신 내에서 클라이언트 망각을 완료할 수 있는 방법을 제시하여 서비스 중단 시간을 최소화하면서 높은 데이터 이질성 환경에서도 우수한 성능을 유지하는 것입니다.
- SATA 방법 제시: 작업 산술과 신경 접선 커널을 기반으로 한 새로운 연합 망각 방법으로, 단일 라운드 통신 내에서 클라이언트 망각 완료 가능
- 혁신적인 이중 작업 벡터 메커니즘: 각 클라이언트가 두 개의 독립적인 작업 벡터를 유지하며, 독립 작업 벡터는 망각 작업 전용
- NTK 강화 작업 산술: 신경 접선 커널 훈련을 활용하여 작업 벡터의 분리성 향상 및 작업 간 간섭 감소
- 포괄적인 실험 검증: Cars-196 및 Resisc45 데이터셋에서 다양한 기준 방법과의 비교를 통해 방법의 효과성 입증
입력:
- 사전훈련된 모델 파라미터 θ₀
- K개 클라이언트의 로컬 데이터셋 {D₁, D₂, ..., Dₖ}
- 목표 망각 클라이언트 tgt
출력:
- 정제된 전역 모델 θ̂clean (목표 클라이언트의 영향 제거)
- 다른 클라이언트 기여도의 모델 성능 유지
제약 조건:
- 단일 라운드 통신으로 망각 완료
- 클라이언트 개인정보 보호
- 비목표 클라이언트 데이터에 대한 모델 성능 유지
각 클라이언트 k는 두 개의 독립적인 작업 벡터를 유지합니다:
- 주 작업 벡터 τₖ: 분산 훈련 과정에 참여하며 전역 모델 계산에 기여
- 독립 작업 벡터 τₖˢᵃ: 격리 상태 유지, 다른 클라이언트 정보 오염 방지, 향후 망각 작업 전용
작업 산술 이론을 기반으로, 작업 벡터 τₜ = θₜ - θ₀는 특정 작업에서 미세 조정 후 모델의 파라미터 변화를 나타냅니다. 다중 작업 벡터 결합:
θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ
여기서 λᵢ는 스칼라 가중치 계수입니다.
목표 클라이언트 tgt를 망각해야 할 때, 전역 모델에서 단순히 독립 작업 벡터를 뺍니다:
θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ
무한 너비 극한에서 신경망 학습 동역학을 선형화하는 신경 접선 커널의 특성을 활용합니다:
flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)
NTK regime에서의 훈련은 작업 벡터의 분리성을 향상시키며, 최종 모델은 다음과 같이 표현됩니다:
flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)
- 단일 라운드 망각: 다중 라운드 통신이 필요한 기존 방법과 달리 SATA는 단일 라운드 내에서 망각 완료
- 독립 작업 벡터 설계: 독립 작업 벡터 유지를 통해 재훈련 필요성 제거
- NTK 강화: 작업 벡터 간 분리성 향상으로 망각 작업이 다른 클라이언트 기여도에 미치는 영향 감소
- 이론적 기초: 작업 산술 기반의 견고한 이론적 기초로 해석 가능한 망각 메커니즘 제공
- Cars-196: 196개 클래스의 자동차 이미지 데이터셋 (차량 브랜드, 모델, 연식에 해당)
- Resisc45: 45개 클래스의 원격 감지 이미지 데이터셋
두 데이터셋 모두 Dirichlet 분포를 사용한 비IID 분할을 적용하며, 파라미터 β는 데이터 기울기 정도를 제어합니다 (β가 작을수록 데이터 분포가 더 기울어짐).
- 전역 모델 정확도: 테스트 셋에서의 분류 정확도
- 목표 클라이언트 망각 효과: 목표 클라이언트 테스트 데이터의 정확도 (낮을수록 좋음)
- 목표 클라이언트 훈련 데이터 망각: 목표 클라이언트 훈련 데이터의 정확도 (낮을수록 좋음)
- 처음부터 훈련 (Train From Scratch, TFS): 사전훈련에서 시작하여 재훈련 (상한 기준)
- 계속 훈련 (Continue to Train, CTT): 목표 클라이언트만 제외하고 계속 훈련, 재앙적 망각 활용
- FedEraser: 과거 클라이언트 업데이트를 기반으로 전역 모델을 재구성하는 가장 잘 알려진 FU 방법
- 모델: OpenAI CLIP 기반 ViT-B/16, 분류 헤드 고정
- 최적화기: AdamW
- 실험 설정:
- Resisc45: 3라운드 FL + 3라운드 FU + 확장 PU 라운드
- Cars-196: 10라운드 FL + 10라운드 FU + 5라운드 PU
- 하이퍼파라미터: 그리드 검색을 통한 λtgt 및 학습률 최적화
목표 클라이언트 테스트셋 정확도 측면에서 SATA NTK는 모든 설정에서 경쟁 방법을 크게 능가합니다:
Resisc45 데이터셋:
- β=0.05: FU 단계 9.96% vs FedEraser의 56.79%
- β=0.1: FU 단계 31.69% vs FedEraser의 80.10%
- β=0.5: FU 단계 14.29% vs FedEraser의 89.95%
Cars196 데이터셋:
- β=0.05: FU 단계 1.48% vs FedEraser의 56.04%
- β=0.1: FU 단계 6.36% vs FedEraser의 58.32%
- β=0.5: FU 단계 0.27% vs FedEraser의 69.93%
SATA는 망각 효과에서 우수한 성능을 보이지만, 전역 모델 정확도에서는 다른 방법보다 약간 낮으며, 특히 FU 단계에서 그렇습니다:
성능 저하 분석:
- 높은 이질성 환경 (낮은 β 값)에서 성능 저하가 더 명확함
- PU 단계 후 성능은 다른 방법 수준에 가깝게 회복 가능
NTK 훈련 유무의 효과 비교:
- SATA vs SATA NTK: NTK 훈련이 망각 성능을 지속적으로 향상
- SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg)는 전역 정확도에서 더 높지만 망각 효과는 약간 낮음
- θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: 나머지 클라이언트의 독립 작업 벡터만 사용
- θ̂ - λtgt τₜₒₜˢᵃ: 전역 모델에서 목표 클라이언트 기여도 제거 (SATA 방법)
결과는 SATA 방법이 망각 효과에서 더 우수함을 보여줍니다.
그림 1의 시각화 결과에서 다음을 확인할 수 있습니다:
- SATA는 목표 클라이언트 정확도에서 최저값 달성
- 전역 정확도에서는 감소하지만 PU 단계에서 빠르게 회복
- β 값이 높을수록 (데이터 이질성이 낮을수록) 방법 성능이 우수
- 단일 라운드 망각의 효과성: SATA는 단일 라운드 통신 내에서 효과적인 망각 달성
- NTK의 중요성: NTK 훈련이 작업 산술 효과를 크게 향상
- 데이터 이질성의 영향: 높은 이질성 환경에서 방법이 더 큰 도전에 직면
- 빠른 회복 능력: PU 단계에서 모델 성능을 빠르게 회복
- FedAvg: 기본 파라미터 평균 집계 방법
- FedProx: 이질성 처리를 위한 근접 항 도입
- SCAFFOLD: 제어 변수를 사용한 클라이언트 드리프트 감소
- FedDC: 로컬 드리프트 추정 및 수정을 통한 업데이트 조정
- 중앙집중식 망각: 기존 기계 망각 방법은 연합 설정에 부적합
- 연합 망각: FedEraser, FedRecover, FedRecovery 등의 방법
- 사전훈련 모델 편집의 선형 작업 프레임워크
- NTK 강화 작업 산술의 이론적 기초
- 단일 라운드 통신 내에서 연합 망각을 완료할 수 있는 첫 번째 효과적인 방법 제시
- 작업 산술과 NTK 기반의 이론적 프레임워크는 우수한 해석 가능성 제공
- 다양한 데이터 이질성 설정에서 방법의 효과성 검증
- 망각 과정 중 서비스 중단 시간을 크게 감소
- 높은 이질성 도전: 높은 Dirichlet 계수 (낮은 이질성) 환경에서 성능 제한
- 전역 성능 저하: 망각 과정 중 전역 모델 정확도 감소
- 이중 벡터 오버헤드: 추가 독립 작업 벡터 유지로 인한 저장소 및 계산 비용 증가
- 하이퍼파라미터 민감성: λtgt 등의 파라미터는 신중한 조정 필요
- 높은 Dirichlet 계수에서의 성능 제한 해결
- 다른 모달리티 및 연합 설정에서의 적응성 탐색
- 전역 모델 성능 유지 추가 최적화
- 자적응형 하이퍼파라미터 선택 방법 연구
- 높은 혁신성: 단일 라운드 연합 망각을 처음 구현하여 실제 응용의 핵심 문제 해결
- 견고한 이론적 기초: 작업 산술과 NTK의 견고한 이론적 기초
- 높은 실용 가치: 서비스 중단 시간을 크게 감소시켜 시스템 가용성 향상
- 충분한 실험: 다양한 데이터셋 및 이질성 설정에서 포괄적인 평가
- 간결한 방법: 핵심 아이디어가 단순 직관적이어서 이해 및 구현 용이
- 성능 트레이드오프: 망각 효과와 전역 성능 간의 명확한 트레이드오프 존재
- 이질성 제한: 특정 이질성 설정에서 성능이 이상적이지 못함
- 자원 오버헤드: 이중 작업 벡터 메커니즘으로 인한 추가 저장소 및 계산 비용
- 이론적 분석 부족: 방법의 수렴성 및 이론적 보장에 대한 심층 분석 부재
- 학술적 기여: 연합 망각 분야에 새로운 연구 방향 제시
- 실용적 가치: 실제 배포의 핵심 문제 해결로 중요한 응용 전망 보유
- 기술적 영감: 연합학습에서의 작업 산술 응용이 영감 제공
- 시간 민감 시스템: 빠른 망각 응답이 필요한 실시간 서비스
- 높은 빈도 망각 요구: 클라이언트 제거가 자주 필요한 동적 환경
- 자원 충분 환경: 이중 벡터 저장소 오버헤드를 감당할 수 있는 시스템
- 중저 이질성 환경: 데이터 분포가 상대적으로 균일한 연합학습 시나리오
본 논문은 34편의 관련 문헌을 인용하며, 연합학습, 기계 망각, 작업 산술 등 다양한 관련 분야의 중요한 연구를 포함하여 연구에 충분한 이론적 기초와 비교 기준을 제공합니다.
종합 평가: 이는 연합 망각 분야에서 중요한 기여를 하는 논문으로, 제시된 단일 라운드 망각 방법은 실제 응용의 핵심 문제를 해결합니다. 일부 측면에서 한계가 있지만, 그 혁신성과 실용 가치로 인해 해당 분야의 중요한 진전이 됩니다.