2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara

Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.

academic

높은 데이터 이질성을 가진 연합학습에서의 견고한 지식 제거를 향하여

기본 정보

논문 ID: 2510.13606
제목: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
저자: Riccardo Santi, Riccardo Salami, Simone Calderara (이탈리아 모데나 레조 에밀리아 대학교)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13606v1

초록

휴대용 기기의 계산 능력 향상과 데이터 수집 능력 증대로 인해 분산 AI 모델 훈련이 가능해졌으며, 동시에 참여 클라이언트의 개인정보를 보호할 수 있게 되었습니다. 그러나 개인정보 보호법규 및 보안 요구사항으로 인해 필요시 클라이언트의 모델 기여도를 제거하는 것이 필수 요구사항이 되었습니다. 정제 과정은 특정한 효율성 및 시간 요구사항을 충족해야 합니다. 최근 연구에서는 다양한 지식 제거 방법이 제시되었으나, 이러한 방법들은 데이터 보유자와 프로세스 조정자 간의 다중 라운드 통신이 필요하여, 제거 과정이 완료되기 전에 유효한 모델을 사용할 수 없게 되어 시스템 사용자에게 서비스 중단을 초래할 수 있습니다. 본 논문은 작업 산술(Task Arithmetic)과 신경 접선 커널(Neural Tangent Kernel)을 기반으로 클라이언트 영향을 빠르게 제거하는 혁신적인 솔루션을 제시합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 **연합 망각(Federated Unlearning, FU)**입니다: 연합학습 환경에서 특정 클라이언트의 전역 모델에 대한 기여도를 빠르고 효과적으로 제거하면서 동시에 모델 성능과 개인정보 보호를 유지하는 것입니다.

문제의 중요성

법규 준수: GDPR, CCPA 등의 개인정보 보호법규에서 요구하는 "잊혀질 권리"
보안 요구사항: 악의적이거나 오염된 클라이언트 데이터 기여도 제거 필요성
의료 등 민감한 분야: 환자 데이터 철회 요구사항
서비스 연속성: 기존 방법은 다중 라운드 통신이 필요하여 모델이 장시간 사용 불가능

기존 방법의 한계

FedEraser 등의 방법은 효과적인 정제 모델을 생성하기 위해 다중 라운드 통신 필요
망각 과정 중 모델 사용 불가로 인한 서비스 중단
높은 데이터 이질성 환경에서의 견고성 부족

연구 동기

단일 라운드 통신 내에서 클라이언트 망각을 완료할 수 있는 방법을 제시하여 서비스 중단 시간을 최소화하면서 높은 데이터 이질성 환경에서도 우수한 성능을 유지하는 것입니다.

핵심 기여

SATA 방법 제시: 작업 산술과 신경 접선 커널을 기반으로 한 새로운 연합 망각 방법으로, 단일 라운드 통신 내에서 클라이언트 망각 완료 가능
혁신적인 이중 작업 벡터 메커니즘: 각 클라이언트가 두 개의 독립적인 작업 벡터를 유지하며, 독립 작업 벡터는 망각 작업 전용
NTK 강화 작업 산술: 신경 접선 커널 훈련을 활용하여 작업 벡터의 분리성 향상 및 작업 간 간섭 감소
포괄적인 실험 검증: Cars-196 및 Resisc45 데이터셋에서 다양한 기준 방법과의 비교를 통해 방법의 효과성 입증

방법 상세 설명

작업 정의

입력:

사전훈련된 모델 파라미터 θ₀
K개 클라이언트의 로컬 데이터셋 {D₁, D₂, ..., Dₖ}
목표 망각 클라이언트 tgt

출력:

정제된 전역 모델 θ̂clean (목표 클라이언트의 영향 제거)
다른 클라이언트 기여도의 모델 성능 유지

제약 조건:

단일 라운드 통신으로 망각 완료
클라이언트 개인정보 보호
비목표 클라이언트 데이터에 대한 모델 성능 유지

모델 아키텍처

1. 이중 작업 벡터 메커니즘

각 클라이언트 k는 두 개의 독립적인 작업 벡터를 유지합니다:

주 작업 벡터 τₖ: 분산 훈련 과정에 참여하며 전역 모델 계산에 기여
독립 작업 벡터 τₖˢᵃ: 격리 상태 유지, 다른 클라이언트 정보 오염 방지, 향후 망각 작업 전용

2. 작업 산술 프레임워크

작업 산술 이론을 기반으로, 작업 벡터 τₜ = θₜ - θ₀는 특정 작업에서 미세 조정 후 모델의 파라미터 변화를 나타냅니다. 다중 작업 벡터 결합:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

여기서 λᵢ는 스칼라 가중치 계수입니다.

3. 망각 작업

목표 클라이언트 tgt를 망각해야 할 때, 전역 모델에서 단순히 독립 작업 벡터를 뺍니다:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. NTK 강화

무한 너비 극한에서 신경망 학습 동역학을 선형화하는 신경 접선 커널의 특성을 활용합니다:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

NTK regime에서의 훈련은 작업 벡터의 분리성을 향상시키며, 최종 모델은 다음과 같이 표현됩니다:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

기술 혁신점

단일 라운드 망각: 다중 라운드 통신이 필요한 기존 방법과 달리 SATA는 단일 라운드 내에서 망각 완료
독립 작업 벡터 설계: 독립 작업 벡터 유지를 통해 재훈련 필요성 제거
NTK 강화: 작업 벡터 간 분리성 향상으로 망각 작업이 다른 클라이언트 기여도에 미치는 영향 감소
이론적 기초: 작업 산술 기반의 견고한 이론적 기초로 해석 가능한 망각 메커니즘 제공

실험 설정

데이터셋

Cars-196: 196개 클래스의 자동차 이미지 데이터셋 (차량 브랜드, 모델, 연식에 해당)
Resisc45: 45개 클래스의 원격 감지 이미지 데이터셋

두 데이터셋 모두 Dirichlet 분포를 사용한 비IID 분할을 적용하며, 파라미터 β는 데이터 기울기 정도를 제어합니다 (β가 작을수록 데이터 분포가 더 기울어짐).

평가 지표

전역 모델 정확도: 테스트 셋에서의 분류 정확도
목표 클라이언트 망각 효과: 목표 클라이언트 테스트 데이터의 정확도 (낮을수록 좋음)
목표 클라이언트 훈련 데이터 망각: 목표 클라이언트 훈련 데이터의 정확도 (낮을수록 좋음)

비교 방법

처음부터 훈련 (Train From Scratch, TFS): 사전훈련에서 시작하여 재훈련 (상한 기준)
계속 훈련 (Continue to Train, CTT): 목표 클라이언트만 제외하고 계속 훈련, 재앙적 망각 활용
FedEraser: 과거 클라이언트 업데이트를 기반으로 전역 모델을 재구성하는 가장 잘 알려진 FU 방법

구현 세부사항

모델: OpenAI CLIP 기반 ViT-B/16, 분류 헤드 고정
최적화기: AdamW
실험 설정:
- Resisc45: 3라운드 FL + 3라운드 FU + 확장 PU 라운드
- Cars-196: 10라운드 FL + 10라운드 FU + 5라운드 PU
하이퍼파라미터: 그리드 검색을 통한 λtgt 및 학습률 최적화