Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
연합학습(FL)은 여러 클라이언트가 데이터 프라이버시를 보호하면서 공유 모델을 협력하여 훈련할 수 있게 한다. 그러나 모델 훈련 과정의 높은 메모리 요구사항은 자원이 제한된 클라이언트에서의 FL 배포를 심각하게 제한한다. 이를 해결하기 위해 본 논문은 순차적 블록 훈련을 통해 메모리 제약을 극복하는 확장 가능하고 포용적인 FL 프레임워크인 SCALEFL을 제안한다. SCALEFL의 핵심 아이디어는 전역 모델을 블록으로 분할하고 순차적으로 훈련하여 훈련 메모리 요구사항을 줄이는 것이다. 블록 훈련에서의 정보 손실을 완화하기 위해 SCALEFL은 각 블록에 대한 커리큘럼 인식 훈련 목표를 수립하는 커리큘럼 멘토(Curriculum Mentor)를 도입한다. 또한 SCALEFL은 훈련 조화기(Training Harmonizer)를 통합하여 매개변수 협동 적응 훈련 방식을 설계하고, 블록 간 정보 격리를 효과적으로 제거한다.
메모리 벽 문제: 연합학습 훈련 과정에서 모든 중간 활성화, 모델 가중치 및 옵티마이저 상태를 메모리에 유지해야 하므로 높은 메모리 점유율이 발생한다. 예를 들어 ImageNet에서 ResNet34를 훈련하는 데 12GB 이상의 메모리가 소비되지만, 일반적인 모바일 디바이스의 RAM은 보통 4-12GB에 불과하다.
디바이스 이질성: 자원이 제한된 엣지 디바이스는 로컬 훈련에 참여할 수 없어 전역 모델에 대한 귀중한 데이터 기여가 차단된다.
기존 방법의 한계:
모델 이질적 훈련: 지식 증류를 위해 고품질 공개 데이터셋이 필요하지만 FL에서는 획득이 어렵다
부분 훈련: 너비 축소는 모델 아키텍처를 손상시키고, 깊이 축소는 최대 메모리 용량 클라이언트에 의해 제한된다