This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- 논문 ID: 2505.14117
- 제목: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
- 저자: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
- 분류: cs.LG cs.AI
- 발표 시간/학회: Preprint (arXiv:2505.14117v2)
- 논문 링크: https://arxiv.org/abs/2505.14117v2
본 논문은 미표지 데이터의 효용성을 극대화하기 위한 새로운 데이터 중심 패러다임을 개척하였으며, 데이터 자체를 최적화하여 심층 학습 훈련의 지속성과 효율성을 향상시키는 방법에 대한 핵심 문제를 해결하였습니다. 저자들은 먼저 기존 모델 중심 방법의 두 가지 주요 한계를 식별하였으며, 이는 모두 공통 병목에서 비롯됩니다: 데이터에서 추출한 지식이 모델 매개변수에 고정되어 재사용성과 확장성을 방해합니다. 이를 위해 효율적인 병렬화 협업 미표지 데이터 최적화 프레임워크인 COOPT를 제안하였습니다. 분산 처리된 미표지 데이터와 공개적으로 이용 가능한 작업 무관 사전 모델을 활용하여, COOPT는 원본 미표지 데이터를 지식이 풍부한 훈련 집합으로 변환하며, 효과성, 효율성, 재사용성 및 공유 용이성을 갖춥니다. ImageNet-1K에서 BYOL 대비 7.9%의 개선을 달성하였습니다.
빅데이터 시대에 데이터가 풍부함에도 불구하고, 대부분의 데이터는 여전히 미표지 상태입니다. 현재 미표지 데이터를 활용하는 주류 패러다임은 자기지도 학습(SSL)이며, 이는 신중하게 설계된 대리 작업과 손실 함수를 통해 데이터 정보를 모델 매개변수에 인코딩하는 모델 중심 방법입니다.
기존 모델 중심 방법의 두 가지 주요 과제:
- 아키텍처 결합성: 훈련 프로토콜이 특정 네트워크 아키텍처와 긴밀하게 결합되어 훈련된 모델의 다른 아키텍처로의 전이성과 재사용성을 심각하게 방해합니다.
- 계산 효율성 문제: 가속화 진전에도 불구하고, 대규모 미표지 데이터셋에 대한 훈련은 여전히 계산상 금지적입니다.
이러한 과제의 핵심은 공통 병목입니다: 데이터에서 추출한 지식이 모델 매개변수에 고정되어 적응성을 제한하고 서로 다른 작업이나 아키텍처 간의 효율적인 재사용을 방해합니다.
모델 중심 패러다임을 돌파하기 위해, 저자들은 미표지 데이터의 목표를 직접 최적화하여 모델 매개변수가 아닌 데이터 자체에 지식을 효과적으로 인코딩하는 데이터 중심 패러다임을 제안하였습니다.
- COOPT 프레임워크 제안: 미표지 데이터의 협업 최적화를 위한 첫 번째 데이터 중심 프레임워크로, 작업 무관 사전 모델을 활용하여 원본 미표지 샘플을 최적화된 데이터로 변환하며, 고성능, 고효율, 강한 일반화성 및 재사용성을 실현합니다.
- 목표 분포 불일치 문제 식별 및 해결: COOPT 프레임워크 내에서 핵심 문제인 목표 분포 불일치(Target Distribution Inconsistency)를 식별하고, 경량 목표 정렬 전략을 도입하여 해결합니다.
- 포괄적 실험 검증: 여러 데이터셋과 모델에서 포괄적 실험을 수행하여 COOPT의 우수성을 검증하며, 모든 사전 모델이 약할 경우에도 COOPT가 훈련의 초기 단계를 효과적으로 가속화할 수 있음을 입증합니다.
데이터 최적화 정의: 대규모 미표지 데이터셋 D=DX={xi}i=1N이 주어졌을 때, 데이터 최적화는 목표 DY={yi}i=1N를 할당하여 최적 표지 데이터셋 D′={(xi,yi)}i=1N를 구성하는 것을 목표로 하며, D′에서 훈련된 모델이 D에서 훈련된 모델보다 훨씬 적은 훈련 비용으로 더 높은 성능을 달성할 수 있도록 합니다.
목표 함수:
E(x,y)∼PT[ℓ(ϕθD(x),y)]>E(x,y)∼PT[ℓ(ϕθD′(x),y)]
여기서 PT는 테스트 분포, ℓ은 손실 함수, θD와 θD′는 각각 D와 D′에서 훈련된 네트워크 매개변수입니다.
COOPT는 개방 데이터 플랫폼과 K명의 참여자로 구성된 협업 병렬화 프레임워크이며, 각 참여자는 서로 다른 사전 모델을 갖추고 있습니다.
단계 1: 데이터 분배
- 개방 데이터 플랫폼이 미표지 데이터 D를 K개의 겹치지 않는 부분집합으로 무작위 분할
- 각 참여자가 부분집합 D(k) 다운로드
단계 2: 데이터 최적화
- 각 참여자가 사전 모델 ψk를 사용하여 각자의 데이터셋 D(k) 최적화
- 정의 1에 따라 목표 할당: D′={(xi,yi)∣yi=Wψ(xi),∀xi∈DX}
단계 3: 데이터 정렬
- 목표 분포 불일치 문제 해결
- 학습 가능한 변환 행렬 T(k)를 사용하여 목표 분포를 최적 사전 모델에 정렬
단계 4: 데이터 업로드
- 참여자들이 최적화된 데이터셋을 플랫폼으로 업로드
단계 5: 데이터 병합
- 플랫폼이 모든 최적화된 데이터셋을 집계하여 통합 데이터셋 형성
협업 프레임워크에서 서로 다른 참여자가 서로 다른 사전 모델을 사용하면 목표 분포 불일치가 발생하여 모델 일반화 능력에 영향을 미칩니다.
균일성 손실(Uniform Value Loss)을 사용하여 사전 모델 품질 평가:
Vuniform(ψ;S)=logExi,xj∼S[eτ∥ψ(xi)−ψ(xj)∥22]
여기서 낮은 균일 값은 더 높은 품질의 사전 모델을 나타냅니다.
변환 행렬 최적화를 통한 목표 정렬:
T(k)=argminT∈Rn×n{∥T⋅ψ(k)(SX)−SY∗∥22}
여기서 SY∗는 최적 사전 모델의 공유 데이터셋에 대한 목표입니다.
- ImageNet-1K (224×224)
- Tiny-ImageNet (64×64)
- CIFAR-100 (32×32)
- CIFAR-10 (32×32)
- 정확도: 오프라인 선형 탐사 전략을 사용하여 표현 품질 평가
- 계산 효율성: 시간 비용(초)으로 정량화
최첨단 자기지도 학습 방법과 비교:
- SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL
- 4개의 NVIDIA RTX 4090 GPU 사용
- 사전 모델: 다양한 사전훈련된 CLIP 모델
- 최적화기: AdamW
- 배치 크기: 128 (ImageNet-1K은 256)
- 3개의 무작위 시드로 평균 및 분산 보고
자기지도 학습 방법과의 비교(표 1):
- CIFAR-10: 89.5% vs BYOL 82.8% (↑5.6%), 훈련 속도 1.87배 향상
- CIFAR-100: 67.3% vs DCL 58.2% (↑9.1%), 훈련 속도 1.95배 향상
- Tiny-ImageNet: 60.3% vs DCL 44.6% (↑15.7%), 훈련 속도 1.94배 향상
- ImageNet-1K: 69.8% vs BYOL 61.9% (↑7.9%), 훈련 속도 1.20배 향상
중앙집중식 최적화와의 비교(표 2):
- CIFAR-100에서 COOPT: 65.8% vs 중앙집중식 62.1%
- 훈련 시간: 16.31초 vs 23.71초
아키텍처 간 일반화(표 3):
COOPT는 다양한 네트워크 아키텍처에서 BYOL을 크게 능가합니다:
- ResNet-50: 63.8% vs 60.4%
- ResNet-101: 65.7% vs 61.5%
- MobileNet-v2: 58.1% vs 24.0%
- EfficientNet-b0: 70.7% vs 2.3%
- ViT: 57.8% vs 38.5%
목표 정렬의 필요성:
- 정렬 없음: 성능 현저히 감소
- 최적 모델로 정렬: 성능 16.9% 향상
- 정렬 전략의 유효성이 t-SNE 시각화로 검증됨
공유 데이터 크기의 영향:
- 0.05%의 공유 데이터만으로도 양호한 효과 달성
- ImageNet-1K에서 0.001%의 데이터로도 충분
계산 오버헤드:
- 균일성 추정: 139.16초
- 정렬 프로세스: 36.97초
- BYOL의 133,766.19초 대비 오버헤드 극소
- 약한 사전 모델도 유효: 모든 사전 모델이 약할 경우에도 COOPT는 훈련 초기 단계를 크게 가속화할 수 있습니다.
- 지속적 최적화 잠재력: 사전 모델이 진화함에 따라 데이터 품질이 지속적으로 개선되며, 10라운드 후 4.6% 성능 향상을 획득합니다.
- 사전 데이터셋의 영향: ImageNet-1K에서 훈련된 사전 모델을 사용하면 모든 데이터셋에서 현저한 개선을 달성합니다.
대리 작업을 통해 표현을 학습하는 모델 중심 방법:
- InstDisc: 인스턴스 판별
- MoCo: 모멘텀 대조
- SimCLR: 단순 대조 학습 프레임워크
- BYOL: 자기부스트래핑 학습
교사 모델이 생성한 소프트 레이블을 활용하여 학생 훈련을 개선하지만, 지식은 여전히 모델 매개변수에 고정됩니다.
컴팩트한 증류 데이터셋을 학습하며, 주로 표지 데이터의 최적화에 중점을 둡니다.
- COOPT는 모델 중심 패러다임의 한계를 성공적으로 돌파하여 데이터 중심 협업 최적화를 실현합니다.
- 최적화된 데이터는 아키텍처 무관성, 재사용성 및 효율성을 갖춥니다.
- 사전 모델이 약할 경우에도 훈련을 효과적으로 가속화할 수 있습니다.
- 모든 사전 모델이 극도로 약할 경우, 전체 성능 저하는 불가피합니다.
- 개인정보 보호 메커니즘을 추가로 강화해야 합니다.
- 현재 주로 공개 미표지 데이터의 최적화에 중점을 둡니다.
- 극도로 약한 사전 모델로 최적화된 데이터를 효과적으로 활용하는 더 고급 전략 개발
- 개인정보 보호 메커니즘 강화
- 더 많은 유형의 데이터 및 작업으로 확장
- 패러다임 혁신: 모델 중심에서 데이터 중심으로의 전환으로 중요한 이론적 의의를 갖습니다.
- 실용적 가치: 지식 재사용성과 훈련 효율성의 실제 문제를 해결합니다.
- 체계적 방법: 문제 식별 및 해결책을 포함한 완전한 협업 최적화 프레임워크를 제공합니다.
- 충분한 실험: 여러 데이터셋과 아키텍처에서 포괄적 검증을 수행합니다.
- 이론 분석 부족: 데이터 최적화가 효과적인 이유에 대한 심층 이론 분석이 부족합니다.
- 제한된 개인정보 고려: 개인정보 문제를 언급하지만 해결책이 충분하지 않습니다.
- 사전 모델 의존성: 방법의 효과가 사전 모델 품질에 크게 의존합니다.
- 확장성 검증 부족: 더 큰 규모 데이터셋에서 확장성을 검증해야 합니다.
- 학술 기여: 미표지 데이터 활용에 새로운 사고를 제공하며 패러다임 전환을 촉발할 수 있습니다.
- 실용적 가치: 자원이 제한된 시나리오에 중요한 응용 가치를 갖습니다.
- 재현성: 저자들이 코드 공개를 약속하여 결과 재현에 유리합니다.
- 분산 자원 시나리오: 여러 방이 협업하지만 자원이 분산된 경우
- 모델 빈번 변경: 아키텍처 간 지식 재사용이 필요한 시나리오
- 대규모 미표지 데이터: 기존 자기지도 학습 비용이 과도한 경우
본 논문은 자기지도 학습, 지식 증류 및 데이터셋 증류 분야의 중요한 연구를 인용하며, 다음을 포함합니다:
- Chen et al. (2020): SimCLR
- Grill et al. (2020): BYOL
- He et al. (2020): MoCo
- Wang & Isola (2020): 대조 표현 학습의 이론적 기초
- Sun et al. (2024): RELA 방법의 이론적 검증