2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.

This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.

academic

협업 미표지 데이터 최적화

기본 정보

논문 ID: 2505.14117
제목: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
저자: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
분류: cs.LG cs.AI
발표 시간/학회: Preprint (arXiv:2505.14117v2)
논문 링크: https://arxiv.org/abs/2505.14117v2

초록

본 논문은 미표지 데이터의 효용성을 극대화하기 위한 새로운 데이터 중심 패러다임을 개척하였으며, 데이터 자체를 최적화하여 심층 학습 훈련의 지속성과 효율성을 향상시키는 방법에 대한 핵심 문제를 해결하였습니다. 저자들은 먼저 기존 모델 중심 방법의 두 가지 주요 한계를 식별하였으며, 이는 모두 공통 병목에서 비롯됩니다: 데이터에서 추출한 지식이 모델 매개변수에 고정되어 재사용성과 확장성을 방해합니다. 이를 위해 효율적인 병렬화 협업 미표지 데이터 최적화 프레임워크인 COOPT를 제안하였습니다. 분산 처리된 미표지 데이터와 공개적으로 이용 가능한 작업 무관 사전 모델을 활용하여, COOPT는 원본 미표지 데이터를 지식이 풍부한 훈련 집합으로 변환하며, 효과성, 효율성, 재사용성 및 공유 용이성을 갖춥니다. ImageNet-1K에서 BYOL 대비 7.9%의 개선을 달성하였습니다.

연구 배경 및 동기

문제 배경

빅데이터 시대에 데이터가 풍부함에도 불구하고, 대부분의 데이터는 여전히 미표지 상태입니다. 현재 미표지 데이터를 활용하는 주류 패러다임은 자기지도 학습(SSL)이며, 이는 신중하게 설계된 대리 작업과 손실 함수를 통해 데이터 정보를 모델 매개변수에 인코딩하는 모델 중심 방법입니다.

핵심 문제

기존 모델 중심 방법의 두 가지 주요 과제:

아키텍처 결합성: 훈련 프로토콜이 특정 네트워크 아키텍처와 긴밀하게 결합되어 훈련된 모델의 다른 아키텍처로의 전이성과 재사용성을 심각하게 방해합니다.
계산 효율성 문제: 가속화 진전에도 불구하고, 대규모 미표지 데이터셋에 대한 훈련은 여전히 계산상 금지적입니다.

근본적 병목

이러한 과제의 핵심은 공통 병목입니다: 데이터에서 추출한 지식이 모델 매개변수에 고정되어 적응성을 제한하고 서로 다른 작업이나 아키텍처 간의 효율적인 재사용을 방해합니다.

연구 동기

모델 중심 패러다임을 돌파하기 위해, 저자들은 미표지 데이터의 목표를 직접 최적화하여 모델 매개변수가 아닌 데이터 자체에 지식을 효과적으로 인코딩하는 데이터 중심 패러다임을 제안하였습니다.

핵심 기여

COOPT 프레임워크 제안: 미표지 데이터의 협업 최적화를 위한 첫 번째 데이터 중심 프레임워크로, 작업 무관 사전 모델을 활용하여 원본 미표지 샘플을 최적화된 데이터로 변환하며, 고성능, 고효율, 강한 일반화성 및 재사용성을 실현합니다.
목표 분포 불일치 문제 식별 및 해결: COOPT 프레임워크 내에서 핵심 문제인 목표 분포 불일치(Target Distribution Inconsistency)를 식별하고, 경량 목표 정렬 전략을 도입하여 해결합니다.
포괄적 실험 검증: 여러 데이터셋과 모델에서 포괄적 실험을 수행하여 COOPT의 우수성을 검증하며, 모든 사전 모델이 약할 경우에도 COOPT가 훈련의 초기 단계를 효과적으로 가속화할 수 있음을 입증합니다.

방법 상세 설명

작업 정의

데이터 최적화 정의: 대규모 미표지 데이터셋 $D = D_X = \{x_i\}_{i=1}^N$ 이 주어졌을 때, 데이터 최적화는 목표 $D_Y = \{y_i\}_{i=1}^N$ 를 할당하여 최적 표지 데이터셋 $D' = \{(x_i, y_i)\}_{i=1}^N$ 를 구성하는 것을 목표로 하며, $D'$ 에서 훈련된 모델이 $D$ 에서 훈련된 모델보다 훨씬 적은 훈련 비용으로 더 높은 성능을 달성할 수 있도록 합니다.