2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.

This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.

academic

協調的ラベルなしデータ最適化

基本情報

論文ID: 2505.14117
タイトル: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
著者: Xinyi Shang (UCL), Peng Sun (浙江大学 & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
分類: cs.LG cs.AI
発表時期/会議: プレプリント (arXiv:2505.14117v2)
論文リンク: https://arxiv.org/abs/2505.14117v2

要旨

本論文は、ラベルなしデータの有用性を最大化することを目的とした革新的なデータ中心のパラダイムを提唱している。データ自体の最適化を通じて深層学習訓練の持続可能性と効率性を向上させるという重要な問題に対処している。著者らは、まずモデル中心アプローチの2つの重要な制限を特定し、これらはすべて共通のボトルネックに由来している：データから抽出された知識がモデルパラメータに固定されており、その再利用性と拡張性が阻害されている。これに対応して、COOPT（効率的な並列化協調ラベルなしデータ最適化フレームワーク）を提案している。分散処理によるラベルなしデータと公開可能なタスク非依存事前学習モデルを活用することで、COOPTは原始的なラベルなしデータを知識豊富な訓練集合に最適化し、有効性、効率性、再利用性、および共有可能性を備えている。ImageNet-1Kではbyolと比較して7.9%の改善を達成している。

研究背景と動機

問題背景

ビッグデータ時代において、データが豊富であるにもかかわらず、大部分のデータはいまだにラベルなしである。ラベルなしデータを活用する主流のパラダイムは自己教師あり学習(SSL)であり、これはモデル中心のアプローチであり、慎重に設計された代理タスクと損失関数を通じてデータ情報をモデルパラメータに符号化する。

核心的問題

既存のモデル中心アプローチには2つの重要な課題がある：

アーキテクチャ結合性：訓練プロトコルが特定のネットワークアーキテクチャと密に結合されており、訓練されたモデルの他のアーキテクチャへの転移可能性と再利用性を著しく阻害している
計算効率の問題：加速の進展にもかかわらず、大規模ラベルなしデータセット上での訓練は計算上禁止的である

根本的ボトルネック

これらの課題の核心は共通のボトルネックである：データから抽出された知識がモデルパラメータに固定されているため、その適応性が制限され、異なるタスクやアーキテクチャ間での効率的な再利用が阻止されている。

研究動機

モデル中心のパラダイムを突破するため、著者らはデータ中心のパラダイムを提案している。これはラベルなしデータを直接最適化することで、知識をモデルパラメータではなくデータ自体に効果的に符号化する。

核心的貢献

COOPTフレームワークの提案：協調的なラベルなしデータ最適化のための初のデータ中心フレームワーク。タスク非依存の事前学習モデルを活用することで、原始的なラベルなしサンプルを最適化データに変換し、高性能、高効率、強い汎化性、および再利用性を実現する
目標分布不一致問題の特定と解決：COOPTフレームワーク内で重要な問題である目標分布不一致(Target Distribution Inconsistency)を特定し、軽量な目標対齢戦略を導入して解決する
包括的な実験検証：複数のデータセットとモデル上で包括的な実験を実施し、COOPTの優位性を検証。すべての事前学習モデルが弱い場合でも、COOPTが訓練の初期段階を効果的に加速できることを証明している

方法論の詳細

タスク定義

データ最適化の定義：大規模ラベルなしデータセット $D = D_X = \{x_i\}_{i=1}^N$ が与えられたとき、データ最適化は目標 $D_Y = \{y_i\}_{i=1}^N$ を割り当てることで最適ラベル付きデータセット $D' = \{(x_i, y_i)\}_{i=1}^N$ を構築することを目的とする。これにより、 $D'$ 上で訓練されたモデルが $D$ 上で訓練されたモデルよりも著しく少ない訓練コストで高い性能を達成できるようにする。