2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.

This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.

academic

Collaborative Unlabeled Data Optimization

基本信息

论文ID: 2505.14117
标题: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
作者: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
分类: cs.LG cs.AI
发表时间/会议: Preprint (arXiv:2505.14117v2)
论文链接: https://arxiv.org/abs/2505.14117v2

摘要

本文开创了一种新颖的以数据为中心的范式，旨在最大化无标签数据的效用，解决了一个关键问题：如何通过优化数据本身来增强深度学习训练的可持续性和效率？作者首先识别了现有以模型为中心方法的两个关键局限性，这些局限性都源于一个共同瓶颈：从数据中提取的知识被锁定在模型参数中，阻碍了其可重用性和可扩展性。为此，提出了COOPT，一个高效的并行化协作无标签数据优化框架。通过分布式处理无标签数据并利用公开可用的任务无关先验模型，COOPT将原始无标签数据优化为知识丰富的训练集，具有有效性、高效性、可重用性和易共享性。在ImageNet-1K上相比BYOL取得了7.9%的改进。

研究背景与动机

问题背景

在大数据时代，尽管数据丰富，但大部分数据仍然是无标签的。当前利用无标签数据的主流范式是自监督学习(SSL)，这是一种以模型为中心的方法，通过精心设计的代理任务和损失函数将数据信息编码到模型参数中。

核心问题

现有以模型为中心的方法存在两个关键挑战：

架构耦合性：训练协议与特定网络架构紧密耦合，严重阻碍了训练模型在其他架构上的可转移性和可重用性
计算效率问题：尽管有加速进展，在大规模无标签数据集上的训练仍然在计算上是禁止性的

根本瓶颈

这些挑战的核心是一个共同瓶颈：从数据中提取的知识被锁定在模型参数中，限制了其适应性并阻止了跨不同任务或架构的高效重用。

研究动机

为了突破以模型为中心的范式，作者提出了以数据为中心的范式，通过直接优化无标签数据的目标来有效地将知识编码到数据本身而不是模型参数中。

核心贡献

提出COOPT框架：首个用于协作优化无标签数据的以数据为中心框架，通过利用任务无关的先验模型，将原始无标签样本转换为优化数据，实现高性能、高效率、强泛化性和可重用性
识别并解决目标分布不一致问题：在COOPT框架内识别了关键问题——目标分布不一致(Target Distribution Inconsistency)，并引入了轻量级目标对齐策略来解决
全面实验验证：在多个数据集和模型上进行了全面实验，验证了COOPT的优势，证明即使所有先验模型都很弱，COOPT仍能有效加速训练的早期阶段

方法详解

任务定义

数据优化定义：给定大规模无标签数据集 $D = D_X = \{x_i\}_{i=1}^N$ ，数据优化旨在为其分配目标 $D_Y = \{y_i\}_{i=1}^N$ 来构建最优标记数据集 $D' = \{(x_i, y_i)\}_{i=1}^N$ ，使得在 $D'$ 上训练的模型能够以显著更少的训练成本达到比在 $D$ 上训练的模型更高的性能。