2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.
This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
academic

Collaborative Unlabeled Data Optimization

基本信息

  • 论文ID: 2505.14117
  • 标题: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
  • 作者: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
  • 分类: cs.LG cs.AI
  • 发表时间/会议: Preprint (arXiv:2505.14117v2)
  • 论文链接: https://arxiv.org/abs/2505.14117v2

摘要

本文开创了一种新颖的以数据为中心的范式,旨在最大化无标签数据的效用,解决了一个关键问题:如何通过优化数据本身来增强深度学习训练的可持续性和效率?作者首先识别了现有以模型为中心方法的两个关键局限性,这些局限性都源于一个共同瓶颈:从数据中提取的知识被锁定在模型参数中,阻碍了其可重用性和可扩展性。为此,提出了COOPT,一个高效的并行化协作无标签数据优化框架。通过分布式处理无标签数据并利用公开可用的任务无关先验模型,COOPT将原始无标签数据优化为知识丰富的训练集,具有有效性、高效性、可重用性和易共享性。在ImageNet-1K上相比BYOL取得了7.9%的改进。

研究背景与动机

问题背景

在大数据时代,尽管数据丰富,但大部分数据仍然是无标签的。当前利用无标签数据的主流范式是自监督学习(SSL),这是一种以模型为中心的方法,通过精心设计的代理任务和损失函数将数据信息编码到模型参数中。

核心问题

现有以模型为中心的方法存在两个关键挑战:

  1. 架构耦合性:训练协议与特定网络架构紧密耦合,严重阻碍了训练模型在其他架构上的可转移性和可重用性
  2. 计算效率问题:尽管有加速进展,在大规模无标签数据集上的训练仍然在计算上是禁止性的

根本瓶颈

这些挑战的核心是一个共同瓶颈:从数据中提取的知识被锁定在模型参数中,限制了其适应性并阻止了跨不同任务或架构的高效重用。

研究动机

为了突破以模型为中心的范式,作者提出了以数据为中心的范式,通过直接优化无标签数据的目标来有效地将知识编码到数据本身而不是模型参数中。

核心贡献

  1. 提出COOPT框架:首个用于协作优化无标签数据的以数据为中心框架,通过利用任务无关的先验模型,将原始无标签样本转换为优化数据,实现高性能、高效率、强泛化性和可重用性
  2. 识别并解决目标分布不一致问题:在COOPT框架内识别了关键问题——目标分布不一致(Target Distribution Inconsistency),并引入了轻量级目标对齐策略来解决
  3. 全面实验验证:在多个数据集和模型上进行了全面实验,验证了COOPT的优势,证明即使所有先验模型都很弱,COOPT仍能有效加速训练的早期阶段

方法详解

任务定义

数据优化定义:给定大规模无标签数据集 D=DX={xi}i=1ND = D_X = \{x_i\}_{i=1}^N,数据优化旨在为其分配目标 DY={yi}i=1ND_Y = \{y_i\}_{i=1}^N 来构建最优标记数据集 D={(xi,yi)}i=1ND' = \{(x_i, y_i)\}_{i=1}^N,使得在 DD' 上训练的模型能够以显著更少的训练成本达到比在 DD 上训练的模型更高的性能。

目标函数: E(x,y)PT[(ϕθD(x),y)]>E(x,y)PT[(ϕθD(x),y)]E_{(x,y)\sim P_T}[\ell(\phi_{\theta_D}(x), y)] > E_{(x,y)\sim P_T}[\ell(\phi_{\theta_{D'}}(x), y)]

其中 PTP_T 是测试分布,\ell 是损失函数,θD\theta_DθD\theta_{D'} 分别是在 DDDD' 上训练的网络参数。

模型架构

COOPT是一个协作并行化框架,包含一个开放数据平台和K个参与者,每个参与者配备不同的先验模型。

五步操作流程:

步骤1:数据分发

  • 开放数据平台将无标签数据 DD 随机分割为K个非重叠子集
  • 每个参与者下载一个子集 D(k)D^{(k)}

步骤2:数据优化

  • 每个参与者使用先验模型 ψk\psi_k 优化各自的数据集 D(k)D^{(k)}
  • 根据定义1进行目标分配:D={(xi,yi)yi=Wψ(xi),xiDX}D' = \{(x_i, y_i) | y_i = W\psi(x_i), \forall x_i \in D_X\}

步骤3:数据对齐

  • 解决目标分布不一致问题
  • 使用可学习变换矩阵 T(k)T^{(k)} 将目标分布对齐到最优先验模型

步骤4:数据上传

  • 参与者将优化后的数据集上传回平台

步骤5:数据合并

  • 平台聚合所有优化数据集形成统一数据集

技术创新点

1. 目标分布不一致问题识别

在协作框架中,不同参与者使用不同先验模型导致目标分布不一致,影响模型泛化能力。

2. 先验模型质量评估

使用均匀性损失(Uniform Value Loss)评估先验模型质量: Vuniform(ψ;S)=logExi,xjS[eτψ(xi)ψ(xj)22]V_{uniform}(\psi; S) = \log E_{x_i, x_j \sim S}[e^{\tau \|\psi(x_i) - \psi(x_j)\|_2^2}]

其中较低的均匀值表示更高质量的先验模型。

3. 目标对齐策略

通过优化变换矩阵实现目标对齐: T(k)=argminTRn×n{Tψ(k)(SX)SY22}T^{(k)} = \arg\min_{T \in \mathbb{R}^{n \times n}} \{\|T \cdot \psi^{(k)}(S_X) - S_Y^*\|_2^2\}

其中 SYS_Y^* 是最优先验模型在共享数据集上的目标。

实验设置

数据集

  • ImageNet-1K (224×224)
  • Tiny-ImageNet (64×64)
  • CIFAR-100 (32×32)
  • CIFAR-10 (32×32)

评价指标

  • 准确率:使用离线线性探测策略评估表示质量
  • 计算效率:通过时间成本(秒)量化

对比方法

与最先进的自监督学习方法对比:

  • SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL

实现细节

  • 使用4个NVIDIA RTX 4090 GPU
  • 先验模型:多种预训练CLIP模型
  • 优化器:AdamW
  • 批大小:128 (ImageNet-1K为256)
  • 使用3个随机种子报告均值和方差

实验结果

主要结果

与自监督学习方法对比(表1):

  • CIFAR-10: 89.5% vs BYOL 82.8% (↑5.6%), 训练速度提升1.87×
  • CIFAR-100: 67.3% vs DCL 58.2% (↑9.1%), 训练速度提升1.95×
  • Tiny-ImageNet: 60.3% vs DCL 44.6% (↑15.7%), 训练速度提升1.94×
  • ImageNet-1K: 69.8% vs BYOL 61.9% (↑7.9%), 训练速度提升1.20×

与集中式优化对比(表2):

  • COOPT在CIFAR-100上:65.8% vs 集中式62.1%
  • 训练时间:16.31s vs 23.71s

泛化性和可重用性实验

跨架构泛化(表3): COOPT在多种网络架构上均显著优于BYOL:

  • ResNet-50: 63.8% vs 60.4%
  • ResNet-101: 65.7% vs 61.5%
  • MobileNet-v2: 58.1% vs 24.0%
  • EfficientNet-b0: 70.7% vs 2.3%
  • ViT: 57.8% vs 38.5%

消融实验

目标对齐的必要性

  • 不对齐:性能显著下降
  • 对齐到最优模型:性能提升16.9%
  • 对齐策略的有效性通过t-SNE可视化得到验证

共享数据大小影响

  • 仅需0.05%的共享数据即可达到良好效果
  • 在ImageNet-1K上,0.001%的数据就足够

计算开销

  • 均匀值估计:139.16s
  • 对齐过程:36.97s
  • 相比BYOL的133,766.19s,开销极小

实验发现

  1. 弱先验模型仍有效:即使所有先验模型都很弱,COOPT仍能显著加速早期训练阶段
  2. 连续优化潜力:随着先验模型演进,数据质量持续改善,10轮后获得4.6%性能提升
  3. 先验数据集影响:使用ImageNet-1K训练的先验模型在所有数据集上都取得显著改进

相关工作

自监督学习

以模型为中心的方法,通过代理任务学习表示:

  • InstDisc:实例判别
  • MoCo:动量对比
  • SimCLR:简单对比学习框架
  • BYOL:自举学习

知识蒸馏

利用教师模型生成的软标签改进学生训练,但知识仍锁定在模型参数中。

数据集蒸馏

学习紧凑的蒸馏数据集,主要关注有标签数据的优化。

结论与讨论

主要结论

  1. COOPT成功突破了以模型为中心的范式限制,实现了以数据为中心的协作优化
  2. 优化后的数据具有架构无关性、可重用性和高效性
  3. 即使在先验模型较弱的情况下,仍能有效加速训练

局限性

  1. 当所有先验模型都极其弱时,整体性能不可避免地下降
  2. 隐私保护机制需要进一步增强
  3. 目前主要关注开源无标签数据的优化

未来方向

  1. 开发更先进的策略来有效利用极弱先验模型优化的数据
  2. 增强隐私保护机制
  3. 扩展到更多类型的数据和任务

深度评价

优点

  1. 范式创新:从以模型为中心转向以数据为中心,具有重要理论意义
  2. 实用价值:解决了知识可重用性和训练效率的实际问题
  3. 系统性方法:提供了完整的协作优化框架,包括问题识别和解决方案
  4. 实验充分:在多个数据集和架构上进行了全面验证

不足

  1. 理论分析不足:缺乏对为什么数据优化有效的深入理论分析
  2. 隐私考虑有限:虽然提到隐私问题,但解决方案不够充分
  3. 先验模型依赖:方法效果严重依赖先验模型质量
  4. 扩展性验证:需要在更大规模数据集上验证可扩展性

影响力

  1. 学术贡献:为无标签数据利用提供了新思路,可能引发范式转变
  2. 实用价值:对于资源受限的场景具有重要应用价值
  3. 可复现性:作者承诺公开代码,有利于结果复现

适用场景

  1. 资源分布式场景:多方协作但资源分散的情况
  2. 模型频繁更换:需要跨架构重用知识的场景
  3. 大规模无标签数据:传统自监督学习成本过高的情况

参考文献

本文引用了自监督学习、知识蒸馏和数据集蒸馏领域的重要工作,包括:

  • Chen et al. (2020): SimCLR
  • Grill et al. (2020): BYOL
  • He et al. (2020): MoCo
  • Wang & Isola (2020): 对比表示学习的理论基础
  • Sun et al. (2024): RELA方法的理论验证