2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.
This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
academic

Optimisation Collaborative des Données Non Étiquetées

Informations Fondamentales

  • ID de l'article: 2505.14117
  • Titre: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
  • Auteurs: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
  • Classification: cs.LG cs.AI
  • Date de publication/Conférence: Preprint (arXiv:2505.14117v2)
  • Lien de l'article: https://arxiv.org/abs/2505.14117v2

Résumé

Cet article inaugure un nouveau paradigme centré sur les données, visant à maximiser l'utilité des données non étiquetées et répondant à une question cruciale : comment améliorer la durabilité et l'efficacité de l'entraînement d'apprentissage profond en optimisant les données elles-mêmes ? Les auteurs identifient d'abord deux limitations clés des approches existantes centrées sur le modèle, qui proviennent d'un goulot d'étranglement commun : les connaissances extraites des données sont verrouillées dans les paramètres du modèle, entravant leur réutilisabilité et leur extensibilité. À cette fin, ils proposent COOPT, un cadre efficace d'optimisation collaborative des données non étiquetées parallélisé. En traitant les données non étiquetées de manière distribuée et en exploitant des modèles a priori publiquement disponibles et indépendants des tâches, COOPT transforme les données non étiquetées brutes en ensembles d'entraînement riches en connaissances, caractérisés par leur efficacité, leur efficience, leur réutilisabilité et leur partageabilité. L'article démontre une amélioration de 7,9% par rapport à BYOL sur ImageNet-1K.

Contexte de Recherche et Motivation

Contexte du Problème

À l'ère du mégadonnées, bien que les données soient abondantes, la majorité reste non étiquetée. Le paradigme dominant pour exploiter les données non étiquetées est l'apprentissage auto-supervisé (SSL), une approche centrée sur le modèle qui encode les informations de données dans les paramètres du modèle par le biais de tâches de substitution et de fonctions de perte soigneusement conçues.

Problème Central

Les approches existantes centrées sur le modèle présentent deux défis clés :

  1. Couplage architectural : Le protocole d'entraînement est étroitement couplé à une architecture réseau spécifique, entravant gravement la transférabilité et la réutilisabilité des modèles entraînés sur d'autres architectures
  2. Problèmes d'efficacité computationnelle : Malgré les progrès en matière d'accélération, l'entraînement sur des ensembles de données non étiquetées à grande échelle reste prohibitif sur le plan informatique

Goulot d'Étranglement Fondamental

Le cœur de ces défis réside dans un goulot d'étranglement commun : les connaissances extraites des données sont verrouillées dans les paramètres du modèle, limitant leur adaptabilité et empêchant leur réutilisation efficace entre différentes tâches ou architectures.

Motivation de la Recherche

Pour transcender le paradigme centré sur le modèle, les auteurs proposent un paradigme centré sur les données, encodant efficacement les connaissances directement dans les données elles-mêmes plutôt que dans les paramètres du modèle en optimisant directement les données non étiquetées.

Contributions Principales

  1. Proposition du cadre COOPT : Premier cadre centré sur les données pour l'optimisation collaborative des données non étiquetées, transformant les échantillons non étiquetés bruts en données optimisées en exploitant des modèles a priori indépendants des tâches, réalisant haute performance, haute efficacité, forte généralisation et réutilisabilité
  2. Identification et résolution du problème d'incohérence de la distribution cible : Identification du problème clé au sein du cadre COOPT — l'incohérence de la distribution cible (Target Distribution Inconsistency) — et introduction d'une stratégie légère d'alignement des cibles pour le résoudre
  3. Vérification expérimentale complète : Expériences exhaustives sur plusieurs ensembles de données et modèles, démontrant les avantages de COOPT et prouvant que même avec tous les modèles a priori faibles, COOPT peut efficacement accélérer les premières étapes de l'entraînement

Détails de la Méthode

Définition de la Tâche

Définition de l'optimisation des données : Étant donné un ensemble de données non étiquetées à grande échelle D=DX={xi}i=1ND = D_X = \{x_i\}_{i=1}^N, l'optimisation des données vise à assigner des cibles DY={yi}i=1ND_Y = \{y_i\}_{i=1}^N pour construire un ensemble de données étiqueté optimal D={(xi,yi)}i=1ND' = \{(x_i, y_i)\}_{i=1}^N, tel que le modèle entraîné sur DD' atteigne une performance supérieure avec un coût d'entraînement significativement réduit par rapport au modèle entraîné sur DD.

Fonction objectif : E(x,y)PT[(ϕθD(x),y)]>E(x,y)PT[(ϕθD(x),y)]E_{(x,y)\sim P_T}[\ell(\phi_{\theta_D}(x), y)] > E_{(x,y)\sim P_T}[\ell(\phi_{\theta_{D'}}(x), y)]

PTP_T est la distribution de test, \ell est la fonction de perte, et θD\theta_D et θD\theta_{D'} sont respectivement les paramètres du réseau entraînés sur DD et DD'.

Architecture du Modèle

COOPT est un cadre de parallélisation collaborative comprenant une plateforme de données ouverte et K participants, chacun équipé d'un modèle a priori différent.

Processus Opérationnel en Cinq Étapes :

Étape 1 : Distribution des Données

  • La plateforme de données ouverte divise aléatoirement les données non étiquetées DD en K sous-ensembles disjoints
  • Chaque participant télécharge un sous-ensemble D(k)D^{(k)}

Étape 2 : Optimisation des Données

  • Chaque participant optimise son ensemble de données D(k)D^{(k)} en utilisant le modèle a priori ψk\psi_k
  • Attribution des cibles selon la définition 1 : D={(xi,yi)yi=Wψ(xi),xiDX}D' = \{(x_i, y_i) | y_i = W\psi(x_i), \forall x_i \in D_X\}

Étape 3 : Alignement des Données

  • Résolution du problème d'incohérence de la distribution cible
  • Utilisation d'une matrice de transformation apprenante T(k)T^{(k)} pour aligner la distribution des cibles au modèle a priori optimal

Étape 4 : Téléchargement des Données

  • Les participants téléchargent les ensembles de données optimisés vers la plateforme

Étape 5 : Fusion des Données

  • La plateforme agrège tous les ensembles de données optimisés pour former un ensemble de données unifié

Points d'Innovation Technique

1. Identification du Problème d'Incohérence de la Distribution Cible

Dans le cadre collaboratif, l'utilisation de différents modèles a priori par différents participants entraîne une incohérence de la distribution cible, affectant la capacité de généralisation du modèle.

2. Évaluation de la Qualité du Modèle A Priori

Utilisation de la perte d'uniformité (Uniform Value Loss) pour évaluer la qualité du modèle a priori : Vuniform(ψ;S)=logExi,xjS[eτψ(xi)ψ(xj)22]V_{uniform}(\psi; S) = \log E_{x_i, x_j \sim S}[e^{\tau \|\psi(x_i) - \psi(x_j)\|_2^2}]

où une valeur d'uniformité inférieure indique un modèle a priori de meilleure qualité.

3. Stratégie d'Alignement des Cibles

Réalisation de l'alignement des cibles par optimisation de la matrice de transformation : T(k)=argminTRn×n{Tψ(k)(SX)SY22}T^{(k)} = \arg\min_{T \in \mathbb{R}^{n \times n}} \{\|T \cdot \psi^{(k)}(S_X) - S_Y^*\|_2^2\}

SYS_Y^* sont les cibles du modèle a priori optimal sur l'ensemble de données partagé.

Configuration Expérimentale

Ensembles de Données

  • ImageNet-1K (224×224)
  • Tiny-ImageNet (64×64)
  • CIFAR-100 (32×32)
  • CIFAR-10 (32×32)

Métriques d'Évaluation

  • Précision : Évaluation de la qualité de la représentation utilisant une stratégie de sondage linéaire hors ligne
  • Efficacité computationnelle : Quantification par le coût temporel (secondes)

Méthodes de Comparaison

Comparaison avec les méthodes d'apprentissage auto-supervisé de pointe :

  • SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL

Détails d'Implémentation

  • Utilisation de 4 GPU NVIDIA RTX 4090
  • Modèles a priori : Plusieurs modèles CLIP pré-entraînés
  • Optimiseur : AdamW
  • Taille de lot : 128 (256 pour ImageNet-1K)
  • Rapports de moyenne et variance utilisant 3 graines aléatoires

Résultats Expérimentaux

Résultats Principaux

Comparaison avec les méthodes d'apprentissage auto-supervisé (Tableau 1) :

  • CIFAR-10 : 89,5% vs BYOL 82,8% (↑5,6%), accélération d'entraînement 1,87×
  • CIFAR-100 : 67,3% vs DCL 58,2% (↑9,1%), accélération d'entraînement 1,95×
  • Tiny-ImageNet : 60,3% vs DCL 44,6% (↑15,7%), accélération d'entraînement 1,94×
  • ImageNet-1K : 69,8% vs BYOL 61,9% (↑7,9%), accélération d'entraînement 1,20×

Comparaison avec l'optimisation centralisée (Tableau 2) :

  • COOPT sur CIFAR-100 : 65,8% vs centralisé 62,1%
  • Temps d'entraînement : 16,31s vs 23,71s

Expériences de Généralisation et Réutilisabilité

Généralisation entre architectures (Tableau 3) : COOPT surpasse significativement BYOL sur diverses architectures réseau :

  • ResNet-50 : 63,8% vs 60,4%
  • ResNet-101 : 65,7% vs 61,5%
  • MobileNet-v2 : 58,1% vs 24,0%
  • EfficientNet-b0 : 70,7% vs 2,3%
  • ViT : 57,8% vs 38,5%

Études d'Ablation

Nécessité de l'alignement des cibles :

  • Sans alignement : baisse significative de performance
  • Alignement au modèle optimal : amélioration de 16,9%
  • Efficacité de la stratégie d'alignement validée par visualisation t-SNE

Impact de la taille des données partagées :

  • Seulement 0,05% de données partagées suffisent pour de bons résultats
  • Sur ImageNet-1K, 0,001% des données suffisent

Surcharge computationnelle :

  • Estimation d'uniformité : 139,16s
  • Processus d'alignement : 36,97s
  • Comparé aux 133 766,19s de BYOL, la surcharge est minime

Découvertes Expérimentales

  1. Efficacité des modèles a priori faibles : Même avec tous les modèles a priori faibles, COOPT peut significativement accélérer les premières étapes d'entraînement
  2. Potentiel d'optimisation continue : À mesure que les modèles a priori évoluent, la qualité des données s'améliore continuellement, avec une amélioration de 4,6% après 10 itérations
  3. Impact de l'ensemble de données a priori : L'utilisation de modèles a priori entraînés sur ImageNet-1K produit des améliorations significatives sur tous les ensembles de données

Travaux Connexes

Apprentissage Auto-Supervisé

Approches centrées sur le modèle apprenant des représentations par des tâches de substitution :

  • InstDisc : Discrimination d'instances
  • MoCo : Contraste par momentum
  • SimCLR : Cadre d'apprentissage par contraste simple
  • BYOL : Apprentissage par amorçage

Distillation de Connaissances

Exploitation des étiquettes souples générées par des modèles enseignants pour améliorer l'entraînement des étudiants, mais les connaissances restent verrouillées dans les paramètres du modèle.

Distillation d'Ensembles de Données

Apprentissage d'ensembles de données distillés compacts, se concentrant principalement sur l'optimisation des données étiquetées.

Conclusion et Discussion

Conclusions Principales

  1. COOPT transcende avec succès les limitations du paradigme centré sur le modèle, réalisant une optimisation collaborative centrée sur les données
  2. Les données optimisées possèdent l'indépendance architecturale, la réutilisabilité et l'efficacité
  3. Même avec des modèles a priori faibles, l'accélération de l'entraînement reste efficace

Limitations

  1. Lorsque tous les modèles a priori sont extrêmement faibles, la baisse de performance globale est inévitable
  2. Les mécanismes de protection de la vie privée nécessitent un renforcement supplémentaire
  3. Actuellement concentré sur l'optimisation des données non étiquetées en accès libre

Directions Futures

  1. Développement de stratégies plus avancées pour exploiter efficacement les données optimisées par des modèles a priori extrêmement faibles
  2. Renforcement des mécanismes de protection de la vie privée
  3. Extension à d'autres types de données et de tâches

Évaluation Approfondie

Avantages

  1. Innovation de paradigme : Transition du centrage sur le modèle au centrage sur les données, d'une importance théorique significative
  2. Valeur pratique : Résolution des problèmes pratiques de réutilisabilité des connaissances et d'efficacité d'entraînement
  3. Approche systématique : Fourniture d'un cadre d'optimisation collaborative complet, incluant l'identification des problèmes et les solutions
  4. Expérimentation exhaustive : Vérification complète sur plusieurs ensembles de données et architectures

Insuffisances

  1. Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons de l'efficacité de l'optimisation des données
  2. Considérations de vie privée limitées : Bien que les problèmes de vie privée soient mentionnés, les solutions sont insuffisantes
  3. Dépendance aux modèles a priori : L'efficacité de la méthode dépend fortement de la qualité des modèles a priori
  4. Vérification de l'extensibilité : Nécessité de vérifier l'extensibilité sur des ensembles de données plus volumineux

Impact

  1. Contribution académique : Offre de nouvelles perspectives pour l'exploitation des données non étiquetées, pouvant catalyser un changement de paradigme
  2. Valeur pratique : Importance significative pour les scénarios à ressources limitées
  3. Reproductibilité : Les auteurs s'engagent à rendre le code public, facilitant la reproduction des résultats

Scénarios Applicables

  1. Scénarios de ressources distribuées : Situations de collaboration multi-partite avec ressources dispersées
  2. Changement fréquent de modèles : Scénarios nécessitant la réutilisation de connaissances entre architectures
  3. Données non étiquetées à grande échelle : Situations où le coût de l'apprentissage auto-supervisé traditionnel est prohibitif

Références Bibliographiques

Cet article cite des travaux importants dans les domaines de l'apprentissage auto-supervisé, de la distillation de connaissances et de la distillation d'ensembles de données, notamment :

  • Chen et al. (2020) : SimCLR
  • Grill et al. (2020) : BYOL
  • He et al. (2020) : MoCo
  • Wang & Isola (2020) : Fondements théoriques de l'apprentissage par représentation contrastive
  • Sun et al. (2024) : Vérification théorique de la méthode RELA