This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- ID Articolo: 2505.14117
- Titolo: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
- Autori: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
- Classificazione: cs.LG cs.AI
- Data di Pubblicazione/Conferenza: Preprint (arXiv:2505.14117v2)
- Link dell'Articolo: https://arxiv.org/abs/2505.14117v2
Questo articolo inaugura un nuovo paradigma incentrato sui dati, volto a massimizzare l'utilità dei dati non etichettati, affrontando una questione critica: come ottimizzare i dati stessi per migliorare la sostenibilità e l'efficienza dell'addestramento dell'apprendimento profondo? Gli autori identificano innanzitutto due limitazioni fondamentali degli approcci attuali incentrati sul modello, entrambe derivanti da un collo di bottiglia comune: la conoscenza estratta dai dati è bloccata nei parametri del modello, ostacolando la sua riutilizzabilità e scalabilità. A tal fine, propongono COOPT, un framework efficiente di ottimizzazione collaborativa dei dati non etichettati parallelizzato. Attraverso l'elaborazione distribuita dei dati non etichettati e l'utilizzo di modelli precedenti pubblicamente disponibili e indipendenti dal compito, COOPT trasforma i dati non etichettati grezzi in insiemi di addestramento ricchi di conoscenza, caratterizzati da efficacia, efficienza, riutilizzabilità e facilità di condivisione. Raggiunge un miglioramento del 7,9% rispetto a BYOL su ImageNet-1K.
Nell'era dei big data, nonostante l'abbondanza di dati, la maggior parte rimane non etichettata. Il paradigma dominante attuale per l'utilizzo di dati non etichettati è l'apprendimento auto-supervisionato (SSL), un approccio incentrato sul modello che codifica le informazioni dei dati nei parametri del modello attraverso compiti proxy e funzioni di perdita accuratamente progettati.
Gli approcci attuali incentrati sul modello presentano due sfide fondamentali:
- Accoppiamento Architetturale: Il protocollo di addestramento è strettamente accoppiato con specifiche architetture di rete, ostacolando gravemente la trasferibilità e la riutilizzabilità dei modelli addestrati su altre architetture
- Problemi di Efficienza Computazionale: Nonostante i progressi nell'accelerazione, l'addestramento su set di dati non etichettati su larga scala rimane computazionalmente proibitivo
Il nucleo di queste sfide è un collo di bottiglia comune: la conoscenza estratta dai dati è bloccata nei parametri del modello, limitandone l'adattabilità e impedendo il riutilizzo efficiente tra diversi compiti o architetture.
Per superare il paradigma incentrato sul modello, gli autori propongono un paradigma incentrato sui dati, codificando efficacemente la conoscenza direttamente nei dati stessi piuttosto che nei parametri del modello attraverso l'ottimizzazione diretta dei dati non etichettati.
- Proposta del Framework COOPT: Il primo framework incentrato sui dati per l'ottimizzazione collaborativa di dati non etichettati, che trasforma campioni non etichettati grezzi in dati ottimizzati sfruttando modelli precedenti indipendenti dal compito, realizzando alte prestazioni, elevata efficienza, forte generalizzazione e riutilizzabilità
- Identificazione e Risoluzione del Problema di Incoerenza della Distribuzione Target: Identifica il problema critico dell'incoerenza della distribuzione target (Target Distribution Inconsistency) all'interno del framework COOPT e introduce una strategia leggera di allineamento target per risolverlo
- Verifica Sperimentale Completa: Conduce esperimenti completi su più set di dati e modelli, verificando i vantaggi di COOPT e dimostrando che anche quando tutti i modelli precedenti sono deboli, COOPT accelera efficacemente le fasi iniziali dell'addestramento
Definizione di Ottimizzazione dei Dati: Dato un set di dati non etichettati su larga scala D=DX={xi}i=1N, l'ottimizzazione dei dati mira ad assegnare target DY={yi}i=1N per costruire un set di dati etichettato ottimale D′={(xi,yi)}i=1N, in modo che il modello addestrato su D′ raggiunga prestazioni significativamente superiori con costi di addestramento notevolmente inferiori rispetto al modello addestrato su D.
Funzione Obiettivo:
E(x,y)∼PT[ℓ(ϕθD(x),y)]>E(x,y)∼PT[ℓ(ϕθD′(x),y)]
dove PT è la distribuzione di test, ℓ è la funzione di perdita, e θD e θD′ sono rispettivamente i parametri di rete addestrati su D e D′.
COOPT è un framework collaborativo parallelizzato contenente una piattaforma di dati aperti e K partecipanti, ciascuno equipaggiato con modelli precedenti diversi.
Fase 1: Distribuzione dei Dati
- La piattaforma di dati aperti divide casualmente i dati non etichettati D in K sottoinsiemi non sovrapposti
- Ogni partecipante scarica un sottoinsieme D(k)
Fase 2: Ottimizzazione dei Dati
- Ogni partecipante ottimizza il proprio set di dati D(k) utilizzando il modello precedente ψk
- Assegnazione target secondo la Definizione 1: D′={(xi,yi)∣yi=Wψ(xi),∀xi∈DX}
Fase 3: Allineamento dei Dati
- Risoluzione del problema di incoerenza della distribuzione target
- Utilizzo di una matrice di trasformazione apprendibile T(k) per allineare la distribuzione target al modello precedente ottimale
Fase 4: Caricamento dei Dati
- I partecipanti caricano i set di dati ottimizzati sulla piattaforma
Fase 5: Fusione dei Dati
- La piattaforma aggrega tutti i set di dati ottimizzati per formare un set di dati unificato
Nel framework collaborativo, diversi partecipanti che utilizzano modelli precedenti diversi causano incoerenza della distribuzione target, influenzando la capacità di generalizzazione del modello.
Utilizzo della Perdita di Uniformità (Uniform Value Loss) per valutare la qualità del modello precedente:
Vuniform(ψ;S)=logExi,xj∼S[eτ∥ψ(xi)−ψ(xj)∥22]
dove valori di uniformità inferiori indicano modelli precedenti di qualità superiore.
Realizzazione dell'allineamento target attraverso l'ottimizzazione della matrice di trasformazione:
T(k)=argminT∈Rn×n{∥T⋅ψ(k)(SX)−SY∗∥22}
dove SY∗ è il target del modello precedente ottimale sul set di dati condiviso.
- ImageNet-1K (224×224)
- Tiny-ImageNet (64×64)
- CIFAR-100 (32×32)
- CIFAR-10 (32×32)
- Accuratezza: Valutazione della qualità della rappresentazione utilizzando la strategia di sondaggio lineare offline
- Efficienza Computazionale: Quantificazione attraverso il costo temporale (secondi)
Confronto con metodi all'avanguardia di apprendimento auto-supervisionato:
- SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL
- Utilizzo di 4 GPU NVIDIA RTX 4090
- Modelli precedenti: Molteplici modelli CLIP pre-addestrati
- Ottimizzatore: AdamW
- Dimensione del batch: 128 (256 per ImageNet-1K)
- Rapporto di media e varianza utilizzando 3 semi casuali
Confronto con Metodi di Apprendimento Auto-Supervisionato (Tabella 1):
- CIFAR-10: 89,5% vs BYOL 82,8% (↑5,6%), accelerazione della velocità di addestramento 1,87×
- CIFAR-100: 67,3% vs DCL 58,2% (↑9,1%), accelerazione della velocità di addestramento 1,95×
- Tiny-ImageNet: 60,3% vs DCL 44,6% (↑15,7%), accelerazione della velocità di addestramento 1,94×
- ImageNet-1K: 69,8% vs BYOL 61,9% (↑7,9%), accelerazione della velocità di addestramento 1,20×
Confronto con Ottimizzazione Centralizzata (Tabella 2):
- COOPT su CIFAR-100: 65,8% vs centralizzato 62,1%
- Tempo di addestramento: 16,31s vs 23,71s
Generalizzazione Tra Architetture (Tabella 3):
COOPT supera significativamente BYOL su molteplici architetture di rete:
- ResNet-50: 63,8% vs 60,4%
- ResNet-101: 65,7% vs 61,5%
- MobileNet-v2: 58,1% vs 24,0%
- EfficientNet-b0: 70,7% vs 2,3%
- ViT: 57,8% vs 38,5%
Necessità dell'Allineamento Target:
- Senza allineamento: calo significativo delle prestazioni
- Allineamento al modello ottimale: miglioramento delle prestazioni del 16,9%
- Efficacia della strategia di allineamento verificata attraverso visualizzazione t-SNE
Impatto della Dimensione dei Dati Condivisi:
- Solo lo 0,05% dei dati condivisi è sufficiente per ottenere buoni risultati
- Su ImageNet-1K, lo 0,001% dei dati è sufficiente
Sovraccarico Computazionale:
- Stima dell'uniformità: 139,16s
- Processo di allineamento: 36,97s
- Rispetto ai 133.766,19s di BYOL, il sovraccarico è minimo
- Modelli Precedenti Deboli Rimangono Efficaci: Anche quando tutti i modelli precedenti sono deboli, COOPT accelera significativamente le fasi iniziali dell'addestramento
- Potenziale di Ottimizzazione Continua: Con l'evoluzione dei modelli precedenti, la qualità dei dati migliora continuamente, ottenendo un miglioramento delle prestazioni del 4,6% dopo 10 cicli
- Impatto del Set di Dati Precedente: L'utilizzo di modelli precedenti addestrati su ImageNet-1K ottiene miglioramenti significativi su tutti i set di dati
Approcci incentrati sul modello che apprendono rappresentazioni attraverso compiti proxy:
- InstDisc: Discriminazione di istanze
- MoCo: Contrasto con momento
- SimCLR: Framework di apprendimento contrastivo semplice
- BYOL: Apprendimento auto-avviante
Utilizzo di etichette soft generate da modelli insegnanti per migliorare l'addestramento degli studenti, ma la conoscenza rimane bloccata nei parametri del modello.
Apprendimento di set di dati distillati compatti, focalizzandosi principalmente sull'ottimizzazione di dati etichettati.
- COOPT supera con successo i limiti del paradigma incentrato sul modello, realizzando l'ottimizzazione collaborativa incentrata sui dati
- I dati ottimizzati sono caratterizzati da indipendenza dall'architettura, riutilizzabilità ed efficienza
- Anche quando i modelli precedenti sono relativamente deboli, accelera efficacemente l'addestramento
- Quando tutti i modelli precedenti sono estremamente deboli, il calo complessivo delle prestazioni è inevitabile
- I meccanismi di protezione della privacy richiedono ulteriore rafforzamento
- Attualmente focalizzato principalmente sull'ottimizzazione di dati non etichettati open-source
- Sviluppo di strategie più avanzate per utilizzare efficacemente i dati ottimizzati da modelli precedenti estremamente deboli
- Rafforzamento dei meccanismi di protezione della privacy
- Estensione a più tipi di dati e compiti
- Innovazione Paradigmatica: Transizione da approcci incentrati sul modello a quelli incentrati sui dati, con significato teorico importante
- Valore Pratico: Risolve problemi pratici di riutilizzabilità della conoscenza e efficienza dell'addestramento
- Approccio Sistematico: Fornisce un framework di ottimizzazione collaborativa completo, inclusa l'identificazione dei problemi e le soluzioni
- Esperimenti Completi: Verifica completa su molteplici set di dati e architetture
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché l'ottimizzazione dei dati sia efficace
- Considerazioni sulla Privacy Limitate: Sebbene la privacy sia menzionata, le soluzioni non sono sufficientemente complete
- Dipendenza dal Modello Precedente: L'efficacia del metodo dipende fortemente dalla qualità del modello precedente
- Verifica della Scalabilità: Richiede verifica su set di dati di dimensioni ancora maggiori
- Contributo Accademico: Fornisce nuove prospettive per l'utilizzo di dati non etichettati, potenzialmente innescando un cambio di paradigma
- Valore Pratico: Presenta valore applicativo importante per scenari con risorse limitate
- Riproducibilità: Gli autori si impegnano a rendere pubblico il codice, facilitando la riproduzione dei risultati
- Scenari di Risorse Distribuite: Situazioni di collaborazione multi-parte con risorse disperse
- Cambio Frequente di Modelli: Scenari che richiedono il riutilizzo della conoscenza tra architetture
- Dati Non Etichettati su Larga Scala: Situazioni in cui il costo dell'apprendimento auto-supervisionato tradizionale è eccessivo
Questo articolo cita importanti lavori nei campi dell'apprendimento auto-supervisionato, della distillazione della conoscenza e della distillazione del set di dati, inclusi:
- Chen et al. (2020): SimCLR
- Grill et al. (2020): BYOL
- He et al. (2020): MoCo
- Wang & Isola (2020): Fondamenti teorici dell'apprendimento contrastivo delle rappresentazioni
- Sun et al. (2024): Verifica teorica del metodo RELA