This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- Paper-ID: 2505.14117
- Titel: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
- Autoren: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
- Klassifizierung: cs.LG cs.AI
- Veröffentlichungszeit/Konferenz: Preprint (arXiv:2505.14117v2)
- Paper-Link: https://arxiv.org/abs/2505.14117v2
Dieses Papier führt ein neuartiges datenzentriertes Paradigma ein, das darauf abzielt, den Nutzen unbeschrifteter Daten zu maximieren und eine kritische Frage zu adressieren: Wie kann man die Nachhaltigkeit und Effizienz des Deep-Learning-Trainings durch die Optimierung der Daten selbst verbessern? Die Autoren identifizieren zunächst zwei Schlüsselbeschränkungen bestehender modellzentrierter Methoden, die beide aus einem gemeinsamen Engpass stammen: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Wiederverwendbarkeit und Skalierbarkeit behindert. Zu diesem Zweck wird COOPT vorgestellt, ein effizienter parallelisierter Rahmen für kollaborative Optimierung unbeschrifteter Daten. Durch verteilte Verarbeitung unbeschrifteter Daten und Nutzung öffentlich verfügbarer aufgabenunabhängiger Vorgängermodelle optimiert COOPT rohe unbeschriftete Daten zu wissensreichen Trainingssätzen mit Effektivität, Effizienz, Wiederverwendbarkeit und Teilbarkeit. Auf ImageNet-1K wird eine Verbesserung von 7,9% gegenüber BYOL erreicht.
Im Zeitalter großer Datenmengen sind die meisten Daten trotz Datenfülle immer noch unbeschriftet. Das vorherrschende Paradigma zur Nutzung unbeschrifteter Daten ist selbstüberwachtes Lernen (SSL), ein modellzentrierter Ansatz, der Dateninformationen durch sorgfältig gestaltete Proxy-Aufgaben und Verlustfunktionen in Modellparametern kodiert.
Bestehende modellzentrierte Methoden weisen zwei Schlüsselherausforderungen auf:
- Architektur-Kopplung: Das Trainingsprotokoll ist eng an spezifische Netzwerkarchitekturen gekoppelt, was die Übertragbarkeit und Wiederverwendbarkeit trainierter Modelle auf anderen Architekturen erheblich behindert
- Rechnerische Effizienzprobleme: Trotz Fortschritten bei der Beschleunigung ist das Training auf großen unbeschrifteten Datensätzen rechnerisch immer noch prohibitiv
Der Kern dieser Herausforderungen ist ein gemeinsamer Engpass: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Anpassungsfähigkeit einschränkt und eine effiziente Wiederverwendung über verschiedene Aufgaben oder Architekturen hinweg verhindert.
Um das modellzentrierte Paradigma zu durchbrechen, schlagen die Autoren ein datenzentriertes Paradigma vor, das Wissen effektiv in die Daten selbst statt in Modellparameter kodiert, indem es unbeschriftete Daten direkt optimiert.
- Vorstellung des COOPT-Rahmens: Das erste datenzentrierte Framework für kollaborative Optimierung unbeschrifteter Daten, das durch Nutzung aufgabenunabhängiger Vorgängermodelle rohe unbeschriftete Stichproben in optimierte Daten umwandelt und hohe Leistung, Effizienz, starke Generalisierung und Wiederverwendbarkeit erreicht
- Identifikation und Lösung des Zielverteilungs-Inkonsistenz-Problems: Identifiziert das Schlüsselproblem der Zielverteilungs-Inkonsistenz (Target Distribution Inconsistency) innerhalb des COOPT-Rahmens und führt eine leichte Zielausrichtungsstrategie ein
- Umfassende experimentelle Validierung: Führt umfassende Experimente auf mehreren Datensätzen und Modellen durch, um die Vorteile von COOPT zu validieren und nachzuweisen, dass COOPT die frühe Trainingsphase effektiv beschleunigt, selbst wenn alle Vorgängermodelle schwach sind
Dattenoptimierungs-Definition: Gegeben ein großer unbeschrifteter Datensatz D=DX={xi}i=1N, zielt die Datenoptimierung darauf ab, Ziele DY={yi}i=1N zuzuweisen, um einen optimalen beschrifteten Datensatz D′={(xi,yi)}i=1N zu konstruieren, so dass ein auf D′ trainiertes Modell mit erheblich geringeren Trainingskosten eine höhere Leistung erreicht als ein auf D trainiertes Modell.
Zielfunktion:
E(x,y)∼PT[ℓ(ϕθD(x),y)]>E(x,y)∼PT[ℓ(ϕθD′(x),y)]
wobei PT die Testverteilung ist, ℓ die Verlustfunktion ist, und θD und θD′ die Netzwerkparameter sind, die auf D bzw. D′ trainiert wurden.
COOPT ist ein kollaborativer parallelisierter Rahmen, der aus einer offenen Datenplattform und K Teilnehmern besteht, von denen jeder mit verschiedenen Vorgängermodellen ausgestattet ist.
Schritt 1: Datenverteilung
- Die offene Datenplattform teilt unbeschriftete Daten D zufällig in K nicht überlappende Teilmengen auf
- Jeder Teilnehmer lädt eine Teilmenge D(k) herunter
Schritt 2: Datenoptimierung
- Jeder Teilnehmer optimiert seinen Datensatz D(k) mit Vorgängermodell ψk
- Zielzuweisung gemäß Definition 1: D′={(xi,yi)∣yi=Wψ(xi),∀xi∈DX}
Schritt 3: Datenausrichtung
- Löst das Zielverteilungs-Inkonsistenz-Problem
- Verwendet lernbare Transformationsmatrix T(k), um Zielverteilungen zum optimalen Vorgängermodell auszurichten
Schritt 4: Daten-Upload
- Teilnehmer laden optimierte Datensätze zurück zur Plattform hoch
Schritt 5: Datenzusammenführung
- Plattform aggregiert alle optimierten Datensätze zu einem einheitlichen Datensatz
Im kollaborativen Rahmen führt die Verwendung verschiedener Vorgängermodelle durch verschiedene Teilnehmer zu Zielverteilungs-Inkonsistenz, die die Modellgeneralisierung beeinträchtigt.
Verwendet Uniform Value Loss zur Bewertung der Vorgängermodellqualität:
Vuniform(ψ;S)=logExi,xj∼S[eτ∥ψ(xi)−ψ(xj)∥22]
wobei niedrigere Uniform-Werte ein höherwertiges Vorgängermodell anzeigen.
Erreicht Zielausrichtung durch Optimierung der Transformationsmatrix:
T(k)=argminT∈Rn×n{∥T⋅ψ(k)(SX)−SY∗∥22}
wobei SY∗ die Ziele des optimalen Vorgängermodells auf dem gemeinsamen Datensatz sind.
- ImageNet-1K (224×224)
- Tiny-ImageNet (64×64)
- CIFAR-100 (32×32)
- CIFAR-10 (32×32)
- Genauigkeit: Verwendet Offline-Linear-Probing-Strategie zur Bewertung der Darstellungsqualität
- Rechnerische Effizienz: Quantifiziert durch Zeitkosten (Sekunden)
Vergleich mit fortgeschrittenen selbstüberwachten Lernmethoden:
- SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL
- Verwendet 4 NVIDIA RTX 4090 GPUs
- Vorgängermodelle: Mehrere vortrainierte CLIP-Modelle
- Optimierer: AdamW
- Batch-Größe: 128 (256 für ImageNet-1K)
- Berichtet Mittelwert und Varianz mit 3 zufälligen Seeds
Vergleich mit selbstüberwachten Lernmethoden (Tabelle 1):
- CIFAR-10: 89,5% vs BYOL 82,8% (↑5,6%), Trainingsgeschwindigkeit 1,87× schneller
- CIFAR-100: 67,3% vs DCL 58,2% (↑9,1%), Trainingsgeschwindigkeit 1,95× schneller
- Tiny-ImageNet: 60,3% vs DCL 44,6% (↑15,7%), Trainingsgeschwindigkeit 1,94× schneller
- ImageNet-1K: 69,8% vs BYOL 61,9% (↑7,9%), Trainingsgeschwindigkeit 1,20× schneller
Vergleich mit zentralisierter Optimierung (Tabelle 2):
- COOPT auf CIFAR-100: 65,8% vs zentralisiert 62,1%
- Trainingszeit: 16,31s vs 23,71s
Architekturübergreifende Generalisierung (Tabelle 3):
COOPT übertrifft BYOL auf verschiedenen Netzwerkarchitekturen erheblich:
- ResNet-50: 63,8% vs 60,4%
- ResNet-101: 65,7% vs 61,5%
- MobileNet-v2: 58,1% vs 24,0%
- EfficientNet-b0: 70,7% vs 2,3%
- ViT: 57,8% vs 38,5%
Notwendigkeit der Zielausrichtung:
- Ohne Ausrichtung: Signifikanter Leistungsabfall
- Ausrichtung zum optimalen Modell: Leistungssteigerung von 16,9%
- Effektivität der Ausrichtungsstrategie durch t-SNE-Visualisierung validiert
Auswirkung der gemeinsamen Datengröße:
- Nur 0,05% gemeinsame Daten erforderlich für gute Ergebnisse
- Auf ImageNet-1K sind 0,001% der Daten ausreichend
Rechnerischer Overhead:
- Uniform-Wert-Schätzung: 139,16s
- Ausrichtungsprozess: 36,97s
- Im Vergleich zu BYOLs 133.766,19s äußerst gering
- Schwache Vorgängermodelle bleiben effektiv: Selbst wenn alle Vorgängermodelle schwach sind, beschleunigt COOPT die frühe Trainingsphase erheblich
- Kontinuierliches Optimierungspotenzial: Mit der Weiterentwicklung von Vorgängermodellen verbessert sich die Datenqualität kontinuierlich, nach 10 Runden 4,6% Leistungssteigerung
- Auswirkung von Vorgängerdatensätzen: Vorgängermodelle, die auf ImageNet-1K trainiert wurden, erzielen auf allen Datensätzen signifikante Verbesserungen
Modellzentrierte Methoden, die Darstellungen durch Proxy-Aufgaben lernen:
- InstDisc: Instanzendiskriminierung
- MoCo: Momentum Contrast
- SimCLR: Simple Contrastive Learning Framework
- BYOL: Bootstrap Your Own Latent
Nutzt von Lehrermodellen generierte Soft-Labels zur Verbesserung des Schülertrainings, aber Wissen bleibt in Modellparametern gespeichert.
Lernt kompakte destillierte Datensätze, konzentriert sich hauptsächlich auf die Optimierung beschrifteter Daten.
- COOPT durchbricht erfolgreich die Beschränkungen des modellzentrierten Paradigmas und realisiert datenzentrierte kollaborative Optimierung
- Optimierte Daten sind architekturunabhängig, wiederverwendbar und effizient
- Selbst bei schwachen Vorgängermodellen kann das Training effektiv beschleunigt werden
- Wenn alle Vorgängermodelle extrem schwach sind, ist ein Leistungsrückgang unvermeidlich
- Datenschutzmechanismen müssen weiter verbessert werden
- Konzentriert sich derzeit hauptsächlich auf die Optimierung offener unbeschrifteter Daten
- Entwicklung fortgeschrittenerer Strategien zur effektiven Nutzung von Daten, die von extrem schwachen Vorgängermodellen optimiert wurden
- Verbesserung der Datenschutzmechanismen
- Erweiterung auf weitere Datentypen und Aufgaben
- Paradigma-Innovation: Verschiebung vom modellzentrierten zum datenzentrierten Ansatz mit wichtiger theoretischer Bedeutung
- Praktischer Wert: Löst praktische Probleme der Wissenswiederverwendbarkeit und Trainingseffizienz
- Systematischer Ansatz: Bietet einen umfassenden kollaborativen Optimierungsrahmen, einschließlich Problemidentifikation und Lösungen
- Umfassende Experimente: Umfassende Validierung auf mehreren Datensätzen und Architekturen
- Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum Datenoptimierung effektiv ist
- Begrenzte Datenschutzüberlegungen: Obwohl Datenschutzprobleme erwähnt werden, sind die Lösungen nicht ausreichend
- Abhängigkeit von Vorgängermodellen: Die Methodeneffektivität hängt stark von der Qualität der Vorgängermodelle ab
- Validierung der Skalierbarkeit: Erfordert Validierung auf größeren Datensätzen
- Akademischer Beitrag: Bietet neue Perspektiven für die Nutzung unbeschrifteter Daten, könnte einen Paradigmenwechsel auslösen
- Praktischer Wert: Wichtige Anwendungswerte für ressourcenbegrenzte Szenarien
- Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code, förderlich für Ergebnisreproduzierbarkeit
- Verteilte Ressourcenszenarien: Mehrparteien-Zusammenarbeit mit verteilten Ressourcen
- Häufiger Modellwechsel: Szenarien, die Wissenswiederverwendung über Architekturen hinweg erfordern
- Großflächige unbeschriftete Daten: Situationen, in denen traditionelles selbstüberwachtes Lernen zu kostspielig ist
Dieses Papier zitiert wichtige Arbeiten in den Bereichen selbstüberwachtes Lernen, Wissensdestillation und Datensatzdestillation, einschließlich:
- Chen et al. (2020): SimCLR
- Grill et al. (2020): BYOL
- He et al. (2020): MoCo
- Wang & Isola (2020): Theoretische Grundlagen des kontrastiven Repräsentationslernens
- Sun et al. (2024): Theoretische Validierung der RELA-Methode