2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.

This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.

academic

Kollaborative Optimierung unbeschrifteter Daten

Grundinformationen

Paper-ID: 2505.14117
Titel: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
Autoren: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
Klassifizierung: cs.LG cs.AI
Veröffentlichungszeit/Konferenz: Preprint (arXiv:2505.14117v2)
Paper-Link: https://arxiv.org/abs/2505.14117v2

Zusammenfassung

Dieses Papier führt ein neuartiges datenzentriertes Paradigma ein, das darauf abzielt, den Nutzen unbeschrifteter Daten zu maximieren und eine kritische Frage zu adressieren: Wie kann man die Nachhaltigkeit und Effizienz des Deep-Learning-Trainings durch die Optimierung der Daten selbst verbessern? Die Autoren identifizieren zunächst zwei Schlüsselbeschränkungen bestehender modellzentrierter Methoden, die beide aus einem gemeinsamen Engpass stammen: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Wiederverwendbarkeit und Skalierbarkeit behindert. Zu diesem Zweck wird COOPT vorgestellt, ein effizienter parallelisierter Rahmen für kollaborative Optimierung unbeschrifteter Daten. Durch verteilte Verarbeitung unbeschrifteter Daten und Nutzung öffentlich verfügbarer aufgabenunabhängiger Vorgängermodelle optimiert COOPT rohe unbeschriftete Daten zu wissensreichen Trainingssätzen mit Effektivität, Effizienz, Wiederverwendbarkeit und Teilbarkeit. Auf ImageNet-1K wird eine Verbesserung von 7,9% gegenüber BYOL erreicht.

Forschungshintergrund und Motivation

Problemhintergrund

Im Zeitalter großer Datenmengen sind die meisten Daten trotz Datenfülle immer noch unbeschriftet. Das vorherrschende Paradigma zur Nutzung unbeschrifteter Daten ist selbstüberwachtes Lernen (SSL), ein modellzentrierter Ansatz, der Dateninformationen durch sorgfältig gestaltete Proxy-Aufgaben und Verlustfunktionen in Modellparametern kodiert.

Kernprobleme

Bestehende modellzentrierte Methoden weisen zwei Schlüsselherausforderungen auf:

Architektur-Kopplung: Das Trainingsprotokoll ist eng an spezifische Netzwerkarchitekturen gekoppelt, was die Übertragbarkeit und Wiederverwendbarkeit trainierter Modelle auf anderen Architekturen erheblich behindert
Rechnerische Effizienzprobleme: Trotz Fortschritten bei der Beschleunigung ist das Training auf großen unbeschrifteten Datensätzen rechnerisch immer noch prohibitiv

Grundlegender Engpass

Der Kern dieser Herausforderungen ist ein gemeinsamer Engpass: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Anpassungsfähigkeit einschränkt und eine effiziente Wiederverwendung über verschiedene Aufgaben oder Architekturen hinweg verhindert.

Forschungsmotivation

Um das modellzentrierte Paradigma zu durchbrechen, schlagen die Autoren ein datenzentriertes Paradigma vor, das Wissen effektiv in die Daten selbst statt in Modellparameter kodiert, indem es unbeschriftete Daten direkt optimiert.

Kernbeiträge

Vorstellung des COOPT-Rahmens: Das erste datenzentrierte Framework für kollaborative Optimierung unbeschrifteter Daten, das durch Nutzung aufgabenunabhängiger Vorgängermodelle rohe unbeschriftete Stichproben in optimierte Daten umwandelt und hohe Leistung, Effizienz, starke Generalisierung und Wiederverwendbarkeit erreicht
Identifikation und Lösung des Zielverteilungs-Inkonsistenz-Problems: Identifiziert das Schlüsselproblem der Zielverteilungs-Inkonsistenz (Target Distribution Inconsistency) innerhalb des COOPT-Rahmens und führt eine leichte Zielausrichtungsstrategie ein
Umfassende experimentelle Validierung: Führt umfassende Experimente auf mehreren Datensätzen und Modellen durch, um die Vorteile von COOPT zu validieren und nachzuweisen, dass COOPT die frühe Trainingsphase effektiv beschleunigt, selbst wenn alle Vorgängermodelle schwach sind

Methodische Details

Aufgabendefinition

Dattenoptimierungs-Definition: Gegeben ein großer unbeschrifteter Datensatz $D = D_X = \{x_i\}_{i=1}^N$ , zielt die Datenoptimierung darauf ab, Ziele $D_Y = \{y_i\}_{i=1}^N$ zuzuweisen, um einen optimalen beschrifteten Datensatz $D' = \{(x_i, y_i)\}_{i=1}^N$ zu konstruieren, so dass ein auf $D'$ trainiertes Modell mit erheblich geringeren Trainingskosten eine höhere Leistung erreicht als ein auf $D$ trainiertes Modell.

Zielfunktion: $E_{(x,y)\sim P_T}[\ell(\phi_{\theta_D}(x), y)] > E_{(x,y)\sim P_T}[\ell(\phi_{\theta_{D'}}(x), y)]$

wobei $P_T$ die Testverteilung ist, $\ell$ die Verlustfunktion ist, und $\theta_D$ und $\theta_{D'}$ die Netzwerkparameter sind, die auf $D$ bzw. $D'$ trainiert wurden.

Modellarchitektur

COOPT ist ein kollaborativer parallelisierter Rahmen, der aus einer offenen Datenplattform und K Teilnehmern besteht, von denen jeder mit verschiedenen Vorgängermodellen ausgestattet ist.

Fünf-Schritte-Operationsablauf:

Schritt 1: Datenverteilung

Die offene Datenplattform teilt unbeschriftete Daten $D$ zufällig in K nicht überlappende Teilmengen auf
Jeder Teilnehmer lädt eine Teilmenge $D^{(k)}$ herunter

Schritt 2: Datenoptimierung

Jeder Teilnehmer optimiert seinen Datensatz $D^{(k)}$ mit Vorgängermodell $\psi_k$
Zielzuweisung gemäß Definition 1: $D' = \{(x_i, y_i) | y_i = W\psi(x_i), \forall x_i \in D_X\}$

Schritt 3: Datenausrichtung

Löst das Zielverteilungs-Inkonsistenz-Problem
Verwendet lernbare Transformationsmatrix $T^{(k)}$ , um Zielverteilungen zum optimalen Vorgängermodell auszurichten

Schritt 4: Daten-Upload

Teilnehmer laden optimierte Datensätze zurück zur Plattform hoch

Schritt 5: Datenzusammenführung

Plattform aggregiert alle optimierten Datensätze zu einem einheitlichen Datensatz

Technische Innovationen

1. Identifikation des Zielverteilungs-Inkonsistenz-Problems

Im kollaborativen Rahmen führt die Verwendung verschiedener Vorgängermodelle durch verschiedene Teilnehmer zu Zielverteilungs-Inkonsistenz, die die Modellgeneralisierung beeinträchtigt.

2. Qualitätsbewertung von Vorgängermodellen

Verwendet Uniform Value Loss zur Bewertung der Vorgängermodellqualität: $V_{uniform}(\psi; S) = \log E_{x_i, x_j \sim S}[e^{\tau \|\psi(x_i) - \psi(x_j)\|_2^2}]$

wobei niedrigere Uniform-Werte ein höherwertiges Vorgängermodell anzeigen.

3. Zielausrichtungsstrategie

Erreicht Zielausrichtung durch Optimierung der Transformationsmatrix: $T^{(k)} = \arg\min_{T \in \mathbb{R}^{n \times n}} \{\|T \cdot \psi^{(k)}(S_X) - S_Y^*\|_2^2\}$

wobei $S_Y^*$ die Ziele des optimalen Vorgängermodells auf dem gemeinsamen Datensatz sind.

Experimentelle Einrichtung

Datensätze

ImageNet-1K (224×224)
Tiny-ImageNet (64×64)
CIFAR-100 (32×32)
CIFAR-10 (32×32)

Bewertungsmetriken

Genauigkeit: Verwendet Offline-Linear-Probing-Strategie zur Bewertung der Darstellungsqualität
Rechnerische Effizienz: Quantifiziert durch Zeitkosten (Sekunden)

Vergleichsmethoden

Vergleich mit fortgeschrittenen selbstüberwachten Lernmethoden:

SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL

Implementierungsdetails

Verwendet 4 NVIDIA RTX 4090 GPUs
Vorgängermodelle: Mehrere vortrainierte CLIP-Modelle
Optimierer: AdamW
Batch-Größe: 128 (256 für ImageNet-1K)
Berichtet Mittelwert und Varianz mit 3 zufälligen Seeds

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich mit selbstüberwachten Lernmethoden (Tabelle 1):

CIFAR-10: 89,5% vs BYOL 82,8% (↑5,6%), Trainingsgeschwindigkeit 1,87× schneller
CIFAR-100: 67,3% vs DCL 58,2% (↑9,1%), Trainingsgeschwindigkeit 1,95× schneller
Tiny-ImageNet: 60,3% vs DCL 44,6% (↑15,7%), Trainingsgeschwindigkeit 1,94× schneller
ImageNet-1K: 69,8% vs BYOL 61,9% (↑7,9%), Trainingsgeschwindigkeit 1,20× schneller

Vergleich mit zentralisierter Optimierung (Tabelle 2):

COOPT auf CIFAR-100: 65,8% vs zentralisiert 62,1%
Trainingszeit: 16,31s vs 23,71s

Generalisierungs- und Wiederverwendbarkeitsexperimente

Architekturübergreifende Generalisierung (Tabelle 3): COOPT übertrifft BYOL auf verschiedenen Netzwerkarchitekturen erheblich:

ResNet-50: 63,8% vs 60,4%
ResNet-101: 65,7% vs 61,5%
MobileNet-v2: 58,1% vs 24,0%
EfficientNet-b0: 70,7% vs 2,3%
ViT: 57,8% vs 38,5%

Ablationsstudien

Notwendigkeit der Zielausrichtung:

Ohne Ausrichtung: Signifikanter Leistungsabfall
Ausrichtung zum optimalen Modell: Leistungssteigerung von 16,9%
Effektivität der Ausrichtungsstrategie durch t-SNE-Visualisierung validiert

Auswirkung der gemeinsamen Datengröße:

Nur 0,05% gemeinsame Daten erforderlich für gute Ergebnisse
Auf ImageNet-1K sind 0,001% der Daten ausreichend

Rechnerischer Overhead:

Uniform-Wert-Schätzung: 139,16s
Ausrichtungsprozess: 36,97s
Im Vergleich zu BYOLs 133.766,19s äußerst gering

Experimentelle Erkenntnisse

Schwache Vorgängermodelle bleiben effektiv: Selbst wenn alle Vorgängermodelle schwach sind, beschleunigt COOPT die frühe Trainingsphase erheblich
Kontinuierliches Optimierungspotenzial: Mit der Weiterentwicklung von Vorgängermodellen verbessert sich die Datenqualität kontinuierlich, nach 10 Runden 4,6% Leistungssteigerung
Auswirkung von Vorgängerdatensätzen: Vorgängermodelle, die auf ImageNet-1K trainiert wurden, erzielen auf allen Datensätzen signifikante Verbesserungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

COOPT durchbricht erfolgreich die Beschränkungen des modellzentrierten Paradigmas und realisiert datenzentrierte kollaborative Optimierung
Optimierte Daten sind architekturunabhängig, wiederverwendbar und effizient
Selbst bei schwachen Vorgängermodellen kann das Training effektiv beschleunigt werden

Einschränkungen

Wenn alle Vorgängermodelle extrem schwach sind, ist ein Leistungsrückgang unvermeidlich
Datenschutzmechanismen müssen weiter verbessert werden
Konzentriert sich derzeit hauptsächlich auf die Optimierung offener unbeschrifteter Daten

Zukünftige Richtungen

Entwicklung fortgeschrittenerer Strategien zur effektiven Nutzung von Daten, die von extrem schwachen Vorgängermodellen optimiert wurden
Verbesserung der Datenschutzmechanismen
Erweiterung auf weitere Datentypen und Aufgaben

Tiefgehende Bewertung

Stärken

Paradigma-Innovation: Verschiebung vom modellzentrierten zum datenzentrierten Ansatz mit wichtiger theoretischer Bedeutung
Praktischer Wert: Löst praktische Probleme der Wissenswiederverwendbarkeit und Trainingseffizienz
Systematischer Ansatz: Bietet einen umfassenden kollaborativen Optimierungsrahmen, einschließlich Problemidentifikation und Lösungen
Umfassende Experimente: Umfassende Validierung auf mehreren Datensätzen und Architekturen

Schwächen

Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum Datenoptimierung effektiv ist
Begrenzte Datenschutzüberlegungen: Obwohl Datenschutzprobleme erwähnt werden, sind die Lösungen nicht ausreichend
Abhängigkeit von Vorgängermodellen: Die Methodeneffektivität hängt stark von der Qualität der Vorgängermodelle ab
Validierung der Skalierbarkeit: Erfordert Validierung auf größeren Datensätzen

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für die Nutzung unbeschrifteter Daten, könnte einen Paradigmenwechsel auslösen
Praktischer Wert: Wichtige Anwendungswerte für ressourcenbegrenzte Szenarien
Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code, förderlich für Ergebnisreproduzierbarkeit

Anwendungsszenarien

Verteilte Ressourcenszenarien: Mehrparteien-Zusammenarbeit mit verteilten Ressourcen
Häufiger Modellwechsel: Szenarien, die Wissenswiederverwendung über Architekturen hinweg erfordern
Großflächige unbeschriftete Daten: Situationen, in denen traditionelles selbstüberwachtes Lernen zu kostspielig ist

Referenzen

Dieses Papier zitiert wichtige Arbeiten in den Bereichen selbstüberwachtes Lernen, Wissensdestillation und Datensatzdestillation, einschließlich:

Chen et al. (2020): SimCLR
Grill et al. (2020): BYOL
He et al. (2020): MoCo
Wang & Isola (2020): Theoretische Grundlagen des kontrastiven Repräsentationslernens
Sun et al. (2024): Theoretische Validierung der RELA-Methode