2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.
This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
academic

Kollaborative Optimierung unbeschrifteter Daten

Grundinformationen

  • Paper-ID: 2505.14117
  • Titel: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
  • Autoren: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungszeit/Konferenz: Preprint (arXiv:2505.14117v2)
  • Paper-Link: https://arxiv.org/abs/2505.14117v2

Zusammenfassung

Dieses Papier führt ein neuartiges datenzentriertes Paradigma ein, das darauf abzielt, den Nutzen unbeschrifteter Daten zu maximieren und eine kritische Frage zu adressieren: Wie kann man die Nachhaltigkeit und Effizienz des Deep-Learning-Trainings durch die Optimierung der Daten selbst verbessern? Die Autoren identifizieren zunächst zwei Schlüsselbeschränkungen bestehender modellzentrierter Methoden, die beide aus einem gemeinsamen Engpass stammen: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Wiederverwendbarkeit und Skalierbarkeit behindert. Zu diesem Zweck wird COOPT vorgestellt, ein effizienter parallelisierter Rahmen für kollaborative Optimierung unbeschrifteter Daten. Durch verteilte Verarbeitung unbeschrifteter Daten und Nutzung öffentlich verfügbarer aufgabenunabhängiger Vorgängermodelle optimiert COOPT rohe unbeschriftete Daten zu wissensreichen Trainingssätzen mit Effektivität, Effizienz, Wiederverwendbarkeit und Teilbarkeit. Auf ImageNet-1K wird eine Verbesserung von 7,9% gegenüber BYOL erreicht.

Forschungshintergrund und Motivation

Problemhintergrund

Im Zeitalter großer Datenmengen sind die meisten Daten trotz Datenfülle immer noch unbeschriftet. Das vorherrschende Paradigma zur Nutzung unbeschrifteter Daten ist selbstüberwachtes Lernen (SSL), ein modellzentrierter Ansatz, der Dateninformationen durch sorgfältig gestaltete Proxy-Aufgaben und Verlustfunktionen in Modellparametern kodiert.

Kernprobleme

Bestehende modellzentrierte Methoden weisen zwei Schlüsselherausforderungen auf:

  1. Architektur-Kopplung: Das Trainingsprotokoll ist eng an spezifische Netzwerkarchitekturen gekoppelt, was die Übertragbarkeit und Wiederverwendbarkeit trainierter Modelle auf anderen Architekturen erheblich behindert
  2. Rechnerische Effizienzprobleme: Trotz Fortschritten bei der Beschleunigung ist das Training auf großen unbeschrifteten Datensätzen rechnerisch immer noch prohibitiv

Grundlegender Engpass

Der Kern dieser Herausforderungen ist ein gemeinsamer Engpass: Das aus Daten extrahierte Wissen ist in Modellparametern gespeichert, was seine Anpassungsfähigkeit einschränkt und eine effiziente Wiederverwendung über verschiedene Aufgaben oder Architekturen hinweg verhindert.

Forschungsmotivation

Um das modellzentrierte Paradigma zu durchbrechen, schlagen die Autoren ein datenzentriertes Paradigma vor, das Wissen effektiv in die Daten selbst statt in Modellparameter kodiert, indem es unbeschriftete Daten direkt optimiert.

Kernbeiträge

  1. Vorstellung des COOPT-Rahmens: Das erste datenzentrierte Framework für kollaborative Optimierung unbeschrifteter Daten, das durch Nutzung aufgabenunabhängiger Vorgängermodelle rohe unbeschriftete Stichproben in optimierte Daten umwandelt und hohe Leistung, Effizienz, starke Generalisierung und Wiederverwendbarkeit erreicht
  2. Identifikation und Lösung des Zielverteilungs-Inkonsistenz-Problems: Identifiziert das Schlüsselproblem der Zielverteilungs-Inkonsistenz (Target Distribution Inconsistency) innerhalb des COOPT-Rahmens und führt eine leichte Zielausrichtungsstrategie ein
  3. Umfassende experimentelle Validierung: Führt umfassende Experimente auf mehreren Datensätzen und Modellen durch, um die Vorteile von COOPT zu validieren und nachzuweisen, dass COOPT die frühe Trainingsphase effektiv beschleunigt, selbst wenn alle Vorgängermodelle schwach sind

Methodische Details

Aufgabendefinition

Dattenoptimierungs-Definition: Gegeben ein großer unbeschrifteter Datensatz D=DX={xi}i=1ND = D_X = \{x_i\}_{i=1}^N, zielt die Datenoptimierung darauf ab, Ziele DY={yi}i=1ND_Y = \{y_i\}_{i=1}^N zuzuweisen, um einen optimalen beschrifteten Datensatz D={(xi,yi)}i=1ND' = \{(x_i, y_i)\}_{i=1}^N zu konstruieren, so dass ein auf DD' trainiertes Modell mit erheblich geringeren Trainingskosten eine höhere Leistung erreicht als ein auf DD trainiertes Modell.

Zielfunktion: E(x,y)PT[(ϕθD(x),y)]>E(x,y)PT[(ϕθD(x),y)]E_{(x,y)\sim P_T}[\ell(\phi_{\theta_D}(x), y)] > E_{(x,y)\sim P_T}[\ell(\phi_{\theta_{D'}}(x), y)]

wobei PTP_T die Testverteilung ist, \ell die Verlustfunktion ist, und θD\theta_D und θD\theta_{D'} die Netzwerkparameter sind, die auf DD bzw. DD' trainiert wurden.

Modellarchitektur

COOPT ist ein kollaborativer parallelisierter Rahmen, der aus einer offenen Datenplattform und K Teilnehmern besteht, von denen jeder mit verschiedenen Vorgängermodellen ausgestattet ist.

Fünf-Schritte-Operationsablauf:

Schritt 1: Datenverteilung

  • Die offene Datenplattform teilt unbeschriftete Daten DD zufällig in K nicht überlappende Teilmengen auf
  • Jeder Teilnehmer lädt eine Teilmenge D(k)D^{(k)} herunter

Schritt 2: Datenoptimierung

  • Jeder Teilnehmer optimiert seinen Datensatz D(k)D^{(k)} mit Vorgängermodell ψk\psi_k
  • Zielzuweisung gemäß Definition 1: D={(xi,yi)yi=Wψ(xi),xiDX}D' = \{(x_i, y_i) | y_i = W\psi(x_i), \forall x_i \in D_X\}

Schritt 3: Datenausrichtung

  • Löst das Zielverteilungs-Inkonsistenz-Problem
  • Verwendet lernbare Transformationsmatrix T(k)T^{(k)}, um Zielverteilungen zum optimalen Vorgängermodell auszurichten

Schritt 4: Daten-Upload

  • Teilnehmer laden optimierte Datensätze zurück zur Plattform hoch

Schritt 5: Datenzusammenführung

  • Plattform aggregiert alle optimierten Datensätze zu einem einheitlichen Datensatz

Technische Innovationen

1. Identifikation des Zielverteilungs-Inkonsistenz-Problems

Im kollaborativen Rahmen führt die Verwendung verschiedener Vorgängermodelle durch verschiedene Teilnehmer zu Zielverteilungs-Inkonsistenz, die die Modellgeneralisierung beeinträchtigt.

2. Qualitätsbewertung von Vorgängermodellen

Verwendet Uniform Value Loss zur Bewertung der Vorgängermodellqualität: Vuniform(ψ;S)=logExi,xjS[eτψ(xi)ψ(xj)22]V_{uniform}(\psi; S) = \log E_{x_i, x_j \sim S}[e^{\tau \|\psi(x_i) - \psi(x_j)\|_2^2}]

wobei niedrigere Uniform-Werte ein höherwertiges Vorgängermodell anzeigen.

3. Zielausrichtungsstrategie

Erreicht Zielausrichtung durch Optimierung der Transformationsmatrix: T(k)=argminTRn×n{Tψ(k)(SX)SY22}T^{(k)} = \arg\min_{T \in \mathbb{R}^{n \times n}} \{\|T \cdot \psi^{(k)}(S_X) - S_Y^*\|_2^2\}

wobei SYS_Y^* die Ziele des optimalen Vorgängermodells auf dem gemeinsamen Datensatz sind.

Experimentelle Einrichtung

Datensätze

  • ImageNet-1K (224×224)
  • Tiny-ImageNet (64×64)
  • CIFAR-100 (32×32)
  • CIFAR-10 (32×32)

Bewertungsmetriken

  • Genauigkeit: Verwendet Offline-Linear-Probing-Strategie zur Bewertung der Darstellungsqualität
  • Rechnerische Effizienz: Quantifiziert durch Zeitkosten (Sekunden)

Vergleichsmethoden

Vergleich mit fortgeschrittenen selbstüberwachten Lernmethoden:

  • SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL

Implementierungsdetails

  • Verwendet 4 NVIDIA RTX 4090 GPUs
  • Vorgängermodelle: Mehrere vortrainierte CLIP-Modelle
  • Optimierer: AdamW
  • Batch-Größe: 128 (256 für ImageNet-1K)
  • Berichtet Mittelwert und Varianz mit 3 zufälligen Seeds

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich mit selbstüberwachten Lernmethoden (Tabelle 1):

  • CIFAR-10: 89,5% vs BYOL 82,8% (↑5,6%), Trainingsgeschwindigkeit 1,87× schneller
  • CIFAR-100: 67,3% vs DCL 58,2% (↑9,1%), Trainingsgeschwindigkeit 1,95× schneller
  • Tiny-ImageNet: 60,3% vs DCL 44,6% (↑15,7%), Trainingsgeschwindigkeit 1,94× schneller
  • ImageNet-1K: 69,8% vs BYOL 61,9% (↑7,9%), Trainingsgeschwindigkeit 1,20× schneller

Vergleich mit zentralisierter Optimierung (Tabelle 2):

  • COOPT auf CIFAR-100: 65,8% vs zentralisiert 62,1%
  • Trainingszeit: 16,31s vs 23,71s

Generalisierungs- und Wiederverwendbarkeitsexperimente

Architekturübergreifende Generalisierung (Tabelle 3): COOPT übertrifft BYOL auf verschiedenen Netzwerkarchitekturen erheblich:

  • ResNet-50: 63,8% vs 60,4%
  • ResNet-101: 65,7% vs 61,5%
  • MobileNet-v2: 58,1% vs 24,0%
  • EfficientNet-b0: 70,7% vs 2,3%
  • ViT: 57,8% vs 38,5%

Ablationsstudien

Notwendigkeit der Zielausrichtung:

  • Ohne Ausrichtung: Signifikanter Leistungsabfall
  • Ausrichtung zum optimalen Modell: Leistungssteigerung von 16,9%
  • Effektivität der Ausrichtungsstrategie durch t-SNE-Visualisierung validiert

Auswirkung der gemeinsamen Datengröße:

  • Nur 0,05% gemeinsame Daten erforderlich für gute Ergebnisse
  • Auf ImageNet-1K sind 0,001% der Daten ausreichend

Rechnerischer Overhead:

  • Uniform-Wert-Schätzung: 139,16s
  • Ausrichtungsprozess: 36,97s
  • Im Vergleich zu BYOLs 133.766,19s äußerst gering

Experimentelle Erkenntnisse

  1. Schwache Vorgängermodelle bleiben effektiv: Selbst wenn alle Vorgängermodelle schwach sind, beschleunigt COOPT die frühe Trainingsphase erheblich
  2. Kontinuierliches Optimierungspotenzial: Mit der Weiterentwicklung von Vorgängermodellen verbessert sich die Datenqualität kontinuierlich, nach 10 Runden 4,6% Leistungssteigerung
  3. Auswirkung von Vorgängerdatensätzen: Vorgängermodelle, die auf ImageNet-1K trainiert wurden, erzielen auf allen Datensätzen signifikante Verbesserungen

Verwandte Arbeiten

Selbstüberwachtes Lernen

Modellzentrierte Methoden, die Darstellungen durch Proxy-Aufgaben lernen:

  • InstDisc: Instanzendiskriminierung
  • MoCo: Momentum Contrast
  • SimCLR: Simple Contrastive Learning Framework
  • BYOL: Bootstrap Your Own Latent

Wissensdestillation

Nutzt von Lehrermodellen generierte Soft-Labels zur Verbesserung des Schülertrainings, aber Wissen bleibt in Modellparametern gespeichert.

Datensatzdestillation

Lernt kompakte destillierte Datensätze, konzentriert sich hauptsächlich auf die Optimierung beschrifteter Daten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. COOPT durchbricht erfolgreich die Beschränkungen des modellzentrierten Paradigmas und realisiert datenzentrierte kollaborative Optimierung
  2. Optimierte Daten sind architekturunabhängig, wiederverwendbar und effizient
  3. Selbst bei schwachen Vorgängermodellen kann das Training effektiv beschleunigt werden

Einschränkungen

  1. Wenn alle Vorgängermodelle extrem schwach sind, ist ein Leistungsrückgang unvermeidlich
  2. Datenschutzmechanismen müssen weiter verbessert werden
  3. Konzentriert sich derzeit hauptsächlich auf die Optimierung offener unbeschrifteter Daten

Zukünftige Richtungen

  1. Entwicklung fortgeschrittenerer Strategien zur effektiven Nutzung von Daten, die von extrem schwachen Vorgängermodellen optimiert wurden
  2. Verbesserung der Datenschutzmechanismen
  3. Erweiterung auf weitere Datentypen und Aufgaben

Tiefgehende Bewertung

Stärken

  1. Paradigma-Innovation: Verschiebung vom modellzentrierten zum datenzentrierten Ansatz mit wichtiger theoretischer Bedeutung
  2. Praktischer Wert: Löst praktische Probleme der Wissenswiederverwendbarkeit und Trainingseffizienz
  3. Systematischer Ansatz: Bietet einen umfassenden kollaborativen Optimierungsrahmen, einschließlich Problemidentifikation und Lösungen
  4. Umfassende Experimente: Umfassende Validierung auf mehreren Datensätzen und Architekturen

Schwächen

  1. Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum Datenoptimierung effektiv ist
  2. Begrenzte Datenschutzüberlegungen: Obwohl Datenschutzprobleme erwähnt werden, sind die Lösungen nicht ausreichend
  3. Abhängigkeit von Vorgängermodellen: Die Methodeneffektivität hängt stark von der Qualität der Vorgängermodelle ab
  4. Validierung der Skalierbarkeit: Erfordert Validierung auf größeren Datensätzen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für die Nutzung unbeschrifteter Daten, könnte einen Paradigmenwechsel auslösen
  2. Praktischer Wert: Wichtige Anwendungswerte für ressourcenbegrenzte Szenarien
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code, förderlich für Ergebnisreproduzierbarkeit

Anwendungsszenarien

  1. Verteilte Ressourcenszenarien: Mehrparteien-Zusammenarbeit mit verteilten Ressourcen
  2. Häufiger Modellwechsel: Szenarien, die Wissenswiederverwendung über Architekturen hinweg erfordern
  3. Großflächige unbeschriftete Daten: Situationen, in denen traditionelles selbstüberwachtes Lernen zu kostspielig ist

Referenzen

Dieses Papier zitiert wichtige Arbeiten in den Bereichen selbstüberwachtes Lernen, Wissensdestillation und Datensatzdestillation, einschließlich:

  • Chen et al. (2020): SimCLR
  • Grill et al. (2020): BYOL
  • He et al. (2020): MoCo
  • Wang & Isola (2020): Theoretische Grundlagen des kontrastiven Repräsentationslernens
  • Sun et al. (2024): Theoretische Validierung der RELA-Methode