Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
- Papier-ID: 2510.10572
- Titel: Understanding Self-supervised Contrastive Learning through Supervised Objectives
- Autor: Byeongchan Lee (KAIST)
- Klassifizierung: cs.LG (Machine Learning)
- Veröffentlichungskonferenz: Transactions on Machine Learning Research (10/2025)
- Papierlink: https://arxiv.org/abs/2510.10572
Das selbstüberwachte Repräsentationslernens hat empirisch beeindruckende Erfolge erzielt, aber sein theoretisches Verständnis bleibt begrenzt. Dieses Papier bietet eine theoretische Perspektive, indem es das selbstüberwachte Repräsentationslernen als Approximation von überwachten Repräsentationslernzielen formuliert. Basierend auf dieser Formulierung leitet der Autor Verlustfunktionen her, die eng mit populären Kontrastivverlusten wie InfoNCE verwandt sind, und bietet Einblicke in das Verständnis ihrer zugrunde liegenden Prinzipien. Der Ableitungsprozess führt natürlicherweise zu den Konzepten der Prototyp-Repräsentationsverzerrung und des ausgewogenen Kontrastivverlusts, was hilft, das Verhalten von selbstüberwachten Lernalgorithmen zu erklären und zu verbessern.
- Fehlende theoretische Grundlagen: Obwohl selbstüberwachtes Lernen empirisch erfolgreich ist, bleibt seine theoretische Grundlage unvollkommen, und es fehlt ein tiefes Verständnis dafür, warum diese Methoden wirksam sind.
- Empirische Methodengestaltung: Bestehende selbstüberwachte Lernmethoden werden hauptsächlich durch architektonische Innovationen vorangetrieben, nicht durch formalisierte Ziele, und es fehlt theoretische Anleitung.
- Ungeklärte Beziehung zwischen überwachtem und selbstüberwachtem Lernen: Die innere Verbindung zwischen überwachtem und selbstüberwachtem Lernen wurde noch nicht ausreichend erläutert.
- Konstruktion theoretischer Grundlagen: Bereitstellung einer soliden theoretischen Grundlage für selbstüberwachtes Lernen und Erklärung der grundlegenden Gründe für seine Wirksamkeit
- Anleitung zur Methodenverbesserung: Bereitstellung prinzipieller Anleitung für Algorithmenentwurf durch theoretische Analyse
- Überbrückung von überwachtem und selbstüberwachtem Lernen: Etablierung theoretischer Verbindungen zwischen den beiden Lernparadigmen
- Konstruktion eines theoretischen Rahmens: Vorschlag eines theoretischen Rahmens, der selbstüberwachtes Repräsentationslernen als Approximation von überwachtem Repräsentationslernen formuliert, und Ableitung von Kontrastivverlustfunktionen, die eng mit dem InfoNCE-Verlust verwandt sind
- Bereitstellung theoretischer Einblicke: Theoretische Erklärung für häufige Praktiken beim kontrastiven Lernen (wie Repräsentationsnormalisierung, Verwendung ausgewogener Datensätze)
- Konzepteinführung: Einführung des Konzepts der Prototyp-Repräsentationsverzerrung und Beobachtung ihrer Korrelation mit der Downstream-Leistung
- Methodenverbesserung: Vorschlag des ausgewogenen Kontrastivverlusts als natürliche Erweiterung des InfoNCE-Verlusts, um bessere Leistung durch verbesserte Ausgewogenheit zu erreichen
Die Repräsentationslernaufgabe wird als Lernen eines Encoders fθ:X→Rd∖{0} definiert, so dass:
- Repräsentationen von Bildern mit demselben visuellen Konzept zusammengefasst werden
- Repräsentationen von Bildern mit unterschiedlichen visuellen Konzepten voneinander getrennt werden
Zunächst wird das überwachte Lernen als Prototyp-Optimierungsproblem formuliert:
minθ−s(fθ(t(x)),μy)+λmaxy′=ys(fθ(t(x)),μy′)
wobei:
- s(⋅,⋅) ein Ähnlichkeitsmaß (Kosinusähnlichkeit) ist
- μy die Prototyp-Repräsentation für Label y ist
- λ>0 ein Ausgleichsparameter ist
Die Prototyp-Repräsentation wird als Erwartungswert von Repräsentationen mit demselben Label definiert:
μ^y:=ET,X∣yfθ(T(X))
In der selbstüberwachten Einstellung wird eine Ersatz-Prototyp-Repräsentation verwendet:
μ~:=ETfθ(T(x))
Unter der Annahme von Kosinusähnlichkeit und L2-Normalisierung:
−s(fθ(t(x)),ETfθ(T(x)))≤−ETs(fθ(t(x)),fθ(T(x)))
Unter der Annahme eines ausgewogenen Datensatzes:
maxy′=ys(fθ(t(x)),ET′,X′∣y′fθ(T′(X′)))≤ET′[να1logEX′exp(αs(fθ(t(x)),fθ(T′(X′))))]+να1logn
Kombination der obigen Schranken ergibt:
l~(θ)=α∣T^∣1∑t′∈T^[−log(∑x′∈X^exp(αs(fθ(t(x)),fθ(t′(x′)))))λ/νexp(αs(fθ(t(x)),fθ(t′(x))))]
- Theoretische Brücke: Erste Etablierung einer formalisierten theoretischen Verbindung zwischen überwachtem und selbstüberwachtem Lernen
- Ableitungen von Schranken: Erreichung handhabbarer Schranken durch strenge mathematische Ableitung
- Analyse der Prototyp-Verzerrung: Quantifizierung der durch die selbstüberwachte Approximation eingeführten Verzerrung und Analyse ihrer Auswirkungen
- Ausgewogener Verlustdesign: Vorschlag einer verbesserten Verlustfunktion basierend auf theoretischer Analyse
- Hauptdatensätze: ImageNet (1.281.167 Trainingsbilder, 50.000 Validierungsbilder, 1.000 Klassen)
- Zusätzliche Datensätze: CIFAR-10 (50.000 Trainingsbilder, 10.000 Testbilder, 10 Klassen)
- Unausgewogene Datensätze: ImageNet-LT (115.846 Bilder, folgt Pareto-Verteilung)
- Lineare Evaluierung: Top-1-Genauigkeit beim Trainieren eines linearen Klassifizierers mit gefrorenem vortrainiertem Backbone
- k-Nearest-Neighbor-Evaluierung: k-NN-Klassifizierungsgenauigkeit basierend auf Repräsentationsähnlichkeit
- Baseline-Methoden: SimCLR und seine Varianten
- Verlustfunktionsvarianten:
- Ausgewogener Kontrastivverlust
- Verallgemeinerter NT-Xent-Verlust
- Entkoppelter Kontrastivverlust
- Netzwerkarchitektur: ResNet-50 Backbone + 3-schichtiger MLP-Projektor
- Trainingskonfiguration: Batch-Größe 512, 100 Epochen, SGD-Optimierer
- Datenerweiterung: Zufälliges Zuschneiden, Farbverzerrung, Graustufen-Konvertierung, Gaußscher Unschärfe, horizontale Spiegelung
- Beziehung zwischen Prototyp-Repräsentationsverzerrung und Leistung:
- Baseline SimCLR: 65,98% Genauigkeit, 36,72 Verzerrung
- Gaußsche Unschärfe entfernt: 64,57% Genauigkeit, 37,43 Verzerrung
- Zufällige Rotation hinzugefügt: 63,30% Genauigkeit, 38,11 Verzerrung
- Befund: Niedrigere Prototyp-Repräsentationsverzerrung entspricht höherer Genauigkeit
- Auswirkung des Ähnlichkeitsmaßes:
- Kosinusähnlichkeit + Normalisierung: 65,98%
- Skalarprodukt (ohne Normalisierung): 0,43%
- Negative euklidische Distanz (ohne Normalisierung): 10,63%
- Auswirkung der Datenausgewogenheit:
- Gleichmäßige Verteilung: 20,82%
- Langschweif-Verteilung: 13,65%
- Ausgewogener Kontrastivverlust: Beste Leistung bei (α=4, λ=2) erreicht 67,40%
- Verallgemeinerter NT-Xent-Verlust: Beste Leistung bei (α=2, λ=2) erreicht 66,85%
- Leistungsverbesserung: Ausgewogener Kontrastivverlust zeigt etwa 1,5% Verbesserung gegenüber Standard-NT-Xent
- Ausgewogener Kontrastivverlust: Beste Leistung bei (α=1, λ=4) erreicht 86,08%
- Verallgemeinerter NT-Xent-Verlust: Beste Leistung bei (α=2, λ=2) erreicht 85,85%
Verifikation theoretischer Vorhersagen durch Hinzufügen/Entfernen verschiedener Transformationen:
- Farbverzerrung entfernt: Leistung sinkt auf 62,56%
- Zufälliges Cutout hinzugefügt: Leistung steigt auf 65,76%
- Baseline-Konfiguration: 65,98%
- Obere Schranke des Anziehungsterms: Der Unterschied während des Trainings nimmt allmählich ab und stabilisiert sich
- Obere Schranke des Abstoßungsterms: Bleibt im Vergleich zum Anziehungsterm größer, aber kontrollierbar
- Historische Entwicklung: Von Chopra et al. (2005) Kontrastivverlust bis zu Triplet-Verlust und InfoNCE-Verlust
- Beitrag dieses Papiers: Bereitstellung einer neuen theoretischen Perspektive basierend auf Approximation von überwachtem Lernen
- Bestehende Perspektiven:
- Gegenseitige Informationsmaximierungsperspektive
- Einheitliche Perspektive des Kovarianzlernens
- Spektrale Einbettungslernperspektive
- Innovation dieses Papiers: Erste Etablierung einer expliziten theoretischen Verbindung mit überwachtem Lernen
- Architekturdesign: Siamese-Netzwerke, Momentum-Encoder, Stop-Gradient-Operationen
- Theoretische Erklärung: Dieses Papier bietet theoretische Grundlagen für diese Praktiken
- Theoretische Vereinigung: Erfolgreiche Etablierung einer theoretischen Brücke zwischen überwachtem und selbstüberwachtem Lernen
- Praktische Anleitung: Theoretische Erklärung für häufige Praktiken beim kontrastiven Lernen
- Methodenverbesserung: Basierend auf theoretischer Analyse erreichter Leistungsverbesserung durch den vorgeschlagenen ausgewogenen Kontrastivverlust
- Annahmebeschränkungen: Theoretische Analyse beruht auf Annahmen wie Kosinusähnlichkeit, L2-Normalisierung und ausgewogene Datensätze
- Approximationsfehler: Die durch die selbstüberwachte Approximation eingeführte Verzerrung erfordert weitere Forschung
- Experimenteller Umfang: Hauptsächlich auf Bildklassifizierungsaufgaben validiert, Anwendbarkeit in anderen Bereichen bleibt zu erforschen
- Theoretische Erweiterung: Lockerung bestehender Annahmen und Konstruktion eines allgemeineren theoretischen Rahmens
- Methodenverbesserung: Entwurf effektiverer selbstüberwachter Algorithmen basierend auf Verzerrungsanalyse
- Anwendungserweiterung: Erweiterung des theoretischen Rahmens auf andere Modalitäten und Aufgaben
- Hohe Innovativität: Erste Bereitstellung einer formalisierten theoretischen Verbindung zwischen überwachtem und selbstüberwachtem Lernen
- Strenge Ableitung: Vollständiger mathematischer Ableitungsprozess mit allen Beweisen im Anhang
- Tiefe Einblicke: Das Konzept der Prototyp-Repräsentationsverzerrung bietet neue Perspektive zum Verständnis des selbstüberwachten Lernens
- Vernünftiges Design: Experimentelles Design eng an theoretischen Vorhersagen ausgerichtet mit ausreichender Validierung
- Überzeugende Ergebnisse: Hohe Übereinstimmung zwischen theoretischen Vorhersagen und experimentellen Ergebnissen
- Umfassende Analyse: Validierung des theoretischen Rahmens aus mehreren Perspektiven
- Methodenverbesserung: Ausgewogener Kontrastivverlust erreicht tatsächliche Leistungsverbesserung
- Orientierungswert: Theoretische Anleitung für Algorithmenentwurf beim selbstüberwachten Lernen
- Reproduzierbarkeit: Vollständige Code- und Implementierungsdetails bereitgestellt
- Starke Annahmen: Theoretische Analyse beruht auf mehreren restriktiven Annahmen, die den Anwendungsbereich möglicherweise einschränken
- Grobe Approximation: Einige theoretische Ableitungen könnten größere Fehler einführen
- Zu validierende Verallgemeinerbarkeit: Anwendbarkeit des theoretischen Rahmens in anderen Bereichen noch nicht ausreichend validiert
- Begrenzte Datensätze: Hauptsächlich auf ImageNet und CIFAR-10 validiert, mangelnde vielfältigere Bewertung
- Einzelne Aufgabe: Hauptsächlich auf Bildklassifizierung konzentriert, unzureichende Validierung anderer Sehaufgaben
- Begrenzte Vergleichsmethoden: Hauptsächlich Vergleich mit SimCLR-Familie, mangelnder Vergleich mit anderen selbstüberwachten Methoden
- Theoretische Grundlagen: Bereitstellung wichtiger theoretischer Grundlagen für das Feld des selbstüberwachten Lernens
- Forschungsinspiration: Kann mehr theoretische Analysearbeiten inspirieren
- Methodische Anleitung: Theoretische Anleitung für nachfolgende Algorithmenentwürfe
- Leistungsverbesserung: Ausgewogener Kontrastivverlust erreicht tatsächliche Leistungsverbesserung
- Designprinzipien: Bereitstellung von Algorithmenentwurfsprinzipien für Praktiker
- Hyperparameter-Anleitung: Theoretische Grundlagen für Hyperparameter-Auswahl
- Forschungsszenarios: Geeignet für selbstüberwachte Lernalgorithmusforschung, die theoretische Anleitung benötigt
- Industrielle Anwendungen: Geeignet für Computervision-Anwendungen, die hochwertige Repräsentationen benötigen
- Bildungszwecke: Geeignet als Lehrmaterial zum Verständnis der Prinzipien des selbstüberwachten Lernens
Dieses Papier zitiert wichtige Arbeiten im Bereich selbstüberwachtes Lernen, kontrastives Lernen und Repräsentationslernen, einschließlich:
- Chen et al. (2020a): SimCLR-Rahmen
- He et al. (2020): MoCo-Methode
- Oord et al. (2018): InfoNCE-Verlust
- Wang & Isola (2020): Analyse der Ausrichtungs- und Uniformitätseigenschaften des kontrastiven Lernens
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Analysepapier, das erfolgreich eine theoretische Brücke zwischen überwachtem und selbstüberwachtem Lernen etabliert und wichtige Einblicke zum Verständnis der Wirksamkeit des kontrastiven Lernens bietet. Obwohl es einige Einschränkungen bei theoretischen Annahmen gibt, sind seine Beiträge für die Förderung der theoretischen Entwicklung des selbstüberwachten Lernens von großer Bedeutung.