2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti

Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].

academic

Zur Ausrichtung zwischen überwachtem und selbstüberwachtem kontrastivem Lernen

Grundlegende Informationen

Papier-ID: 2510.08852
Titel: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Autoren: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
Klassifizierung: cs.LG
Veröffentlichungsdatum: 9. Oktober 2025 (Preprint)
Papier-Link: https://arxiv.org/abs/2510.08852v1

Zusammenfassung

Selbstüberwachtes kontrastives Lernen (CL) hat empirisch bemerkenswerte Erfolge erzielt und erzeugt typischerweise Repräsentationen, die mit überwachtem Vortraining vergleichbar sind. Neuere theoretische Erklärungen zeigen dieses Phänomen auf, indem sie demonstrieren, dass die CL-Verlustfunktion bei wachsender Klassenzahl eng eine überwachte Proxy-Funktion approximiert – die Verlustfunktion des reinen Negativstichproben-überwachten kontrastiven Lernens (NSCL). Diese Ähnlichkeit auf Verlustebene lässt jedoch eine offene Frage offen: Bleiben CL und NSCL während des gesamten Trainings auch auf Repräsentationsebene ausgerichtet, nicht nur bei der Zielfunktion?

Dieses Papier adressiert diese Frage durch Analyse der Repräsentationsausrichtung von CL- und NSCL-Modellen, die unter gemeinsamer Zufälligkeit trainiert werden (identische Initialisierung, Batches und Datenerweiterung). Die Forschung zeigt, dass die von ihnen induzierten Repräsentationen ähnlich bleiben: Konkret wird nachgewiesen, dass unter realistischen Bedingungen die Ähnlichkeitsmatrizen von CL und NSCL nah beieinander bleiben. Die Grenzen bieten hochwahrscheinliche Garantien für Ausrichtungsmetriken (wie zentralisierte Kernel-Ausrichtung CKA und Repräsentationsähnlichkeitsanalyse RSA) und klären auf, wie sich die Ausrichtung mit mehr Klassen und höherer Temperatur verbessert sowie ihre Abhängigkeit von der Batchgröße.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem, das dieses Papier adressiert, ist: Bleiben selbstüberwachtes kontrastives Lernen (CL) und reines Negativstichproben-überwachtes kontrastives Lernen (NSCL) während des Trainings auf Repräsentationsebene ausgerichtet?

Forschungsmotivation

Lücke zwischen empirischem Erfolg und theoretischer Erklärung: Obwohl CL in der Praxis hervorragend funktioniert, bleibt rätselhaft, warum es Merkmale lernt, die mit semantischen Klassengrenzen ausgerichtet sind
Unzulänglichkeit der Ähnlichkeit auf Verlustebene: Frühere Arbeiten (Luthra et al., 2025) zeigten nur die Ähnlichkeit von CL und NSCL auf Verlustfunktionsebene, was jedoch nicht die Konsistenz der Optimierungstrajektorie garantiert
Bedeutung der Repräsentationsausrichtung: Ähnlichkeit auf Verlustebene garantiert nicht, dass Parameter und Repräsentationen während des Trainings gekoppelt bleiben und können durch Unterschiede in Krümmung, Gradienten-Rauschen oder Lernratenplanung divergieren

Einschränkungen bestehender Methoden

Perspektive der gegenseitigen Information: Frühe Theorien verbanden CL mit Maximierung gegenseitiger Information zwischen Ansichten, aber übermäßige Einschränkung reduziert die Downstream-Leistung
Ausrichtung und Uniformität: Geometrische Kriterien sind zwar intuitiv, erklären aber nicht vollständig, wie verschiedene semantische Klassen unter CL-Training organisiert werden
Cluster-Recovery-Theorie: Die meisten Ergebnisse beruhen auf restriktiven Annahmen, wie bedingte Unabhängigkeit von Erweiterungen bei gegebener Cluster-Identität

Kernbeiträge

Theoretische Beiträge:
- Nachweis, dass unter gemeinsamer Zufälligkeit die Ähnlichkeitsmatrizen von CL und NSCL während des Trainings nah beieinander bleiben
- Bereitstellung hochwahrscheinlicher Untergrenzen für CKA- und RSA-Ausrichtungsmetriken
- Aufklärung, wie sich die Ausrichtung mit Klassenzahl, Temperaturparameter und Batchgröße ändert
Methodische Innovation:
- Übergang von Parameterraum- zu Repräsentationsraumanalyse, wodurch inhärente Instabilität der Parameterkopplung vermieden wird
- Etablierung von "Ähnlichkeitsabstiegs"-Proxy-Dynamik, die die durch Parameterraum-SGD induzierte Ähnlichkeitsentwicklung treu verfolgt
Experimentelle Validierung:
- Validierung theoretischer Vorhersagen auf mehreren Datensätzen
- Nachweis, dass NSCL anderen überwachten Methoden näher bei CL liegt
- Bestätigung der verbesserten Ausrichtung mit Skalierung und Temperatur

Methodische Details

Aufgabendefinition

Gegeben ein klassenausgewogener Datensatz $S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]$ , wobei jede Klasse $n$ Stichproben hat ( $N = Cn$ ). Der Encoder $f_w: \mathcal{X} \to \mathbb{R}^d$ bildet Eingaben auf Einbettungen ab.

Kernmethode: Ähnlichkeitsraumanalyse

1. Ähnlichkeitsmatrix-Dynamik

Sei $\Sigma_t \in [-1,1]^{N \times N}$ die paarweise Ähnlichkeitsmatrix einer festen Referenzmenge bei Schritt $t$ . Analyse der gekoppelten Entwicklung von CL- und NSCL-Ähnlichkeiten: $\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}$

2. Proxy-Ähnlichkeitsabstieg

Für realisierte Mini-Batches $B_t = \{(x_j, x'_j, y_j)\}_{j=1}^B$ definieren Sie die Batch-Gradient-Abbildung: $G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)$

Die Proxy-Aktualisierung ist: $\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t$

Haupttheoretische Ergebnisse

Satz 1: Ähnlichkeitsraum-Kopplung

Mit Wahrscheinlichkeit mindestens $1-\delta$ , für jede Schrittweiten-Sequenz $(\eta_t)_{t=0}^{T-1}$ : $\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)$

wobei $\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}$ , $\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}$ .

CKA- und RSA-Untergrenzen

Korollar 1 (CKA-Untergrenze): Unter den Bedingungen von Satz 1, mit Wahrscheinlichkeit mindestens $1-\delta$ : $CKA_T \geq \frac{1-\rho_T}{1+\rho_T}$

Korollar 2 (RSA-Untergrenze): Ähnlich: $RSA_T \geq \frac{1-r_T}{1+r_T}$

Technische Innovationspunkte

Von Parameterraum zu Repräsentationsraum: Vermeidung exponentieller Divergenzprobleme im Parameterraum
Nutzung von Block-Orthogonalität: Ausnutzung der Orthogonalität von Gradienten verschiedener Ankerpunkte zur Vereinfachung der Analyse
Temperatur-modulierte Stabilität: Der Term $\frac{1}{\tau^2 B}$ im Exponentialfaktor macht den Ähnlichkeitsraum stabiler als den Parameterraum

Experimentelle Einrichtung

Datensätze

CIFAR-10/100: 50.000 Trainingsbilder, 10.000 Validierungsbilder
Mini-ImageNet: Teilmenge von 100 Klassen aus ImageNet-1K
Tiny-ImageNet: 100.000 64×64-Bilder, 200 Klassen
ImageNet-1K: Vollständiger ImageNet-Datensatz

Bewertungsmetriken

Lineare CKA (Centered Kernel Alignment): Normalisiertes Frobenius-Innenprodukt zentralisierter Ähnlichkeitsmatrizen
RSA (Representational Similarity Analysis): Pearson-Korrelation außerdiagonaler Elemente von Repräsentations-Unähnlichkeitsmatrizen
Klassifizierer mit nächstem Klassenzentrum (NCCC) und Lineare Sondierung (LP) Genauigkeit

Vergleichsmethoden

NSCL: Reines Negativstichproben-überwachtes kontrastives Lernen
SCL: Überwachtes kontrastives Lernen (Khosla et al., 2020)
CE: Kreuzentropie-Verlust

Implementierungsdetails

Architektur: ResNet-50 Encoder + zweischichtiger MLP-Projektionskopf
Optimierer: LARS-Optimierer, Impuls 0,9, Gewichtsabfall 1e-6
Batchgröße: 1024
Lernrate: Basis-Lernrate 0,3, skaliert nach Batchgröße
Trainingsstrategie: 10 Aufwärm-Epochen + Kosinus-Lernratenplanung

Experimentelle Ergebnisse

Hauptergebnisse

1. Vergleich der Ausrichtung verschiedener überwachter Methoden

Auf allen Datensätzen ist die Ausrichtung von NSCL mit CL durchgehend am höchsten:

Tiny-ImageNet: CKA von CL-NSCL erreicht nach 1000 Epochen 0,87, während CL-SCL nur 0,043 beträgt
Ausrichtungsreihenfolge: NSCL > CE > SCL

2. Einfluss der Klassenzahl auf die Ausrichtung

Validierung der theoretischen Vorhersage: Mehr Klassen führen zu stärkerer CL-NSCL-Ausrichtung

Auf allen Datensätzen steigen RSA- und CKA-Werte monoton mit der Anzahl der Trainingsklassen $C'$
Vollständige Validierung auf ImageNet-1K von 2 bis 1000 Klassen

3. Einfluss des Temperaturparameters

Höhere Temperatur verbessert die Ausrichtung, validiert theoretische Analyse:

Höchste Ausrichtung bei $\tau = 1,0$
Nachfolgende Abnahme bei $\tau = 0,5$ und $\tau = 0,1$
Konsistenter Trend über alle Datensätze

4. Einfluss der Batchgröße

Ausrichtungsänderungen unter verschiedenen Lernraten-Skalierungen:

O(B)-Skalierung: Ausrichtung nimmt mit Batchgröße ab
O(√B), O(∜B), O(1)-Skalierung: Ausrichtung nimmt mit Batchgröße zu
Ergebnisse stimmen mit Abhängigkeitsbeziehungen der theoretischen Grenzen überein

Parameterraum vs. Repräsentationsraum

Gewichtsraum: Parameter von CL und überwachten Methoden divergieren schnell
Repräsentationsraum: CKA und RSA behalten hohe Ausrichtung (>0,8)
Demonstriert Stabilität der Repräsentationsausrichtung im Gegensatz zu Parameterdivergenz

Downstream-Task-Leistung

Datensatz	CL(NCCC/LP)	NSCL(NCCC/LP)	SCL(NCCC/LP)	CE(NCCC/LP)
CIFAR-10	88,37/90,16	94,47/94,09	94,93/94,67	92,97/93,39
CIFAR-100	54,62/65,65	60,14/68,38	64,06/69,52	67,35/68,04
Mini-ImageNet	60,78/65,30	63,92/72,60	74,78/76,00	75,20/74,00
Tiny-ImageNet	40,59/44,61	40,76/45,79	48,63/48,73	48,28/52,57

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Stabilität der Repräsentationsausrichtung: CL und NSCL bleiben im Repräsentationsraum eng gekoppelt, obwohl Parameter divergieren können
Konsistenz zwischen Theorie und Praxis: Experimente validieren theoretische Vorhersagen von Klassen-, Temperatur- und Batchgrößeneffekten
NSCL als Brücke: NSCL verfolgt CL besser als andere überwachte Methoden und ist eine prinzipielle Brücke zwischen selbstüberwachtem und überwachtem Lernen

Einschränkungen

Straffheit der Grenzen: Theoretische Grenzen können bei großen Maßstäben und langem Training zu locker sein
Worst-Case-Analyse: Verwendung einheitlich hochwahrscheinlicher Konzentrationsgrenzen, bevorzugt Allgemeingültigkeit gegenüber Straffheit
Exponentialfaktor: Bei Training über mehrere Epochen hinaus können Exponentialfaktoren Grenzen ungültig machen

Zukünftige Richtungen

Straffere Grenzen: Nutzung datenabhängiger Strukturen statt Worst-Case-Grenzen
Erweiterung auf andere SSL-Paradigmen: Erweiterung des Rahmens auf nicht-kontrastive Methoden
Praktische Verbesserungen: Verbesserung der Praktikabilität von Garantien bei Beibehaltung der Stabilität

Tiefgreifende Bewertung

Stärken

Signifikante theoretische Beiträge: Erste strenge theoretische Garantien für CL-NSCL-Ausrichtung im Repräsentationsraum
Methodische Innovation: Neuartige und effektive Analysestrategie vom Parameter- zum Ähnlichkeitsraum
Umfassende Experimente: Validierung theoretischer Vorhersagen über mehrere Datensätze und Perspektiven mit sorgfältigem Experimentdesign
Praktischer Wert: Neue Perspektive auf Verständnis der Erfolgsmechanismen des selbstüberwachten Lernens

Mängel

Praktikabilität der Grenzen: Theoretische Grenzen können in praktischen Anwendungen zu locker sein
Annahmebeschränkungen: Annahme gemeinsamer Zufälligkeit kann in praktischen Anwendungen unrealistisch sein
Methodische Einschränkungen: Berücksichtigung nur des kontrastiven Lernens-Paradigmas, nicht anderer SSL-Methoden

Einflussfähigkeit

Theoretische Bedeutung: Wichtige Ergänzung zur Theorie des selbstüberwachten Lernens
Methodische Inspiration: Ähnlichkeitsraumanalysemethode kann nachfolgende Forschung inspirieren
Praktische Anleitung: Theoretische Grundlage für Auswahl geeigneter überwachter Proxies

Anwendungsszenarien

Forschung, die das Verständnis der Beziehung zwischen selbstüberwachtem und überwachtem Lernen erfordert
Theoretische Analyse von Kontrastlernmethoden
Stabilitätsforschung des Repräsentationslernens

Literaturverzeichnis

Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis

Zusammenfassung: Dieses Papier etabliert theoretisch tiefe Verbindungen zwischen selbstüberwachtem kontrastivem Lernen und überwachtem Lernen. Durch strenge mathematische Analyse wird die Ausrichtung auf Repräsentationsebene nachgewiesen und wichtige Einblicke in die Erfolgsmechanismen des selbstüberwachten Lernens bereitgestellt. Obwohl die praktische Anwendbarkeit theoretischer Grenzen begrenzt ist, leisten die methodische Innovation und experimentelle Validierung wichtige Beiträge zur theoretischen Entwicklung dieses Forschungsbereichs.