On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic
Zur Ausrichtung zwischen überwachtem und selbstüberwachtem kontrastivem Lernen
Selbstüberwachtes kontrastives Lernen (CL) hat empirisch bemerkenswerte Erfolge erzielt und erzeugt typischerweise Repräsentationen, die mit überwachtem Vortraining vergleichbar sind. Neuere theoretische Erklärungen zeigen dieses Phänomen auf, indem sie demonstrieren, dass die CL-Verlustfunktion bei wachsender Klassenzahl eng eine überwachte Proxy-Funktion approximiert – die Verlustfunktion des reinen Negativstichproben-überwachten kontrastiven Lernens (NSCL). Diese Ähnlichkeit auf Verlustebene lässt jedoch eine offene Frage offen: Bleiben CL und NSCL während des gesamten Trainings auch auf Repräsentationsebene ausgerichtet, nicht nur bei der Zielfunktion?
Dieses Papier adressiert diese Frage durch Analyse der Repräsentationsausrichtung von CL- und NSCL-Modellen, die unter gemeinsamer Zufälligkeit trainiert werden (identische Initialisierung, Batches und Datenerweiterung). Die Forschung zeigt, dass die von ihnen induzierten Repräsentationen ähnlich bleiben: Konkret wird nachgewiesen, dass unter realistischen Bedingungen die Ähnlichkeitsmatrizen von CL und NSCL nah beieinander bleiben. Die Grenzen bieten hochwahrscheinliche Garantien für Ausrichtungsmetriken (wie zentralisierte Kernel-Ausrichtung CKA und Repräsentationsähnlichkeitsanalyse RSA) und klären auf, wie sich die Ausrichtung mit mehr Klassen und höherer Temperatur verbessert sowie ihre Abhängigkeit von der Batchgröße.
Das Kernproblem, das dieses Papier adressiert, ist: Bleiben selbstüberwachtes kontrastives Lernen (CL) und reines Negativstichproben-überwachtes kontrastives Lernen (NSCL) während des Trainings auf Repräsentationsebene ausgerichtet?
Lücke zwischen empirischem Erfolg und theoretischer Erklärung: Obwohl CL in der Praxis hervorragend funktioniert, bleibt rätselhaft, warum es Merkmale lernt, die mit semantischen Klassengrenzen ausgerichtet sind
Unzulänglichkeit der Ähnlichkeit auf Verlustebene: Frühere Arbeiten (Luthra et al., 2025) zeigten nur die Ähnlichkeit von CL und NSCL auf Verlustfunktionsebene, was jedoch nicht die Konsistenz der Optimierungstrajektorie garantiert
Bedeutung der Repräsentationsausrichtung: Ähnlichkeit auf Verlustebene garantiert nicht, dass Parameter und Repräsentationen während des Trainings gekoppelt bleiben und können durch Unterschiede in Krümmung, Gradienten-Rauschen oder Lernratenplanung divergieren
Perspektive der gegenseitigen Information: Frühe Theorien verbanden CL mit Maximierung gegenseitiger Information zwischen Ansichten, aber übermäßige Einschränkung reduziert die Downstream-Leistung
Ausrichtung und Uniformität: Geometrische Kriterien sind zwar intuitiv, erklären aber nicht vollständig, wie verschiedene semantische Klassen unter CL-Training organisiert werden
Cluster-Recovery-Theorie: Die meisten Ergebnisse beruhen auf restriktiven Annahmen, wie bedingte Unabhängigkeit von Erweiterungen bei gegebener Cluster-Identität
Gegeben ein klassenausgewogener Datensatz S={(xi,yi)}i=1N⊂X×[C], wobei jede Klasse n Stichproben hat (N=Cn). Der Encoder fw:X→Rd bildet Eingaben auf Einbettungen ab.
Sei Σt∈[−1,1]N×N die paarweise Ähnlichkeitsmatrix einer festen Referenzmenge bei Schritt t. Analyse der gekoppelten Entwicklung von CL- und NSCL-Ähnlichkeiten:
ΣtCL,ΣtNSCL∈[−1,1]N×N
Für realisierte Mini-Batches Bt={(xj,xj′,yj)}j=1B definieren Sie die Batch-Gradient-Abbildung:
GtCL:=∇ΣℓˉBtCL(ΣtCL),GtNSCL:=∇ΣℓˉBtNSCL(ΣtNSCL)
Die Proxy-Aktualisierung ist:
Σt+1CL=ΣtCL−ηtGtCL,Σt+1NSCL=ΣtNSCL−ηtGtNSCL
Mit Wahrscheinlichkeit mindestens 1−δ, für jede Schrittweiten-Sequenz (ηt)t=0T−1:
∥ΣTCL−ΣTNSCL∥F≤exp(2τ2B1∑t=0T−1ηt)τB1(∑t=0T−1ηt)ΔC,δ(B;τ)
wobei ΔC,δ(B;τ)=1−C1−ϵB,δ2e2/τ(C1+ϵB,δ), ϵB,δ=2B1log(δTB).
Perspektive gegenseitiger Information: Frühe Verbindung von CL mit Maximierung gegenseitiger Information, aber übermäßige Einschränkung beeinträchtigt die Leistung
Geometrische Perspektive: Ausrichtungs- und Uniformitätseigenschaften, erklären aber nicht vollständig die semantische Klassenorganisation
Cluster-Recovery: Die meisten beruhen auf restriktiven Annahmen wie bedingter Unabhängigkeit
Stabilität der Repräsentationsausrichtung: CL und NSCL bleiben im Repräsentationsraum eng gekoppelt, obwohl Parameter divergieren können
Konsistenz zwischen Theorie und Praxis: Experimente validieren theoretische Vorhersagen von Klassen-, Temperatur- und Batchgrößeneffekten
NSCL als Brücke: NSCL verfolgt CL besser als andere überwachte Methoden und ist eine prinzipielle Brücke zwischen selbstüberwachtem und überwachtem Lernen
Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis
Zusammenfassung: Dieses Papier etabliert theoretisch tiefe Verbindungen zwischen selbstüberwachtem kontrastivem Lernen und überwachtem Lernen. Durch strenge mathematische Analyse wird die Ausrichtung auf Repräsentationsebene nachgewiesen und wichtige Einblicke in die Erfolgsmechanismen des selbstüberwachten Lernens bereitgestellt. Obwohl die praktische Anwendbarkeit theoretischer Grenzen begrenzt ist, leisten die methodische Innovation und experimentelle Validierung wichtige Beiträge zur theoretischen Entwicklung dieses Forschungsbereichs.