2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

Zur Ausrichtung zwischen überwachtem und selbstüberwachtem kontrastivem Lernen

Grundlegende Informationen

  • Papier-ID: 2510.08852
  • Titel: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • Autoren: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • Klassifizierung: cs.LG
  • Veröffentlichungsdatum: 9. Oktober 2025 (Preprint)
  • Papier-Link: https://arxiv.org/abs/2510.08852v1

Zusammenfassung

Selbstüberwachtes kontrastives Lernen (CL) hat empirisch bemerkenswerte Erfolge erzielt und erzeugt typischerweise Repräsentationen, die mit überwachtem Vortraining vergleichbar sind. Neuere theoretische Erklärungen zeigen dieses Phänomen auf, indem sie demonstrieren, dass die CL-Verlustfunktion bei wachsender Klassenzahl eng eine überwachte Proxy-Funktion approximiert – die Verlustfunktion des reinen Negativstichproben-überwachten kontrastiven Lernens (NSCL). Diese Ähnlichkeit auf Verlustebene lässt jedoch eine offene Frage offen: Bleiben CL und NSCL während des gesamten Trainings auch auf Repräsentationsebene ausgerichtet, nicht nur bei der Zielfunktion?

Dieses Papier adressiert diese Frage durch Analyse der Repräsentationsausrichtung von CL- und NSCL-Modellen, die unter gemeinsamer Zufälligkeit trainiert werden (identische Initialisierung, Batches und Datenerweiterung). Die Forschung zeigt, dass die von ihnen induzierten Repräsentationen ähnlich bleiben: Konkret wird nachgewiesen, dass unter realistischen Bedingungen die Ähnlichkeitsmatrizen von CL und NSCL nah beieinander bleiben. Die Grenzen bieten hochwahrscheinliche Garantien für Ausrichtungsmetriken (wie zentralisierte Kernel-Ausrichtung CKA und Repräsentationsähnlichkeitsanalyse RSA) und klären auf, wie sich die Ausrichtung mit mehr Klassen und höherer Temperatur verbessert sowie ihre Abhängigkeit von der Batchgröße.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem, das dieses Papier adressiert, ist: Bleiben selbstüberwachtes kontrastives Lernen (CL) und reines Negativstichproben-überwachtes kontrastives Lernen (NSCL) während des Trainings auf Repräsentationsebene ausgerichtet?

Forschungsmotivation

  1. Lücke zwischen empirischem Erfolg und theoretischer Erklärung: Obwohl CL in der Praxis hervorragend funktioniert, bleibt rätselhaft, warum es Merkmale lernt, die mit semantischen Klassengrenzen ausgerichtet sind
  2. Unzulänglichkeit der Ähnlichkeit auf Verlustebene: Frühere Arbeiten (Luthra et al., 2025) zeigten nur die Ähnlichkeit von CL und NSCL auf Verlustfunktionsebene, was jedoch nicht die Konsistenz der Optimierungstrajektorie garantiert
  3. Bedeutung der Repräsentationsausrichtung: Ähnlichkeit auf Verlustebene garantiert nicht, dass Parameter und Repräsentationen während des Trainings gekoppelt bleiben und können durch Unterschiede in Krümmung, Gradienten-Rauschen oder Lernratenplanung divergieren

Einschränkungen bestehender Methoden

  • Perspektive der gegenseitigen Information: Frühe Theorien verbanden CL mit Maximierung gegenseitiger Information zwischen Ansichten, aber übermäßige Einschränkung reduziert die Downstream-Leistung
  • Ausrichtung und Uniformität: Geometrische Kriterien sind zwar intuitiv, erklären aber nicht vollständig, wie verschiedene semantische Klassen unter CL-Training organisiert werden
  • Cluster-Recovery-Theorie: Die meisten Ergebnisse beruhen auf restriktiven Annahmen, wie bedingte Unabhängigkeit von Erweiterungen bei gegebener Cluster-Identität

Kernbeiträge

  1. Theoretische Beiträge:
    • Nachweis, dass unter gemeinsamer Zufälligkeit die Ähnlichkeitsmatrizen von CL und NSCL während des Trainings nah beieinander bleiben
    • Bereitstellung hochwahrscheinlicher Untergrenzen für CKA- und RSA-Ausrichtungsmetriken
    • Aufklärung, wie sich die Ausrichtung mit Klassenzahl, Temperaturparameter und Batchgröße ändert
  2. Methodische Innovation:
    • Übergang von Parameterraum- zu Repräsentationsraumanalyse, wodurch inhärente Instabilität der Parameterkopplung vermieden wird
    • Etablierung von "Ähnlichkeitsabstiegs"-Proxy-Dynamik, die die durch Parameterraum-SGD induzierte Ähnlichkeitsentwicklung treu verfolgt
  3. Experimentelle Validierung:
    • Validierung theoretischer Vorhersagen auf mehreren Datensätzen
    • Nachweis, dass NSCL anderen überwachten Methoden näher bei CL liegt
    • Bestätigung der verbesserten Ausrichtung mit Skalierung und Temperatur

Methodische Details

Aufgabendefinition

Gegeben ein klassenausgewogener Datensatz S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C], wobei jede Klasse nn Stichproben hat (N=CnN = Cn). Der Encoder fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d bildet Eingaben auf Einbettungen ab.

Kernmethode: Ähnlichkeitsraumanalyse

1. Ähnlichkeitsmatrix-Dynamik

Sei Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N} die paarweise Ähnlichkeitsmatrix einer festen Referenzmenge bei Schritt tt. Analyse der gekoppelten Entwicklung von CL- und NSCL-Ähnlichkeiten: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. Proxy-Ähnlichkeitsabstieg

Für realisierte Mini-Batches Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B definieren Sie die Batch-Gradient-Abbildung: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

Die Proxy-Aktualisierung ist: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

Haupttheoretische Ergebnisse

Satz 1: Ähnlichkeitsraum-Kopplung

Mit Wahrscheinlichkeit mindestens 1δ1-\delta, für jede Schrittweiten-Sequenz (ηt)t=0T1(\eta_t)_{t=0}^{T-1}: ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

wobei ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}, ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}.

CKA- und RSA-Untergrenzen

Korollar 1 (CKA-Untergrenze): Unter den Bedingungen von Satz 1, mit Wahrscheinlichkeit mindestens 1δ1-\delta: CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

Korollar 2 (RSA-Untergrenze): Ähnlich: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

Technische Innovationspunkte

  1. Von Parameterraum zu Repräsentationsraum: Vermeidung exponentieller Divergenzprobleme im Parameterraum
  2. Nutzung von Block-Orthogonalität: Ausnutzung der Orthogonalität von Gradienten verschiedener Ankerpunkte zur Vereinfachung der Analyse
  3. Temperatur-modulierte Stabilität: Der Term 1τ2B\frac{1}{\tau^2 B} im Exponentialfaktor macht den Ähnlichkeitsraum stabiler als den Parameterraum

Experimentelle Einrichtung

Datensätze

  • CIFAR-10/100: 50.000 Trainingsbilder, 10.000 Validierungsbilder
  • Mini-ImageNet: Teilmenge von 100 Klassen aus ImageNet-1K
  • Tiny-ImageNet: 100.000 64×64-Bilder, 200 Klassen
  • ImageNet-1K: Vollständiger ImageNet-Datensatz

Bewertungsmetriken

  • Lineare CKA (Centered Kernel Alignment): Normalisiertes Frobenius-Innenprodukt zentralisierter Ähnlichkeitsmatrizen
  • RSA (Representational Similarity Analysis): Pearson-Korrelation außerdiagonaler Elemente von Repräsentations-Unähnlichkeitsmatrizen
  • Klassifizierer mit nächstem Klassenzentrum (NCCC) und Lineare Sondierung (LP) Genauigkeit

Vergleichsmethoden

  • NSCL: Reines Negativstichproben-überwachtes kontrastives Lernen
  • SCL: Überwachtes kontrastives Lernen (Khosla et al., 2020)
  • CE: Kreuzentropie-Verlust

Implementierungsdetails

  • Architektur: ResNet-50 Encoder + zweischichtiger MLP-Projektionskopf
  • Optimierer: LARS-Optimierer, Impuls 0,9, Gewichtsabfall 1e-6
  • Batchgröße: 1024
  • Lernrate: Basis-Lernrate 0,3, skaliert nach Batchgröße
  • Trainingsstrategie: 10 Aufwärm-Epochen + Kosinus-Lernratenplanung

Experimentelle Ergebnisse

Hauptergebnisse

1. Vergleich der Ausrichtung verschiedener überwachter Methoden

Auf allen Datensätzen ist die Ausrichtung von NSCL mit CL durchgehend am höchsten:

  • Tiny-ImageNet: CKA von CL-NSCL erreicht nach 1000 Epochen 0,87, während CL-SCL nur 0,043 beträgt
  • Ausrichtungsreihenfolge: NSCL > CE > SCL

2. Einfluss der Klassenzahl auf die Ausrichtung

Validierung der theoretischen Vorhersage: Mehr Klassen führen zu stärkerer CL-NSCL-Ausrichtung

  • Auf allen Datensätzen steigen RSA- und CKA-Werte monoton mit der Anzahl der Trainingsklassen CC'
  • Vollständige Validierung auf ImageNet-1K von 2 bis 1000 Klassen

3. Einfluss des Temperaturparameters

Höhere Temperatur verbessert die Ausrichtung, validiert theoretische Analyse:

  • Höchste Ausrichtung bei τ=1,0\tau = 1,0
  • Nachfolgende Abnahme bei τ=0,5\tau = 0,5 und τ=0,1\tau = 0,1
  • Konsistenter Trend über alle Datensätze

4. Einfluss der Batchgröße

Ausrichtungsänderungen unter verschiedenen Lernraten-Skalierungen:

  • O(B)-Skalierung: Ausrichtung nimmt mit Batchgröße ab
  • O(√B), O(∜B), O(1)-Skalierung: Ausrichtung nimmt mit Batchgröße zu
  • Ergebnisse stimmen mit Abhängigkeitsbeziehungen der theoretischen Grenzen überein

Parameterraum vs. Repräsentationsraum

  • Gewichtsraum: Parameter von CL und überwachten Methoden divergieren schnell
  • Repräsentationsraum: CKA und RSA behalten hohe Ausrichtung (>0,8)
  • Demonstriert Stabilität der Repräsentationsausrichtung im Gegensatz zu Parameterdivergenz

Downstream-Task-Leistung

DatensatzCL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088,37/90,1694,47/94,0994,93/94,6792,97/93,39
CIFAR-10054,62/65,6560,14/68,3864,06/69,5267,35/68,04
Mini-ImageNet60,78/65,3063,92/72,6074,78/76,0075,20/74,00
Tiny-ImageNet40,59/44,6140,76/45,7948,63/48,7348,28/52,57

Verwandte Arbeiten

Theorie des kontrastiven Lernens

  1. Perspektive gegenseitiger Information: Frühe Verbindung von CL mit Maximierung gegenseitiger Information, aber übermäßige Einschränkung beeinträchtigt die Leistung
  2. Geometrische Perspektive: Ausrichtungs- und Uniformitätseigenschaften, erklären aber nicht vollständig die semantische Klassenorganisation
  3. Cluster-Recovery: Die meisten beruhen auf restriktiven Annahmen wie bedingter Unabhängigkeit

Verbindungen zum überwachten Lernen

  1. Lineare Modelle: Selbstüberwachte Ziele wie VicReg stimmen mit überwachten quadratischen Verlusten überein
  2. Labelunabhängige Grenzen: Basierend auf Luthra et al. (2025), das explizite Kopplung von CL und NSCL etabliert

Andere theoretische Forschung

  • Merkmalslern-Dynamik, Rolle von Erweiterungen, Projektionskopf-Analyse, Stichprobenkomplexität usw.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Stabilität der Repräsentationsausrichtung: CL und NSCL bleiben im Repräsentationsraum eng gekoppelt, obwohl Parameter divergieren können
  2. Konsistenz zwischen Theorie und Praxis: Experimente validieren theoretische Vorhersagen von Klassen-, Temperatur- und Batchgrößeneffekten
  3. NSCL als Brücke: NSCL verfolgt CL besser als andere überwachte Methoden und ist eine prinzipielle Brücke zwischen selbstüberwachtem und überwachtem Lernen

Einschränkungen

  1. Straffheit der Grenzen: Theoretische Grenzen können bei großen Maßstäben und langem Training zu locker sein
  2. Worst-Case-Analyse: Verwendung einheitlich hochwahrscheinlicher Konzentrationsgrenzen, bevorzugt Allgemeingültigkeit gegenüber Straffheit
  3. Exponentialfaktor: Bei Training über mehrere Epochen hinaus können Exponentialfaktoren Grenzen ungültig machen

Zukünftige Richtungen

  1. Straffere Grenzen: Nutzung datenabhängiger Strukturen statt Worst-Case-Grenzen
  2. Erweiterung auf andere SSL-Paradigmen: Erweiterung des Rahmens auf nicht-kontrastive Methoden
  3. Praktische Verbesserungen: Verbesserung der Praktikabilität von Garantien bei Beibehaltung der Stabilität

Tiefgreifende Bewertung

Stärken

  1. Signifikante theoretische Beiträge: Erste strenge theoretische Garantien für CL-NSCL-Ausrichtung im Repräsentationsraum
  2. Methodische Innovation: Neuartige und effektive Analysestrategie vom Parameter- zum Ähnlichkeitsraum
  3. Umfassende Experimente: Validierung theoretischer Vorhersagen über mehrere Datensätze und Perspektiven mit sorgfältigem Experimentdesign
  4. Praktischer Wert: Neue Perspektive auf Verständnis der Erfolgsmechanismen des selbstüberwachten Lernens

Mängel

  1. Praktikabilität der Grenzen: Theoretische Grenzen können in praktischen Anwendungen zu locker sein
  2. Annahmebeschränkungen: Annahme gemeinsamer Zufälligkeit kann in praktischen Anwendungen unrealistisch sein
  3. Methodische Einschränkungen: Berücksichtigung nur des kontrastiven Lernens-Paradigmas, nicht anderer SSL-Methoden

Einflussfähigkeit

  1. Theoretische Bedeutung: Wichtige Ergänzung zur Theorie des selbstüberwachten Lernens
  2. Methodische Inspiration: Ähnlichkeitsraumanalysemethode kann nachfolgende Forschung inspirieren
  3. Praktische Anleitung: Theoretische Grundlage für Auswahl geeigneter überwachter Proxies

Anwendungsszenarien

  • Forschung, die das Verständnis der Beziehung zwischen selbstüberwachtem und überwachtem Lernen erfordert
  • Theoretische Analyse von Kontrastlernmethoden
  • Stabilitätsforschung des Repräsentationslernens

Literaturverzeichnis

  1. Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020): Supervised contrastive learning
  4. Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008): Representational similarity analysis

Zusammenfassung: Dieses Papier etabliert theoretisch tiefe Verbindungen zwischen selbstüberwachtem kontrastivem Lernen und überwachtem Lernen. Durch strenge mathematische Analyse wird die Ausrichtung auf Repräsentationsebene nachgewiesen und wichtige Einblicke in die Erfolgsmechanismen des selbstüberwachten Lernens bereitgestellt. Obwohl die praktische Anwendbarkeit theoretischer Grenzen begrenzt ist, leisten die methodische Innovation und experimentelle Validierung wichtige Beiträge zur theoretischen Entwicklung dieses Forschungsbereichs.