On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic
Sull'Allineamento tra l'Apprendimento Contrastivo Supervisionato e Autosupervisionato
L'apprendimento contrastivo autosupervisionato (CL) ha ottenuto notevoli successi empirici, producendo tipicamente rappresentazioni comparabili al preaddestramento supervisionato. Recenti spiegazioni teoriche hanno chiarito questo fenomeno, dimostrando che quando il numero di classi aumenta, la perdita CL approssima strettamente una perdita supervisionata surrogata—l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL). Tuttavia, questa somiglianza a livello di perdita lascia aperta una questione fondamentale: CL e NSCL rimangono allineati a livello di rappresentazione durante l'intero processo di addestramento, non solo nella funzione obiettivo?
Questo articolo affronta la questione analizzando l'allineamento delle rappresentazioni di modelli CL e NSCL addestrati sotto casualità condivisa (stessa inizializzazione, batch e aumentamenti di dati). Lo studio dimostra che le rappresentazioni da essi indotte rimangono simili: specificamente, prova che le matrici di similarità di CL e NSCL rimangono vicine in condizioni realistiche. I limiti forniscono garanzie ad alta probabilità per metriche di allineamento (come l'Allineamento Kernel Centrato CKA e l'Analisi di Similarità Rappresentazionale RSA), e chiariscono come l'allineamento migliora con più classi, temperature più elevate, e la sua dipendenza dalla dimensione del batch.
Il problema centrale affrontato da questo articolo è: L'apprendimento contrastivo autosupervisionato (CL) e l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL) rimangono allineati a livello di rappresentazione durante il processo di addestramento?
Divario tra Successo Empirico e Spiegazione Teorica: Sebbene CL funzioni eccezionalmente bene in pratica, rimane un mistero come apprenda caratteristiche allineate ai confini semantici delle classi
Insufficienza della Somiglianza a Livello di Perdita: Lavori precedenti (Luthra et al., 2025) hanno provato solo la somiglianza tra CL e NSCL a livello di funzione di perdita, ma ciò non garantisce la coerenza delle traiettorie di ottimizzazione
Importanza dell'Allineamento delle Rappresentazioni: La somiglianza a livello di perdita non garantisce che parametri e rappresentazioni rimangano accoppiati durante l'addestramento, potendo divergere a causa di differenze nella curvatura, rumore del gradiente o pianificazione del tasso di apprendimento
Prospettiva di Massimizzazione dell'Informazione Mutua: La teoria iniziale collega CL alla massimizzazione dell'informazione mutua tra viste, ma i vincoli eccessivi riducono le prestazioni downstream
Allineamento e Uniformità: Sebbene i criteri geometrici siano intuitivi, non spiegano completamente come le diverse classi semantiche si organizzano durante l'addestramento CL
Teoria del Recupero del Clustering: La maggior parte dei risultati si basa su ipotesi restrittive, come l'indipendenza condizionata degli aumentamenti data l'identità del cluster
Prova che sotto casualità condivisa, le matrici di similarità di CL e NSCL rimangono vicine durante l'addestramento
Fornisce limiti inferiori ad alta probabilità per le metriche di allineamento CKA e RSA
Rivela come l'allineamento varia con il numero di classi, il parametro di temperatura e la dimensione del batch
Innovazione Metodologica:
Transizione dall'analisi dello spazio dei parametri allo spazio delle rappresentazioni, evitando l'instabilità intrinseca dell'accoppiamento dello spazio dei parametri
Stabilisce una dinamica surrogata di "discesa della similarità" che traccia fedelmente l'evoluzione della similarità indotta da SGD nello spazio dei parametri
Verifica Sperimentale:
Convalida le previsioni teoriche su più dataset
Dimostra che NSCL è più vicino a CL rispetto ad altri metodi supervisionati
Conferma il miglioramento dell'allineamento con la scala e la temperatura
Dato un dataset bilanciato per classe S={(xi,yi)}i=1N⊂X×[C], dove ogni classe ha n campioni (N=Cn). L'encoder fw:X→Rd mappa gli input in embedding.
Sia Σt∈[−1,1]N×N la matrice di similarità a coppie di un insieme di riferimento fisso al passo t. Analizza l'evoluzione accoppiata della similarità di CL e NSCL:
ΣtCL,ΣtNSCL∈[−1,1]N×N
Per il mini-batch realizzato Bt={(xj,xj′,yj)}j=1B, definisci le mappe di gradiente del batch:
GtCL:=∇ΣℓˉBtCL(ΣtCL),GtNSCL:=∇ΣℓˉBtNSCL(ΣtNSCL)
Prospettiva dell'Informazione Mutua: Collegamenti iniziali tra CL e massimizzazione dell'informazione mutua, ma vincoli eccessivi danneggiano le prestazioni
Prospettiva Geometrica: Proprietà di allineamento e uniformità, ma non spiegano completamente l'organizzazione delle classi semantiche
Recupero del Clustering: La maggior parte si basa su ipotesi restrittive, come l'indipendenza condizionata
Stabilità dell'Allineamento delle Rappresentazioni: CL e NSCL rimangono strettamente accoppiati nello spazio delle rappresentazioni, sebbene i parametri possano divergere
Coerenza tra Teoria e Pratica: Gli esperimenti convalidano le previsioni teoriche degli effetti del numero di classi, temperatura e dimensione del batch
NSCL come Ponte: NSCL traccia CL meglio di altri metodi supervisionati, fungendo da ponte principiato tra apprendimento autosupervisionato e supervisionato
Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis
Sintesi: Questo articolo stabilisce teoricamente una connessione profonda tra l'apprendimento contrastivo autosupervisionato e l'apprendimento supervisionato, provando attraverso analisi matematica rigorosa l'allineamento a livello di rappresentazione, fornendo importanti intuizioni per comprendere i meccanismi di successo dell'apprendimento autosupervisionato. Sebbene l'utilità pratica dei limiti teorici sia limitata, l'innovazione metodologica e la verifica sperimentale rappresentano contributi importanti allo sviluppo teorico di questo campo.