2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti

Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].

academic

Sull'Allineamento tra l'Apprendimento Contrastivo Supervisionato e Autosupervisionato

Informazioni Fondamentali

ID Articolo: 2510.08852
Titolo: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Autori: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
Classificazione: cs.LG
Data di Pubblicazione: 9 ottobre 2025 (preprint)
Link Articolo: https://arxiv.org/abs/2510.08852v1

Riassunto

L'apprendimento contrastivo autosupervisionato (CL) ha ottenuto notevoli successi empirici, producendo tipicamente rappresentazioni comparabili al preaddestramento supervisionato. Recenti spiegazioni teoriche hanno chiarito questo fenomeno, dimostrando che quando il numero di classi aumenta, la perdita CL approssima strettamente una perdita supervisionata surrogata—l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL). Tuttavia, questa somiglianza a livello di perdita lascia aperta una questione fondamentale: CL e NSCL rimangono allineati a livello di rappresentazione durante l'intero processo di addestramento, non solo nella funzione obiettivo?

Questo articolo affronta la questione analizzando l'allineamento delle rappresentazioni di modelli CL e NSCL addestrati sotto casualità condivisa (stessa inizializzazione, batch e aumentamenti di dati). Lo studio dimostra che le rappresentazioni da essi indotte rimangono simili: specificamente, prova che le matrici di similarità di CL e NSCL rimangono vicine in condizioni realistiche. I limiti forniscono garanzie ad alta probabilità per metriche di allineamento (come l'Allineamento Kernel Centrato CKA e l'Analisi di Similarità Rappresentazionale RSA), e chiariscono come l'allineamento migliora con più classi, temperature più elevate, e la sua dipendenza dalla dimensione del batch.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questo articolo è: L'apprendimento contrastivo autosupervisionato (CL) e l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL) rimangono allineati a livello di rappresentazione durante il processo di addestramento?

Motivazione della Ricerca

Divario tra Successo Empirico e Spiegazione Teorica: Sebbene CL funzioni eccezionalmente bene in pratica, rimane un mistero come apprenda caratteristiche allineate ai confini semantici delle classi
Insufficienza della Somiglianza a Livello di Perdita: Lavori precedenti (Luthra et al., 2025) hanno provato solo la somiglianza tra CL e NSCL a livello di funzione di perdita, ma ciò non garantisce la coerenza delle traiettorie di ottimizzazione
Importanza dell'Allineamento delle Rappresentazioni: La somiglianza a livello di perdita non garantisce che parametri e rappresentazioni rimangano accoppiati durante l'addestramento, potendo divergere a causa di differenze nella curvatura, rumore del gradiente o pianificazione del tasso di apprendimento

Limitazioni dei Metodi Esistenti

Prospettiva di Massimizzazione dell'Informazione Mutua: La teoria iniziale collega CL alla massimizzazione dell'informazione mutua tra viste, ma i vincoli eccessivi riducono le prestazioni downstream
Allineamento e Uniformità: Sebbene i criteri geometrici siano intuitivi, non spiegano completamente come le diverse classi semantiche si organizzano durante l'addestramento CL
Teoria del Recupero del Clustering: La maggior parte dei risultati si basa su ipotesi restrittive, come l'indipendenza condizionata degli aumentamenti data l'identità del cluster

Contributi Principali

Contributi Teorici:
- Prova che sotto casualità condivisa, le matrici di similarità di CL e NSCL rimangono vicine durante l'addestramento
- Fornisce limiti inferiori ad alta probabilità per le metriche di allineamento CKA e RSA
- Rivela come l'allineamento varia con il numero di classi, il parametro di temperatura e la dimensione del batch
Innovazione Metodologica:
- Transizione dall'analisi dello spazio dei parametri allo spazio delle rappresentazioni, evitando l'instabilità intrinseca dell'accoppiamento dello spazio dei parametri
- Stabilisce una dinamica surrogata di "discesa della similarità" che traccia fedelmente l'evoluzione della similarità indotta da SGD nello spazio dei parametri
Verifica Sperimentale:
- Convalida le previsioni teoriche su più dataset
- Dimostra che NSCL è più vicino a CL rispetto ad altri metodi supervisionati
- Conferma il miglioramento dell'allineamento con la scala e la temperatura

Dettagli del Metodo

Definizione del Compito

Dato un dataset bilanciato per classe $S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]$ , dove ogni classe ha $n$ campioni ( $N = Cn$ ). L'encoder $f_w: \mathcal{X} \to \mathbb{R}^d$ mappa gli input in embedding.

Metodo Principale: Analisi dello Spazio di Similarità

1. Dinamica della Matrice di Similarità

Sia $\Sigma_t \in [-1,1]^{N \times N}$ la matrice di similarità a coppie di un insieme di riferimento fisso al passo $t$ . Analizza l'evoluzione accoppiata della similarità di CL e NSCL: $\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}$

2. Discesa della Similarità Surrogata

Per il mini-batch realizzato $B_t = \{(x_j, x'_j, y_j)\}_{j=1}^B$ , definisci le mappe di gradiente del batch: $G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)$

L'aggiornamento surrogato è: $\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t$

Risultati Teorici Principali

Teorema 1: Accoppiamento dello Spazio di Similarità

Con probabilità almeno $1-\delta$ , per qualsiasi sequenza di passi $(\eta_t)_{t=0}^{T-1}$ : $\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)$

dove $\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}$ , $\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}$ .

Limiti Inferiori di CKA e RSA

Corollario 1 (Limite Inferiore CKA): Nelle impostazioni del Teorema 1, con probabilità almeno $1-\delta$ : $CKA_T \geq \frac{1-\rho_T}{1+\rho_T}$

Corollario 2 (Limite Inferiore RSA): Similmente: $RSA_T \geq \frac{1-r_T}{1+r_T}$

Punti di Innovazione Tecnica

Dallo Spazio dei Parametri allo Spazio delle Rappresentazioni: Evita i problemi di divergenza esponenziale nello spazio dei parametri
Utilizzo dell'Ortogonalità a Blocchi: Sfrutta l'ortogonalità dei gradienti di diversi ancoraggi per semplificare l'analisi
Stabilità Modulata dalla Temperatura: Il termine $\frac{1}{\tau^2 B}$ nel fattore esponenziale rende lo spazio di similarità più stabile dello spazio dei parametri

Configurazione Sperimentale

Dataset

CIFAR-10/100: 50.000 immagini di addestramento, 10.000 immagini di validazione
Mini-ImageNet: Sottoinsieme di 100 classi di ImageNet-1K
Tiny-ImageNet: 100.000 immagini 64×64, 200 classi
ImageNet-1K: Dataset ImageNet completo

Metriche di Valutazione

CKA Lineare (Centered Kernel Alignment): Prodotto interno di Frobenius normalizzato delle matrici di similarità centrate
RSA (Representational Similarity Analysis): Correlazione di Pearson degli elementi non diagonali delle matrici di dissimilarità rappresentazionale
Accuratezza del Classificatore del Centro di Classe Più Vicino (NCCC) e Probe Lineare (LP)

Metodi di Confronto

NSCL: Apprendimento contrastivo supervisionato solo con campioni negativi
SCL: Apprendimento contrastivo supervisionato (Khosla et al., 2020)
CE: Perdita di entropia incrociata

Dettagli di Implementazione

Architettura: Encoder ResNet-50 + testa di proiezione MLP a due strati
Ottimizzatore: Ottimizzatore LARS, momentum 0.9, decadimento del peso 1e-6
Dimensione del Batch: 1024
Tasso di Apprendimento: Tasso di apprendimento di base 0.3, scalato per dimensione del batch
Strategia di Addestramento: 10 epoche di riscaldamento + pianificazione del tasso di apprendimento coseno

Risultati Sperimentali

Risultati Principali

1. Confronto dell'Allineamento tra Diversi Metodi Supervisionati

Su tutti i dataset, l'allineamento di NSCL con CL è costantemente il più alto:

Tiny-ImageNet: CKA di CL-NSCL raggiunge 0,87 dopo 1000 epoche, mentre CL-SCL è solo 0,043
Ordine di Allineamento: NSCL > CE > SCL

2. Impatto del Numero di Classi sull'Allineamento

Convalida le previsioni teoriche: più classi portano a un allineamento CL-NSCL più forte

Su tutti i dataset, i valori RSA e CKA aumentano monotonicamente con il numero di classi di addestramento $C'$
Convalida completa da 2 a 1000 classi su ImageNet-1K

3. Impatto del Parametro di Temperatura

Temperature elevate migliorano l'allineamento, convalidando l'analisi teorica:

L'allineamento è massimo a $\tau = 1,0$
$\tau = 0,5$ e $\tau = 0,1$ diminuiscono successivamente
Mantiene una tendenza coerente su tutti i dataset

4. Impatto della Dimensione del Batch

Variazioni dell'allineamento sotto diversi scalamenti del tasso di apprendimento:

Scalamento O(B): L'allineamento diminuisce con la dimensione del batch
Scalamento O(\sqrt{B}), O(\sqrt4), O(1): L'allineamento aumenta con la dimensione del batch
I risultati sono coerenti con la dipendenza della relazione teorica

Spazio dei Parametri vs Spazio delle Rappresentazioni

Spazio dei Pesi: I parametri di CL e metodi supervisionati divergono rapidamente
Spazio delle Rappresentazioni: CKA e RSA mantengono elevato allineamento (>0,8)
Dimostra la stabilità dell'allineamento delle rappresentazioni rispetto alla divergenza dei parametri

Prestazioni su Compiti Downstream

Dataset	CL(NCCC/LP)	NSCL(NCCC/LP)	SCL(NCCC/LP)	CE(NCCC/LP)
CIFAR-10	88,37/90,16	94,47/94,09	94,93/94,67	92,97/93,39
CIFAR-100	54,62/65,65	60,14/68,38	64,06/69,52	67,35/68,04
Mini-ImageNet	60,78/65,30	63,92/72,60	74,78/76,00	75,20/74,00
Tiny-ImageNet	40,59/44,61	40,76/45,79	48,63/48,73	48,28/52,57

Lavori Correlati

Teoria dell'Apprendimento Contrastivo

Prospettiva dell'Informazione Mutua: Collegamenti iniziali tra CL e massimizzazione dell'informazione mutua, ma vincoli eccessivi danneggiano le prestazioni
Prospettiva Geometrica: Proprietà di allineamento e uniformità, ma non spiegano completamente l'organizzazione delle classi semantiche
Recupero del Clustering: La maggior parte si basa su ipotesi restrittive, come l'indipendenza condizionata

Connessioni con l'Apprendimento Supervisionato

Modelli Lineari: Gli obiettivi autosupervisionati come VicReg sono coerenti con le perdite quadratiche supervisionate
Limiti Indipendenti dalle Etichette: Basati sul lavoro di Luthra et al. (2025) che stabilisce l'accoppiamento esplicito tra CL e NSCL

Altre Ricerche Teoriche

Dinamica dell'apprendimento delle caratteristiche, ruolo degli aumentamenti, analisi della testa di proiezione, complessità campionaria, ecc.

Conclusioni e Discussione

Conclusioni Principali

Stabilità dell'Allineamento delle Rappresentazioni: CL e NSCL rimangono strettamente accoppiati nello spazio delle rappresentazioni, sebbene i parametri possano divergere
Coerenza tra Teoria e Pratica: Gli esperimenti convalidano le previsioni teoriche degli effetti del numero di classi, temperatura e dimensione del batch
NSCL come Ponte: NSCL traccia CL meglio di altri metodi supervisionati, fungendo da ponte principiato tra apprendimento autosupervisionato e supervisionato

Limitazioni

Stretta dei Limiti: I limiti teorici possono essere eccessivamente ampi in scenari di larga scala e addestramento prolungato
Analisi del Caso Peggiore: Utilizza limiti di concentrazione uniformi ad alta probabilità, favorendo la generalità rispetto alla stretta
Fattore Esponenziale: In addestramento su larga scala oltre i primi round, il fattore esponenziale può invalidare i limiti

Direzioni Future

Limiti più Stretti: Sfruttare la struttura dipendente dai dati piuttosto che limiti del caso peggiore
Estensione ad Altri Paradigmi SSL: Estendere il framework a metodi non contrastivi
Miglioramenti Pratici: Migliorare l'utilità delle garanzie mantenendo la stabilità

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Prima garanzia teorica rigorosa dell'allineamento CL-NSCL nello spazio delle rappresentazioni
Innovazione Metodologica: L'approccio di analisi dello spazio di similarità è nuovo ed efficace
Verifica Sperimentale Completa: Convalida su più dataset e angolazioni, design sperimentale solido
Valore Pratico: Fornisce una nuova prospettiva per comprendere i meccanismi di successo dell'apprendimento autosupervisionato

Insufficienze

Utilità Pratica dei Limiti: I limiti teorici possono essere eccessivamente ampi nelle applicazioni reali
Limitazioni delle Ipotesi: L'ipotesi di casualità condivisa potrebbe non essere realistica nelle applicazioni pratiche
Limitazioni del Metodo: Considera solo il paradigma contrastivo, non altri metodi SSL

Impatto

Significato Teorico: Fornisce un importante complemento alla teoria dell'apprendimento autosupervisionato
Ispirazione Metodologica: L'analisi dello spazio di similarità potrebbe ispirare ricerche successive
Guida Pratica: Fornisce basi teoriche per la scelta di surrogati supervisionati appropriati

Scenari Applicabili

Ricerca che necessita di comprendere la relazione tra apprendimento autosupervisionato e supervisionato
Analisi teorica di metodi di apprendimento contrastivo
Studio della stabilità dell'apprendimento rappresentazionale

Bibliografia

Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis

Sintesi: Questo articolo stabilisce teoricamente una connessione profonda tra l'apprendimento contrastivo autosupervisionato e l'apprendimento supervisionato, provando attraverso analisi matematica rigorosa l'allineamento a livello di rappresentazione, fornendo importanti intuizioni per comprendere i meccanismi di successo dell'apprendimento autosupervisionato. Sebbene l'utilità pratica dei limiti teorici sia limitata, l'innovazione metodologica e la verifica sperimentale rappresentano contributi importanti allo sviluppo teorico di questo campo.