2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

Sull'Allineamento tra l'Apprendimento Contrastivo Supervisionato e Autosupervisionato

Informazioni Fondamentali

  • ID Articolo: 2510.08852
  • Titolo: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • Autori: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • Classificazione: cs.LG
  • Data di Pubblicazione: 9 ottobre 2025 (preprint)
  • Link Articolo: https://arxiv.org/abs/2510.08852v1

Riassunto

L'apprendimento contrastivo autosupervisionato (CL) ha ottenuto notevoli successi empirici, producendo tipicamente rappresentazioni comparabili al preaddestramento supervisionato. Recenti spiegazioni teoriche hanno chiarito questo fenomeno, dimostrando che quando il numero di classi aumenta, la perdita CL approssima strettamente una perdita supervisionata surrogata—l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL). Tuttavia, questa somiglianza a livello di perdita lascia aperta una questione fondamentale: CL e NSCL rimangono allineati a livello di rappresentazione durante l'intero processo di addestramento, non solo nella funzione obiettivo?

Questo articolo affronta la questione analizzando l'allineamento delle rappresentazioni di modelli CL e NSCL addestrati sotto casualità condivisa (stessa inizializzazione, batch e aumentamenti di dati). Lo studio dimostra che le rappresentazioni da essi indotte rimangono simili: specificamente, prova che le matrici di similarità di CL e NSCL rimangono vicine in condizioni realistiche. I limiti forniscono garanzie ad alta probabilità per metriche di allineamento (come l'Allineamento Kernel Centrato CKA e l'Analisi di Similarità Rappresentazionale RSA), e chiariscono come l'allineamento migliora con più classi, temperature più elevate, e la sua dipendenza dalla dimensione del batch.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questo articolo è: L'apprendimento contrastivo autosupervisionato (CL) e l'apprendimento contrastivo supervisionato solo con campioni negativi (NSCL) rimangono allineati a livello di rappresentazione durante il processo di addestramento?

Motivazione della Ricerca

  1. Divario tra Successo Empirico e Spiegazione Teorica: Sebbene CL funzioni eccezionalmente bene in pratica, rimane un mistero come apprenda caratteristiche allineate ai confini semantici delle classi
  2. Insufficienza della Somiglianza a Livello di Perdita: Lavori precedenti (Luthra et al., 2025) hanno provato solo la somiglianza tra CL e NSCL a livello di funzione di perdita, ma ciò non garantisce la coerenza delle traiettorie di ottimizzazione
  3. Importanza dell'Allineamento delle Rappresentazioni: La somiglianza a livello di perdita non garantisce che parametri e rappresentazioni rimangano accoppiati durante l'addestramento, potendo divergere a causa di differenze nella curvatura, rumore del gradiente o pianificazione del tasso di apprendimento

Limitazioni dei Metodi Esistenti

  • Prospettiva di Massimizzazione dell'Informazione Mutua: La teoria iniziale collega CL alla massimizzazione dell'informazione mutua tra viste, ma i vincoli eccessivi riducono le prestazioni downstream
  • Allineamento e Uniformità: Sebbene i criteri geometrici siano intuitivi, non spiegano completamente come le diverse classi semantiche si organizzano durante l'addestramento CL
  • Teoria del Recupero del Clustering: La maggior parte dei risultati si basa su ipotesi restrittive, come l'indipendenza condizionata degli aumentamenti data l'identità del cluster

Contributi Principali

  1. Contributi Teorici:
    • Prova che sotto casualità condivisa, le matrici di similarità di CL e NSCL rimangono vicine durante l'addestramento
    • Fornisce limiti inferiori ad alta probabilità per le metriche di allineamento CKA e RSA
    • Rivela come l'allineamento varia con il numero di classi, il parametro di temperatura e la dimensione del batch
  2. Innovazione Metodologica:
    • Transizione dall'analisi dello spazio dei parametri allo spazio delle rappresentazioni, evitando l'instabilità intrinseca dell'accoppiamento dello spazio dei parametri
    • Stabilisce una dinamica surrogata di "discesa della similarità" che traccia fedelmente l'evoluzione della similarità indotta da SGD nello spazio dei parametri
  3. Verifica Sperimentale:
    • Convalida le previsioni teoriche su più dataset
    • Dimostra che NSCL è più vicino a CL rispetto ad altri metodi supervisionati
    • Conferma il miglioramento dell'allineamento con la scala e la temperatura

Dettagli del Metodo

Definizione del Compito

Dato un dataset bilanciato per classe S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C], dove ogni classe ha nn campioni (N=CnN = Cn). L'encoder fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d mappa gli input in embedding.

Metodo Principale: Analisi dello Spazio di Similarità

1. Dinamica della Matrice di Similarità

Sia Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N} la matrice di similarità a coppie di un insieme di riferimento fisso al passo tt. Analizza l'evoluzione accoppiata della similarità di CL e NSCL: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. Discesa della Similarità Surrogata

Per il mini-batch realizzato Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B, definisci le mappe di gradiente del batch: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

L'aggiornamento surrogato è: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

Risultati Teorici Principali

Teorema 1: Accoppiamento dello Spazio di Similarità

Con probabilità almeno 1δ1-\delta, per qualsiasi sequenza di passi (ηt)t=0T1(\eta_t)_{t=0}^{T-1}: ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

dove ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}, ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}.

Limiti Inferiori di CKA e RSA

Corollario 1 (Limite Inferiore CKA): Nelle impostazioni del Teorema 1, con probabilità almeno 1δ1-\delta: CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

Corollario 2 (Limite Inferiore RSA): Similmente: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

Punti di Innovazione Tecnica

  1. Dallo Spazio dei Parametri allo Spazio delle Rappresentazioni: Evita i problemi di divergenza esponenziale nello spazio dei parametri
  2. Utilizzo dell'Ortogonalità a Blocchi: Sfrutta l'ortogonalità dei gradienti di diversi ancoraggi per semplificare l'analisi
  3. Stabilità Modulata dalla Temperatura: Il termine 1τ2B\frac{1}{\tau^2 B} nel fattore esponenziale rende lo spazio di similarità più stabile dello spazio dei parametri

Configurazione Sperimentale

Dataset

  • CIFAR-10/100: 50.000 immagini di addestramento, 10.000 immagini di validazione
  • Mini-ImageNet: Sottoinsieme di 100 classi di ImageNet-1K
  • Tiny-ImageNet: 100.000 immagini 64×64, 200 classi
  • ImageNet-1K: Dataset ImageNet completo

Metriche di Valutazione

  • CKA Lineare (Centered Kernel Alignment): Prodotto interno di Frobenius normalizzato delle matrici di similarità centrate
  • RSA (Representational Similarity Analysis): Correlazione di Pearson degli elementi non diagonali delle matrici di dissimilarità rappresentazionale
  • Accuratezza del Classificatore del Centro di Classe Più Vicino (NCCC) e Probe Lineare (LP)

Metodi di Confronto

  • NSCL: Apprendimento contrastivo supervisionato solo con campioni negativi
  • SCL: Apprendimento contrastivo supervisionato (Khosla et al., 2020)
  • CE: Perdita di entropia incrociata

Dettagli di Implementazione

  • Architettura: Encoder ResNet-50 + testa di proiezione MLP a due strati
  • Ottimizzatore: Ottimizzatore LARS, momentum 0.9, decadimento del peso 1e-6
  • Dimensione del Batch: 1024
  • Tasso di Apprendimento: Tasso di apprendimento di base 0.3, scalato per dimensione del batch
  • Strategia di Addestramento: 10 epoche di riscaldamento + pianificazione del tasso di apprendimento coseno

Risultati Sperimentali

Risultati Principali

1. Confronto dell'Allineamento tra Diversi Metodi Supervisionati

Su tutti i dataset, l'allineamento di NSCL con CL è costantemente il più alto:

  • Tiny-ImageNet: CKA di CL-NSCL raggiunge 0,87 dopo 1000 epoche, mentre CL-SCL è solo 0,043
  • Ordine di Allineamento: NSCL > CE > SCL

2. Impatto del Numero di Classi sull'Allineamento

Convalida le previsioni teoriche: più classi portano a un allineamento CL-NSCL più forte

  • Su tutti i dataset, i valori RSA e CKA aumentano monotonicamente con il numero di classi di addestramento CC'
  • Convalida completa da 2 a 1000 classi su ImageNet-1K

3. Impatto del Parametro di Temperatura

Temperature elevate migliorano l'allineamento, convalidando l'analisi teorica:

  • L'allineamento è massimo a τ=1,0\tau = 1,0
  • τ=0,5\tau = 0,5 e τ=0,1\tau = 0,1 diminuiscono successivamente
  • Mantiene una tendenza coerente su tutti i dataset

4. Impatto della Dimensione del Batch

Variazioni dell'allineamento sotto diversi scalamenti del tasso di apprendimento:

  • Scalamento O(B): L'allineamento diminuisce con la dimensione del batch
  • Scalamento O(\sqrt{B}), O(\sqrt4), O(1): L'allineamento aumenta con la dimensione del batch
  • I risultati sono coerenti con la dipendenza della relazione teorica

Spazio dei Parametri vs Spazio delle Rappresentazioni

  • Spazio dei Pesi: I parametri di CL e metodi supervisionati divergono rapidamente
  • Spazio delle Rappresentazioni: CKA e RSA mantengono elevato allineamento (>0,8)
  • Dimostra la stabilità dell'allineamento delle rappresentazioni rispetto alla divergenza dei parametri

Prestazioni su Compiti Downstream

DatasetCL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088,37/90,1694,47/94,0994,93/94,6792,97/93,39
CIFAR-10054,62/65,6560,14/68,3864,06/69,5267,35/68,04
Mini-ImageNet60,78/65,3063,92/72,6074,78/76,0075,20/74,00
Tiny-ImageNet40,59/44,6140,76/45,7948,63/48,7348,28/52,57

Lavori Correlati

Teoria dell'Apprendimento Contrastivo

  1. Prospettiva dell'Informazione Mutua: Collegamenti iniziali tra CL e massimizzazione dell'informazione mutua, ma vincoli eccessivi danneggiano le prestazioni
  2. Prospettiva Geometrica: Proprietà di allineamento e uniformità, ma non spiegano completamente l'organizzazione delle classi semantiche
  3. Recupero del Clustering: La maggior parte si basa su ipotesi restrittive, come l'indipendenza condizionata

Connessioni con l'Apprendimento Supervisionato

  1. Modelli Lineari: Gli obiettivi autosupervisionati come VicReg sono coerenti con le perdite quadratiche supervisionate
  2. Limiti Indipendenti dalle Etichette: Basati sul lavoro di Luthra et al. (2025) che stabilisce l'accoppiamento esplicito tra CL e NSCL

Altre Ricerche Teoriche

  • Dinamica dell'apprendimento delle caratteristiche, ruolo degli aumentamenti, analisi della testa di proiezione, complessità campionaria, ecc.

Conclusioni e Discussione

Conclusioni Principali

  1. Stabilità dell'Allineamento delle Rappresentazioni: CL e NSCL rimangono strettamente accoppiati nello spazio delle rappresentazioni, sebbene i parametri possano divergere
  2. Coerenza tra Teoria e Pratica: Gli esperimenti convalidano le previsioni teoriche degli effetti del numero di classi, temperatura e dimensione del batch
  3. NSCL come Ponte: NSCL traccia CL meglio di altri metodi supervisionati, fungendo da ponte principiato tra apprendimento autosupervisionato e supervisionato

Limitazioni

  1. Stretta dei Limiti: I limiti teorici possono essere eccessivamente ampi in scenari di larga scala e addestramento prolungato
  2. Analisi del Caso Peggiore: Utilizza limiti di concentrazione uniformi ad alta probabilità, favorendo la generalità rispetto alla stretta
  3. Fattore Esponenziale: In addestramento su larga scala oltre i primi round, il fattore esponenziale può invalidare i limiti

Direzioni Future

  1. Limiti più Stretti: Sfruttare la struttura dipendente dai dati piuttosto che limiti del caso peggiore
  2. Estensione ad Altri Paradigmi SSL: Estendere il framework a metodi non contrastivi
  3. Miglioramenti Pratici: Migliorare l'utilità delle garanzie mantenendo la stabilità

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Prima garanzia teorica rigorosa dell'allineamento CL-NSCL nello spazio delle rappresentazioni
  2. Innovazione Metodologica: L'approccio di analisi dello spazio di similarità è nuovo ed efficace
  3. Verifica Sperimentale Completa: Convalida su più dataset e angolazioni, design sperimentale solido
  4. Valore Pratico: Fornisce una nuova prospettiva per comprendere i meccanismi di successo dell'apprendimento autosupervisionato

Insufficienze

  1. Utilità Pratica dei Limiti: I limiti teorici possono essere eccessivamente ampi nelle applicazioni reali
  2. Limitazioni delle Ipotesi: L'ipotesi di casualità condivisa potrebbe non essere realistica nelle applicazioni pratiche
  3. Limitazioni del Metodo: Considera solo il paradigma contrastivo, non altri metodi SSL

Impatto

  1. Significato Teorico: Fornisce un importante complemento alla teoria dell'apprendimento autosupervisionato
  2. Ispirazione Metodologica: L'analisi dello spazio di similarità potrebbe ispirare ricerche successive
  3. Guida Pratica: Fornisce basi teoriche per la scelta di surrogati supervisionati appropriati

Scenari Applicabili

  • Ricerca che necessita di comprendere la relazione tra apprendimento autosupervisionato e supervisionato
  • Analisi teorica di metodi di apprendimento contrastivo
  • Studio della stabilità dell'apprendimento rappresentazionale

Bibliografia

  1. Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020): Supervised contrastive learning
  4. Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008): Representational similarity analysis

Sintesi: Questo articolo stabilisce teoricamente una connessione profonda tra l'apprendimento contrastivo autosupervisionato e l'apprendimento supervisionato, provando attraverso analisi matematica rigorosa l'allineamento a livello di rappresentazione, fornendo importanti intuizioni per comprendere i meccanismi di successo dell'apprendimento autosupervisionato. Sebbene l'utilità pratica dei limiti teorici sia limitata, l'innovazione metodologica e la verifica sperimentale rappresentano contributi importanti allo sviluppo teorico di questo campo.