2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti

Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].

academic

Sur l'Alignement Entre l'Apprentissage par Contraste Supervisé et Auto-Supervisé

Informations Fondamentales

ID de l'article: 2510.08852
Titre: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Auteurs: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
Classification: cs.LG
Date de publication: 9 octobre 2025 (prépublication)
Lien de l'article: https://arxiv.org/abs/2510.08852v1

Résumé

L'apprentissage par contraste auto-supervisé (CL) a obtenu un succès empirique remarquable, produisant généralement des représentations comparables à celles de l'apprentissage supervisé. Des explications théoriques récentes ont élucidé ce phénomène, montrant que lorsque le nombre de classes augmente, la perte CL s'approche étroitement d'un substitut supervisé — la perte d'apprentissage par contraste supervisé par négatifs uniquement (NSCL). Cependant, cette similarité au niveau de la perte laisse une question ouverte : CL et NSCL restent-ils alignés au niveau des représentations tout au long de l'entraînement, et non seulement au niveau de la fonction objectif ?

Cet article aborde cette question en analysant l'alignement des représentations de modèles CL et NSCL entraînés sous aléatoire partagée (initialisation identique, lots et augmentations de données). L'étude démontre que les représentations qu'ils induisent restent similaires : concrètement, elle prouve que les matrices de similarité de CL et NSCL restent proches dans des conditions réalistes. Les bornes fournissent des garanties de haute probabilité pour les métriques d'alignement (telles que l'alignement du noyau centré CKA et l'analyse de similarité des représentations RSA), et clarifient comment l'alignement s'améliore avec plus de classes, une température plus élevée, et sa dépendance à la taille des lots.

Contexte de Recherche et Motivation

Problème Central

La question centrale que cet article résout est : L'apprentissage par contraste auto-supervisé (CL) et l'apprentissage par contraste supervisé par négatifs uniquement (NSCL) restent-ils alignés au niveau des représentations pendant l'entraînement ?

Motivation de la Recherche

Écart entre succès empirique et explication théorique : Bien que CL soit performant en pratique, la raison pour laquelle il apprend des caractéristiques alignées avec les limites de classes sémantiques reste énigmatique
Insuffisance de la similarité au niveau de la perte : Les travaux antérieurs (Luthra et al., 2025) ont uniquement prouvé la similarité de CL et NSCL au niveau de la fonction de perte, ce qui ne garantit pas la cohérence des trajectoires d'optimisation
Importance de l'alignement des représentations : La similarité au niveau de la perte ne garantit pas que les paramètres et représentations restent couplés pendant l'entraînement, et peuvent diverger en raison de différences de courbure, bruit de gradient ou planification du taux d'apprentissage

Limitations des Approches Existantes

Perspective de maximisation de l'information mutuelle : Les théories antérieures relient CL à la maximisation de l'information mutuelle entre vues, mais les contraintes excessives réduisent les performances en aval
Alignement et uniformité : Bien que les critères géométriques soient intuitifs, ils n'expliquent pas complètement comment les différentes classes sémantiques s'organisent sous l'entraînement CL
Théorie de récupération de clustering : La plupart des résultats dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle des augmentations étant donné l'identité du cluster

Contributions Principales

Contributions théoriques :
- Preuve que sous aléatoire partagée, les matrices de similarité de CL et NSCL restent proches pendant l'entraînement
- Fourniture de bornes inférieures de haute probabilité pour les métriques d'alignement CKA et RSA
- Révélation de comment l'alignement varie avec le nombre de classes, le paramètre de température et la taille des lots
Innovations méthodologiques :
- Transition de l'analyse de l'espace des paramètres vers l'espace des représentations, évitant l'instabilité inhérente du couplage de l'espace des paramètres
- Établissement d'une dynamique de « décroissance de similarité » substitutive qui suit fidèlement l'évolution de la similarité induite par SGD dans l'espace des paramètres
Vérification expérimentale :
- Validation des prédictions théoriques sur plusieurs ensembles de données
- Preuve que NSCL est plus proche de CL que d'autres méthodes supervisées
- Confirmation que l'alignement s'améliore avec l'échelle et la température

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données équilibré par classe $S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]$ , où chaque classe contient $n$ échantillons ( $N = Cn$ ). L'encodeur $f_w: \mathcal{X} \to \mathbb{R}^d$ mappe les entrées vers des plongements.

Méthode Principale : Analyse de l'Espace de Similarité

1. Dynamique de la Matrice de Similarité

Soit $\Sigma_t \in [-1,1]^{N \times N}$ la matrice de similarité par paires d'un ensemble de référence fixe à l'étape $t$ . Analyse de l'évolution couplée de la similarité de CL et NSCL : $\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}$

2. Décroissance de Similarité Substitutive

Pour un mini-lot réalisé $B_t = \{(x_j, x'_j, y_j)\}_{j=1}^B$ , définition de la cartographie de gradient par lot : $G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)$

La mise à jour substitutive est : $\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t$

Résultats Théoriques Principaux

Théorème 1 : Couplage de l'Espace de Similarité

Avec probabilité au moins $1-\delta$ , pour toute séquence de pas $(\eta_t)_{t=0}^{T-1}$ : $\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)$

où $\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}$ , $\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}$ .

Bornes Inférieures CKA et RSA

Corollaire 1 (Borne Inférieure CKA) : Sous les conditions du Théorème 1, avec probabilité au moins $1-\delta$ : $CKA_T \geq \frac{1-\rho_T}{1+\rho_T}$

Corollaire 2 (Borne Inférieure RSA) : De manière similaire : $RSA_T \geq \frac{1-r_T}{1+r_T}$

Points d'Innovation Technique

De l'espace des paramètres à l'espace des représentations : Évite les problèmes de divergence exponentielle dans l'espace des paramètres
Exploitation de l'orthogonalité par bloc : Utilise l'orthogonalité des gradients de différents points d'ancrage pour simplifier l'analyse
Stabilité modulée par température : Le terme $\frac{1}{\tau^2 B}$ dans le facteur exponentiel rend l'espace de similarité plus stable que l'espace des paramètres

Configuration Expérimentale

Ensembles de Données

CIFAR-10/100 : 50 000 images d'entraînement, 10 000 images de validation
Mini-ImageNet : Sous-ensemble de 100 classes d'ImageNet-1K
Tiny-ImageNet : 100 000 images 64×64, 200 classes
ImageNet-1K : Ensemble de données ImageNet complet

Métriques d'Évaluation

CKA Linéaire (Centered Kernel Alignment) : Produit interne de Frobenius normalisé des matrices de similarité centralisées
RSA (Representational Similarity Analysis) : Corrélation de Pearson des éléments non-diagonaux des matrices de dissimilarité des représentations
Précision du Classificateur du Centre de Classe le Plus Proche (NCCC) et Sondage Linéaire (LP)

Méthodes de Comparaison

NSCL : Apprentissage par contraste supervisé par négatifs uniquement
SCL : Apprentissage par contraste supervisé (Khosla et al., 2020)
CE : Perte d'entropie croisée

Détails d'Implémentation

Architecture : Encodeur ResNet-50 + tête de projection MLP à deux couches
Optimiseur : Optimiseur LARS, momentum 0,9, décroissance de poids 1e-6
Taille des lots : 1024
Taux d'apprentissage : Taux d'apprentissage de base 0,3, mis à l'échelle par taille de lot
Stratégie d'entraînement : 10 tours de préchauffage + planification de taux d'apprentissage en cosinus

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de l'Alignement Entre Différentes Méthodes Supervisées

Sur tous les ensembles de données, l'alignement de NSCL avec CL est systématiquement le plus élevé :

Tiny-ImageNet : CKA de CL-NSCL atteint 0,87 après 1000 tours, tandis que CL-SCL n'atteint que 0,043
Ordre d'alignement : NSCL > CE > SCL

2. Impact du Nombre de Classes sur l'Alignement

Validation de la prédiction théorique : plus de classes conduisent à un alignement CL-NSCL plus fort

Sur tous les ensembles de données, les valeurs RSA et CKA augmentent de manière monotone avec le nombre de classes d'entraînement $C'$
Validation complète de 2 à 1000 classes sur ImageNet-1K

3. Impact du Paramètre de Température

Une température élevée améliore l'alignement, validant l'analyse théorique :

L'alignement est maximal à $\tau = 1,0$
$\tau = 0,5$ et $\tau = 0,1$ décroissent successivement
Tendance cohérente sur tous les ensembles de données

4. Impact de la Taille des Lots

Variation de l'alignement sous différentes mises à l'échelle du taux d'apprentissage :

Mise à l'échelle O(B) : L'alignement diminue avec la taille des lots
Mise à l'échelle O(√B), O(∜B), O(1) : L'alignement augmente avec la taille des lots
Les résultats sont cohérents avec la dépendance des bornes théoriques

Espace des Paramètres vs Espace des Représentations

Espace des poids : Les paramètres de CL et des méthodes supervisées divergent rapidement
Espace des représentations : CKA et RSA maintiennent un alignement élevé (>0,8)
Démontre la stabilité de l'alignement des représentations par rapport à la divergence des paramètres

Performance sur les Tâches en Aval

Ensemble de Données	CL(NCCC/LP)	NSCL(NCCC/LP)	SCL(NCCC/LP)	CE(NCCC/LP)
CIFAR-10	88,37/90,16	94,47/94,09	94,93/94,67	92,97/93,39
CIFAR-100	54,62/65,65	60,14/68,38	64,06/69,52	67,35/68,04
Mini-ImageNet	60,78/65,30	63,92/72,60	74,78/76,00	75,20/74,00
Tiny-ImageNet	40,59/44,61	40,76/45,79	48,63/48,73	48,28/52,57

Travaux Connexes

Théorie de l'Apprentissage par Contraste

Perspective de l'information mutuelle : Les premiers travaux relient CL à la maximisation de l'information mutuelle, mais les contraintes excessives nuisent aux performances
Perspective géométrique : Propriétés d'alignement et d'uniformité, mais n'expliquent pas complètement l'organisation des classes sémantiques
Récupération de clustering : La plupart dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle

Connexions avec l'Apprentissage Supervisé

Modèles linéaires : Les objectifs auto-supervisés comme VicReg s'alignent avec les pertes quadratiques supervisées
Bornes indépendantes des étiquettes : Basées sur le travail de Luthra et al. (2025) établissant le couplage explicite entre CL et NSCL

Autres Recherches Théoriques

Dynamique d'apprentissage des caractéristiques, rôle des augmentations, analyse de la tête de projection, complexité d'échantillon, etc.

Conclusions et Discussion

Conclusions Principales

Stabilité de l'alignement des représentations : CL et NSCL restent étroitement couplés dans l'espace des représentations, même si les paramètres peuvent diverger
Cohérence entre théorie et pratique : Les expériences valident les prédictions théoriques concernant les effets du nombre de classes, de la température et de la taille des lots
NSCL comme pont : NSCL suit mieux CL que d'autres méthodes supervisées, servant de pont principiel entre apprentissage auto-supervisé et supervisé

Limitations

Étanchéité des bornes : Les bornes théoriques peuvent être trop lâches dans les cas de grande échelle et d'entraînement prolongé
Analyse du pire cas : Utilise des bornes de concentration de haute probabilité uniformes, privilégiant la généralité à l'étanchéité
Facteur exponentiel : Pour les entraînements à grande échelle dépassant les premiers tours, le facteur exponentiel peut rendre les bornes invalides

Directions Futures

Bornes plus étanches : Exploitation de structures dépendantes des données plutôt que de bornes du pire cas
Extension à d'autres paradigmes SSL : Extension du cadre aux méthodes non-contrastives
Amélioration de l'utilité pratique : Amélioration de l'utilité pratique des garanties tout en maintenant la stabilité

Évaluation Approfondie

Points Forts

Contribution théorique significative : Première garantie théorique rigoureuse de l'alignement CL-NSCL dans l'espace des représentations
Innovation méthodologique : L'approche d'analyse de l'espace de similarité, passant de l'espace des paramètres, est nouvelle et efficace
Expérimentation complète : Validation multi-ensembles de données et multi-angles des prédictions théoriques, conception expérimentale rigoureuse
Valeur pratique : Fournit une nouvelle perspective pour comprendre les mécanismes de succès de l'apprentissage auto-supervisé

Insuffisances

Utilité pratique des bornes : Les bornes théoriques peuvent être trop lâches pour les applications pratiques
Limitations des hypothèses : L'hypothèse d'aléatoire partagée peut ne pas être réaliste dans les applications pratiques
Limitations méthodologiques : Considère uniquement le paradigme d'apprentissage par contraste, n'aborde pas d'autres méthodes SSL

Impact

Signification théorique : Fournit un complément important à la théorie de l'apprentissage auto-supervisé
Inspiration méthodologique : La méthode d'analyse de l'espace de similarité peut inspirer les recherches ultérieures
Orientation pratique : Fournit une base théorique pour le choix de substituts supervisés appropriés

Scénarios Applicables

Recherche nécessitant de comprendre la relation entre apprentissage auto-supervisé et supervisé
Analyse théorique des méthodes d'apprentissage par contraste
Études de stabilité de l'apprentissage des représentations

Références

Luthra et al. (2025) : Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020) : A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020) : Supervised contrastive learning
Kornblith et al. (2019) : Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008) : Representational similarity analysis

Résumé : Cet article établit théoriquement une connexion profonde entre l'apprentissage par contraste auto-supervisé et l'apprentissage supervisé, prouvant par analyse mathématique rigoureuse l'alignement au niveau des représentations, fournissant des perspectives importantes pour comprendre les mécanismes de succès de l'apprentissage auto-supervisé. Bien que l'utilité pratique des bornes théoriques soit limitée, son innovation méthodologique et sa vérification expérimentale constituent une contribution importante au développement théorique du domaine.