On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic
Sur l'Alignement Entre l'Apprentissage par Contraste Supervisé et Auto-Supervisé
L'apprentissage par contraste auto-supervisé (CL) a obtenu un succès empirique remarquable, produisant généralement des représentations comparables à celles de l'apprentissage supervisé. Des explications théoriques récentes ont élucidé ce phénomène, montrant que lorsque le nombre de classes augmente, la perte CL s'approche étroitement d'un substitut supervisé — la perte d'apprentissage par contraste supervisé par négatifs uniquement (NSCL). Cependant, cette similarité au niveau de la perte laisse une question ouverte : CL et NSCL restent-ils alignés au niveau des représentations tout au long de l'entraînement, et non seulement au niveau de la fonction objectif ?
Cet article aborde cette question en analysant l'alignement des représentations de modèles CL et NSCL entraînés sous aléatoire partagée (initialisation identique, lots et augmentations de données). L'étude démontre que les représentations qu'ils induisent restent similaires : concrètement, elle prouve que les matrices de similarité de CL et NSCL restent proches dans des conditions réalistes. Les bornes fournissent des garanties de haute probabilité pour les métriques d'alignement (telles que l'alignement du noyau centré CKA et l'analyse de similarité des représentations RSA), et clarifient comment l'alignement s'améliore avec plus de classes, une température plus élevée, et sa dépendance à la taille des lots.
La question centrale que cet article résout est : L'apprentissage par contraste auto-supervisé (CL) et l'apprentissage par contraste supervisé par négatifs uniquement (NSCL) restent-ils alignés au niveau des représentations pendant l'entraînement ?
Écart entre succès empirique et explication théorique : Bien que CL soit performant en pratique, la raison pour laquelle il apprend des caractéristiques alignées avec les limites de classes sémantiques reste énigmatique
Insuffisance de la similarité au niveau de la perte : Les travaux antérieurs (Luthra et al., 2025) ont uniquement prouvé la similarité de CL et NSCL au niveau de la fonction de perte, ce qui ne garantit pas la cohérence des trajectoires d'optimisation
Importance de l'alignement des représentations : La similarité au niveau de la perte ne garantit pas que les paramètres et représentations restent couplés pendant l'entraînement, et peuvent diverger en raison de différences de courbure, bruit de gradient ou planification du taux d'apprentissage
Perspective de maximisation de l'information mutuelle : Les théories antérieures relient CL à la maximisation de l'information mutuelle entre vues, mais les contraintes excessives réduisent les performances en aval
Alignement et uniformité : Bien que les critères géométriques soient intuitifs, ils n'expliquent pas complètement comment les différentes classes sémantiques s'organisent sous l'entraînement CL
Théorie de récupération de clustering : La plupart des résultats dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle des augmentations étant donné l'identité du cluster
Preuve que sous aléatoire partagée, les matrices de similarité de CL et NSCL restent proches pendant l'entraînement
Fourniture de bornes inférieures de haute probabilité pour les métriques d'alignement CKA et RSA
Révélation de comment l'alignement varie avec le nombre de classes, le paramètre de température et la taille des lots
Innovations méthodologiques :
Transition de l'analyse de l'espace des paramètres vers l'espace des représentations, évitant l'instabilité inhérente du couplage de l'espace des paramètres
Établissement d'une dynamique de « décroissance de similarité » substitutive qui suit fidèlement l'évolution de la similarité induite par SGD dans l'espace des paramètres
Vérification expérimentale :
Validation des prédictions théoriques sur plusieurs ensembles de données
Preuve que NSCL est plus proche de CL que d'autres méthodes supervisées
Confirmation que l'alignement s'améliore avec l'échelle et la température
Étant donné un ensemble de données équilibré par classe S={(xi,yi)}i=1N⊂X×[C], où chaque classe contient n échantillons (N=Cn). L'encodeur fw:X→Rd mappe les entrées vers des plongements.
Soit Σt∈[−1,1]N×N la matrice de similarité par paires d'un ensemble de référence fixe à l'étape t. Analyse de l'évolution couplée de la similarité de CL et NSCL :
ΣtCL,ΣtNSCL∈[−1,1]N×N
Pour un mini-lot réalisé Bt={(xj,xj′,yj)}j=1B, définition de la cartographie de gradient par lot :
GtCL:=∇ΣℓˉBtCL(ΣtCL),GtNSCL:=∇ΣℓˉBtNSCL(ΣtNSCL)
La mise à jour substitutive est :
Σt+1CL=ΣtCL−ηtGtCL,Σt+1NSCL=ΣtNSCL−ηtGtNSCL
Perspective de l'information mutuelle : Les premiers travaux relient CL à la maximisation de l'information mutuelle, mais les contraintes excessives nuisent aux performances
Perspective géométrique : Propriétés d'alignement et d'uniformité, mais n'expliquent pas complètement l'organisation des classes sémantiques
Récupération de clustering : La plupart dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle
Stabilité de l'alignement des représentations : CL et NSCL restent étroitement couplés dans l'espace des représentations, même si les paramètres peuvent diverger
Cohérence entre théorie et pratique : Les expériences valident les prédictions théoriques concernant les effets du nombre de classes, de la température et de la taille des lots
NSCL comme pont : NSCL suit mieux CL que d'autres méthodes supervisées, servant de pont principiel entre apprentissage auto-supervisé et supervisé
Luthra et al. (2025) : Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020) : A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020) : Supervised contrastive learning
Kornblith et al. (2019) : Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008) : Representational similarity analysis
Résumé : Cet article établit théoriquement une connexion profonde entre l'apprentissage par contraste auto-supervisé et l'apprentissage supervisé, prouvant par analyse mathématique rigoureuse l'alignement au niveau des représentations, fournissant des perspectives importantes pour comprendre les mécanismes de succès de l'apprentissage auto-supervisé. Bien que l'utilité pratique des bornes théoriques soit limitée, son innovation méthodologique et sa vérification expérimentale constituent une contribution importante au développement théorique du domaine.