2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

Sur l'Alignement Entre l'Apprentissage par Contraste Supervisé et Auto-Supervisé

Informations Fondamentales

  • ID de l'article: 2510.08852
  • Titre: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • Auteurs: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • Classification: cs.LG
  • Date de publication: 9 octobre 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2510.08852v1

Résumé

L'apprentissage par contraste auto-supervisé (CL) a obtenu un succès empirique remarquable, produisant généralement des représentations comparables à celles de l'apprentissage supervisé. Des explications théoriques récentes ont élucidé ce phénomène, montrant que lorsque le nombre de classes augmente, la perte CL s'approche étroitement d'un substitut supervisé — la perte d'apprentissage par contraste supervisé par négatifs uniquement (NSCL). Cependant, cette similarité au niveau de la perte laisse une question ouverte : CL et NSCL restent-ils alignés au niveau des représentations tout au long de l'entraînement, et non seulement au niveau de la fonction objectif ?

Cet article aborde cette question en analysant l'alignement des représentations de modèles CL et NSCL entraînés sous aléatoire partagée (initialisation identique, lots et augmentations de données). L'étude démontre que les représentations qu'ils induisent restent similaires : concrètement, elle prouve que les matrices de similarité de CL et NSCL restent proches dans des conditions réalistes. Les bornes fournissent des garanties de haute probabilité pour les métriques d'alignement (telles que l'alignement du noyau centré CKA et l'analyse de similarité des représentations RSA), et clarifient comment l'alignement s'améliore avec plus de classes, une température plus élevée, et sa dépendance à la taille des lots.

Contexte de Recherche et Motivation

Problème Central

La question centrale que cet article résout est : L'apprentissage par contraste auto-supervisé (CL) et l'apprentissage par contraste supervisé par négatifs uniquement (NSCL) restent-ils alignés au niveau des représentations pendant l'entraînement ?

Motivation de la Recherche

  1. Écart entre succès empirique et explication théorique : Bien que CL soit performant en pratique, la raison pour laquelle il apprend des caractéristiques alignées avec les limites de classes sémantiques reste énigmatique
  2. Insuffisance de la similarité au niveau de la perte : Les travaux antérieurs (Luthra et al., 2025) ont uniquement prouvé la similarité de CL et NSCL au niveau de la fonction de perte, ce qui ne garantit pas la cohérence des trajectoires d'optimisation
  3. Importance de l'alignement des représentations : La similarité au niveau de la perte ne garantit pas que les paramètres et représentations restent couplés pendant l'entraînement, et peuvent diverger en raison de différences de courbure, bruit de gradient ou planification du taux d'apprentissage

Limitations des Approches Existantes

  • Perspective de maximisation de l'information mutuelle : Les théories antérieures relient CL à la maximisation de l'information mutuelle entre vues, mais les contraintes excessives réduisent les performances en aval
  • Alignement et uniformité : Bien que les critères géométriques soient intuitifs, ils n'expliquent pas complètement comment les différentes classes sémantiques s'organisent sous l'entraînement CL
  • Théorie de récupération de clustering : La plupart des résultats dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle des augmentations étant donné l'identité du cluster

Contributions Principales

  1. Contributions théoriques :
    • Preuve que sous aléatoire partagée, les matrices de similarité de CL et NSCL restent proches pendant l'entraînement
    • Fourniture de bornes inférieures de haute probabilité pour les métriques d'alignement CKA et RSA
    • Révélation de comment l'alignement varie avec le nombre de classes, le paramètre de température et la taille des lots
  2. Innovations méthodologiques :
    • Transition de l'analyse de l'espace des paramètres vers l'espace des représentations, évitant l'instabilité inhérente du couplage de l'espace des paramètres
    • Établissement d'une dynamique de « décroissance de similarité » substitutive qui suit fidèlement l'évolution de la similarité induite par SGD dans l'espace des paramètres
  3. Vérification expérimentale :
    • Validation des prédictions théoriques sur plusieurs ensembles de données
    • Preuve que NSCL est plus proche de CL que d'autres méthodes supervisées
    • Confirmation que l'alignement s'améliore avec l'échelle et la température

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données équilibré par classe S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C], où chaque classe contient nn échantillons (N=CnN = Cn). L'encodeur fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d mappe les entrées vers des plongements.

Méthode Principale : Analyse de l'Espace de Similarité

1. Dynamique de la Matrice de Similarité

Soit Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N} la matrice de similarité par paires d'un ensemble de référence fixe à l'étape tt. Analyse de l'évolution couplée de la similarité de CL et NSCL : ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. Décroissance de Similarité Substitutive

Pour un mini-lot réalisé Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B, définition de la cartographie de gradient par lot : GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

La mise à jour substitutive est : Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

Résultats Théoriques Principaux

Théorème 1 : Couplage de l'Espace de Similarité

Avec probabilité au moins 1δ1-\delta, pour toute séquence de pas (ηt)t=0T1(\eta_t)_{t=0}^{T-1} : ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}, ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}.

Bornes Inférieures CKA et RSA

Corollaire 1 (Borne Inférieure CKA) : Sous les conditions du Théorème 1, avec probabilité au moins 1δ1-\delta : CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

Corollaire 2 (Borne Inférieure RSA) : De manière similaire : RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

Points d'Innovation Technique

  1. De l'espace des paramètres à l'espace des représentations : Évite les problèmes de divergence exponentielle dans l'espace des paramètres
  2. Exploitation de l'orthogonalité par bloc : Utilise l'orthogonalité des gradients de différents points d'ancrage pour simplifier l'analyse
  3. Stabilité modulée par température : Le terme 1τ2B\frac{1}{\tau^2 B} dans le facteur exponentiel rend l'espace de similarité plus stable que l'espace des paramètres

Configuration Expérimentale

Ensembles de Données

  • CIFAR-10/100 : 50 000 images d'entraînement, 10 000 images de validation
  • Mini-ImageNet : Sous-ensemble de 100 classes d'ImageNet-1K
  • Tiny-ImageNet : 100 000 images 64×64, 200 classes
  • ImageNet-1K : Ensemble de données ImageNet complet

Métriques d'Évaluation

  • CKA Linéaire (Centered Kernel Alignment) : Produit interne de Frobenius normalisé des matrices de similarité centralisées
  • RSA (Representational Similarity Analysis) : Corrélation de Pearson des éléments non-diagonaux des matrices de dissimilarité des représentations
  • Précision du Classificateur du Centre de Classe le Plus Proche (NCCC) et Sondage Linéaire (LP)

Méthodes de Comparaison

  • NSCL : Apprentissage par contraste supervisé par négatifs uniquement
  • SCL : Apprentissage par contraste supervisé (Khosla et al., 2020)
  • CE : Perte d'entropie croisée

Détails d'Implémentation

  • Architecture : Encodeur ResNet-50 + tête de projection MLP à deux couches
  • Optimiseur : Optimiseur LARS, momentum 0,9, décroissance de poids 1e-6
  • Taille des lots : 1024
  • Taux d'apprentissage : Taux d'apprentissage de base 0,3, mis à l'échelle par taille de lot
  • Stratégie d'entraînement : 10 tours de préchauffage + planification de taux d'apprentissage en cosinus

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de l'Alignement Entre Différentes Méthodes Supervisées

Sur tous les ensembles de données, l'alignement de NSCL avec CL est systématiquement le plus élevé :

  • Tiny-ImageNet : CKA de CL-NSCL atteint 0,87 après 1000 tours, tandis que CL-SCL n'atteint que 0,043
  • Ordre d'alignement : NSCL > CE > SCL

2. Impact du Nombre de Classes sur l'Alignement

Validation de la prédiction théorique : plus de classes conduisent à un alignement CL-NSCL plus fort

  • Sur tous les ensembles de données, les valeurs RSA et CKA augmentent de manière monotone avec le nombre de classes d'entraînement CC'
  • Validation complète de 2 à 1000 classes sur ImageNet-1K

3. Impact du Paramètre de Température

Une température élevée améliore l'alignement, validant l'analyse théorique :

  • L'alignement est maximal à τ=1,0\tau = 1,0
  • τ=0,5\tau = 0,5 et τ=0,1\tau = 0,1 décroissent successivement
  • Tendance cohérente sur tous les ensembles de données

4. Impact de la Taille des Lots

Variation de l'alignement sous différentes mises à l'échelle du taux d'apprentissage :

  • Mise à l'échelle O(B) : L'alignement diminue avec la taille des lots
  • Mise à l'échelle O(√B), O(∜B), O(1) : L'alignement augmente avec la taille des lots
  • Les résultats sont cohérents avec la dépendance des bornes théoriques

Espace des Paramètres vs Espace des Représentations

  • Espace des poids : Les paramètres de CL et des méthodes supervisées divergent rapidement
  • Espace des représentations : CKA et RSA maintiennent un alignement élevé (>0,8)
  • Démontre la stabilité de l'alignement des représentations par rapport à la divergence des paramètres

Performance sur les Tâches en Aval

Ensemble de DonnéesCL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088,37/90,1694,47/94,0994,93/94,6792,97/93,39
CIFAR-10054,62/65,6560,14/68,3864,06/69,5267,35/68,04
Mini-ImageNet60,78/65,3063,92/72,6074,78/76,0075,20/74,00
Tiny-ImageNet40,59/44,6140,76/45,7948,63/48,7348,28/52,57

Travaux Connexes

Théorie de l'Apprentissage par Contraste

  1. Perspective de l'information mutuelle : Les premiers travaux relient CL à la maximisation de l'information mutuelle, mais les contraintes excessives nuisent aux performances
  2. Perspective géométrique : Propriétés d'alignement et d'uniformité, mais n'expliquent pas complètement l'organisation des classes sémantiques
  3. Récupération de clustering : La plupart dépendent d'hypothèses restrictives, telles que l'indépendance conditionnelle

Connexions avec l'Apprentissage Supervisé

  1. Modèles linéaires : Les objectifs auto-supervisés comme VicReg s'alignent avec les pertes quadratiques supervisées
  2. Bornes indépendantes des étiquettes : Basées sur le travail de Luthra et al. (2025) établissant le couplage explicite entre CL et NSCL

Autres Recherches Théoriques

  • Dynamique d'apprentissage des caractéristiques, rôle des augmentations, analyse de la tête de projection, complexité d'échantillon, etc.

Conclusions et Discussion

Conclusions Principales

  1. Stabilité de l'alignement des représentations : CL et NSCL restent étroitement couplés dans l'espace des représentations, même si les paramètres peuvent diverger
  2. Cohérence entre théorie et pratique : Les expériences valident les prédictions théoriques concernant les effets du nombre de classes, de la température et de la taille des lots
  3. NSCL comme pont : NSCL suit mieux CL que d'autres méthodes supervisées, servant de pont principiel entre apprentissage auto-supervisé et supervisé

Limitations

  1. Étanchéité des bornes : Les bornes théoriques peuvent être trop lâches dans les cas de grande échelle et d'entraînement prolongé
  2. Analyse du pire cas : Utilise des bornes de concentration de haute probabilité uniformes, privilégiant la généralité à l'étanchéité
  3. Facteur exponentiel : Pour les entraînements à grande échelle dépassant les premiers tours, le facteur exponentiel peut rendre les bornes invalides

Directions Futures

  1. Bornes plus étanches : Exploitation de structures dépendantes des données plutôt que de bornes du pire cas
  2. Extension à d'autres paradigmes SSL : Extension du cadre aux méthodes non-contrastives
  3. Amélioration de l'utilité pratique : Amélioration de l'utilité pratique des garanties tout en maintenant la stabilité

Évaluation Approfondie

Points Forts

  1. Contribution théorique significative : Première garantie théorique rigoureuse de l'alignement CL-NSCL dans l'espace des représentations
  2. Innovation méthodologique : L'approche d'analyse de l'espace de similarité, passant de l'espace des paramètres, est nouvelle et efficace
  3. Expérimentation complète : Validation multi-ensembles de données et multi-angles des prédictions théoriques, conception expérimentale rigoureuse
  4. Valeur pratique : Fournit une nouvelle perspective pour comprendre les mécanismes de succès de l'apprentissage auto-supervisé

Insuffisances

  1. Utilité pratique des bornes : Les bornes théoriques peuvent être trop lâches pour les applications pratiques
  2. Limitations des hypothèses : L'hypothèse d'aléatoire partagée peut ne pas être réaliste dans les applications pratiques
  3. Limitations méthodologiques : Considère uniquement le paradigme d'apprentissage par contraste, n'aborde pas d'autres méthodes SSL

Impact

  1. Signification théorique : Fournit un complément important à la théorie de l'apprentissage auto-supervisé
  2. Inspiration méthodologique : La méthode d'analyse de l'espace de similarité peut inspirer les recherches ultérieures
  3. Orientation pratique : Fournit une base théorique pour le choix de substituts supervisés appropriés

Scénarios Applicables

  • Recherche nécessitant de comprendre la relation entre apprentissage auto-supervisé et supervisé
  • Analyse théorique des méthodes d'apprentissage par contraste
  • Études de stabilité de l'apprentissage des représentations

Références

  1. Luthra et al. (2025) : Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020) : A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020) : Supervised contrastive learning
  4. Kornblith et al. (2019) : Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008) : Representational similarity analysis

Résumé : Cet article établit théoriquement une connexion profonde entre l'apprentissage par contraste auto-supervisé et l'apprentissage supervisé, prouvant par analyse mathématique rigoureuse l'alignement au niveau des représentations, fournissant des perspectives importantes pour comprendre les mécanismes de succès de l'apprentissage auto-supervisé. Bien que l'utilité pratique des bornes théoriques soit limitée, son innovation méthodologique et sa vérification expérimentale constituent une contribution importante au développement théorique du domaine.