2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee
Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
academic

Comprendre l'apprentissage contrastif auto-supervisé par le biais d'objectifs supervisés

Informations de base

  • ID de l'article: 2510.10572
  • Titre: Understanding Self-supervised Contrastive Learning through Supervised Objectives
  • Auteur: Byeongchan Lee (KAIST)
  • Classification: cs.LG (Apprentissage automatique)
  • Conférence de publication: Transactions on Machine Learning Research (10/2025)
  • Lien de l'article: https://arxiv.org/abs/2510.10572

Résumé

L'apprentissage de représentations auto-supervisées a connu un succès empirique impressionnant, mais sa compréhension théorique reste limitée. Cet article fournit une perspective théorique en formulant l'apprentissage de représentations auto-supervisées comme une approximation d'objectifs d'apprentissage de représentations supervisées. Sur la base de cette formulation, l'auteur dérive des fonctions de perte étroitement liées aux pertes contrastives populaires telles que InfoNCE, fournissant des intuitions pour comprendre les principes sous-jacents. Le processus de dérivation introduit naturellement les concepts de biais de représentation prototypique et de perte contrastive équilibrée, contribuant à expliquer et améliorer le comportement des algorithmes d'apprentissage auto-supervisé.

Contexte de recherche et motivation

Problèmes fondamentaux

  1. Manque de compréhension théorique: Bien que l'apprentissage auto-supervisé ait connu un succès empirique, ses fondations théoriques restent insuffisantes, manquant d'une compréhension approfondie de pourquoi ces méthodes sont efficaces.
  2. Nature empirique de la conception des méthodes: Les méthodes d'apprentissage auto-supervisé existantes progressent principalement par l'innovation architecturale plutôt que par des objectifs formalisés, manquant de guidance théorique.
  3. Relation entre apprentissage supervisé et auto-supervisé non clarifiée: Les connexions intrinsèques entre l'apprentissage supervisé et l'apprentissage auto-supervisé n'ont pas été suffisamment élucidées.

Motivation de la recherche

  • Construction de fondations théoriques: Fournir une base théorique solide pour l'apprentissage auto-supervisé, expliquant les raisons fondamentales de son efficacité
  • Guidance pour l'amélioration des méthodes: Fournir une guidance principielle pour la conception d'algorithmes par l'analyse théorique
  • Pont entre apprentissage supervisé et auto-supervisé: Établir des connexions théoriques entre les deux paradigmes d'apprentissage

Contributions principales

  1. Construction d'un cadre théorique: Proposer un cadre théorique formulant l'apprentissage de représentations auto-supervisées comme une approximation de l'apprentissage de représentations supervisées, et en dériver des fonctions de perte contrastive étroitement liées à la perte InfoNCE
  2. Fourniture d'intuitions théoriques: Fournir des explications théoriques pour les pratiques courantes en apprentissage contrastif (telles que la normalisation des représentations, l'utilisation d'ensembles de données équilibrés)
  3. Introduction de concepts: Introduire le concept de biais de représentation prototypique et observer sa corrélation avec les performances en aval
  4. Amélioration des méthodes: Proposer la perte contrastive équilibrée comme extension naturelle de la perte InfoNCE, réalisant de meilleures performances par l'amélioration de l'équilibre

Détails de la méthode

Définition de la tâche

Définir la tâche d'apprentissage de représentations comme l'apprentissage d'un encodeur fθ:XRd{0}f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\} tel que:

  • Les représentations d'images partageant le même concept visuel se regroupent ensemble
  • Les représentations d'images de concepts visuels différents se séparent mutuellement

Cadre théorique

Problème d'apprentissage de représentations supervisées

Formuler d'abord l'apprentissage supervisé comme un problème d'optimisation prototypique: minθs(fθ(t(x)),μy)+λmaxyys(fθ(t(x)),μy)\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})

où:

  • s(,)s(·,·) est une mesure de similarité (similarité cosinus)
  • μyμ_y est la représentation prototypique du label yy
  • λ>0λ > 0 est un paramètre d'équilibre

Construction de représentations prototypiques

Définir la représentation prototypique comme l'espérance des représentations d'images de même label: μ^y:=ET,Xyfθ(T(X))\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))

Approximation auto-supervisée

Dans le cadre auto-supervisé, utiliser une représentation prototypique de substitution: μ~:=ETfθ(T(x))\tilde{μ} := \mathbb{E}_T f_θ(T(x))

Dérivation théorique

Borne supérieure du terme d'attraction (Théorème 4.4)

Sous les hypothèses de similarité cosinus et de normalisation L2: s(fθ(t(x)),ETfθ(T(x)))ETs(fθ(t(x)),fθ(T(x)))-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))

Borne supérieure du terme de répulsion (Théorème 4.6)

Sous l'hypothèse d'ensemble de données équilibré: maxyys(fθ(t(x)),ET,Xyfθ(T(X)))ET[1ναlogEXexp(αs(fθ(t(x)),fθ(T(X))))]+1ναlogn\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n

Fonction de perte totale

Combinant les bornes supérieures ci-dessus: l~(θ)=1αT^tT^[logexp(αs(fθ(t(x)),fθ(t(x))))(xX^exp(αs(fθ(t(x)),fθ(t(x)))))λ/ν]\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]

Points d'innovation technique

  1. Pont théorique: Établir pour la première fois une connexion théorique formalisée entre l'apprentissage supervisé et l'apprentissage auto-supervisé
  2. Dérivation de bornes: Obtenir des bornes traitables par dérivation mathématique rigoureuse
  3. Analyse du biais prototypique: Quantifier le biais introduit par l'approximation auto-supervisée et analyser son impact
  4. Conception de perte équilibrée: Proposer une fonction de perte améliorée basée sur l'analyse théorique

Configuration expérimentale

Ensembles de données

  • Ensemble de données principal: ImageNet (1 281 167 images d'entraînement, 50 000 images de validation, 1 000 classes)
  • Ensembles de données supplémentaires: CIFAR-10 (50 000 images d'entraînement, 10 000 images de test, 10 classes)
  • Ensemble de données déséquilibré: ImageNet-LT (115 846 images, suivant une distribution de Pareto)

Métriques d'évaluation

  • Évaluation linéaire: Précision Top-1 en entraînant un classificateur linéaire sur le backbone pré-entraîné gelé
  • Évaluation k-NN: Précision de classification k-NN basée sur la similarité des représentations

Méthodes de comparaison

  • Méthodes de base: SimCLR et ses variantes
  • Variantes de fonctions de perte:
    • Perte contrastive équilibrée
    • Perte NT-Xent généralisée
    • Perte contrastive découplée

Détails d'implémentation

  • Architecture réseau: Backbone ResNet-50 + projecteur MLP 3 couches
  • Configuration d'entraînement: Taille de batch 512, 100 epochs, optimiseur SGD
  • Augmentation de données: Recadrage aléatoire, distorsion de couleur, conversion en niveaux de gris, flou gaussien, retournement horizontal

Résultats expérimentaux

Résultats principaux

Expériences de vérification théorique

  1. Relation entre biais de représentation prototypique et performance:
    • SimCLR de base: 65,98% de précision, biais de 36,72
    • Suppression du flou gaussien: 64,57% de précision, biais de 37,43
    • Ajout de rotation aléatoire: 63,30% de précision, biais de 38,11
    • Découverte: Un biais de représentation prototypique plus faible correspond à une précision plus élevée
  2. Impact de la mesure de similarité:
    • Similarité cosinus + normalisation: 65,98%
    • Produit scalaire (sans normalisation): 0,43%
    • Distance euclidienne négative (sans normalisation): 10,63%
  3. Impact de l'équilibre des données:
    • Distribution uniforme: 20,82%
    • Distribution à queue longue: 13,65%

Expériences de paramètres d'équilibre

Résultats ImageNet

  • Perte contrastive équilibrée: Performance optimale à (α=4, λ=2) atteignant 67,40%
  • Perte NT-Xent généralisée: Performance optimale à (α=2, λ=2) atteignant 66,85%
  • Amélioration de performance: La perte contrastive équilibrée améliore d'environ 1,5% par rapport à la NT-Xent standard

Résultats CIFAR-10

  • Perte contrastive équilibrée: Performance optimale à (α=1, λ=4) atteignant 86,08%
  • Perte NT-Xent généralisée: Performance optimale à (α=2, λ=2) atteignant 85,85%

Études d'ablation

Impact des stratégies d'augmentation de données

Vérification des prédictions théoriques par ajout/suppression de différentes transformations:

  • Suppression de la distorsion de couleur: Performance réduite à 62,56%
  • Ajout de cutout aléatoire: Performance améliorée à 65,76%
  • Configuration de base: 65,98%

Analyse de la tightness des bornes

  • Borne supérieure du terme d'attraction: L'écart diminue progressivement et se stabilise pendant l'entraînement
  • Borne supérieure du terme de répulsion: Maintient un écart plus important mais contrôlable par rapport au terme d'attraction

Travaux connexes

Pertes d'apprentissage contrastif

  • Développement historique: De la perte contrastive de Chopra et al. (2005) à la perte triplet et la perte InfoNCE
  • Contribution de cet article: Fournir une nouvelle perspective théorique basée sur l'approximation de l'apprentissage supervisé

Théorie de l'apprentissage auto-supervisé

  • Perspectives existantes:
    • Perspective de maximisation de l'information mutuelle
    • Perspective unifiée d'apprentissage de covariance
    • Perspective d'apprentissage de plongement spectral
  • Innovation de cet article: Établir pour la première fois une connexion théorique explicite avec l'apprentissage supervisé

Pratique de l'apprentissage contrastif

  • Conception architecturale: Réseaux Siamese, encodeurs à momentum, opérations stop-gradient
  • Explication théorique: Cet article fournit une base théorique pour ces pratiques

Conclusion et discussion

Conclusions principales

  1. Unification théorique: Établir avec succès un pont théorique entre l'apprentissage supervisé et l'apprentissage auto-supervisé
  2. Guidance pratique: Fournir des explications théoriques pour les pratiques courantes en apprentissage contrastif
  3. Amélioration des méthodes: La perte contrastive équilibrée proposée basée sur l'analyse théorique réalise une amélioration de performance

Limitations

  1. Restrictions des hypothèses: L'analyse théorique dépend d'hypothèses telles que la similarité cosinus, la normalisation L2, et les ensembles de données équilibrés
  2. Erreur d'approximation: Le biais introduit par l'approximation auto-supervisée nécessite une étude plus approfondie
  3. Portée expérimentale: Principalement vérifiée sur les tâches de classification d'images, l'applicabilité à d'autres domaines reste à explorer

Directions futures

  1. Extension théorique: Relâcher les hypothèses existantes, construire un cadre théorique plus général
  2. Amélioration des méthodes: Concevoir des algorithmes d'apprentissage auto-supervisé plus efficaces basés sur l'analyse du biais
  3. Extension d'application: Étendre le cadre théorique à d'autres modalités et tâches

Évaluation approfondie

Avantages

Contributions théoriques

  1. Forte innovativité: Fournir pour la première fois une connexion théorique formalisée entre l'apprentissage supervisé et l'apprentissage auto-supervisé
  2. Dérivation rigoureuse: Le processus de dérivation mathématique est complet, toutes les preuves étant fournies en annexe
  3. Intuitions profondes: Le concept de biais de représentation prototypique fournit une nouvelle perspective pour comprendre l'apprentissage auto-supervisé

Vérification expérimentale

  1. Conception raisonnable: La conception expérimentale s'aligne étroitement avec les prédictions théoriques, avec une vérification suffisante
  2. Résultats convaincants: Les résultats expérimentaux sont hautement cohérents avec les prédictions théoriques
  3. Analyse complète: Vérification du cadre théorique sous plusieurs angles

Valeur pratique

  1. Amélioration des méthodes: La perte contrastive équilibrée réalise une amélioration de performance pratique
  2. Signification directrice: Fournir une guidance théorique pour la conception d'algorithmes d'apprentissage auto-supervisé
  3. Reproductibilité: Fournir du code complet et des détails d'implémentation

Insuffisances

Limitations théoriques

  1. Hypothèses relativement fortes: L'analyse théorique dépend de plusieurs hypothèses restrictives, pouvant limiter la portée d'application
  2. Approximation grossière: Certaines dérivations théoriques peuvent introduire des erreurs d'approximation relativement importantes
  3. Généralisation à vérifier: L'applicabilité du cadre théorique dans d'autres domaines n'a pas été suffisamment vérifiée

Insuffisances expérimentales

  1. Ensembles de données limités: Principalement vérifiés sur ImageNet et CIFAR-10, manquant d'évaluations plus diversifiées
  2. Tâches uniques: Principalement axé sur la classification d'images, vérification insuffisante d'autres tâches de vision
  3. Méthodes de comparaison limitées: Principalement comparé avec les méthodes de la série SimCLR, manquant de comparaisons avec d'autres méthodes auto-supervisées

Impact

Contributions académiques

  1. Fondations théoriques: Fournir une base théorique importante pour le domaine de l'apprentissage auto-supervisé
  2. Inspiration pour la recherche: Peut inspirer davantage de travaux d'analyse théorique
  3. Guidance pour la conception de méthodes: Fournir une guidance théorique pour la conception d'algorithmes ultérieurs

Valeur pratique

  1. Amélioration de performance: La perte contrastive équilibrée réalise une amélioration de performance pratique
  2. Principes de conception: Fournir aux praticiens des principes de conception d'algorithmes
  3. Guidance pour le réglage des hyperparamètres: Fournir une base théorique pour la sélection des hyperparamètres

Scénarios d'application

  1. Scénarios de recherche: Approprié pour la recherche d'algorithmes d'apprentissage auto-supervisé nécessitant une guidance théorique
  2. Applications industrielles: Approprié pour les applications de vision par ordinateur nécessitant des représentations de haute qualité
  3. Utilisation pédagogique: Approprié comme matériel pédagogique pour comprendre les principes de l'apprentissage auto-supervisé

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage auto-supervisé, de l'apprentissage contrastif et de l'apprentissage de représentations, notamment:

  • Chen et al. (2020a): Cadre SimCLR
  • He et al. (2020): Méthode MoCo
  • Oord et al. (2018): Perte InfoNCE
  • Wang & Isola (2020): Analyse de l'alignement et de l'uniformité en apprentissage contrastif

Évaluation globale: Ceci est un article théorique de haute qualité qui établit avec succès un pont théorique entre l'apprentissage supervisé et l'apprentissage auto-supervisé, fournissant des intuitions importantes pour comprendre l'efficacité de l'apprentissage contrastif. Bien qu'il existe certaines limitations dans les hypothèses théoriques, ses contributions sont importantes pour faire progresser le développement théorique de l'apprentissage auto-supervisé.