2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee
Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
academic

Comprendiendo el Aprendizaje Contrastivo Autosupervisado a través de Objetivos Supervisados

Información Básica

  • ID del Artículo: 2510.10572
  • Título: Understanding Self-supervised Contrastive Learning through Supervised Objectives
  • Autor: Byeongchan Lee (KAIST)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Conferencia de Publicación: Transactions on Machine Learning Research (10/2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10572

Resumen

El aprendizaje de representaciones autosupervisado ha logrado un éxito empírico impresionante, pero su comprensión teórica sigue siendo limitada. Este artículo proporciona una perspectiva teórica formulando el aprendizaje de representaciones autosupervisado como una aproximación a objetivos de aprendizaje de representaciones supervisadas. Basándose en esta formulación, el autor deriva funciones de pérdida estrechamente relacionadas con pérdidas contrastivas populares como InfoNCE, proporcionando información para comprender sus principios subyacentes. El proceso de derivación introduce naturalmente los conceptos de sesgo de representación prototípica y pérdida contrastiva equilibrada, lo que ayuda a explicar y mejorar el comportamiento de los algoritmos de aprendizaje autosupervisado.

Antecedentes de Investigación y Motivación

Problemas Fundamentales

  1. Falta de Comprensión Teórica: Aunque el aprendizaje autosupervisado ha tenido éxito empírico, sus fundamentos teóricos aún no son suficientemente sólidos, careciendo de una comprensión profunda de por qué estos métodos son efectivos.
  2. Naturaleza Empírica del Diseño de Métodos: Los métodos de aprendizaje autosupervisado existentes avanzan principalmente a través de innovaciones arquitectónicas, en lugar de partir de objetivos formalizados, careciendo de orientación teórica.
  3. Relación Poco Clara entre Supervisado y Autosupervisado: La conexión intrínseca entre el aprendizaje supervisado y el autosupervisado aún no ha sido suficientemente aclarada.

Motivación de la Investigación

  • Construcción de Fundamentos Teóricos: Proporcionar una base teórica sólida para el aprendizaje autosupervisado, explicando las razones fundamentales de su efectividad
  • Orientación para Mejora de Métodos: Proporcionar orientación principista para el diseño de algoritmos a través del análisis teórico
  • Puente entre Supervisado y Autosupervisado: Establecer conexiones teóricas entre los dos paradigmas de aprendizaje

Contribuciones Principales

  1. Construcción de Marco Teórico: Propone un marco teórico que formula el aprendizaje de representaciones autosupervisado como una aproximación al aprendizaje de representaciones supervisadas, del cual se derivan funciones de pérdida contrastiva estrechamente relacionadas con la pérdida InfoNCE
  2. Provisión de Información Teórica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo (como normalización de representaciones, uso de conjuntos de datos equilibrados)
  3. Introducción de Conceptos: Introduce el concepto de sesgo de representación prototípica (prototype representation bias) y observa su correlación con el desempeño en tareas posteriores
  4. Mejora de Métodos: Propone pérdida contrastiva equilibrada como una extensión natural de la pérdida InfoNCE, logrando mejor desempeño mediante la mejora del equilibrio

Explicación Detallada del Método

Definición de Tareas

Define la tarea de aprendizaje de representaciones como el aprendizaje de un codificador fθ:XRd{0}f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\}, tal que:

  • Las representaciones de imágenes con el mismo concepto visual se agrupan juntas
  • Las representaciones de imágenes con conceptos visuales diferentes se separan mutuamente

Marco Teórico

Problema de Aprendizaje de Representaciones Supervisadas

Primero se formula el aprendizaje supervisado como un problema de optimización de prototipos: minθs(fθ(t(x)),μy)+λmaxyys(fθ(t(x)),μy)\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})

Donde:

  • s(,)s(·,·) es la medida de similitud (similitud coseno)
  • μyμ_y es la representación prototípica de la etiqueta yy
  • λ>0λ > 0 es el parámetro de equilibrio

Construcción de Representación Prototípica

Define la representación prototípica como la expectativa de representaciones de imágenes con la misma etiqueta: μ^y:=ET,Xyfθ(T(X))\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))

Aproximación Autosupervisada

En la configuración autosupervisada, utiliza una representación prototípica sustituta: μ~:=ETfθ(T(x))\tilde{μ} := \mathbb{E}_T f_θ(T(x))

Derivación Teórica

Límite Superior del Término de Atracción (Teorema 4.4)

Bajo los supuestos de similitud coseno y normalización L2: s(fθ(t(x)),ETfθ(T(x)))ETs(fθ(t(x)),fθ(T(x)))-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))

Límite Superior del Término de Repulsión (Teorema 4.6)

Bajo el supuesto de conjunto de datos equilibrado: maxyys(fθ(t(x)),ET,Xyfθ(T(X)))ET[1ναlogEXexp(αs(fθ(t(x)),fθ(T(X))))]+1ναlogn\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n

Función de Pérdida Total

Combinando los límites superiores anteriores: l~(θ)=1αT^tT^[logexp(αs(fθ(t(x)),fθ(t(x))))(xX^exp(αs(fθ(t(x)),fθ(t(x)))))λ/ν]\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]

Puntos de Innovación Técnica

  1. Puente Teórico: Establece por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y el autosupervisado
  2. Derivación de Límites Superiores: Obtiene límites superiores manejables a través de derivaciones matemáticas rigurosas
  3. Análisis de Sesgo Prototípico: Cuantifica el sesgo introducido por la aproximación autosupervisada y analiza su impacto
  4. Diseño de Pérdida Equilibrada: Propone una función de pérdida mejorada basada en análisis teórico

Configuración Experimental

Conjuntos de Datos

  • Conjunto de Datos Principal: ImageNet (1,281,167 imágenes de entrenamiento, 50,000 imágenes de validación, 1,000 clases)
  • Conjuntos de Datos Complementarios: CIFAR-10 (50,000 imágenes de entrenamiento, 10,000 imágenes de prueba, 10 clases)
  • Conjunto de Datos Desequilibrado: ImageNet-LT (115,846 imágenes, siguiendo distribución de Pareto)

Métricas de Evaluación

  • Evaluación Lineal: Precisión Top-1 al entrenar un clasificador lineal con backbone preentrenado congelado
  • Evaluación k-NN: Precisión de clasificación k-NN basada en similitud de representaciones

Métodos de Comparación

  • Métodos Base: SimCLR y sus variantes
  • Variantes de Función de Pérdida:
    • Pérdida contrastiva equilibrada
    • Pérdida NT-Xent generalizada
    • Pérdida contrastiva desacoplada

Detalles de Implementación

  • Arquitectura de Red: ResNet-50 backbone + proyector MLP de 3 capas
  • Configuración de Entrenamiento: Tamaño de lote 512, 100 épocas, optimizador SGD
  • Aumento de Datos: Recorte aleatorio, distorsión de color, conversión a escala de grises, desenfoque gaussiano, volteo horizontal

Resultados Experimentales

Resultados Principales

Experimentos de Verificación Teórica

  1. Relación entre Sesgo de Representación Prototípica y Desempeño:
    • SimCLR Base: 65.98% precisión, sesgo 36.72
    • Eliminación de desenfoque gaussiano: 64.57% precisión, sesgo 37.43
    • Adición de rotación aleatoria: 63.30% precisión, sesgo 38.11
    • Hallazgo: Un sesgo de representación prototípica más bajo corresponde a una precisión más alta
  2. Impacto de la Medida de Similitud:
    • Similitud coseno + normalización: 65.98%
    • Producto punto (sin normalización): 0.43%
    • Distancia euclidiana negativa (sin normalización): 10.63%
  3. Impacto del Equilibrio de Datos:
    • Distribución uniforme: 20.82%
    • Distribución de cola larga: 13.65%

Experimentos de Parámetros de Equilibrio

Resultados en ImageNet

  • Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=4, λ=2) alcanzando 67.40%
  • Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 66.85%
  • Mejora de Desempeño: La pérdida contrastiva equilibrada mejora aproximadamente 1.5% en comparación con NT-Xent estándar

Resultados en CIFAR-10

  • Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=1, λ=4) alcanzando 86.08%
  • Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 85.85%

Experimentos de Ablación

Impacto de Estrategias de Aumento de Datos

Verificación de predicciones teóricas mediante adición/eliminación de diferentes transformaciones:

  • Eliminación de distorsión de color: Desempeño disminuye a 62.56%
  • Adición de cutout aleatorio: Desempeño aumenta a 65.76%
  • Configuración base: 65.98%

Análisis de Rigidez de Límites Superiores

  • Límite Superior del Término de Atracción: La brecha durante el entrenamiento disminuye gradualmente y se estabiliza
  • Límite Superior del Término de Repulsión: Mantiene una brecha mayor pero controlable en comparación con el término de atracción

Trabajo Relacionado

Pérdidas de Aprendizaje Contrastivo

  • Desarrollo Histórico: Desde la pérdida contrastiva de Chopra et al. (2005) hasta pérdidas triplet e InfoNCE
  • Contribución del Artículo: Proporciona una nueva perspectiva teórica basada en aproximación de aprendizaje supervisado

Teoría del Aprendizaje Autosupervisado

  • Perspectivas Existentes:
    • Perspectiva de maximización de información mutua
    • Perspectiva unificada de aprendizaje de covarianza
    • Perspectiva de aprendizaje de incrustación espectral
  • Innovación del Artículo: Establece por primera vez una conexión teórica explícita con el aprendizaje supervisado

Práctica del Aprendizaje Contrastivo

  • Diseño de Arquitectura: Redes Siamesas, codificadores de momento, operaciones stop-gradient
  • Explicación Teórica: El artículo proporciona fundamentos teóricos para estas prácticas

Conclusiones y Discusión

Conclusiones Principales

  1. Unificación Teórica: Establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado
  2. Orientación Práctica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo
  3. Mejora de Métodos: La pérdida contrastiva equilibrada propuesta basada en análisis teórico logra mejoras de desempeño

Limitaciones

  1. Restricciones de Supuestos: El análisis teórico depende de supuestos como similitud coseno, normalización L2, conjunto de datos equilibrado, etc.
  2. Error de Aproximación: El sesgo introducido por la aproximación autosupervisada requiere investigación adicional
  3. Alcance Experimental: Principalmente verificado en tareas de clasificación de imágenes, la aplicabilidad en otros dominios requiere exploración

Direcciones Futuras

  1. Extensión Teórica: Relajar supuestos existentes, construir marcos teóricos más generales
  2. Mejora de Métodos: Diseñar algoritmos de aprendizaje autosupervisado más efectivos basados en análisis de sesgo
  3. Extensión de Aplicaciones: Extender el marco teórico a otras modalidades y tareas

Evaluación Profunda

Fortalezas

Contribuciones Teóricas

  1. Fuerte Innovación: Proporciona por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y autosupervisado
  2. Derivación Rigurosa: El proceso de derivación matemática es completo, con todas las pruebas proporcionadas en el apéndice
  3. Información Profunda: El concepto de sesgo de representación prototípica proporciona una nueva perspectiva para comprender el aprendizaje autosupervisado

Verificación Experimental

  1. Diseño Razonable: El diseño experimental se centra estrechamente en predicciones teóricas, con verificación suficiente
  2. Resultados Convincentes: Los resultados experimentales son altamente consistentes con las predicciones teóricas
  3. Análisis Integral: Verifica la efectividad del marco teórico desde múltiples ángulos

Valor Práctico

  1. Mejora de Métodos: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
  2. Significado Orientador: Proporciona orientación teórica para el diseño de algoritmos de aprendizaje autosupervisado
  3. Reproducibilidad: Proporciona código completo y detalles de implementación

Insuficiencias

Limitaciones Teóricas

  1. Supuestos Fuertes: El análisis teórico depende de múltiples supuestos restrictivos, que pueden limitar el alcance de aplicabilidad
  2. Aproximación Aproximada: Algunas derivaciones teóricas pueden introducir errores significativos
  3. Generalización Pendiente de Verificación: La aplicabilidad del marco teórico en otros dominios aún no ha sido suficientemente verificada

Insuficiencias Experimentales

  1. Conjuntos de Datos Limitados: Principalmente verificado en ImageNet y CIFAR-10, careciendo de evaluación más diversificada
  2. Tareas Únicas: Se enfoca principalmente en clasificación de imágenes, con verificación insuficiente en otras tareas visuales
  3. Métodos de Comparación Limitados: Principalmente comparado con métodos de la serie SimCLR, careciendo de comparación con otros métodos autosupervisados

Impacto

Contribuciones Académicas

  1. Fundamentos Teóricos: Proporciona fundamentos teóricos importantes para el campo del aprendizaje autosupervisado
  2. Inspiración de Investigación: Puede inspirar más trabajos de análisis teórico
  3. Orientación de Métodos: Proporciona orientación teórica para el diseño de algoritmos posteriores

Valor Práctico

  1. Mejora de Desempeño: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
  2. Principios de Diseño: Proporciona principios de diseño de algoritmos para profesionales
  3. Orientación de Ajuste de Hiperparámetros: Proporciona base teórica para la selección de hiperparámetros

Escenarios de Aplicabilidad

  1. Escenarios de Investigación: Adecuado para investigación de algoritmos de aprendizaje autosupervisado que requieren orientación teórica
  2. Aplicaciones Industriales: Adecuado para aplicaciones de visión por computadora que requieren representaciones de alta calidad
  3. Propósitos Educativos: Adecuado como material educativo para comprender los principios del aprendizaje autosupervisado

Referencias Bibliográficas

Este artículo cita trabajos importantes en los campos del aprendizaje autosupervisado, aprendizaje contrastivo y aprendizaje de representaciones, incluyendo:

  • Chen et al. (2020a): Marco SimCLR
  • He et al. (2020): Método MoCo
  • Oord et al. (2018): Pérdida InfoNCE
  • Wang & Isola (2020): Análisis de alineación y uniformidad en aprendizaje contrastivo

Evaluación General: Este es un artículo de análisis teórico de alta calidad que establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado, proporcionando información importante para comprender la efectividad del aprendizaje contrastivo. Aunque existen algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para promover el desarrollo teórico del aprendizaje autosupervisado.