Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
- ID del Artículo: 2510.10572
- Título: Understanding Self-supervised Contrastive Learning through Supervised Objectives
- Autor: Byeongchan Lee (KAIST)
- Clasificación: cs.LG (Aprendizaje Automático)
- Conferencia de Publicación: Transactions on Machine Learning Research (10/2025)
- Enlace del Artículo: https://arxiv.org/abs/2510.10572
El aprendizaje de representaciones autosupervisado ha logrado un éxito empírico impresionante, pero su comprensión teórica sigue siendo limitada. Este artículo proporciona una perspectiva teórica formulando el aprendizaje de representaciones autosupervisado como una aproximación a objetivos de aprendizaje de representaciones supervisadas. Basándose en esta formulación, el autor deriva funciones de pérdida estrechamente relacionadas con pérdidas contrastivas populares como InfoNCE, proporcionando información para comprender sus principios subyacentes. El proceso de derivación introduce naturalmente los conceptos de sesgo de representación prototípica y pérdida contrastiva equilibrada, lo que ayuda a explicar y mejorar el comportamiento de los algoritmos de aprendizaje autosupervisado.
- Falta de Comprensión Teórica: Aunque el aprendizaje autosupervisado ha tenido éxito empírico, sus fundamentos teóricos aún no son suficientemente sólidos, careciendo de una comprensión profunda de por qué estos métodos son efectivos.
- Naturaleza Empírica del Diseño de Métodos: Los métodos de aprendizaje autosupervisado existentes avanzan principalmente a través de innovaciones arquitectónicas, en lugar de partir de objetivos formalizados, careciendo de orientación teórica.
- Relación Poco Clara entre Supervisado y Autosupervisado: La conexión intrínseca entre el aprendizaje supervisado y el autosupervisado aún no ha sido suficientemente aclarada.
- Construcción de Fundamentos Teóricos: Proporcionar una base teórica sólida para el aprendizaje autosupervisado, explicando las razones fundamentales de su efectividad
- Orientación para Mejora de Métodos: Proporcionar orientación principista para el diseño de algoritmos a través del análisis teórico
- Puente entre Supervisado y Autosupervisado: Establecer conexiones teóricas entre los dos paradigmas de aprendizaje
- Construcción de Marco Teórico: Propone un marco teórico que formula el aprendizaje de representaciones autosupervisado como una aproximación al aprendizaje de representaciones supervisadas, del cual se derivan funciones de pérdida contrastiva estrechamente relacionadas con la pérdida InfoNCE
- Provisión de Información Teórica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo (como normalización de representaciones, uso de conjuntos de datos equilibrados)
- Introducción de Conceptos: Introduce el concepto de sesgo de representación prototípica (prototype representation bias) y observa su correlación con el desempeño en tareas posteriores
- Mejora de Métodos: Propone pérdida contrastiva equilibrada como una extensión natural de la pérdida InfoNCE, logrando mejor desempeño mediante la mejora del equilibrio
Define la tarea de aprendizaje de representaciones como el aprendizaje de un codificador fθ:X→Rd∖{0}, tal que:
- Las representaciones de imágenes con el mismo concepto visual se agrupan juntas
- Las representaciones de imágenes con conceptos visuales diferentes se separan mutuamente
Primero se formula el aprendizaje supervisado como un problema de optimización de prototipos:
minθ−s(fθ(t(x)),μy)+λmaxy′=ys(fθ(t(x)),μy′)
Donde:
- s(⋅,⋅) es la medida de similitud (similitud coseno)
- μy es la representación prototípica de la etiqueta y
- λ>0 es el parámetro de equilibrio
Define la representación prototípica como la expectativa de representaciones de imágenes con la misma etiqueta:
μ^y:=ET,X∣yfθ(T(X))
En la configuración autosupervisada, utiliza una representación prototípica sustituta:
μ~:=ETfθ(T(x))
Bajo los supuestos de similitud coseno y normalización L2:
−s(fθ(t(x)),ETfθ(T(x)))≤−ETs(fθ(t(x)),fθ(T(x)))
Bajo el supuesto de conjunto de datos equilibrado:
maxy′=ys(fθ(t(x)),ET′,X′∣y′fθ(T′(X′)))≤ET′[να1logEX′exp(αs(fθ(t(x)),fθ(T′(X′))))]+να1logn
Combinando los límites superiores anteriores:
l~(θ)=α∣T^∣1∑t′∈T^[−log(∑x′∈X^exp(αs(fθ(t(x)),fθ(t′(x′)))))λ/νexp(αs(fθ(t(x)),fθ(t′(x))))]
- Puente Teórico: Establece por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y el autosupervisado
- Derivación de Límites Superiores: Obtiene límites superiores manejables a través de derivaciones matemáticas rigurosas
- Análisis de Sesgo Prototípico: Cuantifica el sesgo introducido por la aproximación autosupervisada y analiza su impacto
- Diseño de Pérdida Equilibrada: Propone una función de pérdida mejorada basada en análisis teórico
- Conjunto de Datos Principal: ImageNet (1,281,167 imágenes de entrenamiento, 50,000 imágenes de validación, 1,000 clases)
- Conjuntos de Datos Complementarios: CIFAR-10 (50,000 imágenes de entrenamiento, 10,000 imágenes de prueba, 10 clases)
- Conjunto de Datos Desequilibrado: ImageNet-LT (115,846 imágenes, siguiendo distribución de Pareto)
- Evaluación Lineal: Precisión Top-1 al entrenar un clasificador lineal con backbone preentrenado congelado
- Evaluación k-NN: Precisión de clasificación k-NN basada en similitud de representaciones
- Métodos Base: SimCLR y sus variantes
- Variantes de Función de Pérdida:
- Pérdida contrastiva equilibrada
- Pérdida NT-Xent generalizada
- Pérdida contrastiva desacoplada
- Arquitectura de Red: ResNet-50 backbone + proyector MLP de 3 capas
- Configuración de Entrenamiento: Tamaño de lote 512, 100 épocas, optimizador SGD
- Aumento de Datos: Recorte aleatorio, distorsión de color, conversión a escala de grises, desenfoque gaussiano, volteo horizontal
- Relación entre Sesgo de Representación Prototípica y Desempeño:
- SimCLR Base: 65.98% precisión, sesgo 36.72
- Eliminación de desenfoque gaussiano: 64.57% precisión, sesgo 37.43
- Adición de rotación aleatoria: 63.30% precisión, sesgo 38.11
- Hallazgo: Un sesgo de representación prototípica más bajo corresponde a una precisión más alta
- Impacto de la Medida de Similitud:
- Similitud coseno + normalización: 65.98%
- Producto punto (sin normalización): 0.43%
- Distancia euclidiana negativa (sin normalización): 10.63%
- Impacto del Equilibrio de Datos:
- Distribución uniforme: 20.82%
- Distribución de cola larga: 13.65%
- Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=4, λ=2) alcanzando 67.40%
- Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 66.85%
- Mejora de Desempeño: La pérdida contrastiva equilibrada mejora aproximadamente 1.5% en comparación con NT-Xent estándar
- Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=1, λ=4) alcanzando 86.08%
- Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 85.85%
Verificación de predicciones teóricas mediante adición/eliminación de diferentes transformaciones:
- Eliminación de distorsión de color: Desempeño disminuye a 62.56%
- Adición de cutout aleatorio: Desempeño aumenta a 65.76%
- Configuración base: 65.98%
- Límite Superior del Término de Atracción: La brecha durante el entrenamiento disminuye gradualmente y se estabiliza
- Límite Superior del Término de Repulsión: Mantiene una brecha mayor pero controlable en comparación con el término de atracción
- Desarrollo Histórico: Desde la pérdida contrastiva de Chopra et al. (2005) hasta pérdidas triplet e InfoNCE
- Contribución del Artículo: Proporciona una nueva perspectiva teórica basada en aproximación de aprendizaje supervisado
- Perspectivas Existentes:
- Perspectiva de maximización de información mutua
- Perspectiva unificada de aprendizaje de covarianza
- Perspectiva de aprendizaje de incrustación espectral
- Innovación del Artículo: Establece por primera vez una conexión teórica explícita con el aprendizaje supervisado
- Diseño de Arquitectura: Redes Siamesas, codificadores de momento, operaciones stop-gradient
- Explicación Teórica: El artículo proporciona fundamentos teóricos para estas prácticas
- Unificación Teórica: Establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado
- Orientación Práctica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo
- Mejora de Métodos: La pérdida contrastiva equilibrada propuesta basada en análisis teórico logra mejoras de desempeño
- Restricciones de Supuestos: El análisis teórico depende de supuestos como similitud coseno, normalización L2, conjunto de datos equilibrado, etc.
- Error de Aproximación: El sesgo introducido por la aproximación autosupervisada requiere investigación adicional
- Alcance Experimental: Principalmente verificado en tareas de clasificación de imágenes, la aplicabilidad en otros dominios requiere exploración
- Extensión Teórica: Relajar supuestos existentes, construir marcos teóricos más generales
- Mejora de Métodos: Diseñar algoritmos de aprendizaje autosupervisado más efectivos basados en análisis de sesgo
- Extensión de Aplicaciones: Extender el marco teórico a otras modalidades y tareas
- Fuerte Innovación: Proporciona por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y autosupervisado
- Derivación Rigurosa: El proceso de derivación matemática es completo, con todas las pruebas proporcionadas en el apéndice
- Información Profunda: El concepto de sesgo de representación prototípica proporciona una nueva perspectiva para comprender el aprendizaje autosupervisado
- Diseño Razonable: El diseño experimental se centra estrechamente en predicciones teóricas, con verificación suficiente
- Resultados Convincentes: Los resultados experimentales son altamente consistentes con las predicciones teóricas
- Análisis Integral: Verifica la efectividad del marco teórico desde múltiples ángulos
- Mejora de Métodos: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
- Significado Orientador: Proporciona orientación teórica para el diseño de algoritmos de aprendizaje autosupervisado
- Reproducibilidad: Proporciona código completo y detalles de implementación
- Supuestos Fuertes: El análisis teórico depende de múltiples supuestos restrictivos, que pueden limitar el alcance de aplicabilidad
- Aproximación Aproximada: Algunas derivaciones teóricas pueden introducir errores significativos
- Generalización Pendiente de Verificación: La aplicabilidad del marco teórico en otros dominios aún no ha sido suficientemente verificada
- Conjuntos de Datos Limitados: Principalmente verificado en ImageNet y CIFAR-10, careciendo de evaluación más diversificada
- Tareas Únicas: Se enfoca principalmente en clasificación de imágenes, con verificación insuficiente en otras tareas visuales
- Métodos de Comparación Limitados: Principalmente comparado con métodos de la serie SimCLR, careciendo de comparación con otros métodos autosupervisados
- Fundamentos Teóricos: Proporciona fundamentos teóricos importantes para el campo del aprendizaje autosupervisado
- Inspiración de Investigación: Puede inspirar más trabajos de análisis teórico
- Orientación de Métodos: Proporciona orientación teórica para el diseño de algoritmos posteriores
- Mejora de Desempeño: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
- Principios de Diseño: Proporciona principios de diseño de algoritmos para profesionales
- Orientación de Ajuste de Hiperparámetros: Proporciona base teórica para la selección de hiperparámetros
- Escenarios de Investigación: Adecuado para investigación de algoritmos de aprendizaje autosupervisado que requieren orientación teórica
- Aplicaciones Industriales: Adecuado para aplicaciones de visión por computadora que requieren representaciones de alta calidad
- Propósitos Educativos: Adecuado como material educativo para comprender los principios del aprendizaje autosupervisado
Este artículo cita trabajos importantes en los campos del aprendizaje autosupervisado, aprendizaje contrastivo y aprendizaje de representaciones, incluyendo:
- Chen et al. (2020a): Marco SimCLR
- He et al. (2020): Método MoCo
- Oord et al. (2018): Pérdida InfoNCE
- Wang & Isola (2020): Análisis de alineación y uniformidad en aprendizaje contrastivo
Evaluación General: Este es un artículo de análisis teórico de alta calidad que establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado, proporcionando información importante para comprender la efectividad del aprendizaje contrastivo. Aunque existen algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para promover el desarrollo teórico del aprendizaje autosupervisado.