2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee

Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.

academic

Comprendiendo el Aprendizaje Contrastivo Autosupervisado a través de Objetivos Supervisados

Información Básica

ID del Artículo: 2510.10572
Título: Understanding Self-supervised Contrastive Learning through Supervised Objectives
Autor: Byeongchan Lee (KAIST)
Clasificación: cs.LG (Aprendizaje Automático)
Conferencia de Publicación: Transactions on Machine Learning Research (10/2025)
Enlace del Artículo: https://arxiv.org/abs/2510.10572

Resumen

El aprendizaje de representaciones autosupervisado ha logrado un éxito empírico impresionante, pero su comprensión teórica sigue siendo limitada. Este artículo proporciona una perspectiva teórica formulando el aprendizaje de representaciones autosupervisado como una aproximación a objetivos de aprendizaje de representaciones supervisadas. Basándose en esta formulación, el autor deriva funciones de pérdida estrechamente relacionadas con pérdidas contrastivas populares como InfoNCE, proporcionando información para comprender sus principios subyacentes. El proceso de derivación introduce naturalmente los conceptos de sesgo de representación prototípica y pérdida contrastiva equilibrada, lo que ayuda a explicar y mejorar el comportamiento de los algoritmos de aprendizaje autosupervisado.

Antecedentes de Investigación y Motivación

Problemas Fundamentales

Falta de Comprensión Teórica: Aunque el aprendizaje autosupervisado ha tenido éxito empírico, sus fundamentos teóricos aún no son suficientemente sólidos, careciendo de una comprensión profunda de por qué estos métodos son efectivos.
Naturaleza Empírica del Diseño de Métodos: Los métodos de aprendizaje autosupervisado existentes avanzan principalmente a través de innovaciones arquitectónicas, en lugar de partir de objetivos formalizados, careciendo de orientación teórica.
Relación Poco Clara entre Supervisado y Autosupervisado: La conexión intrínseca entre el aprendizaje supervisado y el autosupervisado aún no ha sido suficientemente aclarada.

Motivación de la Investigación

Construcción de Fundamentos Teóricos: Proporcionar una base teórica sólida para el aprendizaje autosupervisado, explicando las razones fundamentales de su efectividad
Orientación para Mejora de Métodos: Proporcionar orientación principista para el diseño de algoritmos a través del análisis teórico
Puente entre Supervisado y Autosupervisado: Establecer conexiones teóricas entre los dos paradigmas de aprendizaje

Contribuciones Principales

Construcción de Marco Teórico: Propone un marco teórico que formula el aprendizaje de representaciones autosupervisado como una aproximación al aprendizaje de representaciones supervisadas, del cual se derivan funciones de pérdida contrastiva estrechamente relacionadas con la pérdida InfoNCE
Provisión de Información Teórica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo (como normalización de representaciones, uso de conjuntos de datos equilibrados)
Introducción de Conceptos: Introduce el concepto de sesgo de representación prototípica (prototype representation bias) y observa su correlación con el desempeño en tareas posteriores
Mejora de Métodos: Propone pérdida contrastiva equilibrada como una extensión natural de la pérdida InfoNCE, logrando mejor desempeño mediante la mejora del equilibrio

Explicación Detallada del Método

Definición de Tareas

Define la tarea de aprendizaje de representaciones como el aprendizaje de un codificador $f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\}$ , tal que:

Las representaciones de imágenes con el mismo concepto visual se agrupan juntas
Las representaciones de imágenes con conceptos visuales diferentes se separan mutuamente

Marco Teórico

Problema de Aprendizaje de Representaciones Supervisadas

Primero se formula el aprendizaje supervisado como un problema de optimización de prototipos: $\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})$

Donde:

$s(·,·)$ es la medida de similitud (similitud coseno)
$μ_y$ es la representación prototípica de la etiqueta $y$
$λ > 0$ es el parámetro de equilibrio

Construcción de Representación Prototípica

Define la representación prototípica como la expectativa de representaciones de imágenes con la misma etiqueta: $\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))$

Aproximación Autosupervisada

En la configuración autosupervisada, utiliza una representación prototípica sustituta: $\tilde{μ} := \mathbb{E}_T f_θ(T(x))$

Derivación Teórica

Límite Superior del Término de Atracción (Teorema 4.4)

Bajo los supuestos de similitud coseno y normalización L2: $-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))$

Límite Superior del Término de Repulsión (Teorema 4.6)

Bajo el supuesto de conjunto de datos equilibrado: $\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n$

Función de Pérdida Total

Combinando los límites superiores anteriores: $\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]$

Puntos de Innovación Técnica

Puente Teórico: Establece por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y el autosupervisado
Derivación de Límites Superiores: Obtiene límites superiores manejables a través de derivaciones matemáticas rigurosas
Análisis de Sesgo Prototípico: Cuantifica el sesgo introducido por la aproximación autosupervisada y analiza su impacto
Diseño de Pérdida Equilibrada: Propone una función de pérdida mejorada basada en análisis teórico

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos Principal: ImageNet (1,281,167 imágenes de entrenamiento, 50,000 imágenes de validación, 1,000 clases)
Conjuntos de Datos Complementarios: CIFAR-10 (50,000 imágenes de entrenamiento, 10,000 imágenes de prueba, 10 clases)
Conjunto de Datos Desequilibrado: ImageNet-LT (115,846 imágenes, siguiendo distribución de Pareto)

Métricas de Evaluación

Evaluación Lineal: Precisión Top-1 al entrenar un clasificador lineal con backbone preentrenado congelado
Evaluación k-NN: Precisión de clasificación k-NN basada en similitud de representaciones

Métodos de Comparación

Métodos Base: SimCLR y sus variantes
Variantes de Función de Pérdida:
- Pérdida contrastiva equilibrada
- Pérdida NT-Xent generalizada
- Pérdida contrastiva desacoplada

Detalles de Implementación

Arquitectura de Red: ResNet-50 backbone + proyector MLP de 3 capas
Configuración de Entrenamiento: Tamaño de lote 512, 100 épocas, optimizador SGD
Aumento de Datos: Recorte aleatorio, distorsión de color, conversión a escala de grises, desenfoque gaussiano, volteo horizontal

Resultados Experimentales

Resultados Principales

Experimentos de Verificación Teórica

Relación entre Sesgo de Representación Prototípica y Desempeño:
- SimCLR Base: 65.98% precisión, sesgo 36.72
- Eliminación de desenfoque gaussiano: 64.57% precisión, sesgo 37.43
- Adición de rotación aleatoria: 63.30% precisión, sesgo 38.11
- Hallazgo: Un sesgo de representación prototípica más bajo corresponde a una precisión más alta
Impacto de la Medida de Similitud:
- Similitud coseno + normalización: 65.98%
- Producto punto (sin normalización): 0.43%
- Distancia euclidiana negativa (sin normalización): 10.63%
Impacto del Equilibrio de Datos:
- Distribución uniforme: 20.82%
- Distribución de cola larga: 13.65%

Experimentos de Parámetros de Equilibrio

Resultados en ImageNet

Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=4, λ=2) alcanzando 67.40%
Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 66.85%
Mejora de Desempeño: La pérdida contrastiva equilibrada mejora aproximadamente 1.5% en comparación con NT-Xent estándar

Resultados en CIFAR-10

Pérdida Contrastiva Equilibrada: Mejor desempeño en (α=1, λ=4) alcanzando 86.08%
Pérdida NT-Xent Generalizada: Mejor desempeño en (α=2, λ=2) alcanzando 85.85%

Experimentos de Ablación

Impacto de Estrategias de Aumento de Datos

Verificación de predicciones teóricas mediante adición/eliminación de diferentes transformaciones:

Eliminación de distorsión de color: Desempeño disminuye a 62.56%
Adición de cutout aleatorio: Desempeño aumenta a 65.76%
Configuración base: 65.98%

Análisis de Rigidez de Límites Superiores

Límite Superior del Término de Atracción: La brecha durante el entrenamiento disminuye gradualmente y se estabiliza
Límite Superior del Término de Repulsión: Mantiene una brecha mayor pero controlable en comparación con el término de atracción

Trabajo Relacionado

Pérdidas de Aprendizaje Contrastivo

Desarrollo Histórico: Desde la pérdida contrastiva de Chopra et al. (2005) hasta pérdidas triplet e InfoNCE
Contribución del Artículo: Proporciona una nueva perspectiva teórica basada en aproximación de aprendizaje supervisado

Teoría del Aprendizaje Autosupervisado

Perspectivas Existentes:
- Perspectiva de maximización de información mutua
- Perspectiva unificada de aprendizaje de covarianza
- Perspectiva de aprendizaje de incrustación espectral
Innovación del Artículo: Establece por primera vez una conexión teórica explícita con el aprendizaje supervisado

Práctica del Aprendizaje Contrastivo

Diseño de Arquitectura: Redes Siamesas, codificadores de momento, operaciones stop-gradient
Explicación Teórica: El artículo proporciona fundamentos teóricos para estas prácticas

Conclusiones y Discusión

Conclusiones Principales

Unificación Teórica: Establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado
Orientación Práctica: Proporciona explicaciones teóricas para prácticas comunes en aprendizaje contrastivo
Mejora de Métodos: La pérdida contrastiva equilibrada propuesta basada en análisis teórico logra mejoras de desempeño

Limitaciones

Restricciones de Supuestos: El análisis teórico depende de supuestos como similitud coseno, normalización L2, conjunto de datos equilibrado, etc.
Error de Aproximación: El sesgo introducido por la aproximación autosupervisada requiere investigación adicional
Alcance Experimental: Principalmente verificado en tareas de clasificación de imágenes, la aplicabilidad en otros dominios requiere exploración

Direcciones Futuras

Extensión Teórica: Relajar supuestos existentes, construir marcos teóricos más generales
Mejora de Métodos: Diseñar algoritmos de aprendizaje autosupervisado más efectivos basados en análisis de sesgo
Extensión de Aplicaciones: Extender el marco teórico a otras modalidades y tareas

Evaluación Profunda

Fortalezas

Contribuciones Teóricas

Fuerte Innovación: Proporciona por primera vez una conexión teórica formalizada entre el aprendizaje supervisado y autosupervisado
Derivación Rigurosa: El proceso de derivación matemática es completo, con todas las pruebas proporcionadas en el apéndice
Información Profunda: El concepto de sesgo de representación prototípica proporciona una nueva perspectiva para comprender el aprendizaje autosupervisado

Verificación Experimental

Diseño Razonable: El diseño experimental se centra estrechamente en predicciones teóricas, con verificación suficiente
Resultados Convincentes: Los resultados experimentales son altamente consistentes con las predicciones teóricas
Análisis Integral: Verifica la efectividad del marco teórico desde múltiples ángulos

Valor Práctico

Mejora de Métodos: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
Significado Orientador: Proporciona orientación teórica para el diseño de algoritmos de aprendizaje autosupervisado
Reproducibilidad: Proporciona código completo y detalles de implementación

Insuficiencias

Limitaciones Teóricas

Supuestos Fuertes: El análisis teórico depende de múltiples supuestos restrictivos, que pueden limitar el alcance de aplicabilidad
Aproximación Aproximada: Algunas derivaciones teóricas pueden introducir errores significativos
Generalización Pendiente de Verificación: La aplicabilidad del marco teórico en otros dominios aún no ha sido suficientemente verificada

Insuficiencias Experimentales

Conjuntos de Datos Limitados: Principalmente verificado en ImageNet y CIFAR-10, careciendo de evaluación más diversificada
Tareas Únicas: Se enfoca principalmente en clasificación de imágenes, con verificación insuficiente en otras tareas visuales
Métodos de Comparación Limitados: Principalmente comparado con métodos de la serie SimCLR, careciendo de comparación con otros métodos autosupervisados

Impacto

Contribuciones Académicas

Fundamentos Teóricos: Proporciona fundamentos teóricos importantes para el campo del aprendizaje autosupervisado
Inspiración de Investigación: Puede inspirar más trabajos de análisis teórico
Orientación de Métodos: Proporciona orientación teórica para el diseño de algoritmos posteriores

Valor Práctico

Mejora de Desempeño: La pérdida contrastiva equilibrada logra mejoras reales de desempeño
Principios de Diseño: Proporciona principios de diseño de algoritmos para profesionales
Orientación de Ajuste de Hiperparámetros: Proporciona base teórica para la selección de hiperparámetros

Escenarios de Aplicabilidad

Escenarios de Investigación: Adecuado para investigación de algoritmos de aprendizaje autosupervisado que requieren orientación teórica
Aplicaciones Industriales: Adecuado para aplicaciones de visión por computadora que requieren representaciones de alta calidad
Propósitos Educativos: Adecuado como material educativo para comprender los principios del aprendizaje autosupervisado

Referencias Bibliográficas

Este artículo cita trabajos importantes en los campos del aprendizaje autosupervisado, aprendizaje contrastivo y aprendizaje de representaciones, incluyendo:

Chen et al. (2020a): Marco SimCLR
He et al. (2020): Método MoCo
Oord et al. (2018): Pérdida InfoNCE
Wang & Isola (2020): Análisis de alineación y uniformidad en aprendizaje contrastivo

Evaluación General: Este es un artículo de análisis teórico de alta calidad que establece exitosamente un puente teórico entre el aprendizaje supervisado y el autosupervisado, proporcionando información importante para comprender la efectividad del aprendizaje contrastivo. Aunque existen algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para promover el desarrollo teórico del aprendizaje autosupervisado.