2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti

Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].

academic

Sobre la Alineación Entre Aprendizaje Contrastivo Supervisado y Autosupervisado

Información Básica

ID del Artículo: 2510.08852
Título: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Autores: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
Clasificación: cs.LG
Fecha de Publicación: 9 de octubre de 2025 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.08852v1

Resumen

El aprendizaje contrastivo autosupervisado (CL) ha logrado un éxito empírico significativo, produciendo típicamente representaciones comparables al preentrenamiento supervisado. Explicaciones teóricas recientes han aclarado este fenómeno, demostrando que cuando el número de clases crece, la pérdida de CL se aproxima estrechamente a un proxy supervisado: la pérdida de aprendizaje contrastivo supervisado solo con negativos (NSCL). Sin embargo, esta similitud a nivel de pérdida deja abierta una pregunta fundamental: ¿se mantienen CL y NSCL alineados a nivel de representación durante todo el proceso de entrenamiento, no solo en la función objetivo?

Este artículo aborda esta cuestión analizando la alineación de representaciones de modelos CL y NSCL entrenados bajo aleatoriedad compartida (inicialización idéntica, lotes y aumentos de datos). El estudio demuestra que las representaciones que inducen permanecen similares: específicamente, se prueba que bajo condiciones realistas, las matrices de similitud de CL y NSCL se mantienen cercanas. Los límites proporcionan garantías de alta probabilidad para métricas de alineación (como Alineación de Kernel Centrada CKA y Análisis de Similitud de Representación RSA), e iluminan cómo la alineación mejora con más clases, mayor temperatura, y su dependencia del tamaño del lote.

Contexto de Investigación y Motivación

Problema Central

El problema central que este artículo aborda es: ¿Se mantienen el aprendizaje contrastivo autosupervisado (CL) y el aprendizaje contrastivo supervisado solo con negativos (NSCL) alineados a nivel de representación durante el entrenamiento?

Motivación de la Investigación

Brecha entre éxito empírico y explicación teórica: Aunque CL funciona excepcionalmente bien en la práctica, sigue siendo un misterio por qué aprende características alineadas con los límites de clases semánticas
Insuficiencia de similitud a nivel de pérdida: Trabajos previos (Luthra et al., 2025) solo han probado similitud entre CL y NSCL a nivel de función de pérdida, pero esto no garantiza consistencia en las trayectorias de optimización
Importancia de la alineación de representaciones: La similitud a nivel de pérdida no garantiza que los parámetros y representaciones permanezcan acoplados durante el entrenamiento, pudiendo divergir debido a diferencias en curvatura, ruido de gradientes o programación de tasas de aprendizaje

Limitaciones de Métodos Existentes

Perspectiva de maximización de información mutua: La teoría temprana vinculaba CL con maximización de información mutua entre vistas, pero las restricciones excesivas degradan el rendimiento en tareas posteriores
Alineación y uniformidad: Aunque los criterios geométricos son intuitivos, no explican completamente cómo se organizan diferentes clases semánticas bajo entrenamiento de CL
Teoría de recuperación de agrupamientos: La mayoría de resultados dependen de suposiciones restrictivas, como independencia condicional de aumentos dada la identidad de agrupamiento

Contribuciones Principales

Contribuciones Teóricas:
- Se prueba que bajo aleatoriedad compartida, las matrices de similitud de CL y NSCL permanecen cercanas durante el entrenamiento
- Se proporcionan límites inferiores de alta probabilidad para métricas de alineación CKA y RSA
- Se revela cómo la alineación varía con el número de clases, parámetro de temperatura y tamaño del lote
Innovación Metodológica:
- Transición del análisis en espacio de parámetros al espacio de representaciones, evitando inestabilidad inherente del acoplamiento en espacio de parámetros
- Establecimiento de dinámicas de proxy de "descenso de similitud" que rastrean fielmente la evolución de similitud inducida por SGD en espacio de parámetros
Verificación Experimental:
- Validación de predicciones teóricas en múltiples conjuntos de datos
- Demostración de que NSCL está más cerca de CL que otros métodos supervisados
- Confirmación de mejora de alineación con escala y temperatura

Explicación Detallada del Método

Definición de Tarea

Dado un conjunto de datos balanceado por clases $S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]$ , donde cada clase tiene $n$ muestras ( $N = Cn$ ). El codificador $f_w: \mathcal{X} \to \mathbb{R}^d$ mapea entradas a incrustaciones.

Método Principal: Análisis en Espacio de Similitud

1. Dinámicas de Matriz de Similitud

Sea $\Sigma_t \in [-1,1]^{N \times N}$ la matriz de similitud por pares de un conjunto de referencia fijo en el paso $t$ . Se analiza la evolución acoplada de similitudes de CL y NSCL: $\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}$

2. Descenso de Similitud Proxy

Para un minilote realizado $B_t = \{(x_j, x'_j, y_j)\}_{j=1}^B$ , se define el mapeo de gradiente de lote: $G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)$

La actualización proxy es: $\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t$

Resultados Teóricos Principales

Teorema 1: Acoplamiento en Espacio de Similitud

Con probabilidad al menos $1-\delta$ , para cualquier secuencia de tamaño de paso $(\eta_t)_{t=0}^{T-1}$ : $\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)$

donde $\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}$ , $\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}$ .

Límites Inferiores de CKA y RSA

Corolario 1 (Límite Inferior de CKA): Bajo las condiciones del Teorema 1, con probabilidad al menos $1-\delta$ : $CKA_T \geq \frac{1-\rho_T}{1+\rho_T}$

Corolario 2 (Límite Inferior de RSA): De manera similar: $RSA_T \geq \frac{1-r_T}{1+r_T}$

Puntos de Innovación Técnica

De espacio de parámetros a espacio de representaciones: Evita problemas de divergencia exponencial en espacio de parámetros
Explotación de ortogonalidad de bloques: Utiliza ortogonalidad de gradientes de diferentes puntos de anclaje para simplificar análisis
Estabilidad modulada por temperatura: El término $\frac{1}{\tau^2 B}$ en el factor exponencial hace que el espacio de similitud sea más estable que el espacio de parámetros

Configuración Experimental

Conjuntos de Datos

CIFAR-10/100: 50,000 imágenes de entrenamiento, 10,000 imágenes de validación
Mini-ImageNet: Subconjunto de 100 clases de ImageNet-1K
Tiny-ImageNet: 100,000 imágenes de 64×64, 200 clases
ImageNet-1K: Conjunto de datos ImageNet completo

Métricas de Evaluación

CKA Lineal (Alineación de Kernel Centrada): Producto interno de Frobenius normalizado de matrices de similitud centradas
RSA (Análisis de Similitud de Representación): Correlación de Pearson de elementos no diagonales de matrices de disimilitud de representación
Precisión de Clasificador de Centro de Clase Más Cercano (NCCC) y Sondeo Lineal (LP)

Métodos de Comparación

NSCL: Aprendizaje contrastivo supervisado solo con negativos
SCL: Aprendizaje contrastivo supervisado (Khosla et al., 2020)
CE: Pérdida de entropía cruzada

Detalles de Implementación

Arquitectura: Codificador ResNet-50 + cabeza de proyección MLP de dos capas
Optimizador: Optimizador LARS, momento 0.9, decaimiento de peso 1e-6
Tamaño del lote: 1024
Tasa de aprendizaje: Tasa de aprendizaje base 0.3, escalada por tamaño de lote
Estrategia de entrenamiento: 10 épocas de precalentamiento + programación de tasa de aprendizaje coseno

Resultados Experimentales

Resultados Principales

1. Comparación de Alineación Entre Métodos Supervisados Diferentes

La alineación de NSCL con CL es consistentemente la más alta en todos los conjuntos de datos:

Tiny-ImageNet: CKA de CL-NSCL alcanza 0.87 después de 1000 épocas, mientras que CL-SCL es solo 0.043
Orden de alineación: NSCL > CE > SCL

2. Impacto del Número de Clases en Alineación

Valida predicciones teóricas: más clases conducen a alineación CL-NSCL más fuerte

En todos los conjuntos de datos, RSA y CKA aumentan monótonamente con el número de clases de entrenamiento $C'$
Validación completa de 2 a 1000 clases en ImageNet-1K

3. Impacto del Parámetro de Temperatura

Mayor temperatura mejora alineación, validando análisis teórico:

Alineación más alta en $\tau = 1.0$
Disminución sucesiva en $\tau = 0.5$ y $\tau = 0.1$
Tendencia consistente en todos los conjuntos de datos

4. Impacto del Tamaño del Lote

Cambios de alineación bajo diferentes escalados de tasa de aprendizaje:

Escalado O(B): Alineación disminuye con tamaño de lote
Escalado O(√B), O(∜B), O(1): Alineación aumenta con tamaño de lote
Resultados consistentes con dependencia de límites teóricos

Espacio de Parámetros vs Espacio de Representaciones

Espacio de pesos: Parámetros de CL y métodos supervisados divergen rápidamente
Espacio de representaciones: CKA y RSA mantienen alta alineación (>0.8)
Demuestra estabilidad de alineación de representaciones en contraste con divergencia de parámetros

Rendimiento en Tareas Posteriores

Conjunto de Datos	CL(NCCC/LP)	NSCL(NCCC/LP)	SCL(NCCC/LP)	CE(NCCC/LP)
CIFAR-10	88.37/90.16	94.47/94.09	94.93/94.67	92.97/93.39
CIFAR-100	54.62/65.65	60.14/68.38	64.06/69.52	67.35/68.04
Mini-ImageNet	60.78/65.30	63.92/72.60	74.78/76.00	75.20/74.00
Tiny-ImageNet	40.59/44.61	40.76/45.79	48.63/48.73	48.28/52.57

Trabajo Relacionado

Teoría del Aprendizaje Contrastivo

Perspectiva de información mutua: Vinculación temprana de CL con maximización de información mutua, pero restricciones excesivas dañan rendimiento
Perspectiva geométrica: Propiedades de alineación y uniformidad, pero no explican completamente organización de clases semánticas
Recuperación de agrupamientos: Mayoría depende de suposiciones restrictivas como independencia condicional

Conexiones con Aprendizaje Supervisado

Modelos lineales: Objetivos autosupervisados como VicReg coinciden con pérdidas cuadráticas supervisadas
Límites independientes de etiquetas: Trabajo de Luthra et al. (2025) en el que se basa este artículo establece acoplamiento explícito entre CL y NSCL

Otras Investigaciones Teóricas

Dinámicas de aprendizaje de características, papel de aumentos, análisis de cabeza de proyección, complejidad de muestras, etc.

Conclusiones y Discusión

Conclusiones Principales

Estabilidad de alineación de representaciones: CL y NSCL permanecen estrechamente acoplados en espacio de representaciones, aunque parámetros puedan divergir
Consistencia entre teoría y práctica: Experimentos validan predicciones teóricas de efectos de número de clases, temperatura y tamaño de lote
NSCL como puente: NSCL rastrea CL mejor que otros métodos supervisados, siendo puente principista entre aprendizaje autosupervisado y supervisado

Limitaciones

Estrechez de límites: Límites teóricos pueden ser demasiado holgados en escala grande y entrenamiento prolongado
Análisis de caso peor: Uso de límites de concentración de alta probabilidad uniformes, sesgado hacia generalidad sobre estrechez
Factor exponencial: En entrenamiento a gran escala más allá de primeras épocas, factor exponencial puede invalidar límites

Direcciones Futuras

Límites más estrechos: Explotación de estructura dependiente de datos en lugar de límites de caso peor
Extensión a otros paradigmas SSL: Extensión de marco a métodos no contrastivos
Mejora de practicidad: Mejora de practicidad de garantías manteniendo estabilidad

Evaluación Profunda

Fortalezas

Contribución teórica significativa: Primera garantía teórica rigurosa de alineación CL-NSCL en espacio de representaciones
Innovación metodológica: Enfoque novedoso y efectivo de análisis en espacio de similitud en lugar de espacio de parámetros
Verificación experimental exhaustiva: Validación de predicciones teóricas en múltiples conjuntos de datos desde múltiples ángulos, diseño experimental sólido
Valor práctico: Proporciona nueva perspectiva para comprender mecanismos de éxito del aprendizaje autosupervisado

Deficiencias

Practicidad de límites: Límites teóricos pueden ser demasiado holgados para aplicación práctica
Restricción de suposiciones: Suposición de aleatoriedad compartida puede no ser realista en aplicaciones prácticas
Limitación de método: Solo considera paradigma de aprendizaje contrastivo, no abarca otros métodos SSL

Impacto

Significancia teórica: Contribución importante a teoría de aprendizaje autosupervisado
Inspiración metodológica: Método de análisis en espacio de similitud puede inspirar investigación posterior
Orientación práctica: Proporciona base teórica para selección de proxies supervisados apropiados

Escenarios Aplicables

Investigación que requiere comprender relación entre aprendizaje autosupervisado y supervisado
Análisis teórico de métodos de aprendizaje contrastivo
Investigación de estabilidad en aprendizaje de representaciones

Referencias

Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis

Resumen: Este artículo establece teóricamente conexiones profundas entre aprendizaje contrastivo autosupervisado y aprendizaje supervisado, probando mediante análisis matemático riguroso alineación a nivel de representación, proporcionando perspectivas importantes para comprender mecanismos de éxito del aprendizaje autosupervisado. Aunque la practicidad de límites teóricos es limitada, su innovación metodológica y verificación experimental hacen contribuciones importantes al desarrollo teórico del campo.