On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic
Sobre la Alineación Entre Aprendizaje Contrastivo Supervisado y Autosupervisado
El aprendizaje contrastivo autosupervisado (CL) ha logrado un éxito empírico significativo, produciendo típicamente representaciones comparables al preentrenamiento supervisado. Explicaciones teóricas recientes han aclarado este fenómeno, demostrando que cuando el número de clases crece, la pérdida de CL se aproxima estrechamente a un proxy supervisado: la pérdida de aprendizaje contrastivo supervisado solo con negativos (NSCL). Sin embargo, esta similitud a nivel de pérdida deja abierta una pregunta fundamental: ¿se mantienen CL y NSCL alineados a nivel de representación durante todo el proceso de entrenamiento, no solo en la función objetivo?
Este artículo aborda esta cuestión analizando la alineación de representaciones de modelos CL y NSCL entrenados bajo aleatoriedad compartida (inicialización idéntica, lotes y aumentos de datos). El estudio demuestra que las representaciones que inducen permanecen similares: específicamente, se prueba que bajo condiciones realistas, las matrices de similitud de CL y NSCL se mantienen cercanas. Los límites proporcionan garantías de alta probabilidad para métricas de alineación (como Alineación de Kernel Centrada CKA y Análisis de Similitud de Representación RSA), e iluminan cómo la alineación mejora con más clases, mayor temperatura, y su dependencia del tamaño del lote.
El problema central que este artículo aborda es: ¿Se mantienen el aprendizaje contrastivo autosupervisado (CL) y el aprendizaje contrastivo supervisado solo con negativos (NSCL) alineados a nivel de representación durante el entrenamiento?
Brecha entre éxito empírico y explicación teórica: Aunque CL funciona excepcionalmente bien en la práctica, sigue siendo un misterio por qué aprende características alineadas con los límites de clases semánticas
Insuficiencia de similitud a nivel de pérdida: Trabajos previos (Luthra et al., 2025) solo han probado similitud entre CL y NSCL a nivel de función de pérdida, pero esto no garantiza consistencia en las trayectorias de optimización
Importancia de la alineación de representaciones: La similitud a nivel de pérdida no garantiza que los parámetros y representaciones permanezcan acoplados durante el entrenamiento, pudiendo divergir debido a diferencias en curvatura, ruido de gradientes o programación de tasas de aprendizaje
Perspectiva de maximización de información mutua: La teoría temprana vinculaba CL con maximización de información mutua entre vistas, pero las restricciones excesivas degradan el rendimiento en tareas posteriores
Alineación y uniformidad: Aunque los criterios geométricos son intuitivos, no explican completamente cómo se organizan diferentes clases semánticas bajo entrenamiento de CL
Teoría de recuperación de agrupamientos: La mayoría de resultados dependen de suposiciones restrictivas, como independencia condicional de aumentos dada la identidad de agrupamiento
Se prueba que bajo aleatoriedad compartida, las matrices de similitud de CL y NSCL permanecen cercanas durante el entrenamiento
Se proporcionan límites inferiores de alta probabilidad para métricas de alineación CKA y RSA
Se revela cómo la alineación varía con el número de clases, parámetro de temperatura y tamaño del lote
Innovación Metodológica:
Transición del análisis en espacio de parámetros al espacio de representaciones, evitando inestabilidad inherente del acoplamiento en espacio de parámetros
Establecimiento de dinámicas de proxy de "descenso de similitud" que rastrean fielmente la evolución de similitud inducida por SGD en espacio de parámetros
Verificación Experimental:
Validación de predicciones teóricas en múltiples conjuntos de datos
Demostración de que NSCL está más cerca de CL que otros métodos supervisados
Confirmación de mejora de alineación con escala y temperatura
Dado un conjunto de datos balanceado por clases S={(xi,yi)}i=1N⊂X×[C], donde cada clase tiene n muestras (N=Cn). El codificador fw:X→Rd mapea entradas a incrustaciones.
Sea Σt∈[−1,1]N×N la matriz de similitud por pares de un conjunto de referencia fijo en el paso t. Se analiza la evolución acoplada de similitudes de CL y NSCL:
ΣtCL,ΣtNSCL∈[−1,1]N×N
Para un minilote realizado Bt={(xj,xj′,yj)}j=1B, se define el mapeo de gradiente de lote:
GtCL:=∇ΣℓˉBtCL(ΣtCL),GtNSCL:=∇ΣℓˉBtNSCL(ΣtNSCL)
La actualización proxy es:
Σt+1CL=ΣtCL−ηtGtCL,Σt+1NSCL=ΣtNSCL−ηtGtNSCL
Con probabilidad al menos 1−δ, para cualquier secuencia de tamaño de paso (ηt)t=0T−1:
∥ΣTCL−ΣTNSCL∥F≤exp(2τ2B1∑t=0T−1ηt)τB1(∑t=0T−1ηt)ΔC,δ(B;τ)
donde ΔC,δ(B;τ)=1−C1−ϵB,δ2e2/τ(C1+ϵB,δ), ϵB,δ=2B1log(δTB).
De espacio de parámetros a espacio de representaciones: Evita problemas de divergencia exponencial en espacio de parámetros
Explotación de ortogonalidad de bloques: Utiliza ortogonalidad de gradientes de diferentes puntos de anclaje para simplificar análisis
Estabilidad modulada por temperatura: El término τ2B1 en el factor exponencial hace que el espacio de similitud sea más estable que el espacio de parámetros
Estabilidad de alineación de representaciones: CL y NSCL permanecen estrechamente acoplados en espacio de representaciones, aunque parámetros puedan divergir
Consistencia entre teoría y práctica: Experimentos validan predicciones teóricas de efectos de número de clases, temperatura y tamaño de lote
NSCL como puente: NSCL rastrea CL mejor que otros métodos supervisados, siendo puente principista entre aprendizaje autosupervisado y supervisado
Contribución teórica significativa: Primera garantía teórica rigurosa de alineación CL-NSCL en espacio de representaciones
Innovación metodológica: Enfoque novedoso y efectivo de análisis en espacio de similitud en lugar de espacio de parámetros
Verificación experimental exhaustiva: Validación de predicciones teóricas en múltiples conjuntos de datos desde múltiples ángulos, diseño experimental sólido
Valor práctico: Proporciona nueva perspectiva para comprender mecanismos de éxito del aprendizaje autosupervisado
Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis
Resumen: Este artículo establece teóricamente conexiones profundas entre aprendizaje contrastivo autosupervisado y aprendizaje supervisado, probando mediante análisis matemático riguroso alineación a nivel de representación, proporcionando perspectivas importantes para comprender mecanismos de éxito del aprendizaje autosupervisado. Aunque la practicidad de límites teóricos es limitada, su innovación metodológica y verificación experimental hacen contribuciones importantes al desarrollo teórico del campo.