2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

Sobre la Alineación Entre Aprendizaje Contrastivo Supervisado y Autosupervisado

Información Básica

  • ID del Artículo: 2510.08852
  • Título: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • Autores: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • Clasificación: cs.LG
  • Fecha de Publicación: 9 de octubre de 2025 (preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08852v1

Resumen

El aprendizaje contrastivo autosupervisado (CL) ha logrado un éxito empírico significativo, produciendo típicamente representaciones comparables al preentrenamiento supervisado. Explicaciones teóricas recientes han aclarado este fenómeno, demostrando que cuando el número de clases crece, la pérdida de CL se aproxima estrechamente a un proxy supervisado: la pérdida de aprendizaje contrastivo supervisado solo con negativos (NSCL). Sin embargo, esta similitud a nivel de pérdida deja abierta una pregunta fundamental: ¿se mantienen CL y NSCL alineados a nivel de representación durante todo el proceso de entrenamiento, no solo en la función objetivo?

Este artículo aborda esta cuestión analizando la alineación de representaciones de modelos CL y NSCL entrenados bajo aleatoriedad compartida (inicialización idéntica, lotes y aumentos de datos). El estudio demuestra que las representaciones que inducen permanecen similares: específicamente, se prueba que bajo condiciones realistas, las matrices de similitud de CL y NSCL se mantienen cercanas. Los límites proporcionan garantías de alta probabilidad para métricas de alineación (como Alineación de Kernel Centrada CKA y Análisis de Similitud de Representación RSA), e iluminan cómo la alineación mejora con más clases, mayor temperatura, y su dependencia del tamaño del lote.

Contexto de Investigación y Motivación

Problema Central

El problema central que este artículo aborda es: ¿Se mantienen el aprendizaje contrastivo autosupervisado (CL) y el aprendizaje contrastivo supervisado solo con negativos (NSCL) alineados a nivel de representación durante el entrenamiento?

Motivación de la Investigación

  1. Brecha entre éxito empírico y explicación teórica: Aunque CL funciona excepcionalmente bien en la práctica, sigue siendo un misterio por qué aprende características alineadas con los límites de clases semánticas
  2. Insuficiencia de similitud a nivel de pérdida: Trabajos previos (Luthra et al., 2025) solo han probado similitud entre CL y NSCL a nivel de función de pérdida, pero esto no garantiza consistencia en las trayectorias de optimización
  3. Importancia de la alineación de representaciones: La similitud a nivel de pérdida no garantiza que los parámetros y representaciones permanezcan acoplados durante el entrenamiento, pudiendo divergir debido a diferencias en curvatura, ruido de gradientes o programación de tasas de aprendizaje

Limitaciones de Métodos Existentes

  • Perspectiva de maximización de información mutua: La teoría temprana vinculaba CL con maximización de información mutua entre vistas, pero las restricciones excesivas degradan el rendimiento en tareas posteriores
  • Alineación y uniformidad: Aunque los criterios geométricos son intuitivos, no explican completamente cómo se organizan diferentes clases semánticas bajo entrenamiento de CL
  • Teoría de recuperación de agrupamientos: La mayoría de resultados dependen de suposiciones restrictivas, como independencia condicional de aumentos dada la identidad de agrupamiento

Contribuciones Principales

  1. Contribuciones Teóricas:
    • Se prueba que bajo aleatoriedad compartida, las matrices de similitud de CL y NSCL permanecen cercanas durante el entrenamiento
    • Se proporcionan límites inferiores de alta probabilidad para métricas de alineación CKA y RSA
    • Se revela cómo la alineación varía con el número de clases, parámetro de temperatura y tamaño del lote
  2. Innovación Metodológica:
    • Transición del análisis en espacio de parámetros al espacio de representaciones, evitando inestabilidad inherente del acoplamiento en espacio de parámetros
    • Establecimiento de dinámicas de proxy de "descenso de similitud" que rastrean fielmente la evolución de similitud inducida por SGD en espacio de parámetros
  3. Verificación Experimental:
    • Validación de predicciones teóricas en múltiples conjuntos de datos
    • Demostración de que NSCL está más cerca de CL que otros métodos supervisados
    • Confirmación de mejora de alineación con escala y temperatura

Explicación Detallada del Método

Definición de Tarea

Dado un conjunto de datos balanceado por clases S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C], donde cada clase tiene nn muestras (N=CnN = Cn). El codificador fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d mapea entradas a incrustaciones.

Método Principal: Análisis en Espacio de Similitud

1. Dinámicas de Matriz de Similitud

Sea Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N} la matriz de similitud por pares de un conjunto de referencia fijo en el paso tt. Se analiza la evolución acoplada de similitudes de CL y NSCL: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. Descenso de Similitud Proxy

Para un minilote realizado Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B, se define el mapeo de gradiente de lote: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

La actualización proxy es: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

Resultados Teóricos Principales

Teorema 1: Acoplamiento en Espacio de Similitud

Con probabilidad al menos 1δ1-\delta, para cualquier secuencia de tamaño de paso (ηt)t=0T1(\eta_t)_{t=0}^{T-1}: ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

donde ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}, ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}.

Límites Inferiores de CKA y RSA

Corolario 1 (Límite Inferior de CKA): Bajo las condiciones del Teorema 1, con probabilidad al menos 1δ1-\delta: CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

Corolario 2 (Límite Inferior de RSA): De manera similar: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

Puntos de Innovación Técnica

  1. De espacio de parámetros a espacio de representaciones: Evita problemas de divergencia exponencial en espacio de parámetros
  2. Explotación de ortogonalidad de bloques: Utiliza ortogonalidad de gradientes de diferentes puntos de anclaje para simplificar análisis
  3. Estabilidad modulada por temperatura: El término 1τ2B\frac{1}{\tau^2 B} en el factor exponencial hace que el espacio de similitud sea más estable que el espacio de parámetros

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10/100: 50,000 imágenes de entrenamiento, 10,000 imágenes de validación
  • Mini-ImageNet: Subconjunto de 100 clases de ImageNet-1K
  • Tiny-ImageNet: 100,000 imágenes de 64×64, 200 clases
  • ImageNet-1K: Conjunto de datos ImageNet completo

Métricas de Evaluación

  • CKA Lineal (Alineación de Kernel Centrada): Producto interno de Frobenius normalizado de matrices de similitud centradas
  • RSA (Análisis de Similitud de Representación): Correlación de Pearson de elementos no diagonales de matrices de disimilitud de representación
  • Precisión de Clasificador de Centro de Clase Más Cercano (NCCC) y Sondeo Lineal (LP)

Métodos de Comparación

  • NSCL: Aprendizaje contrastivo supervisado solo con negativos
  • SCL: Aprendizaje contrastivo supervisado (Khosla et al., 2020)
  • CE: Pérdida de entropía cruzada

Detalles de Implementación

  • Arquitectura: Codificador ResNet-50 + cabeza de proyección MLP de dos capas
  • Optimizador: Optimizador LARS, momento 0.9, decaimiento de peso 1e-6
  • Tamaño del lote: 1024
  • Tasa de aprendizaje: Tasa de aprendizaje base 0.3, escalada por tamaño de lote
  • Estrategia de entrenamiento: 10 épocas de precalentamiento + programación de tasa de aprendizaje coseno

Resultados Experimentales

Resultados Principales

1. Comparación de Alineación Entre Métodos Supervisados Diferentes

La alineación de NSCL con CL es consistentemente la más alta en todos los conjuntos de datos:

  • Tiny-ImageNet: CKA de CL-NSCL alcanza 0.87 después de 1000 épocas, mientras que CL-SCL es solo 0.043
  • Orden de alineación: NSCL > CE > SCL

2. Impacto del Número de Clases en Alineación

Valida predicciones teóricas: más clases conducen a alineación CL-NSCL más fuerte

  • En todos los conjuntos de datos, RSA y CKA aumentan monótonamente con el número de clases de entrenamiento CC'
  • Validación completa de 2 a 1000 clases en ImageNet-1K

3. Impacto del Parámetro de Temperatura

Mayor temperatura mejora alineación, validando análisis teórico:

  • Alineación más alta en τ=1.0\tau = 1.0
  • Disminución sucesiva en τ=0.5\tau = 0.5 y τ=0.1\tau = 0.1
  • Tendencia consistente en todos los conjuntos de datos

4. Impacto del Tamaño del Lote

Cambios de alineación bajo diferentes escalados de tasa de aprendizaje:

  • Escalado O(B): Alineación disminuye con tamaño de lote
  • Escalado O(√B), O(∜B), O(1): Alineación aumenta con tamaño de lote
  • Resultados consistentes con dependencia de límites teóricos

Espacio de Parámetros vs Espacio de Representaciones

  • Espacio de pesos: Parámetros de CL y métodos supervisados divergen rápidamente
  • Espacio de representaciones: CKA y RSA mantienen alta alineación (>0.8)
  • Demuestra estabilidad de alineación de representaciones en contraste con divergencia de parámetros

Rendimiento en Tareas Posteriores

Conjunto de DatosCL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088.37/90.1694.47/94.0994.93/94.6792.97/93.39
CIFAR-10054.62/65.6560.14/68.3864.06/69.5267.35/68.04
Mini-ImageNet60.78/65.3063.92/72.6074.78/76.0075.20/74.00
Tiny-ImageNet40.59/44.6140.76/45.7948.63/48.7348.28/52.57

Trabajo Relacionado

Teoría del Aprendizaje Contrastivo

  1. Perspectiva de información mutua: Vinculación temprana de CL con maximización de información mutua, pero restricciones excesivas dañan rendimiento
  2. Perspectiva geométrica: Propiedades de alineación y uniformidad, pero no explican completamente organización de clases semánticas
  3. Recuperación de agrupamientos: Mayoría depende de suposiciones restrictivas como independencia condicional

Conexiones con Aprendizaje Supervisado

  1. Modelos lineales: Objetivos autosupervisados como VicReg coinciden con pérdidas cuadráticas supervisadas
  2. Límites independientes de etiquetas: Trabajo de Luthra et al. (2025) en el que se basa este artículo establece acoplamiento explícito entre CL y NSCL

Otras Investigaciones Teóricas

  • Dinámicas de aprendizaje de características, papel de aumentos, análisis de cabeza de proyección, complejidad de muestras, etc.

Conclusiones y Discusión

Conclusiones Principales

  1. Estabilidad de alineación de representaciones: CL y NSCL permanecen estrechamente acoplados en espacio de representaciones, aunque parámetros puedan divergir
  2. Consistencia entre teoría y práctica: Experimentos validan predicciones teóricas de efectos de número de clases, temperatura y tamaño de lote
  3. NSCL como puente: NSCL rastrea CL mejor que otros métodos supervisados, siendo puente principista entre aprendizaje autosupervisado y supervisado

Limitaciones

  1. Estrechez de límites: Límites teóricos pueden ser demasiado holgados en escala grande y entrenamiento prolongado
  2. Análisis de caso peor: Uso de límites de concentración de alta probabilidad uniformes, sesgado hacia generalidad sobre estrechez
  3. Factor exponencial: En entrenamiento a gran escala más allá de primeras épocas, factor exponencial puede invalidar límites

Direcciones Futuras

  1. Límites más estrechos: Explotación de estructura dependiente de datos en lugar de límites de caso peor
  2. Extensión a otros paradigmas SSL: Extensión de marco a métodos no contrastivos
  3. Mejora de practicidad: Mejora de practicidad de garantías manteniendo estabilidad

Evaluación Profunda

Fortalezas

  1. Contribución teórica significativa: Primera garantía teórica rigurosa de alineación CL-NSCL en espacio de representaciones
  2. Innovación metodológica: Enfoque novedoso y efectivo de análisis en espacio de similitud en lugar de espacio de parámetros
  3. Verificación experimental exhaustiva: Validación de predicciones teóricas en múltiples conjuntos de datos desde múltiples ángulos, diseño experimental sólido
  4. Valor práctico: Proporciona nueva perspectiva para comprender mecanismos de éxito del aprendizaje autosupervisado

Deficiencias

  1. Practicidad de límites: Límites teóricos pueden ser demasiado holgados para aplicación práctica
  2. Restricción de suposiciones: Suposición de aleatoriedad compartida puede no ser realista en aplicaciones prácticas
  3. Limitación de método: Solo considera paradigma de aprendizaje contrastivo, no abarca otros métodos SSL

Impacto

  1. Significancia teórica: Contribución importante a teoría de aprendizaje autosupervisado
  2. Inspiración metodológica: Método de análisis en espacio de similitud puede inspirar investigación posterior
  3. Orientación práctica: Proporciona base teórica para selección de proxies supervisados apropiados

Escenarios Aplicables

  • Investigación que requiere comprender relación entre aprendizaje autosupervisado y supervisado
  • Análisis teórico de métodos de aprendizaje contrastivo
  • Investigación de estabilidad en aprendizaje de representaciones

Referencias

  1. Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020): Supervised contrastive learning
  4. Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008): Representational similarity analysis

Resumen: Este artículo establece teóricamente conexiones profundas entre aprendizaje contrastivo autosupervisado y aprendizaje supervisado, probando mediante análisis matemático riguroso alineación a nivel de representación, proporcionando perspectivas importantes para comprender mecanismos de éxito del aprendizaje autosupervisado. Aunque la practicidad de límites teóricos es limitada, su innovación metodológica y verificación experimental hacen contribuciones importantes al desarrollo teórico del campo.