On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
자기감독 대조 학습(CL)은 경험적으로 상당한 성공을 거두었으며, 일반적으로 감독 사전 훈련과 필적할 수 있는 표현을 생성합니다. 최근의 이론적 설명에 따르면 클래스 수가 증가할 때 CL 손실이 감독 대리 손실인 음수 샘플만 감독 대조 학습(NSCL) 손실에 밀접하게 근접함을 보여줍니다. 그러나 이러한 손실 수준의 유사성은 다음과 같은 개방형 질문을 남깁니다: CL과 NSCL이 목적 함수뿐만 아니라 전체 훈련 과정에서 표현 수준에서도 정렬 상태를 유지하는가?
본 논문은 공유 난수성(동일한 초기화, 배치 및 데이터 증강)에서 훈련된 CL 및 NSCL 모델의 표현 정렬을 분석하여 이 문제를 해결합니다. 연구는 이들이 유도하는 표현이 유사성을 유지함을 증명합니다: 구체적으로, 현실적 조건에서 CL과 NSCL의 유사성 행렬이 가까운 상태로 유지됨을 증명합니다. 경계는 중심화 커널 정렬(CKA) 및 표현 유사성 분석(RSA)과 같은 정렬 메트릭에 대한 높은 확률 보장을 제공하며, 정렬이 더 많은 클래스, 더 높은 온도로 어떻게 개선되는지, 그리고 배치 크기에 대한 의존성을 명확히 합니다.
Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
Khosla et al. (2020): Supervised contrastive learning
Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
Kriegeskorte et al. (2008): Representational similarity analysis
요약: 본 논문은 자기감독 대조 학습과 감독 학습 간의 깊은 연결을 이론적으로 수립하며, 엄격한 수학적 분석을 통해 표현 수준의 정렬성을 증명하여 자기감독 학습의 성공 메커니즘을 이해하기 위한 중요한 통찰을 제공합니다. 이론적 경계의 실용성이 제한적이지만, 방법론적 혁신과 실험 검증이 해당 분야의 이론적 발전에 중요한 기여를 합니다.