2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

감독 학습과 자기감독 대조 학습 간의 정렬에 관하여

기본 정보

  • 논문 ID: 2510.08852
  • 제목: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • 저자: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • 분류: cs.LG
  • 발표 시간: 2025년 10월 9일 (사전 인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08852v1

초록

자기감독 대조 학습(CL)은 경험적으로 상당한 성공을 거두었으며, 일반적으로 감독 사전 훈련과 필적할 수 있는 표현을 생성합니다. 최근의 이론적 설명에 따르면 클래스 수가 증가할 때 CL 손실이 감독 대리 손실인 음수 샘플만 감독 대조 학습(NSCL) 손실에 밀접하게 근접함을 보여줍니다. 그러나 이러한 손실 수준의 유사성은 다음과 같은 개방형 질문을 남깁니다: CL과 NSCL이 목적 함수뿐만 아니라 전체 훈련 과정에서 표현 수준에서도 정렬 상태를 유지하는가?

본 논문은 공유 난수성(동일한 초기화, 배치 및 데이터 증강)에서 훈련된 CL 및 NSCL 모델의 표현 정렬을 분석하여 이 문제를 해결합니다. 연구는 이들이 유도하는 표현이 유사성을 유지함을 증명합니다: 구체적으로, 현실적 조건에서 CL과 NSCL의 유사성 행렬이 가까운 상태로 유지됨을 증명합니다. 경계는 중심화 커널 정렬(CKA) 및 표현 유사성 분석(RSA)과 같은 정렬 메트릭에 대한 높은 확률 보장을 제공하며, 정렬이 더 많은 클래스, 더 높은 온도로 어떻게 개선되는지, 그리고 배치 크기에 대한 의존성을 명확히 합니다.

연구 배경 및 동기

핵심 문제

본 논문이 해결하고자 하는 핵심 문제는: 자기감독 대조 학습(CL)과 음수 샘플만 감독 대조 학습(NSCL)이 훈련 과정에서 표현 수준에서 정렬 상태를 유지하는가?

연구 동기

  1. 경험적 성공과 이론적 설명의 간극: CL이 실제로 우수한 성능을 보이지만, 의미론적 클래스 경계에 정렬된 특징을 학습하는 이유는 여전히 미스터리입니다
  2. 손실 수준 유사성의 부족: 이전 연구(Luthra et al., 2025)는 CL과 NSCL의 손실 함수 수준에서의 유사성만 증명했으나, 이는 최적화 궤적의 일관성을 보장하지 못합니다
  3. 표현 정렬의 중요성: 손실 수준의 유사성은 곡률, 그래디언트 노이즈 또는 학습률 스케줄의 차이로 인해 발산할 수 있으므로 훈련 과정에서 매개변수와 표현이 결합된 상태로 유지됨을 보장하지 못합니다

기존 방법의 한계

  • 상호 정보 최대화 관점: 초기 이론은 CL을 뷰 간 상호 정보 최대화와 연결했으나, 과도한 제약은 하위 작업 성능을 저하시킵니다
  • 정렬성과 균일성: 기하학적 기준은 직관적이지만 CL 훈련 하에서 서로 다른 의미론적 클래스의 조직 방식을 완전히 설명할 수 없습니다
  • 클러스터링 복구 이론: 대부분의 결과는 주어진 클러스터 신원의 증강 조건부 독립성과 같은 제한적 가정에 의존합니다

핵심 기여

  1. 이론적 기여:
    • 공유 난수성 하에서 CL과 NSCL의 유사성 행렬이 훈련 과정에서 가까운 상태로 유지됨을 증명
    • CKA 및 RSA 정렬 메트릭에 대한 높은 확률 하한 제공
    • 정렬성이 클래스 수, 온도 매개변수 및 배치 크기에 따라 어떻게 변하는지 규명
  2. 방법론적 혁신:
    • 매개변수 공간에서 표현 공간으로의 분석 전환으로 매개변수 공간 결합의 내재적 불안정성 회피
    • 매개변수 공간 SGD가 유도하는 유사성 진화를 충실히 추적하는 "유사성 하강" 대리 동역학 수립
  3. 실험 검증:
    • 여러 데이터셋에서 이론적 예측 검증
    • NSCL이 다른 감독 방법보다 CL에 더 가까움을 증명
    • 규모 및 온도에 따른 정렬성 향상 확인

방법론 상세 설명

작업 정의

클래스 균형 데이터셋 S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]가 주어지면, 각 클래스는 nn개의 샘플을 가집니다(N=CnN = Cn). 인코더 fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d는 입력을 임베딩으로 매핑합니다.

핵심 방법: 유사성 공간 분석

1. 유사성 행렬 동역학

Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N}을 단계 tt에서 고정 참조 집합의 쌍별 유사성 행렬이라 하면, CL과 NSCL 유사성의 결합 진화를 분석합니다: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. 대리 유사성 하강

실현된 미니배치 Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B에 대해, 배치 그래디언트 매핑을 정의합니다: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

대리 업데이트는: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

주요 이론적 결과

정리 1: 유사성 공간 결합

확률 최소 1δ1-\delta에서, 임의의 단계 크기 수열 (ηt)t=0T1(\eta_t)_{t=0}^{T-1}에 대해: ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

여기서 ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}, ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}입니다.

CKA 및 RSA 하한

추론 1 (CKA 하한): 정리 1의 설정에서, 확률 최소 1δ1-\delta: CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

추론 2 (RSA 하한): 유사하게: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

기술적 혁신점

  1. 매개변수 공간에서 표현 공간으로: 매개변수 공간의 지수 발산 문제 회피
  2. 블록 직교성 활용: 서로 다른 앵커 그래디언트의 직교성을 이용한 분석 단순화
  3. 온도 조절 안정성: 지수 인자의 1τ2B\frac{1}{\tau^2 B} 항이 표현 공간을 매개변수 공간보다 더 안정적으로 만듦

실험 설정

데이터셋

  • CIFAR-10/100: 50,000개 훈련 이미지, 10,000개 검증 이미지
  • Mini-ImageNet: ImageNet-1K의 100개 클래스 부분집합
  • Tiny-ImageNet: 100,000개의 64×64 이미지, 200개 클래스
  • ImageNet-1K: 완전한 ImageNet 데이터셋

평가 메트릭

  • 선형 CKA (중심화 커널 정렬): 중심화된 유사성 행렬의 정규화된 프로베니우스 내적
  • RSA (표현 유사성 분석): 표현 비유사성 행렬의 비대각 원소의 피어슨 상관
  • 최근접 클래스 중심 분류기(NCCC)선형 탐사(LP) 정확도

비교 방법

  • NSCL: 음수 샘플만 감독 대조 학습
  • SCL: 감독 대조 학습(Khosla et al., 2020)
  • CE: 교차 엔트로피 손실

구현 세부사항

  • 아키텍처: ResNet-50 인코더 + 2층 MLP 투영 헤드
  • 최적화기: LARS 최적화기, 모멘텀 0.9, 가중치 감쇠 1e-6
  • 배치 크기: 1024
  • 학습률: 기본 학습률 0.3, 배치 크기에 따라 스케일링
  • 훈련 전략: 10 에포크 워밍업 + 코사인 학습률 스케줄

실험 결과

주요 결과

1. 서로 다른 감독 방법의 정렬성 비교

모든 데이터셋에서 NSCL과 CL의 정렬성이 일관되게 가장 높습니다:

  • Tiny-ImageNet: 1000 에포크 후 CL-NSCL의 CKA가 0.87에 도달, CL-SCL은 0.043에 불과
  • 정렬성 순서: NSCL > CE > SCL

2. 클래스 수의 정렬성에 대한 영향

이론적 예측 검증: 더 많은 클래스는 더 강한 CL-NSCL 정렬을 초래합니다

  • 모든 데이터셋에서 훈련 클래스 수 CC'가 증가함에 따라 RSA 및 CKA 값이 단조 증가
  • ImageNet-1K에서 2개 클래스에서 1000개 클래스까지의 완전한 검증

3. 온도 매개변수의 영향

높은 온도는 정렬성을 향상시키며, 이론적 분석을 검증합니다:

  • τ=1.0\tau = 1.0일 때 정렬성이 가장 높음
  • τ=0.5\tau = 0.5τ=0.1\tau = 0.1은 각각 감소
  • 모든 데이터셋에서 일관된 추세 유지

4. 배치 크기의 영향

서로 다른 학습률 스케일링에서의 정렬성 변화:

  • O(B) 스케일링: 배치 크기 감소에 따른 정렬성 감소
  • O(√B), O(∜B), O(1) 스케일링: 배치 크기 증가에 따른 정렬성 증가
  • 결과는 이론적 경계의 의존성 관계와 일치

매개변수 공간 vs 표현 공간

  • 가중치 공간: CL과 감독 방법의 매개변수가 빠르게 발산
  • 표현 공간: CKA 및 RSA가 높은 정렬성 유지(>0.8)
  • 표현 정렬의 안정성과 매개변수 발산의 대조 증명

하위 작업 성능

데이터셋CL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088.37/90.1694.47/94.0994.93/94.6792.97/93.39
CIFAR-10054.62/65.6560.14/68.3864.06/69.5267.35/68.04
Mini-ImageNet60.78/65.3063.92/72.6074.78/76.0075.20/74.00
Tiny-ImageNet40.59/44.6140.76/45.7948.63/48.7348.28/52.57

관련 연구

대조 학습 이론

  1. 상호 정보 관점: 초기 CL을 상호 정보 최대화와 연결했으나, 과도한 제약은 성능 손상
  2. 기하학적 관점: 정렬성 및 균일성 속성이지만 의미론적 클래스 조직을 완전히 설명하지 못함
  3. 클러스터링 복구: 대부분 조건부 독립성과 같은 제한적 가정에 의존

감독 학습 연결

  1. 선형 모델: VicReg 등의 자기감독 목표와 감독 이차 손실의 일치
  2. 레이블 무관 경계: 본 논문의 기초가 되는 Luthra et al. (2025) 연구가 CL과 NSCL의 명시적 결합 수립

기타 이론적 연구

  • 특징 학습 동역학, 증강의 역할, 투영 헤드 분석, 샘플 복잡성 등

결론 및 논의

주요 결론

  1. 표현 정렬의 안정성: CL과 NSCL은 매개변수가 발산할 수 있음에도 불구하고 표현 공간에서 긴밀한 결합 유지
  2. 이론과 실제의 일치: 실험이 클래스 수, 온도 및 배치 크기 효과의 이론적 예측 검증
  3. 대리로서의 NSCL: NSCL은 다른 감독 방법보다 CL을 더 잘 추적하며, 자기감독과 감독 학습의 원리적 다리

한계

  1. 경계의 타이트함: 이론적 경계는 대규모, 장기 훈련의 경우 과도하게 느슨할 수 있음
  2. 최악의 경우 분석: 일관된 높은 확률 집중 경계 사용으로 타이트함보다 일반성 선호
  3. 지수 인자: 처음 몇 에포크를 초과하는 대규모 훈련에서 지수 인자가 경계를 무효화할 수 있음

향후 방향

  1. 더 타이트한 경계: 최악의 경우 경계보다는 데이터 의존 구조 활용
  2. 다른 SSL 패러다임으로 확장: 비대조 방법으로 프레임워크 확장
  3. 실용성 개선: 안정성 유지 동시에 보장의 실용성 개선

심층 평가

장점

  1. 현저한 이론적 기여: 표현 공간에서 CL-NSCL 정렬의 엄격한 이론적 보장을 처음 수립
  2. 방법론적 혁신: 매개변수 공간에서 유사성 공간으로의 분석 접근이 참신하고 효과적
  3. 충분한 실험: 다중 데이터셋, 다각적 관점에서 이론적 예측 검증, 합리적 실험 설계
  4. 실용적 가치: 자기감독 학습의 성공 메커니즘 이해에 새로운 관점 제공

부족한 점

  1. 경계의 실용성: 이론적 경계가 실제 응용에서 과도하게 느슨할 수 있음
  2. 가정의 제한: 공유 난수성 가정이 실제 응용에서 현실적이지 않을 수 있음
  3. 방법의 한계: 대조 학습 패러다임만 고려하며 다른 SSL 방법 미포함

영향력

  1. 이론적 의의: 자기감독 학습 이론에 중요한 보완 제공
  2. 방법론적 영감: 유사성 공간 분석 방법이 후속 연구에 영감을 줄 수 있음
  3. 실제 지침: 적절한 감독 대리 선택에 대한 이론적 근거 제공

적용 시나리오

  • 자기감독과 감독 학습의 관계를 이해해야 하는 연구
  • 대조 학습 방법의 이론적 분석
  • 표현 학습의 안정성 연구

참고문헌

  1. Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020): Supervised contrastive learning
  4. Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008): Representational similarity analysis

요약: 본 논문은 자기감독 대조 학습과 감독 학습 간의 깊은 연결을 이론적으로 수립하며, 엄격한 수학적 분석을 통해 표현 수준의 정렬성을 증명하여 자기감독 학습의 성공 메커니즘을 이해하기 위한 중요한 통찰을 제공합니다. 이론적 경계의 실용성이 제한적이지만, 방법론적 혁신과 실험 검증이 해당 분야의 이론적 발전에 중요한 기여를 합니다.