2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

基本信息

  • 论文ID: 2510.08852
  • 标题: On the Alignment Between Supervised and Self-Supervised Contrastive Learning
  • 作者: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (Texas A&M University)
  • 分类: cs.LG
  • 发表时间: 2025年10月9日 (预印本)
  • 论文链接: https://arxiv.org/abs/2510.08852v1

摘要

自监督对比学习(CL)在经验上取得了显著成功,通常产生可与监督预训练媲美的表示。最近的理论解释了这一现象,表明当类别数量增长时,CL损失紧密逼近一个监督代理——仅负样本监督对比学习(NSCL)损失。然而,这种损失层面的相似性留下了一个开放问题:CL和NSCL是否在整个训练过程中也在表示层面保持对齐,而不仅仅是在目标函数上?

本文通过分析在共享随机性(相同初始化、批次和数据增强)下训练的CL和NSCL模型的表示对齐来解决这个问题。研究证明了它们诱导的表示保持相似:具体来说,证明了在现实条件下CL和NSCL的相似性矩阵保持接近。界限为对齐度量(如中心化核对齐CKA和表示相似性分析RSA)提供了高概率保证,并阐明了对齐如何随着更多类别、更高温度改善,以及其对批次大小的依赖性。

研究背景与动机

核心问题

本文要解决的核心问题是:自监督对比学习(CL)和仅负样本监督对比学习(NSCL)在训练过程中是否在表示层面保持对齐?

研究动机

  1. 经验成功与理论解释的差距:虽然CL在实践中表现优异,但其为何能学到与语义类别边界对齐的特征仍是谜团
  2. 损失层面相似性的不足:先前工作(Luthra et al., 2025)仅证明了CL和NSCL在损失函数层面的相似性,但这不能保证优化轨迹的一致性
  3. 表示对齐的重要性:损失层面的相似性不能保证参数和表示在训练过程中保持耦合,可能因曲率、梯度噪声或学习率调度的差异而发散

现有方法局限性

  • 互信息最大化视角:早期理论将CL与视图间互信息最大化联系,但过度约束会降低下游性能
  • 对齐性和均匀性:几何准则虽直观,但不能完全解释不同语义类别在CL训练下的组织方式
  • 聚类恢复理论:大多数结果依赖限制性假设,如给定聚类身份的增强条件独立性

核心贡献

  1. 理论贡献
    • 证明了在共享随机性下,CL和NSCL的相似性矩阵在训练过程中保持接近
    • 提供了CKA和RSA对齐度量的高概率下界
    • 揭示了对齐性如何随类别数、温度参数和批次大小变化
  2. 方法创新
    • 从参数空间转向表示空间分析,避免了参数空间耦合的固有不稳定性
    • 建立了"相似性下降"代理动力学,忠实跟踪参数空间SGD诱导的相似性演化
  3. 实验验证
    • 在多个数据集上验证了理论预测
    • 证明NSCL比其他监督方法更接近CL
    • 确认了对齐性随规模和温度的增强

方法详解

任务定义

给定类别平衡数据集 S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C],其中每个类别有nn个样本(N=CnN = Cn)。编码器fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d将输入映射为嵌入。

核心方法:相似性空间分析

1. 相似性矩阵动力学

Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N}为步骤tt时固定参考集的成对相似性矩阵。分析CL和NSCL相似性的耦合演化: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. 代理相似性下降

对于实现的小批量Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B,定义批次梯度映射: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

代理更新为: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

主要理论结果

定理1:相似性空间耦合

在概率至少1δ1-\delta下,对于任意步长序列(ηt)t=0T1(\eta_t)_{t=0}^{T-1}ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

其中ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}

CKA和RSA下界

推论1 (CKA下界):在定理1的设定下,概率至少1δ1-\deltaCKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

推论2 (RSA下界):类似地: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

技术创新点

  1. 从参数空间到表示空间:避免了参数空间中的指数发散问题
  2. 块正交性利用:利用不同锚点梯度的正交性简化分析
  3. 温度调制稳定性:指数因子中的1τ2B\frac{1}{\tau^2 B}项使相似性空间比参数空间更稳定

实验设置

数据集

  • CIFAR-10/100: 50,000训练图像,10,000验证图像
  • Mini-ImageNet: ImageNet-1K的100个类别子集
  • Tiny-ImageNet: 100,000张64×64图像,200个类别
  • ImageNet-1K: 完整ImageNet数据集

评价指标

  • 线性CKA (Centered Kernel Alignment):中心化相似性矩阵的归一化Frobenius内积
  • RSA (Representational Similarity Analysis):表示不相似性矩阵非对角元素的Pearson相关
  • **最近类中心分类器(NCCC)线性探测(LP)**准确率

对比方法

  • NSCL: 仅负样本监督对比学习
  • SCL: 监督对比学习(Khosla et al., 2020)
  • CE: 交叉熵损失

实现细节

  • 架构: ResNet-50编码器 + 两层MLP投影头
  • 优化器: LARS优化器,动量0.9,权重衰减1e-6
  • 批次大小: 1024
  • 学习率: 基础学习率0.3,按批次大小缩放
  • 训练策略: 10轮预热 + 余弦学习率调度

实验结果

主要结果

1. 不同监督方法的对齐性比较

在所有数据集上,NSCL与CL的对齐性始终最高:

  • Tiny-ImageNet: 1000轮后CL-NSCL的CKA达到0.87,而CL-SCL仅为0.043
  • 对齐性排序: NSCL > CE > SCL

2. 类别数量对对齐性的影响

验证了理论预测:更多类别导致更强的CL-NSCL对齐

  • 在所有数据集上,随着训练类别数CC'增加,RSA和CKA值单调上升
  • ImageNet-1K上从2类到1000类的完整验证

3. 温度参数的影响

高温度提升对齐性,验证理论分析:

  • τ=1.0\tau = 1.0时对齐性最高
  • τ=0.5\tau = 0.5τ=0.1\tau = 0.1依次递减
  • 在所有数据集上保持一致趋势

4. 批次大小的影响

不同学习率缩放下的对齐性变化:

  • O(B)缩放: 对齐性随批次大小减少
  • O(\sqrt{B})、O(\sqrt4)、O(1)缩放: 对齐性随批次大小增加
  • 结果与理论界限的依赖关系一致

参数空间vs表示空间

  • 权重空间: CL和监督方法的参数快速发散
  • 表示空间: CKA和RSA保持高对齐性(>0.8)
  • 证明了表示对齐的稳定性与参数发散的对比

下游任务性能

数据集CL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088.37/90.1694.47/94.0994.93/94.6792.97/93.39
CIFAR-10054.62/65.6560.14/68.3864.06/69.5267.35/68.04
Mini-ImageNet60.78/65.3063.92/72.6074.78/76.0075.20/74.00
Tiny-ImageNet40.59/44.6140.76/45.7948.63/48.7348.28/52.57

相关工作

对比学习理论

  1. 互信息视角: 早期将CL与互信息最大化联系,但过度约束会损害性能
  2. 几何视角: 对齐性和均匀性属性,但不能完全解释语义类别组织
  3. 聚类恢复: 大多依赖限制性假设,如条件独立性

监督学习连接

  1. 线性模型: VicReg等自监督目标与监督二次损失一致
  2. 标签无关界限: 本文基于的Luthra et al. (2025)工作建立了CL与NSCL的显式耦合

其他理论研究

  • 特征学习动力学、增强的作用、投影头分析、样本复杂性等

结论与讨论

主要结论

  1. 表示对齐的稳定性: CL和NSCL在表示空间保持紧密耦合,尽管参数可能发散
  2. 理论与实践的一致性: 实验验证了理论预测的类别数、温度和批次大小效应
  3. NSCL作为桥梁: NSCL比其他监督方法更好地跟踪CL,是自监督和监督学习的原理性桥梁

局限性

  1. 界限的紧致性: 理论界限在大规模、长训练情况下可能过于宽松
  2. 最坏情况分析: 使用一致高概率集中界限,偏向通用性而非紧致性
  3. 指数因子: 在超过前几轮的大规模训练中,指数因子可能使界限失效

未来方向

  1. 更紧界限: 利用数据依赖结构而非最坏情况界限
  2. 扩展到其他SSL范式: 将框架扩展到非对比方法
  3. 实用性改进: 在保持稳定性的同时改进保证的实用性

深度评价

优点

  1. 理论贡献显著: 首次在表示空间建立CL-NSCL对齐的严格理论保证
  2. 方法论创新: 从参数空间转向相似性空间的分析思路新颖且有效
  3. 实验充分: 多数据集、多角度验证理论预测,实验设计合理
  4. 实用价值: 为理解自监督学习的成功机制提供了新视角

不足

  1. 界限实用性: 理论界限在实际应用中可能过于宽松
  2. 假设限制: 共享随机性的假设在实际应用中可能不现实
  3. 方法局限: 仅考虑对比学习范式,未涉及其他SSL方法

影响力

  1. 理论意义: 为自监督学习理论提供了重要补充
  2. 方法启发: 相似性空间分析方法可能启发后续研究
  3. 实践指导: 为选择合适的监督代理提供了理论依据

适用场景

  • 需要理解自监督和监督学习关系的研究
  • 对比学习方法的理论分析
  • 表示学习的稳定性研究

参考文献

  1. Luthra et al. (2025): Self-supervised contrastive learning is approximately supervised contrastive learning
  2. Chen et al. (2020): A simple framework for contrastive learning of visual representations (SimCLR)
  3. Khosla et al. (2020): Supervised contrastive learning
  4. Kornblith et al. (2019): Similarity of neural network representations revisited (CKA)
  5. Kriegeskorte et al. (2008): Representational similarity analysis

总结: 这篇论文在理论上建立了自监督对比学习与监督学习之间的深层连接,通过严格的数学分析证明了表示层面的对齐性,为理解自监督学习的成功机制提供了重要洞察。尽管理论界限的实用性有限,但其方法论创新和实验验证为该领域的理论发展做出了重要贡献。