2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee
Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
academic

Understanding Self-supervised Contrastive Learning through Supervised Objectives

基本信息

  • 论文ID: 2510.10572
  • 标题: Understanding Self-supervised Contrastive Learning through Supervised Objectives
  • 作者: Byeongchan Lee (KAIST)
  • 分类: cs.LG (Machine Learning)
  • 发表会议: Transactions on Machine Learning Research (10/2025)
  • 论文链接: https://arxiv.org/abs/2510.10572

摘要

自监督表征学习在实证方面取得了令人印象深刻的成功,但其理论理解仍然有限。本文通过将自监督表征学习表述为监督表征学习目标的近似,提供了一个理论视角。基于这一表述,作者推导出了与InfoNCE等流行对比损失密切相关的损失函数,为理解其潜在原理提供了洞察。推导过程自然地引入了原型表征偏差和平衡对比损失的概念,有助于解释和改进自监督学习算法的行为。

研究背景与动机

核心问题

  1. 理论理解缺失:自监督学习虽然在经验上取得成功,但其理论基础仍不够完善,缺乏对为什么这些方法有效的深入理解。
  2. 方法设计的经验性:现有的自监督学习方法主要通过架构创新推进,而非从形式化目标出发,缺乏理论指导。
  3. 监督与自监督的关系未明:监督学习和自监督学习之间的内在联系尚未得到充分阐释。

研究动机

  • 理论基础构建:为自监督学习提供坚实的理论基础,解释其有效性的根本原因
  • 方法改进指导:通过理论分析为算法设计提供原则性指导
  • 桥接监督与自监督:建立两种学习范式之间的理论联系

核心贡献

  1. 理论框架构建:提出将自监督表征学习表述为监督表征学习近似的理论框架,并从中推导出与InfoNCE损失密切相关的对比损失函数
  2. 理论洞察提供:为对比学习中的常见实践(如表征归一化、平衡数据集使用)提供理论解释
  3. 概念引入:引入原型表征偏差(prototype representation bias)概念,并观察其与下游性能的相关性
  4. 方法改进:提出平衡对比损失作为InfoNCE损失的自然扩展,通过改进平衡性实现更好的性能

方法详解

任务定义

将表征学习任务定义为学习编码器fθ:XRd{0}f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\},使得:

  • 相同视觉概念的图像表征聚集在一起
  • 不同视觉概念的图像表征相互分离

理论框架

监督表征学习问题

首先将监督学习表述为原型优化问题: minθs(fθ(t(x)),μy)+λmaxyys(fθ(t(x)),μy)\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})

其中:

  • s(,)s(·,·)是相似度度量(余弦相似度)
  • μyμ_y是标签yy的原型表征
  • λ>0λ > 0是平衡参数

原型表征构造

将原型表征定义为同标签图像表征的期望: μ^y:=ET,Xyfθ(T(X))\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))

自监督近似

在自监督设置中,使用替代原型表征: μ~:=ETfθ(T(x))\tilde{μ} := \mathbb{E}_T f_θ(T(x))

理论推导

吸引项上界(定理4.4)

在余弦相似度和L2归一化假设下: s(fθ(t(x)),ETfθ(T(x)))ETs(fθ(t(x)),fθ(T(x)))-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))

排斥项上界(定理4.6)

在平衡数据集假设下: maxyys(fθ(t(x)),ET,Xyfθ(T(X)))ET[1ναlogEXexp(αs(fθ(t(x)),fθ(T(X))))]+1ναlogn\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n

总损失函数

结合上述上界得到: l~(θ)=1αT^tT^[logexp(αs(fθ(t(x)),fθ(t(x))))(xX^exp(αs(fθ(t(x)),fθ(t(x)))))λ/ν]\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]

技术创新点

  1. 理论桥梁:首次建立监督学习与自监督学习之间的形式化理论联系
  2. 上界推导:通过严格的数学推导获得可处理的上界
  3. 原型偏差分析:量化自监督近似带来的偏差并分析其影响
  4. 平衡损失设计:基于理论分析提出改进的损失函数

实验设置

数据集

  • 主要数据集:ImageNet(1,281,167训练图像,50,000验证图像,1,000类)
  • 补充数据集:CIFAR-10(50,000训练图像,10,000测试图像,10类)
  • 不平衡数据集:ImageNet-LT(115,846图像,遵循Pareto分布)

评价指标

  • 线性评估:冻结预训练backbone,训练线性分类器的Top-1准确率
  • k近邻评估:基于表征相似度的k-NN分类准确率

对比方法

  • 基线方法:SimCLR及其变体
  • 损失函数变体
    • 平衡对比损失
    • 广义NT-Xent损失
    • 解耦对比损失

实现细节

  • 网络架构:ResNet-50 backbone + 3层MLP投影器
  • 训练配置:批大小512,100个epoch,SGD优化器
  • 数据增强:随机裁剪、颜色扭曲、灰度转换、高斯模糊、水平翻转

实验结果

主要结果

理论验证实验

  1. 原型表征偏差与性能关系
    • 基线SimCLR:65.98%准确率,36.72偏差
    • 移除高斯模糊:64.57%准确率,37.43偏差
    • 添加随机旋转:63.30%准确率,38.11偏差
    • 发现:较低的原型表征偏差对应更高的准确率
  2. 相似度度量影响
    • 余弦相似度+归一化:65.98%
    • 点积(无归一化):0.43%
    • 负欧氏距离(无归一化):10.63%
  3. 数据平衡性影响
    • 均匀分布:20.82%
    • 长尾分布:13.65%

平衡参数实验

ImageNet结果

  • 平衡对比损失:最佳性能在(α=4, λ=2)达到67.40%
  • 广义NT-Xent损失:最佳性能在(α=2, λ=2)达到66.85%
  • 性能提升:平衡对比损失相比标准NT-Xent提升约1.5%

CIFAR-10结果

  • 平衡对比损失:最佳性能在(α=1, λ=4)达到86.08%
  • 广义NT-Xent损失:最佳性能在(α=2, λ=2)达到85.85%

消融实验

数据增强策略影响

通过添加/移除不同变换验证理论预测:

  • 移除颜色扭曲:性能下降至62.56%
  • 添加随机cutout:性能提升至65.76%
  • 基线配置:65.98%

上界紧致性分析

  • 吸引项上界:训练过程中差距逐渐减小并稳定
  • 排斥项上界:相比吸引项保持较大但可控的差距

相关工作

对比学习损失

  • 历史发展:从Chopra等人(2005)的对比损失到triplet损失、InfoNCE损失
  • 本文贡献:提供基于监督学习近似的新理论视角

自监督学习理论

  • 现有视角
    • 互信息最大化视角
    • 协方差学习统一视角
    • 谱嵌入学习视角
  • 本文创新:首次建立与监督学习的显式理论联系

对比学习实践

  • 架构设计:Siamese网络、动量编码器、stop-gradient操作
  • 理论解释:本文为这些实践提供理论基础

结论与讨论

主要结论

  1. 理论统一:成功建立了监督学习与自监督学习之间的理论桥梁
  2. 实践指导:为对比学习中的常见实践提供了理论解释
  3. 方法改进:基于理论分析提出的平衡对比损失实现了性能提升

局限性

  1. 假设限制:理论分析依赖于余弦相似度、L2归一化、平衡数据集等假设
  2. 近似误差:自监督近似引入的偏差仍需进一步研究
  3. 实验范围:主要在图像分类任务上验证,其他领域的适用性待探索

未来方向

  1. 理论扩展:放宽现有假设,构建更一般的理论框架
  2. 方法改进:基于偏差分析设计更有效的自监督算法
  3. 应用拓展:将理论框架扩展到其他模态和任务

深度评价

优点

理论贡献

  1. 创新性强:首次提供监督学习与自监督学习的形式化理论联系
  2. 推导严谨:数学推导过程完整,所有证明都在附录中提供
  3. 洞察深刻:原型表征偏差概念为理解自监督学习提供新视角

实验验证

  1. 设计合理:实验设计紧密围绕理论预测,验证充分
  2. 结果说服:理论预测与实验结果高度一致
  3. 分析全面:从多个角度验证理论框架的有效性

实用价值

  1. 方法改进:平衡对比损失实现了实际性能提升
  2. 指导意义:为自监督学习算法设计提供理论指导
  3. 可复现性:提供完整的代码和实现细节

不足

理论局限

  1. 假设较强:理论分析依赖多个限制性假设,可能限制适用范围
  2. 近似粗糙:某些理论推导中的近似可能引入较大误差
  3. 泛化性待验证:理论框架在其他领域的适用性尚未充分验证

实验不足

  1. 数据集有限:主要在ImageNet和CIFAR-10上验证,缺乏更多样化的评估
  2. 任务单一:主要关注图像分类,其他视觉任务的验证不足
  3. 对比方法有限:主要与SimCLR系列方法对比,缺乏与其他自监督方法的比较

影响力

学术贡献

  1. 理论基础:为自监督学习领域提供重要的理论基础
  2. 研究启发:可能启发更多理论分析工作
  3. 方法指导:为后续算法设计提供理论指导

实用价值

  1. 性能提升:平衡对比损失实现实际性能改进
  2. 设计原则:为实践者提供算法设计原则
  3. 调参指导:为超参数选择提供理论依据

适用场景

  1. 研究场景:适合需要理论指导的自监督学习算法研究
  2. 工业应用:适合需要高质量表征的计算机视觉应用
  3. 教育用途:适合作为理解自监督学习原理的教学材料

参考文献

本文引用了自监督学习、对比学习和表征学习领域的重要工作,包括:

  • Chen et al. (2020a): SimCLR框架
  • He et al. (2020): MoCo方法
  • Oord et al. (2018): InfoNCE损失
  • Wang & Isola (2020): 对比学习的对齐性和均匀性分析

总体评价:这是一篇高质量的理论分析论文,成功建立了监督学习与自监督学习之间的理论桥梁,为理解对比学习的有效性提供了重要洞察。虽然存在一些理论假设的限制,但其贡献对推进自监督学习的理论发展具有重要意义。