2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee

Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.

academic

Understanding Self-supervised Contrastive Learning through Supervised Objectives

基本信息

论文ID: 2510.10572
标题: Understanding Self-supervised Contrastive Learning through Supervised Objectives
作者: Byeongchan Lee (KAIST)
分类: cs.LG (Machine Learning)
发表会议: Transactions on Machine Learning Research (10/2025)
论文链接: https://arxiv.org/abs/2510.10572

摘要

自监督表征学习在实证方面取得了令人印象深刻的成功，但其理论理解仍然有限。本文通过将自监督表征学习表述为监督表征学习目标的近似，提供了一个理论视角。基于这一表述，作者推导出了与InfoNCE等流行对比损失密切相关的损失函数，为理解其潜在原理提供了洞察。推导过程自然地引入了原型表征偏差和平衡对比损失的概念，有助于解释和改进自监督学习算法的行为。

研究背景与动机

核心问题

理论理解缺失：自监督学习虽然在经验上取得成功，但其理论基础仍不够完善，缺乏对为什么这些方法有效的深入理解。
方法设计的经验性：现有的自监督学习方法主要通过架构创新推进，而非从形式化目标出发，缺乏理论指导。
监督与自监督的关系未明：监督学习和自监督学习之间的内在联系尚未得到充分阐释。

研究动机

理论基础构建：为自监督学习提供坚实的理论基础，解释其有效性的根本原因
方法改进指导：通过理论分析为算法设计提供原则性指导
桥接监督与自监督：建立两种学习范式之间的理论联系

核心贡献

理论框架构建：提出将自监督表征学习表述为监督表征学习近似的理论框架，并从中推导出与InfoNCE损失密切相关的对比损失函数
理论洞察提供：为对比学习中的常见实践（如表征归一化、平衡数据集使用）提供理论解释
概念引入：引入原型表征偏差（prototype representation bias）概念，并观察其与下游性能的相关性
方法改进：提出平衡对比损失作为InfoNCE损失的自然扩展，通过改进平衡性实现更好的性能

方法详解

任务定义

将表征学习任务定义为学习编码器 $f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\}$ ，使得：

相同视觉概念的图像表征聚集在一起
不同视觉概念的图像表征相互分离

理论框架

监督表征学习问题

首先将监督学习表述为原型优化问题： $\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})$

其中：

$s(·,·)$ 是相似度度量（余弦相似度）
$μ_y$ 是标签 $y$ 的原型表征
$λ > 0$ 是平衡参数

原型表征构造

将原型表征定义为同标签图像表征的期望： $\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))$

自监督近似

在自监督设置中，使用替代原型表征： $\tilde{μ} := \mathbb{E}_T f_θ(T(x))$

理论推导

吸引项上界（定理4.4）

在余弦相似度和L2归一化假设下： $-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))$

排斥项上界（定理4.6）

在平衡数据集假设下： $\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n$

总损失函数

结合上述上界得到： $\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]$

技术创新点

理论桥梁：首次建立监督学习与自监督学习之间的形式化理论联系
上界推导：通过严格的数学推导获得可处理的上界
原型偏差分析：量化自监督近似带来的偏差并分析其影响
平衡损失设计：基于理论分析提出改进的损失函数

实验设置

数据集

主要数据集：ImageNet（1,281,167训练图像，50,000验证图像，1,000类）
补充数据集：CIFAR-10（50,000训练图像，10,000测试图像，10类）
不平衡数据集：ImageNet-LT（115,846图像，遵循Pareto分布）

评价指标

线性评估：冻结预训练backbone，训练线性分类器的Top-1准确率
k近邻评估：基于表征相似度的k-NN分类准确率

对比方法

基线方法：SimCLR及其变体
损失函数变体：
- 平衡对比损失
- 广义NT-Xent损失
- 解耦对比损失

实现细节

网络架构：ResNet-50 backbone + 3层MLP投影器
训练配置：批大小512，100个epoch，SGD优化器
数据增强：随机裁剪、颜色扭曲、灰度转换、高斯模糊、水平翻转

实验结果

主要结果

理论验证实验

原型表征偏差与性能关系：
- 基线SimCLR：65.98%准确率，36.72偏差
- 移除高斯模糊：64.57%准确率，37.43偏差
- 添加随机旋转：63.30%准确率，38.11偏差
- 发现：较低的原型表征偏差对应更高的准确率
相似度度量影响：
- 余弦相似度+归一化：65.98%
- 点积（无归一化）：0.43%
- 负欧氏距离（无归一化）：10.63%
数据平衡性影响：
- 均匀分布：20.82%
- 长尾分布：13.65%