2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee

Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.

academic

監督目的を通じた自己教師あり対比学習の理解

基本情報

論文ID: 2510.10572
タイトル: Understanding Self-supervised Contrastive Learning through Supervised Objectives
著者: Byeongchan Lee (KAIST)
分類: cs.LG (機械学習)
発表会議: Transactions on Machine Learning Research (10/2025)
論文リンク: https://arxiv.org/abs/2510.10572

要約

自己教師あり表現学習は経験的に印象的な成功を収めているが、その理論的理解は依然として限定的である。本論文は、自己教師あり表現学習を監督表現学習目的の近似として定式化することにより、理論的視点を提供する。この定式化に基づき、著者はInfoNCEなどの一般的な対比損失と密接に関連する損失関数を導出し、その潜在的原理を理解するための洞察を提供する。導出過程は自然にプロトタイプ表現バイアスと平衡対比損失の概念を導入し、自己教師あり学習アルゴリズムの動作を説明し改善するのに役立つ。

研究背景と動機

核心的問題

理論的理解の欠如：自己教師あり学習は経験的に成功しているが、その理論的基礎は依然として不十分であり、これらの方法がなぜ有効であるかについての深い理解が欠けている。
方法設計の経験性：既存の自己教師あり学習方法は主にアーキテクチャ革新によって進められており、形式化された目的から出発していないため、理論的指導が不足している。
監督学習と自己教師あり学習の関係が不明確：監督学習と自己教師あり学習の間の内在的な関連性はまだ十分に説明されていない。

研究動機

理論的基礎の構築：自己教師あり学習に堅固な理論的基礎を提供し、その有効性の根本的な原因を説明する
方法改善への指導：理論分析を通じてアルゴリズム設計に原則的な指導を提供する
監督学習と自己教師あり学習の橋渡し：2つの学習パラダイム間の理論的関連性を確立する

核心的貢献

理論的枠組みの構築：自己教師あり表現学習を監督表現学習の近似として定式化する理論的枠組みを提案し、そこからInfoNCE損失と密接に関連する対比損失関数を導出する
理論的洞察の提供：対比学習における一般的な実践（表現の正規化、バランスの取れたデータセットの使用など）に対する理論的説明を提供する
概念の導入：プロトタイプ表現バイアス（prototype representation bias）の概念を導入し、その下流性能との相関性を観察する
方法の改善：平衡対比損失をInfoNCE損失の自然な拡張として提案し、バランスの改善を通じてより良い性能を実現する

方法の詳細説明

タスク定義

表現学習タスクを、エンコーダ $f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\}$ を学習することとして定義する。目的は：

同じ視覚概念の画像表現を集約する
異なる視覚概念の画像表現を相互に分離する

理論的枠組み

監督表現学習問題

まず監督学習をプロトタイプ最適化問題として定式化する： $\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})$

ここで：

$s(·,·)$ は相似度測度（コサイン相似度）
$μ_y$ はラベル $y$ のプロトタイプ表現
$λ > 0$ はバランスパラメータ

プロトタイプ表現の構築

プロトタイプ表現を同じラベルの画像表現の期待値として定義する： $\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))$

自己教師あり近似

自己教師あり設定では、代替プロトタイプ表現を使用する： $\tilde{μ} := \mathbb{E}_T f_θ(T(x))$

理論的導出

吸引項の上界（定理4.4）

コサイン相似度とL2正規化の仮定の下で： $-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))$

排斥項の上界（定理4.6）

バランスの取れたデータセットの仮定の下で： $\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n$

総損失関数

上記の上界を組み合わせて得られる： $\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]$

技術的革新点

理論的橋梁：監督学習と自己教師あり学習の間に初めて形式化された理論的関連性を確立する
上界導出：厳密な数学的導出を通じて処理可能な上界を取得する
プロトタイプバイアス分析：自己教師あり近似がもたらすバイアスを定量化し、その影響を分析する
平衡損失設計：理論分析に基づいて改善された損失関数を提案する

実験設定

データセット

主要データセット：ImageNet（1,281,167訓練画像、50,000検証画像、1,000クラス）
補助データセット：CIFAR-10（50,000訓練画像、10,000テスト画像、10クラス）
不均衡データセット：ImageNet-LT（115,846画像、パレート分布に従う）

評価指標

線形評価：事前学習済みバックボーンを凍結し、線形分類器を訓練したTop-1精度
k近傍評価：表現相似度に基づくk-NN分類精度

比較方法

ベースライン方法：SimCLRおよびその変種
損失関数の変種：
- 平衡対比損失
- 一般化NT-Xent損失
- デカップリング対比損失

実装詳細

ネットワークアーキテクチャ：ResNet-50バックボーン + 3層MLPプロジェクタ
訓練設定：バッチサイズ512、100エポック、SGD最適化器
データ拡張：ランダムクロップ、色歪み、グレースケール変換、ガウスぼかし、水平反転

実験結果

主要結果

理論検証実験

プロトタイプ表現バイアスと性能の関係：
- ベースラインSimCLR：65.98%精度、36.72バイアス
- ガウスぼかし削除：64.57%精度、37.43バイアス
- ランダム回転追加：63.30%精度、38.11バイアス
- 発見：より低いプロトタイプ表現バイアスはより高い精度に対応する
相似度測度の影響：
- コサイン相似度+正規化：65.98%
- 内積（正規化なし）：0.43%
- 負ユークリッド距離（正規化なし）：10.63%
データバランスの影響：
- 均一分布：20.82%
- ロングテール分布：13.65%