2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee
Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
academic

Понимание самоконтролируемого контрастного обучения через контролируемые целевые функции

Основная информация

  • ID статьи: 2510.10572
  • Название: Understanding Self-supervised Contrastive Learning through Supervised Objectives
  • Автор: Byeongchan Lee (KAIST)
  • Категория: cs.LG (Машинное обучение)
  • Конференция публикации: Transactions on Machine Learning Research (10/2025)
  • Ссылка на статью: https://arxiv.org/abs/2510.10572

Аннотация

Самоконтролируемое обучение представлениям достигло впечатляющих эмпирических результатов, однако его теоретическое понимание остаётся ограниченным. В данной работе предлагается теоретическая перспектива путём формулировки самоконтролируемого обучения представлениям как приближения контролируемых целевых функций обучения представлениям. На основе этой формулировки авторы выводят функции потерь, тесно связанные с популярными контрастными потерями, такими как InfoNCE, предоставляя инсайты для понимания их основных принципов. Процесс вывода естественным образом вводит концепции смещения прототипного представления и сбалансированной контрастной потери, что способствует объяснению и улучшению поведения алгоритмов самоконтролируемого обучения.

Исследовательский контекст и мотивация

Основные проблемы

  1. Отсутствие теоретического понимания: Несмотря на эмпирический успех самоконтролируемого обучения, его теоретическая база остаётся неполной, отсутствует глубокое понимание причин эффективности этих методов.
  2. Эмпиричность проектирования методов: Существующие методы самоконтролируемого обучения развиваются в основном через архитектурные инновации, а не из формализованных целевых функций, что приводит к недостатку теоретического руководства.
  3. Неясная связь между контролируемым и самоконтролируемым обучением: Внутренние связи между этими двумя парадигмами обучения ещё не получили достаточного объяснения.

Исследовательская мотивация

  • Построение теоретической базы: Предоставить прочную теоретическую основу для самоконтролируемого обучения, объясняя фундаментальные причины его эффективности
  • Руководство по улучшению методов: Обеспечить принципиальное руководство для проектирования алгоритмов через теоретический анализ
  • Связь контролируемого и самоконтролируемого обучения: Установить теоретические связи между двумя парадигмами обучения

Основные вклады

  1. Построение теоретической базы: Предложена теоретическая база, формулирующая самоконтролируемое обучение представлениям как приближение контролируемого обучения представлениям, из которой выводятся контрастные функции потерь, тесно связанные с потерей InfoNCE
  2. Предоставление теоретических инсайтов: Предоставлено теоретическое объяснение для распространённых практик в контрастном обучении (таких как нормализация представлений, использование сбалансированных наборов данных)
  3. Введение концепций: Введена концепция смещения прототипного представления (prototype representation bias) и наблюдается его корреляция с производительностью на нижестоящих задачах
  4. Улучшение методов: Предложена сбалансированная контрастная потеря как естественное расширение потери InfoNCE, достигающее лучшей производительности через улучшенную сбалансированность

Подробное описание методов

Определение задачи

Задача обучения представлениям определяется как обучение кодировщика fθ:XRd{0}f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\} такого, что:

  • Представления изображений с одинаковыми визуальными концепциями группируются вместе
  • Представления изображений с различными визуальными концепциями разделяются

Теоретическая база

Задача контролируемого обучения представлениям

Сначала контролируемое обучение формулируется как задача оптимизации прототипов: minθs(fθ(t(x)),μy)+λmaxyys(fθ(t(x)),μy)\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})

где:

  • s(,)s(·,·) — мера сходства (косинусное сходство)
  • μyμ_y — прототипное представление для метки yy
  • λ>0λ > 0 — параметр балансировки

Построение прототипного представления

Прототипное представление определяется как математическое ожидание представлений изображений с одинаковой меткой: μ^y:=ET,Xyfθ(T(X))\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))

Самоконтролируемое приближение

В самоконтролируемой постановке используется заменяющее прототипное представление: μ~:=ETfθ(T(x))\tilde{μ} := \mathbb{E}_T f_θ(T(x))

Теоретический вывод

Верхняя граница члена притяжения (Теорема 4.4)

При предположениях косинусного сходства и L2-нормализации: s(fθ(t(x)),ETfθ(T(x)))ETs(fθ(t(x)),fθ(T(x)))-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))

Верхняя граница члена отталкивания (Теорема 4.6)

При предположении сбалансированного набора данных: maxyys(fθ(t(x)),ET,Xyfθ(T(X)))ET[1ναlogEXexp(αs(fθ(t(x)),fθ(T(X))))]+1ναlogn\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n

Общая функция потерь

Объединяя вышеуказанные верхние границы, получаем: l~(θ)=1αT^tT^[logexp(αs(fθ(t(x)),fθ(t(x))))(xX^exp(αs(fθ(t(x)),fθ(t(x)))))λ/ν]\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]

Технические инновации

  1. Теоретический мост: Впервые установлена формальная теоретическая связь между контролируемым и самоконтролируемым обучением
  2. Вывод верхних границ: Получены обрабатываемые верхние границы через строгие математические выводы
  3. Анализ смещения прототипов: Количественная оценка смещения, вызванного самоконтролируемым приближением, и анализ его влияния
  4. Проектирование сбалансированной потери: Предложена улучшенная функция потерь на основе теоретического анализа

Экспериментальная установка

Наборы данных

  • Основной набор данных: ImageNet (1 281 167 обучающих изображений, 50 000 проверочных изображений, 1000 классов)
  • Дополнительные наборы данных: CIFAR-10 (50 000 обучающих изображений, 10 000 тестовых изображений, 10 классов)
  • Несбалансированный набор данных: ImageNet-LT (115 846 изображений, следующих распределению Парето)

Метрики оценки

  • Линейная оценка: Точность Top-1 при обучении линейного классификатора на замороженном предварительно обученном backbone
  • Оценка k-NN: Точность классификации k-NN на основе сходства представлений

Методы сравнения

  • Базовые методы: SimCLR и его варианты
  • Варианты функций потерь:
    • Сбалансированная контрастная потеря
    • Обобщённая потеря NT-Xent
    • Развязанная контрастная потеря

Детали реализации

  • Архитектура сети: ResNet-50 backbone + 3-слойный MLP проектор
  • Конфигурация обучения: Размер батча 512, 100 эпох, оптимизатор SGD
  • Увеличение данных: Случайное обрезание, искажение цвета, преобразование в оттенки серого, гауссово размытие, горизонтальное отражение

Результаты экспериментов

Основные результаты

Эксперименты по проверке теории

  1. Связь смещения прототипного представления с производительностью:
    • Базовый SimCLR: 65,98% точности, смещение 36,72
    • Удаление гауссова размытия: 64,57% точности, смещение 37,43
    • Добавление случайного поворота: 63,30% точности, смещение 38,11
    • Вывод: Более низкое смещение прототипного представления соответствует более высокой точности
  2. Влияние меры сходства:
    • Косинусное сходство + нормализация: 65,98%
    • Скалярное произведение (без нормализации): 0,43%
    • Отрицательное евклидово расстояние (без нормализации): 10,63%
  3. Влияние сбалансированности данных:
    • Равномерное распределение: 20,82%
    • Распределение с длинным хвостом: 13,65%

Эксперименты с параметрами балансировки

Результаты на ImageNet

  • Сбалансированная контрастная потеря: Лучшая производительность при (α=4, λ=2) достигает 67,40%
  • Обобщённая потеря NT-Xent: Лучшая производительность при (α=2, λ=2) достигает 66,85%
  • Улучшение производительности: Сбалансированная контрастная потеря показывает улучшение примерно на 1,5% по сравнению со стандартной NT-Xent

Результаты на CIFAR-10

  • Сбалансированная контрастная потеря: Лучшая производительность при (α=1, λ=4) достигает 86,08%
  • Обобщённая потеря NT-Xent: Лучшая производительность при (α=2, λ=2) достигает 85,85%

Абляционные исследования

Влияние стратегий увеличения данных

Проверка теоретических предсказаний путём добавления/удаления различных преобразований:

  • Удаление искажения цвета: производительность снижается до 62,56%
  • Добавление случайного cutout: производительность повышается до 65,76%
  • Базовая конфигурация: 65,98%

Анализ плотности верхних границ

  • Верхняя граница члена притяжения: Разрыв постепенно сокращается и стабилизируется во время обучения
  • Верхняя граница члена отталкивания: Сохраняет больший, но управляемый разрыв по сравнению с членом притяжения

Связанные работы

Контрастные функции потерь

  • Историческое развитие: От контрастной потери Chopra et al. (2005) к потере triplet и потере InfoNCE
  • Вклад данной работы: Предоставление новой теоретической перспективы на основе приближения контролируемого обучения

Теория самоконтролируемого обучения

  • Существующие перспективы:
    • Перспектива максимизации взаимной информации
    • Единая перспектива обучения ковариации
    • Перспектива спектрального встраивания
  • Инновация данной работы: Впервые установлена явная теоретическая связь с контролируемым обучением

Практика контрастного обучения

  • Проектирование архитектуры: Сиамские сети, кодировщики с импульсом, операции stop-gradient
  • Теоретическое объяснение: Данная работа предоставляет теоретическую основу для этих практик

Заключение и обсуждение

Основные выводы

  1. Теоретическое объединение: Успешно установлена теоретическая связь между контролируемым и самоконтролируемым обучением
  2. Практическое руководство: Предоставлено теоретическое объяснение для распространённых практик в контрастном обучении
  3. Улучшение методов: Предложенная на основе теоретического анализа сбалансированная контрастная потеря достигает улучшения производительности

Ограничения

  1. Ограничения предположений: Теоретический анализ зависит от предположений о косинусном сходстве, L2-нормализации, сбалансированных наборах данных и т.д.
  2. Ошибка приближения: Смещение, вызванное самоконтролируемым приближением, требует дальнейшего исследования
  3. Диапазон экспериментов: Проверка проводилась в основном на задачах классификации изображений; применимость в других областях требует исследования

Направления будущих исследований

  1. Расширение теории: Ослабление существующих предположений, построение более общей теоретической базы
  2. Улучшение методов: Проектирование более эффективных алгоритмов самоконтролируемого обучения на основе анализа смещения
  3. Расширение приложений: Распространение теоретической базы на другие модальности и задачи

Глубокая оценка

Преимущества

Теоретический вклад

  1. Высокая инновационность: Впервые предоставлена формальная теоретическая связь между контролируемым и самоконтролируемым обучением
  2. Строгость выводов: Процесс математического вывода полный, все доказательства приведены в приложении
  3. Глубокие инсайты: Концепция смещения прототипного представления предоставляет новую перспективу для понимания самоконтролируемого обучения

Экспериментальная проверка

  1. Рациональное проектирование: Экспериментальное проектирование тесно связано с теоретическими предсказаниями, проверка полная
  2. Убедительные результаты: Теоретические предсказания высоко согласуются с экспериментальными результатами
  3. Комплексный анализ: Проверка теоретической базы с нескольких углов

Практическая ценность

  1. Улучшение методов: Сбалансированная контрастная потеря достигает практического улучшения производительности
  2. Руководящее значение: Предоставляет теоретическое руководство для проектирования алгоритмов самоконтролируемого обучения
  3. Воспроизводимость: Предоставлены полный код и детали реализации

Недостатки

Теоретические ограничения

  1. Сильные предположения: Теоретический анализ зависит от нескольких ограничивающих предположений, которые могут ограничить область применения
  2. Грубые приближения: Некоторые теоретические выводы могут вводить значительные ошибки приближения
  3. Неподтверждённая обобщаемость: Применимость теоретической базы в других областях ещё не полностью проверена

Недостатки экспериментов

  1. Ограниченные наборы данных: Проверка проводилась в основном на ImageNet и CIFAR-10, отсутствует более разнообразная оценка
  2. Единственная задача: Основное внимание уделяется классификации изображений, проверка на других задачах компьютерного зрения недостаточна
  3. Ограниченные методы сравнения: Основное сравнение с методами семейства SimCLR, отсутствует сравнение с другими методами самоконтролируемого обучения

Влияние

Академический вклад

  1. Теоретическая основа: Предоставляет важную теоретическую основу для области самоконтролируемого обучения
  2. Исследовательское вдохновение: Может вдохновить больше работ по теоретическому анализу
  3. Руководство по методам: Предоставляет теоретическое руководство для последующего проектирования алгоритмов

Практическая ценность

  1. Улучшение производительности: Сбалансированная контрастная потеря достигает практического улучшения производительности
  2. Принципы проектирования: Предоставляет практикам принципы проектирования алгоритмов
  3. Руководство по настройке параметров: Предоставляет теоретическую основу для выбора гиперпараметров

Применимые сценарии

  1. Исследовательские сценарии: Подходит для исследований алгоритмов самоконтролируемого обучения, требующих теоретического руководства
  2. Промышленные приложения: Подходит для приложений компьютерного зрения, требующих высококачественных представлений
  3. Образовательные цели: Подходит в качестве учебного материала для понимания принципов самоконтролируемого обучения

Библиография

В работе цитируются важные работы в области самоконтролируемого обучения, контрастного обучения и обучения представлениям, включая:

  • Chen et al. (2020a): Фреймворк SimCLR
  • He et al. (2020): Метод MoCo
  • Oord et al. (2018): Потеря InfoNCE
  • Wang & Isola (2020): Анализ согласованности и однородности в контрастном обучении

Общая оценка: Это высококачественная работа по теоретическому анализу, которая успешно устанавливает теоретическую связь между контролируемым и самоконтролируемым обучением, предоставляя важные инсайты для понимания эффективности контрастного обучения. Несмотря на некоторые ограничения теоретических предположений, её вклад имеет важное значение для развития теории самоконтролируемого обучения.