Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
- ID статьи: 2510.10572
- Название: Understanding Self-supervised Contrastive Learning through Supervised Objectives
- Автор: Byeongchan Lee (KAIST)
- Категория: cs.LG (Машинное обучение)
- Конференция публикации: Transactions on Machine Learning Research (10/2025)
- Ссылка на статью: https://arxiv.org/abs/2510.10572
Самоконтролируемое обучение представлениям достигло впечатляющих эмпирических результатов, однако его теоретическое понимание остаётся ограниченным. В данной работе предлагается теоретическая перспектива путём формулировки самоконтролируемого обучения представлениям как приближения контролируемых целевых функций обучения представлениям. На основе этой формулировки авторы выводят функции потерь, тесно связанные с популярными контрастными потерями, такими как InfoNCE, предоставляя инсайты для понимания их основных принципов. Процесс вывода естественным образом вводит концепции смещения прототипного представления и сбалансированной контрастной потери, что способствует объяснению и улучшению поведения алгоритмов самоконтролируемого обучения.
- Отсутствие теоретического понимания: Несмотря на эмпирический успех самоконтролируемого обучения, его теоретическая база остаётся неполной, отсутствует глубокое понимание причин эффективности этих методов.
- Эмпиричность проектирования методов: Существующие методы самоконтролируемого обучения развиваются в основном через архитектурные инновации, а не из формализованных целевых функций, что приводит к недостатку теоретического руководства.
- Неясная связь между контролируемым и самоконтролируемым обучением: Внутренние связи между этими двумя парадигмами обучения ещё не получили достаточного объяснения.
- Построение теоретической базы: Предоставить прочную теоретическую основу для самоконтролируемого обучения, объясняя фундаментальные причины его эффективности
- Руководство по улучшению методов: Обеспечить принципиальное руководство для проектирования алгоритмов через теоретический анализ
- Связь контролируемого и самоконтролируемого обучения: Установить теоретические связи между двумя парадигмами обучения
- Построение теоретической базы: Предложена теоретическая база, формулирующая самоконтролируемое обучение представлениям как приближение контролируемого обучения представлениям, из которой выводятся контрастные функции потерь, тесно связанные с потерей InfoNCE
- Предоставление теоретических инсайтов: Предоставлено теоретическое объяснение для распространённых практик в контрастном обучении (таких как нормализация представлений, использование сбалансированных наборов данных)
- Введение концепций: Введена концепция смещения прототипного представления (prototype representation bias) и наблюдается его корреляция с производительностью на нижестоящих задачах
- Улучшение методов: Предложена сбалансированная контрастная потеря как естественное расширение потери InfoNCE, достигающее лучшей производительности через улучшенную сбалансированность
Задача обучения представлениям определяется как обучение кодировщика fθ:X→Rd∖{0} такого, что:
- Представления изображений с одинаковыми визуальными концепциями группируются вместе
- Представления изображений с различными визуальными концепциями разделяются
Сначала контролируемое обучение формулируется как задача оптимизации прототипов:
minθ−s(fθ(t(x)),μy)+λmaxy′=ys(fθ(t(x)),μy′)
где:
- s(⋅,⋅) — мера сходства (косинусное сходство)
- μy — прототипное представление для метки y
- λ>0 — параметр балансировки
Прототипное представление определяется как математическое ожидание представлений изображений с одинаковой меткой:
μ^y:=ET,X∣yfθ(T(X))
В самоконтролируемой постановке используется заменяющее прототипное представление:
μ~:=ETfθ(T(x))
При предположениях косинусного сходства и L2-нормализации:
−s(fθ(t(x)),ETfθ(T(x)))≤−ETs(fθ(t(x)),fθ(T(x)))
При предположении сбалансированного набора данных:
maxy′=ys(fθ(t(x)),ET′,X′∣y′fθ(T′(X′)))≤ET′[να1logEX′exp(αs(fθ(t(x)),fθ(T′(X′))))]+να1logn
Объединяя вышеуказанные верхние границы, получаем:
l~(θ)=α∣T^∣1∑t′∈T^[−log(∑x′∈X^exp(αs(fθ(t(x)),fθ(t′(x′)))))λ/νexp(αs(fθ(t(x)),fθ(t′(x))))]
- Теоретический мост: Впервые установлена формальная теоретическая связь между контролируемым и самоконтролируемым обучением
- Вывод верхних границ: Получены обрабатываемые верхние границы через строгие математические выводы
- Анализ смещения прототипов: Количественная оценка смещения, вызванного самоконтролируемым приближением, и анализ его влияния
- Проектирование сбалансированной потери: Предложена улучшенная функция потерь на основе теоретического анализа
- Основной набор данных: ImageNet (1 281 167 обучающих изображений, 50 000 проверочных изображений, 1000 классов)
- Дополнительные наборы данных: CIFAR-10 (50 000 обучающих изображений, 10 000 тестовых изображений, 10 классов)
- Несбалансированный набор данных: ImageNet-LT (115 846 изображений, следующих распределению Парето)
- Линейная оценка: Точность Top-1 при обучении линейного классификатора на замороженном предварительно обученном backbone
- Оценка k-NN: Точность классификации k-NN на основе сходства представлений
- Базовые методы: SimCLR и его варианты
- Варианты функций потерь:
- Сбалансированная контрастная потеря
- Обобщённая потеря NT-Xent
- Развязанная контрастная потеря
- Архитектура сети: ResNet-50 backbone + 3-слойный MLP проектор
- Конфигурация обучения: Размер батча 512, 100 эпох, оптимизатор SGD
- Увеличение данных: Случайное обрезание, искажение цвета, преобразование в оттенки серого, гауссово размытие, горизонтальное отражение
- Связь смещения прототипного представления с производительностью:
- Базовый SimCLR: 65,98% точности, смещение 36,72
- Удаление гауссова размытия: 64,57% точности, смещение 37,43
- Добавление случайного поворота: 63,30% точности, смещение 38,11
- Вывод: Более низкое смещение прототипного представления соответствует более высокой точности
- Влияние меры сходства:
- Косинусное сходство + нормализация: 65,98%
- Скалярное произведение (без нормализации): 0,43%
- Отрицательное евклидово расстояние (без нормализации): 10,63%
- Влияние сбалансированности данных:
- Равномерное распределение: 20,82%
- Распределение с длинным хвостом: 13,65%
- Сбалансированная контрастная потеря: Лучшая производительность при (α=4, λ=2) достигает 67,40%
- Обобщённая потеря NT-Xent: Лучшая производительность при (α=2, λ=2) достигает 66,85%
- Улучшение производительности: Сбалансированная контрастная потеря показывает улучшение примерно на 1,5% по сравнению со стандартной NT-Xent
- Сбалансированная контрастная потеря: Лучшая производительность при (α=1, λ=4) достигает 86,08%
- Обобщённая потеря NT-Xent: Лучшая производительность при (α=2, λ=2) достигает 85,85%
Проверка теоретических предсказаний путём добавления/удаления различных преобразований:
- Удаление искажения цвета: производительность снижается до 62,56%
- Добавление случайного cutout: производительность повышается до 65,76%
- Базовая конфигурация: 65,98%
- Верхняя граница члена притяжения: Разрыв постепенно сокращается и стабилизируется во время обучения
- Верхняя граница члена отталкивания: Сохраняет больший, но управляемый разрыв по сравнению с членом притяжения
- Историческое развитие: От контрастной потери Chopra et al. (2005) к потере triplet и потере InfoNCE
- Вклад данной работы: Предоставление новой теоретической перспективы на основе приближения контролируемого обучения
- Существующие перспективы:
- Перспектива максимизации взаимной информации
- Единая перспектива обучения ковариации
- Перспектива спектрального встраивания
- Инновация данной работы: Впервые установлена явная теоретическая связь с контролируемым обучением
- Проектирование архитектуры: Сиамские сети, кодировщики с импульсом, операции stop-gradient
- Теоретическое объяснение: Данная работа предоставляет теоретическую основу для этих практик
- Теоретическое объединение: Успешно установлена теоретическая связь между контролируемым и самоконтролируемым обучением
- Практическое руководство: Предоставлено теоретическое объяснение для распространённых практик в контрастном обучении
- Улучшение методов: Предложенная на основе теоретического анализа сбалансированная контрастная потеря достигает улучшения производительности
- Ограничения предположений: Теоретический анализ зависит от предположений о косинусном сходстве, L2-нормализации, сбалансированных наборах данных и т.д.
- Ошибка приближения: Смещение, вызванное самоконтролируемым приближением, требует дальнейшего исследования
- Диапазон экспериментов: Проверка проводилась в основном на задачах классификации изображений; применимость в других областях требует исследования
- Расширение теории: Ослабление существующих предположений, построение более общей теоретической базы
- Улучшение методов: Проектирование более эффективных алгоритмов самоконтролируемого обучения на основе анализа смещения
- Расширение приложений: Распространение теоретической базы на другие модальности и задачи
- Высокая инновационность: Впервые предоставлена формальная теоретическая связь между контролируемым и самоконтролируемым обучением
- Строгость выводов: Процесс математического вывода полный, все доказательства приведены в приложении
- Глубокие инсайты: Концепция смещения прототипного представления предоставляет новую перспективу для понимания самоконтролируемого обучения
- Рациональное проектирование: Экспериментальное проектирование тесно связано с теоретическими предсказаниями, проверка полная
- Убедительные результаты: Теоретические предсказания высоко согласуются с экспериментальными результатами
- Комплексный анализ: Проверка теоретической базы с нескольких углов
- Улучшение методов: Сбалансированная контрастная потеря достигает практического улучшения производительности
- Руководящее значение: Предоставляет теоретическое руководство для проектирования алгоритмов самоконтролируемого обучения
- Воспроизводимость: Предоставлены полный код и детали реализации
- Сильные предположения: Теоретический анализ зависит от нескольких ограничивающих предположений, которые могут ограничить область применения
- Грубые приближения: Некоторые теоретические выводы могут вводить значительные ошибки приближения
- Неподтверждённая обобщаемость: Применимость теоретической базы в других областях ещё не полностью проверена
- Ограниченные наборы данных: Проверка проводилась в основном на ImageNet и CIFAR-10, отсутствует более разнообразная оценка
- Единственная задача: Основное внимание уделяется классификации изображений, проверка на других задачах компьютерного зрения недостаточна
- Ограниченные методы сравнения: Основное сравнение с методами семейства SimCLR, отсутствует сравнение с другими методами самоконтролируемого обучения
- Теоретическая основа: Предоставляет важную теоретическую основу для области самоконтролируемого обучения
- Исследовательское вдохновение: Может вдохновить больше работ по теоретическому анализу
- Руководство по методам: Предоставляет теоретическое руководство для последующего проектирования алгоритмов
- Улучшение производительности: Сбалансированная контрастная потеря достигает практического улучшения производительности
- Принципы проектирования: Предоставляет практикам принципы проектирования алгоритмов
- Руководство по настройке параметров: Предоставляет теоретическую основу для выбора гиперпараметров
- Исследовательские сценарии: Подходит для исследований алгоритмов самоконтролируемого обучения, требующих теоретического руководства
- Промышленные приложения: Подходит для приложений компьютерного зрения, требующих высококачественных представлений
- Образовательные цели: Подходит в качестве учебного материала для понимания принципов самоконтролируемого обучения
В работе цитируются важные работы в области самоконтролируемого обучения, контрастного обучения и обучения представлениям, включая:
- Chen et al. (2020a): Фреймворк SimCLR
- He et al. (2020): Метод MoCo
- Oord et al. (2018): Потеря InfoNCE
- Wang & Isola (2020): Анализ согласованности и однородности в контрастном обучении
Общая оценка: Это высококачественная работа по теоретическому анализу, которая успешно устанавливает теоретическую связь между контролируемым и самоконтролируемым обучением, предоставляя важные инсайты для понимания эффективности контрастного обучения. Несмотря на некоторые ограничения теоретических предположений, её вклад имеет важное значение для развития теории самоконтролируемого обучения.