2025-11-21T00:19:15.639831

Enhancing Self-Supervised Learning with Semantic Pairs A New Dataset and Empirical Study

Alkhalefi, Leontidis, Zhong

Instance discrimination is a self-supervised representation learning paradigm wherein individual instances within a dataset are treated as distinct classes. This is typically achieved by generating two disparate views of each instance by applying stochastic transformations, encouraging the model to learn representations invariant to the common underlying object across these views. While this approach facilitates the acquisition of invariant representations for dataset instances under various handcrafted transformations (e.g., random cropping, colour jittering), an exclusive reliance on such data transformations for achieving invariance may inherently limit the model's generalizability to unseen datasets and diverse downstream tasks. The inherent limitation stems from the fact that the finite set of transformations within the data processing pipeline is unable to encompass the full spectrum of potential data variations. In this study, we provide the technical foundation for leveraging semantic pairs to enhance the generalizability of the model's representation and empirically demonstrate that incorporating semantic pairs mitigates the issue of limited transformation coverage. Specifically, we propose that by exposing the model to semantic pairs (i.e., two instances belonging to the same semantic category), we introduce varied real-world scene contexts, thereby fostering the development of more generalizable object representations. To validate this hypothesis, we constructed and released a novel dataset comprising curated semantic pairs and conducted extensive experimentation to empirically establish that their inclusion enables the model to learn more general representations, ultimately leading to improved performance across diverse downstream tasks.

academic

Повышение самообучения с семантическими парами: новый набор данных и эмпирическое исследование

Основная информация

ID статьи: 2510.08722
Название: Enhancing Self-Supervised Learning with Semantic Pairs: A New Dataset and Empirical Study
Авторы: Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong (Университет Абердина)
Классификация: cs.LG cs.AI
Дата публикации: 13 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.08722v2

Аннотация

В данной статье предлагается метод использования семантических пар для повышения способности модели к обобщению, направленный на преодоление ограничений методов самообучения, основанных на различении экземпляров. Традиционные методы различения экземпляров генерируют различные представления одного экземпляра посредством случайных преобразований, однако этот подход ограничен конечным набором преобразований и может не охватывать всю вариативность реальных данных. Авторы создали тщательно подобранный набор данных семантических пар и посредством обширных экспериментов подтвердили, что семантические пары помогают модели изучать более универсальные представления, что приводит к лучшей производительности на различных задачах переноса обучения.

Исследовательский контекст и мотивация

Основная проблема

Традиционные методы самообучения, основанные на различении экземпляров, имеют следующие ключевые ограничения:

Недостаточное покрытие преобразований: зависимость от ограниченного набора ручных преобразований (таких как случайное обрезание, искажение цвета) не охватывает всю вариативность реальных данных
Ограниченная способность к обобщению: ограниченная способность к обобщению на невидимые наборы данных и разнообразные задачи переноса обучения
Неправильное изучение ассоциаций: может изучать неправильные связи между фоном и объектами переднего плана

Исследовательская мотивация

Авторы заметили, что традиционные методы при изучении представлений захватывают общую информацию между двумя увеличенными представлениями, однако это может включать нерелевантную информацию о фоне и детали. Семантические пары, размещая различные экземпляры одного класса в разных контекстах, направляют модель на внимание к релевантной информации задачи и игнорирование нерелевантной информации.

Теоретическая основа

Статья предлагает, что семантические пары повышают четыре ключевых типа инвариантности:

Инвариантность к окклюзии: распознавание частично закрытых объектов
Инвариантность к фону: распознавание объектов на различных фонах
Инвариантность к паттернам: устойчивость к изменениям поверхностных паттернов
Инвариантность к освещению: адаптация к различным условиям освещения

Основные вклады

Теоретическое объяснение: глубокое объяснение того, как семантические пары способствуют способности к обобщению методов различения экземпляров
Построение набора данных: создание тщательно подобранного набора данных семантических пар, содержащего 187 классов, 157 пар на класс, всего 29 359 семантических пар
Систематическое сравнение: сравнение нескольких методов самообучения, достигших состояния искусства, для определения того, какой метод лучше всего изучает полезные представления из семантических пар
Эмпирическая проверка: проверка эффективности семантических пар посредством задач переноса обучения и обнаружения объектов

Подробное описание методов

Определение задачи

Данное исследование сосредоточено на самообучении представлений, в частности на парадигме различения экземпляров. Цель задачи состоит в изучении универсальных визуальных представлений, которые хорошо работают на различных задачах переноса обучения без ручной аннотации.

Методология построения набора данных

Набор данных семантических пар

Масштаб: 187 классов, 157 пар на класс, всего 29 359 семантических пар
Стратегия построения: ручная аннотация для обеспечения точного семантического выравнивания, избежание ошибок автоматических методов сопоставления
Выбор классов: выбор классов из ImageNet-1K с семантическим перекрытием со стандартными эталонными наборами данных (таких как STL-10, CIFAR)
Обеспечение качества: 6 месяцев полной ручной подготовки (8 часов в день)

Набор данных увеличенных пар (базовый уровень)

Масштаб: 187 классов, 157 изображений на класс, всего 29 359 изображений
Метод генерации: создание синтетических пар посредством случайных преобразований (обрезание, поворот, отражение, искажение цвета)

Экспериментальная схема

Применяется четырёхэтапная схема сравнения:

Построение набора данных: создание наборов данных семантических пар и увеличенных пар
Преобразование изображений: применение стандартного конвейера случайных преобразований
Обучение модели: обучение нескольких методов, достигших состояния искусства, на обоих наборах данных
Оценка производительности: оценка качества представлений посредством задач переноса обучения

Технические инновации

Точное семантическое выравнивание: обеспечение точности семантических пар посредством ручной подготовки, избежание шума автоматических методов
Анализ изолированного эффекта: использование только семантических пар при обучении, избежание смешивания с увеличенными данными
Систематическая оценка: проверка универсальной эффективности семантических пар на различных методах самообучения

Экспериментальная установка

Наборы данных

Данные предварительного обучения: набор данных семантических пар vs набор данных увеличенных пар (по 29 359 пар/изображений)
Наборы данных оценки:
- Перенос обучения: STL-10, CIFAR-10, CIFAR-100
- Обнаружение объектов: PASCAL VOC
- Контрастные эксперименты: Tiny-ImageNet

Метрики оценки

Перенос обучения: точность линейной оценки
Обнаружение объектов: AP50, AP, AP75
Вычислительная эффективность: сравнение времени обучения

Методы сравнения

Контрастное обучение: SimCLR
Неконтрастное обучение:
- Максимизация информации: VicReg
- Дистилляция знаний: BYOL, DINO

Детали реализации

Базовая сеть: ResNet-50, ViT-S/8
Размер пакета: 256
Разрешение входа: 64×64 пиксели
Количество эпох обучения: 200-800 эпох
Оборудование: GPU A100 80G

Результаты экспериментов

Основные результаты

Производительность переноса обучения

На всех оцениваемых наборах данных модели, предварительно обученные на семантических парах, превосходят базовый уровень увеличенных пар:

Метод	CIFAR-10	CIFAR-100	STL-10
SimCLR (AP)	81,76%	-	81,76%
SimCLR (SP)	83,60%	59,58%	85,59%
Улучшение	+0,8%	+0,9%	+3,8%

Эффект длительного обучения

При продлении обучения до 800 эпох разница в производительности сохраняется:

SimCLR (SP): 86,56% (STL-10)
SimCLR (AP): 82,41% (STL-10)
Величина улучшения: +3,75%

Сравнение вычислительной эффективности

По сравнению с Tiny-ImageNet набор данных семантических пар демонстрирует значительные преимущества:

Набор данных	Количество классов	Количество образцов	CIFAR-10	STL-10	Время обучения
Семантические пары	187	29,4K	83,60%	85,59%	4,5ч
Tiny-ImageNet	200	100K	79,43%	79,61%	13ч

Абляционные исследования

Эксперимент по удалению преобразований

При удалении конкретных преобразований модель с семантическими парами демонстрирует большую устойчивость:

Удаление преобразования в оттенки серого: SimCLR (AP) снижается на 9,69%, SimCLR (SP) практически не затронут
Сохранение только случайного обрезания: производительность SimCLR (AP) резко падает до 24,25%, SimCLR (SP) остаётся на уровне 64,23%

Обобщение архитектуры

Результаты на архитектуре ViT подтверждают универсальную эффективность семантических пар:

Метод	CIFAR-10	CIFAR-100	STL-10
DINO (SP)	81,8%	65,3%	82,1%
DINO (AP)	81,1%	64,5%	79,2%

Влияние масштаба данных

По мере уменьшения количества образцов обучения преимущество семантических пар становится более выраженным:

50 образцов/класс: преимущество семантических пар +4,20%
157 образцов/класс: преимущество семантических пар +3,83%

Результаты обнаружения объектов

На задаче обнаружения объектов PASCAL VOC:

Метод	AP50	AP	AP75
SimCLR (SP)	75,02%	50,30%	55,22%
SimCLR (AP)	73,82%	48,9%	53,72%
Улучшение	+1,2%	+1,4%	+1,5%

Экспериментальные выводы

Преимущество контрастного обучения: SimCLR показывает лучшие результаты при использовании семантических пар, достигая максимального улучшения на всех наборах данных
Снижение зависимости от преобразований: модели, обученные на семантических парах, значительно менее зависимы от преобразований данных
Преимущество при малом количестве образцов: преимущество семантических пар более выражено при ограниченных данных обучения
Универсальная применимость: преимущества семантических пар подтверждены на различных архитектурах и задачах

Связанные работы

Классификация методов самообучения

Статья классифицирует связанные работы на три основные категории:

Контрастное обучение

SimCLR: сквозной метод, использующий большие объёмы отрицательных образцов
MoCo: метод контраста импульса, использующий словарь для хранения отрицательных образцов
PIRL: использование памяти для хранения отрицательных образцов

Неконтрастное обучение

Методы кластеризации: DeepCluster, SWAV
Дистилляция знаний: BYOL, SimSiam, DINO
Максимизация информации: Barlow Twins, VICReg

Улучшенное контрастное обучение

Добыча отрицательных образцов: добыча сложных отрицательных образцов
Построение положительных образцов: использование семантического сходства для построения положительных пар

Отличие данной работы от связанных работ

Исследование изолированного эффекта: избежание смешивания семантических пар с увеличенными данными
Точное семантическое выравнивание: обеспечение качества посредством ручной подготовки
Систематическое сравнение: проверка эффективности на различных методах

Выводы и обсуждение

Основные выводы

Эффективность семантических пар: семантические пары значительно повышают способность моделей самообучения к обобщению
Преимущество контрастного обучения: методы контрастного обучения (особенно SimCLR) лучше всего извлекают пользу из семантических пар
Снижение зависимости от преобразований: обучение на семантических парах снижает зависимость от ручных преобразований данных
Повышение вычислительной эффективности: тщательно подобранный набор данных семантических пар достигает лучших результатов с меньшими вычислительными ресурсами по сравнению с крупномасштабными наборами данных

Ограничения

Масштаб набора данных: текущий набор данных относительно небольшой (187 классов), масштабируемость требует проверки
Затраты на ручную подготовку: процесс ручной подготовки требует значительного времени, степень автоматизации ограничена
Специфичность для области: основная проверка проведена на визуальных задачах, применимость к другим модальностям неизвестна
Теоретическое объяснение: теоретическое объяснение того, почему контрастное обучение лучше подходит для семантических пар, остаётся недостаточным

Направления будущих исследований

Крупномасштабное расширение: исследование масштабируемости метода семантических пар в более крупных семантических пространствах
Автоматизированная подготовка: разработка более точных методов автоматического сопоставления семантических пар
Кроссмодальное применение: расширение концепции семантических пар на другие модальности
Теоретический анализ: глубокое исследование внутренних механизмов использования контрастным обучением семантических отношений

Глубокая оценка

Преимущества

Чёткое определение проблемы: точное выявление ключевых ограничений традиционных методов различения экземпляров
Разумный дизайн метода: обеспечение качества семантических пар посредством ручной подготовки, избежание помех от шума
Строгий дизайн экспериментов: использование метода контролируемых переменных для изоляции независимого эффекта семантических пар
Убедительные результаты: проверка последовательного улучшения на нескольких наборах данных и методах
Высокая практическая ценность: предоставленные набор данных и код способствуют развитию области

Недостатки

Ограниченная теоретическая глубина: недостаточное теоретическое объяснение того, почему семантические пары эффективны
Ограничение масштаба: эксперименты проведены в основном на относительно небольших наборах данных
Недостаточное рассмотрение затрат: высокие затраты на ручную подготовку могут ограничить практическое применение
Неполное сравнение: отсутствие прямого сравнения с другими методами семантического увеличения

Влияние

Академический вклад: предоставление новых направлений исследований и эталонного набора данных для области самообучения
Практическая ценность: простой и эффективный метод, легко реализуемый в существующих схемах
Воспроизводимость: обязательство авторов по открытию набора данных и кода способствует воспроизведению результатов
Вдохновляющее значение: предоставление идей о том, как построить лучшие наборы данных для самообучения

Применимые сценарии

Среды с ограниченными ресурсами: когда вычислительные ресурсы ограничены, но требуется высокое качество представлений
Приложения в конкретных областях: когда необходимо достичь хороших результатов на конкретных задачах переноса обучения
Исследовательские прототипы: в качестве основы для исследования роли семантических отношений в обучении представлений
Образовательные цели: помощь в понимании компромисса между качеством и количеством данных в самообучении

Библиография

Статья ссылается на важные работы в области самообучения, включая:

Классические методы контрастного обучения: SimCLR, MoCo, PIRL
Методы неконтрастного обучения: BYOL, DINO, VicReg
Связанные наборы данных: ImageNet, CIFAR, STL-10
Исследования, связанные с семантическими парами: недавние работы по построению положительных образцов

Общая оценка: Это высокачественная эмпирическая исследовательская статья, которая посредством тщательно спланированных экспериментов подтверждает важную роль семантических пар в самообучении. Несмотря на некоторую недостаточность в теоретической глубине, её практическая ценность и вклад в развитие области заслуживают признания. Предоставленный набор данных и выводы исследования послужат важной основой для будущих исследований.