2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.

academic

Комплексный обзор увеличения данных

Основная информация

ID статьи: 2405.09591
Название: A Comprehensive Survey on Data Augmentation
Авторы: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
Классификация: cs.LG cs.AI
Дата публикации: май 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2405.09591

Аннотация

Увеличение данных — это набор методов, которые генерируют высококачественные искусственные данные путем манипулирования существующими образцами данных. Благодаря использованию методов увеличения данных модели искусственного интеллекта могут значительно повысить применимость в задачах, связанных с редкими или несбалансированными наборами данных, что существенно улучшает способность моделей к обобщению. Существующие литературные обзоры сосредоточены только на одномодальных данных определённого типа и классифицируют методы с модально-специфичной и операционно-ориентированной точек зрения, что не позволяет получить единообразное резюме методов увеличения данных, охватывающих несколько модальностей, и ограничивает понимание того, как существующие образцы данных служат процессу увеличения данных. Для заполнения этого пробела в данном обзоре предлагается более информативная таксономия, охватывающая методы увеличения данных для различных распространённых модальностей данных путём исследования того, как использовать внутренние отношения между экземплярами и внутри экземпляров. Кроме того, он классифицирует методы увеличения данных для пяти модальностей данных посредством единого индуктивного подхода.

Исследовательский контекст и мотивация

1. Проблемы, которые необходимо решить

Данное исследование направлено на решение нескольких ключевых проблем существующей литературы по обзорам увеличения данных:

Модальная фрагментация: существующие обзоры сосредоточены только на конкретных модальностях данных (таких как изображения, текст, графы и т.д.), не имея единого кросс-модального взгляда
Несогласованная классификация: различные обзоры используют модально-специфичные или операционно-ориентированные методы классификации, отсутствует единая теоретическая основа
Недостаточное понимание сущности: существующие методы классификации не могут раскрыть внутренние механизмы и общие закономерности увеличения данных

2. Значимость проблемы

Увеличение данных имеет важное значение в области искусственного интеллекта:

Проблема дефицита данных: во многих практических приложениях получение большого объёма аннотированных данных затруднено и дорогостояще
Дисбаланс данных: неравномерное распределение классов приводит к снижению производительности модели
Способность к обобщению: увеличение данных повышает робастность и способность модели к обобщению
Кросс-доменные приложения: от компьютерного зрения до обработки естественного языка методы увеличения данных широко применяются

3. Ограничения существующих методов

На основе анализа 17 связанных обзоров авторы обнаружили:

Ограниченный охват: большинство обзоров сосредоточены только на одной модальности
Ограниченный угол классификации: отсутствует единая классификация с точки зрения центра данных
Игнорирование общности: невозможно выявить общие закономерности методов увеличения данных между различными модальностями

4. Исследовательская мотивация

На основе успешного применения методов, таких как mixup, в различных модальностях авторы считают необходимым единый модально-независимый фреймворк для понимания сущности механизмов увеличения данных.

Основные вклады

Предложение модально-независимой классификации, ориентированной на данные: впервые предложена единая классификационная основа с точки зрения центра данных, применимая ко всем модальностям данных
Первый комплексный обзор пяти модальностей: охватывает методы увеличения данных для изображений, текста, графов, табличных данных и временных рядов
Анализ механизмов использования информации: глубокий анализ согласованного представления информации и способов её расширенного использования в различных модальностях
Организация последней литературы: сбор и классификация последних исследований по увеличению данных, обсуждение направлений будущего развития

Подробное описание методов

Определение задачи

Увеличение данных формализуется как процесс отображения функции:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

где D_L — набор аннотированных данных, D̃_L — набор увеличенных данных.

Основная классификационная основа

Авторы предлагают двухуровневую классификацию на основе двух исследовательских вопросов:

RQ1: Сколько образцов используется для создания каждого нового образца?

Увеличение на уровне одного экземпляра (Single-instance Level)
Увеличение на уровне нескольких экземпляров (Multi-instance Level)
Увеличение на уровне набора данных (Dataset Level)

RQ2: Какая часть информации используется для создания новых данных? Для каждого уровня проводится дальнейший анализ типов используемой информации:

Информация о значениях: числовое содержание, которое несут элементы
Информация о структуре: организационные отношения между элементами
Внешняя информация: внешние знания или наборы данных

Подробное описание классификационной системы

1. Увеличение на уровне одного экземпляра

Математическое представление: x̃ = x_i + ε(x_i), ỹ = y_i

Подкатегории:

Преобразования на основе значений: возмущение значений элементов
- Изображения: стирание пикселей, фотометрические преобразования
- Текст: замена слов, добавление, удаление
- Графы: маскирование атрибутов узлов
- Табличные данные: маскирование ячеек, инженерия признаков
- Временные ряды: возмущение амплитуды
Преобразования на основе структуры: возмущение структурных отношений
- Изображения: кадрирование, геометрические преобразования
- Текст: синтаксические преобразования
- Графы: топологические возмущения, выборка подграфов
- Табличные данные: разделение подтаблиц
- Временные ряды: нарезка окон

2. Увеличение на уровне нескольких экземпляров

Математическое представление: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

Подкатегории:

Смешивание на основе значений: арифметическое смешивание значений нескольких образцов
Комбинирование на основе структуры: объединение фрагментов нескольких образцов

3. Увеличение на уровне набора данных

Математическое представление: x̃ ~ P(X), ỹ ~ P(y|x̃)

Подкатегории:

Исконная генерация: использование только существующего набора данных
Генерация с внешними источниками: объединение внешних ресурсов

Технические инновации

Единый взгляд: впервые единый анализ методов увеличения данных различных модальностей с точки зрения источников информации
Кросс-модальная согласованность: выявление общих закономерностей между различными модальностями (например, применение mixup в каждой модальности)
Систематическая классификация: установление иерархической и индуктивной классификационной системы
Практическое руководство: предоставление теоретического руководства для выбора подходящих методов увеличения

Экспериментальная установка

Методология обзора

Сбор литературы: систематический сбор соответствующей литературы за 2018-2025 годы
Критерии классификации: классификация методов на основе предложенной двухуровневой классификации
Сравнительный анализ: систематическое сравнение с 17 существующими обзорами
Тематические исследования: подробный анализ типичных методов в каждой категории

Измеряемые параметры

Статья оценивает методы увеличения данных по нескольким параметрам:

Вычислительная сложность: вычислительные затраты метода
Потеря информации: степень сохранения информации в процессе увеличения
Требования к анализу: требуется ли анализ на уровне образца

Результаты экспериментов

Основные выводы

1. Кросс-модальная общность

Методы типа Mixup успешно применяются во всех модальностях
Методы маскирования являются базовой операцией для каждой модальности
Генеративные модели становятся основным направлением

2. Особенности модальностей

Изображения: пространственная инвариантность делает геометрические преобразования эффективными
Текст: дискретность ограничивает некоторые методы преобразования
Графы: топологическая структура предоставляет богатое пространство для увеличения
Табличные данные: простая структура ограничивает выбор методов увеличения
Временные ряды: временная последовательность является ключевым фактором

3. Эволюция методов

Ранний период: простые ручные правила (например, ротация, отражение)
Средний период: автоматический поиск стратегий (AutoAugment)
Современный период: генеративное увеличение, управляемое большими моделями

Анализ сравнения производительности

Статья предоставляет подробное сравнение методов в Таблице II, включая:

Количество образцов: один экземпляр vs несколько экземпляров vs уровень набора данных
Тип информации: значения, структура, смешанные значения-структура
Вычислительные затраты: от пренебрежимо малых до высоких
Потеря информации: от без потерь до высокой потери

Связанные работы

Анализ существующих обзоров

Авторы систематически проанализировали 17 связанных обзоров и обнаружили:

Область изображений: наиболее развитая, богатый набор методов
Область текста: развитие относительно медленнее из-за дискретности
Область графов: быстрое развитие в последние годы
Область табличных данных: относительно мало исследований
Временные ряды: развитие, управляемое приложениями

Преимущества данной работы

По сравнению с существующими работами, данная статья имеет следующие преимущества:

Полный охват: впервые охватывает пять основных модальностей данных
Единая основа: предоставляет модально-независимую классификационную систему
Глубокий анализ: глубокое понимание механизмов с точки зрения использования информации
Практическое руководство: предоставляет конкретные рекомендации для выбора методов

Заключение и обсуждение

Основные выводы

Существует единство: методы увеличения данных различных модальностей имеют внутреннюю согласованность в способах использования информации
Иерархическая структура ясна: двухуровневая классификация на основе количества образцов и типа информации имеет хорошую объяснительную способность
Тенденции развития очевидны: развитие в направлении генеративных и интеллектуальных методов
Практическая ценность: предоставляет основу для выбора методов в практических приложениях

Ограничения

Недостаточный теоретический анализ: в основном это резюме методов, отсутствует глубокий теоретический анализ
Ограниченное сравнение производительности: не предоставляется количественное сравнение производительности различных методов
Охват новых технологий: охват новейших методов увеличения на основе больших моделей может быть неполным
Практическое руководство: хотя предоставляются рекомендации по выбору, отсутствуют конкретные примеры приложений

Направления будущих исследований

Кросс-модальная передача: исследование закономерностей передачи методов увеличения между различными модальностями
Интеллектуальное увеличение: использование обучения с подкреплением и больших моделей для реализации адаптивного увеличения
Теоретическая основа: установление теоретической основы анализа увеличения данных
Система оценки: разработка более совершенных показателей оценки эффективности увеличения
Новые модальности: расширение на новые модальности данных, такие как аудио и видео

Глубокая оценка

Преимущества

Высокая инновационность: впервые предложена единая кросс-модальная классификационная основа с новой точки зрения
Хорошая систематичность: широкий охват, ясная классификация, логичная структура
Высокая практическая ценность: предоставляет хорошее руководство для исследователей и практиков
Богатая литература: собрана большая база последних исследований, информация полная
Ясное изложение: разумная структура, точное выражение, легко понять

Недостатки

Отсутствие количественного анализа: в основном качественное описание, отсутствует поддержка данных производительности
Ограниченная теоретическая глубина: в основном резюме методов, относительно небольшая теоретическая инновация
Отсутствие экспериментальной проверки: не проведена экспериментальная проверка эффективности классификационной основы
Отставание в новых технологиях: охват новейших технологий 2024-2025 годов может быть несвоевременным

Влияние

Академическая ценность: предоставляет важную теоретическую основу для области увеличения данных
Практическая ценность: помогает исследователям быстро понять и выбрать подходящие методы
Направляющая роль: может способствовать развитию методов кросс-модального увеличения данных
Образовательная ценность: подходит в качестве вводного и справочного материала в этой области

Применимые сценарии

Введение в исследования: подходит для новичков, чтобы быстро понять полную картину увеличения данных
Выбор методов: предоставляет руководство по выбору методов для практических проектов
Кросс-модальные исследования: предоставляет теоретическую основу для передачи методов между модальностями
Учебный материал: подходит в качестве учебного материала для соответствующих курсов

Список литературы

Статья цитирует 244 справочных источника, охватывающих основные работы в области увеличения данных, включая:

Классические методы: SMOTE, Mixup, Cutout и др.
Автоматизированные методы: AutoAugment, RandAugment и др.
Генеративные методы: приложения GAN, VAE, Diffusion моделей и др.
Методы больших моделей: приложения GPT, DALL-E и др.

Общая оценка: Это высококачественная обзорная статья, которая впервые предложила единую кросс-модальную классификационную основу для увеличения данных, имеющую важную академическую и практическую ценность. Хотя есть место для улучшения в теоретической глубине и экспериментальной проверке, её инновационный взгляд и систематическое резюме делают её важным вкладом в эту область.