Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
Увеличение данных — это набор методов, которые генерируют высококачественные искусственные данные путем манипулирования существующими образцами данных. Благодаря использованию методов увеличения данных модели искусственного интеллекта могут значительно повысить применимость в задачах, связанных с редкими или несбалансированными наборами данных, что существенно улучшает способность моделей к обобщению. Существующие литературные обзоры сосредоточены только на одномодальных данных определённого типа и классифицируют методы с модально-специфичной и операционно-ориентированной точек зрения, что не позволяет получить единообразное резюме методов увеличения данных, охватывающих несколько модальностей, и ограничивает понимание того, как существующие образцы данных служат процессу увеличения данных. Для заполнения этого пробела в данном обзоре предлагается более информативная таксономия, охватывающая методы увеличения данных для различных распространённых модальностей данных путём исследования того, как использовать внутренние отношения между экземплярами и внутри экземпляров. Кроме того, он классифицирует методы увеличения данных для пяти модальностей данных посредством единого индуктивного подхода.
Данное исследование направлено на решение нескольких ключевых проблем существующей литературы по обзорам увеличения данных:
Модальная фрагментация: существующие обзоры сосредоточены только на конкретных модальностях данных (таких как изображения, текст, графы и т.д.), не имея единого кросс-модального взгляда
Несогласованная классификация: различные обзоры используют модально-специфичные или операционно-ориентированные методы классификации, отсутствует единая теоретическая основа
Недостаточное понимание сущности: существующие методы классификации не могут раскрыть внутренние механизмы и общие закономерности увеличения данных
На основе успешного применения методов, таких как mixup, в различных модальностях авторы считают необходимым единый модально-независимый фреймворк для понимания сущности механизмов увеличения данных.
Предложение модально-независимой классификации, ориентированной на данные: впервые предложена единая классификационная основа с точки зрения центра данных, применимая ко всем модальностям данных
Первый комплексный обзор пяти модальностей: охватывает методы увеличения данных для изображений, текста, графов, табличных данных и временных рядов
Анализ механизмов использования информации: глубокий анализ согласованного представления информации и способов её расширенного использования в различных модальностях
Организация последней литературы: сбор и классификация последних исследований по увеличению данных, обсуждение направлений будущего развития
Статья цитирует 244 справочных источника, охватывающих основные работы в области увеличения данных, включая:
Классические методы: SMOTE, Mixup, Cutout и др.
Автоматизированные методы: AutoAugment, RandAugment и др.
Генеративные методы: приложения GAN, VAE, Diffusion моделей и др.
Методы больших моделей: приложения GPT, DALL-E и др.
Общая оценка: Это высококачественная обзорная статья, которая впервые предложила единую кросс-модальную классификационную основу для увеличения данных, имеющую важную академическую и практическую ценность. Хотя есть место для улучшения в теоретической глубине и экспериментальной проверке, её инновационный взгляд и систематическое резюме делают её важным вкладом в эту область.