2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.

academic

A Comprehensive Survey on Data Augmentation

基本信息

论文ID: 2405.09591
标题: A Comprehensive Survey on Data Augmentation
作者: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
分类: cs.LG cs.AI
发表时间: 2024年5月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2405.09591

摘要

数据增强是一系列通过操作现有数据样本来生成高质量人工数据的技术。通过利用数据增强技术，AI模型可以在涉及稀缺或不平衡数据集的任务中显著提高适用性，从而大幅增强AI模型的泛化能力。现有文献综述仅关注特定类型的单一模态数据，并从模态特定和操作中心的角度对这些方法进行分类，缺乏跨多个模态的数据增强方法的一致性总结，限制了对现有数据样本如何服务于数据增强过程的理解。为了弥补这一差距，本综述提出了一个更具启发性的分类法，通过研究如何利用实例间和实例内的内在关系，涵盖了不同常见数据模态的数据增强技术。此外，它通过统一的归纳方法对五种数据模态的数据增强方法进行分类。

研究背景与动机

1. 要解决的问题

本研究旨在解决现有数据增强综述文献的几个关键问题：

模态割裂：现有综述仅关注特定数据模态（如图像、文本、图等），缺乏跨模态的统一视角
分类不一致：不同综述采用模态特定或操作中心的分类方法，缺乏统一的理论框架
本质理解不足：现有分类方法无法揭示数据增强的内在机制和共同模式

2. 问题的重要性

数据增强在AI领域具有重要意义：

数据稀缺问题：在许多实际应用中，获取大量标注数据困难且成本高昂
数据不平衡：类别分布不均匀导致模型性能下降
泛化能力：数据增强能够提高模型的鲁棒性和泛化能力
跨领域应用：从计算机视觉到自然语言处理，数据增强技术被广泛应用

3. 现有方法的局限性

通过对现有17篇相关综述的分析，作者发现：

覆盖范围有限：大多数综述仅关注单一模态
分类角度局限：缺乏从数据中心视角的统一分类
共性忽视：无法识别不同模态间数据增强方法的共同模式

4. 研究动机

基于mixup等方法在不同模态间的成功应用，作者认为需要一个模态无关的统一框架来理解数据增强的本质机制。

核心贡献

提出模态无关的数据中心分类法：首次从数据中心视角提出统一的分类框架，适用于所有数据模态
首个跨五模态综合综述：涵盖图像、文本、图、表格和时间序列数据的数据增强技术
信息利用机制分析：深入分析不同模态中信息的一致性表示和增强利用方式
最新文献整理：收集并分类最新的数据增强研究，讨论未来发展方向

方法详解

任务定义

数据增强被形式化为一个函数映射过程：

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

其中D_L是标注数据集，D̃_L是增强后的数据集。

核心分类框架

作者提出基于两个研究问题的二层分类法：

RQ1: 生成每个新样本使用多少个样本？

单实例级增强（Single-instance Level）
多实例级增强（Multi-instance Level）
数据集级增强（Dataset Level）

RQ2: 使用哪部分信息生成新数据？ 对于每个层级，进一步分析使用的信息类型：

值信息：元素携带的数值内容
结构信息：元素间的组织关系
外源信息：外部知识或数据集

分类体系详解

1. 单实例级增强

数学表示：x̃ = x_i + ε(x_i), ỹ = y_i

子类别：

基于值的变换：扰动元素值
- 图像：像素擦除、光度变换
- 文本：词汇替换、添加、删除
- 图：节点属性掩码
- 表格：单元格掩码、特征工程
- 时间序列：幅度扰动
基于结构的变换：扰动结构关系
- 图像：裁剪、几何变换
- 文本：句法变换
- 图：拓扑扰动、子图采样
- 表格：子表划分
- 时间序列：窗口切片