2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.
Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
academic

A Comprehensive Survey on Data Augmentation

基本信息

  • 论文ID: 2405.09591
  • 标题: A Comprehensive Survey on Data Augmentation
  • 作者: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
  • 分类: cs.LG cs.AI
  • 发表时间: 2024年5月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2405.09591

摘要

数据增强是一系列通过操作现有数据样本来生成高质量人工数据的技术。通过利用数据增强技术,AI模型可以在涉及稀缺或不平衡数据集的任务中显著提高适用性,从而大幅增强AI模型的泛化能力。现有文献综述仅关注特定类型的单一模态数据,并从模态特定和操作中心的角度对这些方法进行分类,缺乏跨多个模态的数据增强方法的一致性总结,限制了对现有数据样本如何服务于数据增强过程的理解。为了弥补这一差距,本综述提出了一个更具启发性的分类法,通过研究如何利用实例间和实例内的内在关系,涵盖了不同常见数据模态的数据增强技术。此外,它通过统一的归纳方法对五种数据模态的数据增强方法进行分类。

研究背景与动机

1. 要解决的问题

本研究旨在解决现有数据增强综述文献的几个关键问题:

  • 模态割裂:现有综述仅关注特定数据模态(如图像、文本、图等),缺乏跨模态的统一视角
  • 分类不一致:不同综述采用模态特定或操作中心的分类方法,缺乏统一的理论框架
  • 本质理解不足:现有分类方法无法揭示数据增强的内在机制和共同模式

2. 问题的重要性

数据增强在AI领域具有重要意义:

  • 数据稀缺问题:在许多实际应用中,获取大量标注数据困难且成本高昂
  • 数据不平衡:类别分布不均匀导致模型性能下降
  • 泛化能力:数据增强能够提高模型的鲁棒性和泛化能力
  • 跨领域应用:从计算机视觉到自然语言处理,数据增强技术被广泛应用

3. 现有方法的局限性

通过对现有17篇相关综述的分析,作者发现:

  • 覆盖范围有限:大多数综述仅关注单一模态
  • 分类角度局限:缺乏从数据中心视角的统一分类
  • 共性忽视:无法识别不同模态间数据增强方法的共同模式

4. 研究动机

基于mixup等方法在不同模态间的成功应用,作者认为需要一个模态无关的统一框架来理解数据增强的本质机制。

核心贡献

  1. 提出模态无关的数据中心分类法:首次从数据中心视角提出统一的分类框架,适用于所有数据模态
  2. 首个跨五模态综合综述:涵盖图像、文本、图、表格和时间序列数据的数据增强技术
  3. 信息利用机制分析:深入分析不同模态中信息的一致性表示和增强利用方式
  4. 最新文献整理:收集并分类最新的数据增强研究,讨论未来发展方向

方法详解

任务定义

数据增强被形式化为一个函数映射过程:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

其中D_L是标注数据集,D̃_L是增强后的数据集。

核心分类框架

作者提出基于两个研究问题的二层分类法:

RQ1: 生成每个新样本使用多少个样本?

  • 单实例级增强(Single-instance Level)
  • 多实例级增强(Multi-instance Level)
  • 数据集级增强(Dataset Level)

RQ2: 使用哪部分信息生成新数据? 对于每个层级,进一步分析使用的信息类型:

  • 值信息:元素携带的数值内容
  • 结构信息:元素间的组织关系
  • 外源信息:外部知识或数据集

分类体系详解

1. 单实例级增强

数学表示x̃ = x_i + ε(x_i), ỹ = y_i

子类别

  • 基于值的变换:扰动元素值
    • 图像:像素擦除、光度变换
    • 文本:词汇替换、添加、删除
    • 图:节点属性掩码
    • 表格:单元格掩码、特征工程
    • 时间序列:幅度扰动
  • 基于结构的变换:扰动结构关系
    • 图像:裁剪、几何变换
    • 文本:句法变换
    • 图:拓扑扰动、子图采样
    • 表格:子表划分
    • 时间序列:窗口切片

2. 多实例级增强

数学表示x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

子类别

  • 基于值的混合:算术混合多个样本的值
  • 基于结构的组合:将多个样本片段组合

3. 数据集级增强

数学表示x̃ ~ P(X), ỹ ~ P(y|x̃)

子类别

  • 原生生成:仅使用现有数据集
  • 外源生成:结合外部资源

技术创新点

  1. 统一视角:首次从信息来源角度统一分析不同模态的增强方法
  2. 跨模态一致性:识别不同模态间的共同模式(如mixup在各模态的应用)
  3. 系统性分类:建立层次化、归纳性的分类体系
  4. 实用指导:为选择合适的增强方法提供理论指导

实验设置

综述方法论

  • 文献收集:系统收集2018-2025年相关文献
  • 分类标准:基于提出的二层分类法进行方法归类
  • 对比分析:与现有17篇综述进行系统对比
  • 案例研究:每个类别选取典型方法进行详细分析

评价维度

论文从多个维度评价数据增强方法:

  • 计算复杂度:方法的计算开销
  • 信息损失:增强过程中的信息保持程度
  • 分析需求:是否需要样本级分析

实验结果

主要发现

1. 跨模态共性

  • Mixup类方法在所有模态都有成功应用
  • 掩码技术是各模态的基础操作
  • 生成模型正成为主流趋势

2. 模态特点

  • 图像:空间不变性使几何变换效果显著
  • 文本:离散性限制了某些变换方法
  • :拓扑结构提供丰富的增强空间
  • 表格:结构简单限制了增强选择
  • 时间序列:时序性是关键考虑因素

3. 方法演进

  • 早期:简单的手工规则(如旋转、翻转)
  • 中期:自动策略搜索(AutoAugment)
  • 现在:大模型驱动的生成式增强

性能对比分析

论文通过Table II提供了详细的方法对比,包括:

  • 样本数量:单实例vs多实例vs数据集级
  • 信息类型:值、结构、值-结构混合
  • 计算开销:从可忽略到高计算量
  • 信息损失:从无损到高损失

相关工作

现有综述分析

作者系统分析了17篇相关综述,发现:

  • 图像领域:研究最为成熟,方法丰富
  • 文本领域:受离散性限制,发展相对较慢
  • 图领域:近年来快速发展
  • 表格领域:研究相对较少
  • 时间序列:应用驱动的发展

本文优势

相比现有工作,本文具有以下优势:

  1. 全面覆盖:首次涵盖五种主要数据模态
  2. 统一框架:提供模态无关的分类体系
  3. 深度分析:从信息利用角度深入理解机制
  4. 实用指导:为方法选择提供具体建议

结论与讨论

主要结论

  1. 统一性存在:不同模态的数据增强方法在信息利用方式上具有内在一致性
  2. 层次结构清晰:基于样本数量和信息类型的二层分类法具有良好的解释性
  3. 发展趋势明确:向生成式、智能化方向发展
  4. 应用指导价值:为实际应用提供方法选择框架

局限性

  1. 理论分析不足:主要是方法总结,缺乏深入的理论分析
  2. 性能对比有限:未提供不同方法的定量性能对比
  3. 新兴技术覆盖:对最新的大模型增强技术覆盖可能不够全面
  4. 实际应用指导:虽然提供了选择建议,但缺乏具体的应用案例

未来方向

  1. 跨模态迁移:探索增强方法在不同模态间的迁移规律
  2. 智能化增强:利用强化学习和大模型实现自适应增强
  3. 理论基础:建立数据增强的理论分析框架
  4. 评价体系:发展更完善的增强效果评价指标
  5. 新兴模态:扩展到音频、视频等新兴数据模态

深度评价

优点

  1. 创新性强:首次提出跨模态的统一分类框架,视角新颖
  2. 系统性好:覆盖面广,分类清晰,逻辑严密
  3. 实用价值高:为研究者和实践者提供了很好的指导
  4. 文献丰富:收集了大量最新研究,信息全面
  5. 写作清晰:结构合理,表述准确,易于理解

不足

  1. 缺乏定量分析:主要是定性描述,缺乏性能数据支撑
  2. 理论深度有限:更多是方法总结,理论创新相对不足
  3. 实验验证缺失:未通过实验验证分类框架的有效性
  4. 新技术滞后:对2024-2025年的最新技术覆盖可能不够及时

影响力

  1. 学术价值:为数据增强领域提供了重要的理论框架
  2. 实用价值:帮助研究者快速了解和选择合适的方法
  3. 引导作用:可能促进跨模态数据增强方法的发展
  4. 教育价值:适合作为该领域的入门和参考资料

适用场景

  1. 研究入门:适合初学者快速了解数据增强全貌
  2. 方法选择:为实际项目提供方法选择指导
  3. 跨模态研究:为跨模态方法迁移提供理论基础
  4. 教学参考:适合作为相关课程的教学材料

参考文献

论文引用了244篇参考文献,涵盖了数据增强领域的主要工作,包括:

  • 经典方法:SMOTE、Mixup、Cutout等
  • 自动化方法:AutoAugment、RandAugment等
  • 生成式方法:GAN、VAE、Diffusion模型等
  • 大模型方法:GPT、DALL-E等的应用

总体评价:这是一篇高质量的综述论文,首次提出了跨模态的统一数据增强分类框架,具有重要的学术价值和实用价值。虽然在理论深度和实验验证方面还有提升空间,但其创新性的视角和系统性的总结使其成为该领域的重要贡献。