2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.

academic

データ拡張に関する包括的調査

基本情報

論文ID: 2405.09591
タイトル: A Comprehensive Survey on Data Augmentation
著者: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
分類: cs.LG cs.AI
発表時期: 2024年5月 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2405.09591

要旨

データ拡張は、既存のデータサンプルを操作して高品質な人工データを生成する一連の技術である。データ拡張技術を活用することで、AIモデルは稀少または不均衡なデータセットを扱うタスクにおいて大幅に適用性を向上させ、AIモデルの汎化能力を著しく強化することができる。既存の文献調査は特定の単一モダリティデータのみに焦点を当てており、これらの方法をモダリティ固有および操作中心の観点から分類しており、複数のモダリティにわたるデータ拡張方法の一貫性のある総括が欠けている。これにより、既存のデータサンプルがデータ拡張プロセスにどのように役立つかについての理解が制限されている。このギャップを埋めるため、本調査は、インスタンス間およびインスタンス内の内在的関係をどのように活用するかを研究することで、異なる一般的なデータモダリティのデータ拡張技術をカバーする、より示唆的な分類法を提案する。さらに、統一的な帰納的方法を通じて、5つのデータモダリティのデータ拡張方法を分類する。

研究背景と動機

1. 解決すべき問題

本研究は、既存のデータ拡張調査文献のいくつかの重要な問題に対処することを目的としている：

モダリティの分断：既存の調査は特定のデータモダリティ（画像、テキスト、グラフなど）のみに焦点を当てており、モダリティ横断的な統一的視点が欠けている
分類の不一貫性：異なる調査はモダリティ固有または操作中心の分類方法を採用しており、統一的な理論的枠組みが欠けている
本質的理解の不足：既存の分類方法は、データ拡張の内在的メカニズムと共通パターンを明らかにすることができない

2. 問題の重要性

データ拡張はAI分野において重要な意義を持つ：

データ稀少性問題：多くの実際のアプリケーションでは、大量のアノテーション付きデータの取得は困難で費用がかかる
データ不均衡：クラス分布の不均一性はモデルのパフォーマンスを低下させる
汎化能力：データ拡張はモデルのロバスト性と汎化能力を向上させることができる
クロスドメイン応用：コンピュータビジョンから自然言語処理まで、データ拡張技術は広く応用されている

3. 既存方法の限界

既存の17の関連調査の分析を通じて、著者は以下を発見した：

カバレッジの限定：ほとんどの調査は単一のモダリティのみに焦点を当てている
分類の観点の限定：データ中心の観点からの統一的な分類が欠けている
共通性の無視：異なるモダリティ間のデータ拡張方法の共通パターンを識別できない

4. 研究の動機

mixupなどの方法が異なるモダリティ間で成功を収めていることに基づいて、著者は、データ拡張の本質的メカニズムを理解するためのモダリティに依存しない統一的枠組みが必要であると考えている。

核心的貢献

モダリティに依存しないデータ中心の分類法の提案：初めてデータ中心の観点から統一的な分類枠組みを提案し、すべてのデータモダリティに適用可能
初の5モダリティ横断的包括調査：画像、テキスト、グラフ、表形式、時系列データのデータ拡張技術をカバー
情報利用メカニズムの分析：異なるモダリティにおける情報の一貫性のある表現と拡張利用方法を深く分析
最新文献の整理：最新のデータ拡張研究を収集・分類し、今後の発展方向について議論

方法の詳細

タスク定義

データ拡張は関数マッピングプロセスとして形式化される：

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

ここでD_Lはアノテーション付きデータセット、D̃_Lは拡張後のデータセットである。

核心的分類枠組み

著者は2つの研究質問に基づいた2層分類法を提案する：

RQ1: 各新規サンプルの生成に何個のサンプルを使用するか？

シングルインスタンスレベルの拡張（Single-instance Level）
マルチインスタンスレベルの拡張（Multi-instance Level）
データセットレベルの拡張（Dataset Level）

RQ2: 新規データの生成にどの部分の情報を使用するか？ 各レベルについて、使用される情報タイプをさらに分析する：

値情報：要素が保有する数値内容
構造情報：要素間の組織関係
外部情報：外部知識またはデータセット

分類体系の詳細

1. シングルインスタンスレベルの拡張

数学的表現：x̃ = x_i + ε(x_i), ỹ = y_i

サブカテゴリ：

値ベースの変換：要素値の摂動
- 画像：ピクセル消去、光度変換
- テキスト：語彙置換、追加、削除
- グラフ：ノード属性マスキング
- 表形式：セルマスキング、特徴エンジニアリング
- 時系列：振幅摂動
構造ベースの変換：構造関係の摂動
- 画像：トリミング、幾何学的変換
- テキスト：構文変換
- グラフ：トポロジー摂動、部分グラフサンプリング
- 表形式：部分表分割
- 時系列：ウィンドウスライシング