2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.
Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
academic

Un Sondage Complet sur l'Augmentation de Données

Informations Fondamentales

  • ID de l'article: 2405.09591
  • Titre: A Comprehensive Survey on Data Augmentation
  • Auteurs: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
  • Classification: cs.LG cs.AI
  • Date de publication: Mai 2024 (Prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2405.09591

Résumé

L'augmentation de données est un ensemble de techniques permettant de générer des données artificielles de haute qualité en manipulant les échantillons de données existants. En exploitant les techniques d'augmentation de données, les modèles d'IA peuvent améliorer significativement leur applicabilité dans les tâches impliquant des ensembles de données rares ou déséquilibrés, renforçant ainsi considérablement la capacité de généralisation des modèles d'IA. Les synthèses bibliographiques existantes se concentrent uniquement sur des types spécifiques de données unimodales et classifient ces méthodes selon une perspective spécifique à la modalité et centrée sur les opérations, ce qui manque d'une synthèse cohérente des méthodes d'augmentation de données à travers plusieurs modalités, limitant la compréhension de la manière dont les échantillons de données existants servent le processus d'augmentation. Pour combler cette lacune, ce sondage propose une taxonomie plus instructive qui couvre les techniques d'augmentation de données pour différentes modalités de données courantes en examinant comment exploiter les relations intrinsèques intra-instance et inter-instance. De plus, il classe les méthodes d'augmentation de données pour cinq modalités de données selon une approche inductive unifiée.

Contexte de Recherche et Motivation

1. Problèmes à Résoudre

Cette recherche vise à résoudre plusieurs problèmes clés dans la littérature existante sur l'augmentation de données:

  • Fragmentation modale: Les synthèses existantes se concentrent uniquement sur des modalités de données spécifiques (images, texte, graphes, etc.), manquant d'une perspective unifiée inter-modale
  • Incohérence de classification: Différentes synthèses adoptent des approches de classification spécifiques à la modalité ou centrées sur les opérations, manquant d'un cadre théorique unifié
  • Compréhension insuffisante de l'essence: Les méthodes de classification existantes ne peuvent pas révéler les mécanismes intrinsèques et les modèles communs de l'augmentation de données

2. Importance du Problème

L'augmentation de données revêt une importance significative dans le domaine de l'IA:

  • Problème de rareté des données: Dans de nombreuses applications pratiques, l'acquisition de grandes quantités de données annotées est difficile et coûteuse
  • Déséquilibre des données: La distribution inégale des classes entraîne une dégradation des performances du modèle
  • Capacité de généralisation: L'augmentation de données peut améliorer la robustesse et la capacité de généralisation du modèle
  • Applications inter-domaines: Des techniques d'augmentation de données sont largement appliquées, de la vision par ordinateur au traitement du langage naturel

3. Limitations des Méthodes Existantes

Par l'analyse de 17 synthèses connexes, les auteurs ont découvert:

  • Couverture limitée: La plupart des synthèses se concentrent uniquement sur une seule modalité
  • Perspective de classification limitée: Manque d'une classification unifiée selon une perspective centrée sur les données
  • Négligence des points communs: Incapacité à identifier les modèles communs des méthodes d'augmentation de données entre différentes modalités

4. Motivation de la Recherche

Sur la base des applications réussies de méthodes telles que mixup à travers différentes modalités, les auteurs estiment qu'un cadre unifié indépendant de la modalité est nécessaire pour comprendre les mécanismes essentiels de l'augmentation de données.

Contributions Principales

  1. Proposition d'une taxonomie centrée sur les données indépendante de la modalité: Première proposition d'un cadre de classification unifié selon une perspective centrée sur les données, applicable à toutes les modalités de données
  2. Premier sondage complet couvrant cinq modalités: Couvre les techniques d'augmentation de données pour les images, le texte, les graphes, les données tabulaires et les séries temporelles
  3. Analyse des mécanismes d'utilisation de l'information: Analyse approfondie de la représentation cohérente de l'information et des modes d'utilisation améliorée dans différentes modalités
  4. Organisation de la littérature la plus récente: Collecte et classification des recherches récentes sur l'augmentation de données, discussion des orientations futures

Détails Méthodologiques

Définition de la Tâche

L'augmentation de données est formalisée comme un processus de mappage fonctionnel:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

où D_L est l'ensemble de données annotées et D̃_L est l'ensemble de données augmentées.

Cadre de Classification Principal

Les auteurs proposent une taxonomie à deux niveaux basée sur deux questions de recherche:

RQ1: Combien d'échantillons sont utilisés pour générer chaque nouvel échantillon?

  • Augmentation au niveau d'une instance unique (Single-instance Level)
  • Augmentation au niveau de plusieurs instances (Multi-instance Level)
  • Augmentation au niveau de l'ensemble de données (Dataset Level)

RQ2: Quelle partie de l'information est utilisée pour générer de nouvelles données? Pour chaque niveau, une analyse supplémentaire des types d'information utilisés:

  • Information de valeur: Contenu numérique porté par les éléments
  • Information structurelle: Relations organisationnelles entre éléments
  • Information exogène: Connaissances externes ou ensembles de données

Détails du Système de Classification

1. Augmentation au Niveau d'une Instance Unique

Représentation mathématique: x̃ = x_i + ε(x_i), ỹ = y_i

Sous-catégories:

  • Transformations basées sur la valeur: Perturbation des valeurs d'éléments
    • Images: Effacement de pixels, transformations photométriques
    • Texte: Substitution lexicale, ajout, suppression
    • Graphes: Masquage d'attributs de nœuds
    • Données tabulaires: Masquage de cellules, ingénierie des caractéristiques
    • Séries temporelles: Perturbation d'amplitude
  • Transformations basées sur la structure: Perturbation des relations structurelles
    • Images: Recadrage, transformations géométriques
    • Texte: Transformations syntaxiques
    • Graphes: Perturbation topologique, échantillonnage de sous-graphes
    • Données tabulaires: Partitionnement de sous-tableaux
    • Séries temporelles: Découpage de fenêtres

2. Augmentation au Niveau de Plusieurs Instances

Représentation mathématique: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

Sous-catégories:

  • Mélange basé sur la valeur: Mélange arithmétique des valeurs de plusieurs échantillons
  • Combinaison basée sur la structure: Combinaison de fragments de plusieurs échantillons

3. Augmentation au Niveau de l'Ensemble de Données

Représentation mathématique: x̃ ~ P(X), ỹ ~ P(y|x̃)

Sous-catégories:

  • Génération native: Utilisation uniquement de l'ensemble de données existant
  • Génération exogène: Combinaison avec des ressources externes

Points d'Innovation Technique

  1. Perspective unifiée: Première analyse unifiée des méthodes d'augmentation de différentes modalités selon l'angle de la source d'information
  2. Cohérence inter-modale: Identification des modèles communs entre différentes modalités (par exemple, l'application de mixup dans chaque modalité)
  3. Classification systématique: Établissement d'un système de classification hiérarchique et inductif
  4. Orientation pratique: Fourniture d'orientations théoriques pour la sélection de méthodes d'augmentation appropriées

Configuration Expérimentale

Méthodologie du Sondage

  • Collecte de littérature: Collecte systématique de littérature connexe de 2018-2025
  • Critères de classification: Classification des méthodes selon la taxonomie à deux niveaux proposée
  • Analyse comparative: Comparaison systématique avec 17 synthèses existantes
  • Études de cas: Analyse détaillée de méthodes typiques pour chaque catégorie

Dimensions d'Évaluation

L'article évalue les méthodes d'augmentation de données selon plusieurs dimensions:

  • Complexité computationnelle: Surcharge computationnelle de la méthode
  • Perte d'information: Degré de préservation de l'information pendant l'augmentation
  • Exigences d'analyse: Nécessité d'une analyse au niveau des échantillons

Résultats Expérimentaux

Principales Conclusions

1. Points Communs Inter-Modaux

  • Méthodes de type Mixup: Applications réussies dans toutes les modalités
  • Techniques de masquage: Opérations fondamentales dans chaque modalité
  • Modèles génératifs: Tendance dominante émergente

2. Caractéristiques Spécifiques à la Modalité

  • Images: L'invariance spatiale rend les transformations géométriques particulièrement efficaces
  • Texte: La nature discrète limite certaines méthodes de transformation
  • Graphes: La structure topologique offre un espace d'augmentation riche
  • Données tabulaires: La structure simple limite les choix d'augmentation
  • Séries temporelles: La nature temporelle est un facteur clé de considération

3. Évolution des Méthodes

  • Période précoce: Règles manuelles simples (par exemple, rotation, retournement)
  • Période intermédiaire: Recherche de stratégies automatiques (AutoAugment)
  • Période actuelle: Augmentation générative pilotée par les grands modèles

Analyse Comparative des Performances

L'article fournit une comparaison détaillée des méthodes via le Tableau II, incluant:

  • Nombre d'échantillons: Instance unique vs instances multiples vs niveau d'ensemble de données
  • Types d'information: Valeur, structure, mélange valeur-structure
  • Surcharge computationnelle: De négligeable à haute charge computationnelle
  • Perte d'information: De sans perte à perte élevée

Travaux Connexes

Analyse des Synthèses Existantes

Les auteurs ont analysé systématiquement 17 synthèses connexes et ont découvert:

  • Domaine des images: Recherche la plus mature, méthodes abondantes
  • Domaine du texte: Développement relativement lent en raison de la nature discrète
  • Domaine des graphes: Développement rapide ces dernières années
  • Domaine des données tabulaires: Recherche relativement limitée
  • Séries temporelles: Développement piloté par les applications

Avantages de cet Article

Par rapport aux travaux existants, cet article présente les avantages suivants:

  1. Couverture complète: Première couverture de cinq modalités de données principales
  2. Cadre unifié: Fourniture d'un système de classification indépendant de la modalité
  3. Analyse approfondie: Compréhension approfondie des mécanismes selon l'angle d'utilisation de l'information
  4. Orientation pratique: Fourniture de recommandations concrètes pour la sélection de méthodes

Conclusions et Discussion

Conclusions Principales

  1. Existence d'une uniformité: Les méthodes d'augmentation de données de différentes modalités présentent une cohérence intrinsèque dans les modes d'utilisation de l'information
  2. Structure hiérarchique claire: La taxonomie à deux niveaux basée sur le nombre d'échantillons et les types d'information possède une bonne capacité explicative
  3. Tendances de développement claires: Évolution vers des directions générative et intelligente
  4. Valeur d'orientation pour les applications: Fourniture d'un cadre de sélection de méthodes pour les applications pratiques

Limitations

  1. Analyse théorique insuffisante: Principalement une synthèse de méthodes, manquant d'analyse théorique approfondie
  2. Comparaison de performances limitée: Absence de comparaison quantitative des performances de différentes méthodes
  3. Couverture des technologies émergentes: La couverture des techniques d'augmentation les plus récentes basées sur les grands modèles peut être incomplète
  4. Orientation pour les applications pratiques: Bien que des recommandations de sélection soient fournies, des cas d'application concrets font défaut

Orientations Futures

  1. Transfert inter-modal: Exploration des lois de transfert des méthodes d'augmentation entre différentes modalités
  2. Augmentation intelligente: Utilisation de l'apprentissage par renforcement et des grands modèles pour réaliser une augmentation adaptative
  3. Fondations théoriques: Établissement d'un cadre d'analyse théorique pour l'augmentation de données
  4. Système d'évaluation: Développement de métriques d'évaluation plus complètes pour les effets d'augmentation
  5. Modalités émergentes: Extension à l'audio, la vidéo et autres modalités de données émergentes

Évaluation Approfondie

Points Forts

  1. Forte innovativité: Première proposition d'un cadre de classification inter-modal unifié, perspective novatrice
  2. Bonne systématicité: Large couverture, classification claire, logique rigoureuse
  3. Haute valeur pratique: Fourniture d'une excellente orientation pour les chercheurs et les praticiens
  4. Littérature abondante: Collecte de nombreuses recherches récentes, informations complètes
  5. Rédaction claire: Structure raisonnable, expression précise, facile à comprendre

Insuffisances

  1. Manque d'analyse quantitative: Principalement des descriptions qualitatives, manquant de soutien par des données de performance
  2. Profondeur théorique limitée: Plus une synthèse de méthodes, innovation théorique relativement insuffisante
  3. Absence de vérification expérimentale: Pas de vérification expérimentale de l'efficacité du cadre de classification
  4. Décalage technologique: La couverture des technologies les plus récentes de 2024-2025 peut ne pas être suffisamment opportune

Impact

  1. Valeur académique: Fourniture d'un cadre théorique important pour le domaine de l'augmentation de données
  2. Valeur pratique: Aide les chercheurs à comprendre rapidement et à sélectionner des méthodes appropriées
  3. Effet directif: Peut promouvoir le développement de méthodes d'augmentation de données inter-modales
  4. Valeur pédagogique: Approprié comme matériel d'introduction et de référence dans ce domaine

Scénarios Applicables

  1. Introduction à la recherche: Approprié pour que les débutants comprennent rapidement l'ensemble du paysage de l'augmentation de données
  2. Sélection de méthodes: Fourniture d'orientation pour la sélection de méthodes dans les projets pratiques
  3. Recherche inter-modale: Fourniture de fondations théoriques pour la migration de méthodes inter-modales
  4. Référence pédagogique: Approprié comme matériel pédagogique pour les cours connexes

Références Bibliographiques

L'article cite 244 références, couvrant les travaux principaux du domaine de l'augmentation de données, incluant:

  • Méthodes classiques: SMOTE, Mixup, Cutout, etc.
  • Méthodes automatisées: AutoAugment, RandAugment, etc.
  • Méthodes générative: Applications de GAN, VAE, modèles de diffusion, etc.
  • Méthodes basées sur les grands modèles: Applications de GPT, DALL-E, etc.

Évaluation globale: Ceci est un article de synthèse de haute qualité qui propose pour la première fois un cadre de classification unifié inter-modal pour l'augmentation de données, possédant une valeur académique et pratique importante. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de vérification expérimentale, sa perspective innovante et sa synthèse systématique en font une contribution importante au domaine.