2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.

academic

Un Sondage Complet sur l'Augmentation de Données

Informations Fondamentales

ID de l'article: 2405.09591
Titre: A Comprehensive Survey on Data Augmentation
Auteurs: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
Classification: cs.LG cs.AI
Date de publication: Mai 2024 (Prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2405.09591

Résumé

L'augmentation de données est un ensemble de techniques permettant de générer des données artificielles de haute qualité en manipulant les échantillons de données existants. En exploitant les techniques d'augmentation de données, les modèles d'IA peuvent améliorer significativement leur applicabilité dans les tâches impliquant des ensembles de données rares ou déséquilibrés, renforçant ainsi considérablement la capacité de généralisation des modèles d'IA. Les synthèses bibliographiques existantes se concentrent uniquement sur des types spécifiques de données unimodales et classifient ces méthodes selon une perspective spécifique à la modalité et centrée sur les opérations, ce qui manque d'une synthèse cohérente des méthodes d'augmentation de données à travers plusieurs modalités, limitant la compréhension de la manière dont les échantillons de données existants servent le processus d'augmentation. Pour combler cette lacune, ce sondage propose une taxonomie plus instructive qui couvre les techniques d'augmentation de données pour différentes modalités de données courantes en examinant comment exploiter les relations intrinsèques intra-instance et inter-instance. De plus, il classe les méthodes d'augmentation de données pour cinq modalités de données selon une approche inductive unifiée.

Contexte de Recherche et Motivation

1. Problèmes à Résoudre

Cette recherche vise à résoudre plusieurs problèmes clés dans la littérature existante sur l'augmentation de données:

Fragmentation modale: Les synthèses existantes se concentrent uniquement sur des modalités de données spécifiques (images, texte, graphes, etc.), manquant d'une perspective unifiée inter-modale
Incohérence de classification: Différentes synthèses adoptent des approches de classification spécifiques à la modalité ou centrées sur les opérations, manquant d'un cadre théorique unifié
Compréhension insuffisante de l'essence: Les méthodes de classification existantes ne peuvent pas révéler les mécanismes intrinsèques et les modèles communs de l'augmentation de données

2. Importance du Problème

L'augmentation de données revêt une importance significative dans le domaine de l'IA:

Problème de rareté des données: Dans de nombreuses applications pratiques, l'acquisition de grandes quantités de données annotées est difficile et coûteuse
Déséquilibre des données: La distribution inégale des classes entraîne une dégradation des performances du modèle
Capacité de généralisation: L'augmentation de données peut améliorer la robustesse et la capacité de généralisation du modèle
Applications inter-domaines: Des techniques d'augmentation de données sont largement appliquées, de la vision par ordinateur au traitement du langage naturel

3. Limitations des Méthodes Existantes

Par l'analyse de 17 synthèses connexes, les auteurs ont découvert:

Couverture limitée: La plupart des synthèses se concentrent uniquement sur une seule modalité
Perspective de classification limitée: Manque d'une classification unifiée selon une perspective centrée sur les données
Négligence des points communs: Incapacité à identifier les modèles communs des méthodes d'augmentation de données entre différentes modalités

4. Motivation de la Recherche

Sur la base des applications réussies de méthodes telles que mixup à travers différentes modalités, les auteurs estiment qu'un cadre unifié indépendant de la modalité est nécessaire pour comprendre les mécanismes essentiels de l'augmentation de données.

Contributions Principales

Proposition d'une taxonomie centrée sur les données indépendante de la modalité: Première proposition d'un cadre de classification unifié selon une perspective centrée sur les données, applicable à toutes les modalités de données
Premier sondage complet couvrant cinq modalités: Couvre les techniques d'augmentation de données pour les images, le texte, les graphes, les données tabulaires et les séries temporelles
Analyse des mécanismes d'utilisation de l'information: Analyse approfondie de la représentation cohérente de l'information et des modes d'utilisation améliorée dans différentes modalités
Organisation de la littérature la plus récente: Collecte et classification des recherches récentes sur l'augmentation de données, discussion des orientations futures

Détails Méthodologiques

Définition de la Tâche

L'augmentation de données est formalisée comme un processus de mappage fonctionnel:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

où D_L est l'ensemble de données annotées et D̃_L est l'ensemble de données augmentées.

Cadre de Classification Principal

Les auteurs proposent une taxonomie à deux niveaux basée sur deux questions de recherche:

RQ1: Combien d'échantillons sont utilisés pour générer chaque nouvel échantillon?

Augmentation au niveau d'une instance unique (Single-instance Level)
Augmentation au niveau de plusieurs instances (Multi-instance Level)
Augmentation au niveau de l'ensemble de données (Dataset Level)

RQ2: Quelle partie de l'information est utilisée pour générer de nouvelles données? Pour chaque niveau, une analyse supplémentaire des types d'information utilisés:

Information de valeur: Contenu numérique porté par les éléments
Information structurelle: Relations organisationnelles entre éléments
Information exogène: Connaissances externes ou ensembles de données

Détails du Système de Classification

1. Augmentation au Niveau d'une Instance Unique

Représentation mathématique: x̃ = x_i + ε(x_i), ỹ = y_i

Sous-catégories:

Transformations basées sur la valeur: Perturbation des valeurs d'éléments
- Images: Effacement de pixels, transformations photométriques
- Texte: Substitution lexicale, ajout, suppression
- Graphes: Masquage d'attributs de nœuds
- Données tabulaires: Masquage de cellules, ingénierie des caractéristiques
- Séries temporelles: Perturbation d'amplitude
Transformations basées sur la structure: Perturbation des relations structurelles
- Images: Recadrage, transformations géométriques
- Texte: Transformations syntaxiques
- Graphes: Perturbation topologique, échantillonnage de sous-graphes
- Données tabulaires: Partitionnement de sous-tableaux
- Séries temporelles: Découpage de fenêtres

2. Augmentation au Niveau de Plusieurs Instances

Représentation mathématique: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

Sous-catégories:

Mélange basé sur la valeur: Mélange arithmétique des valeurs de plusieurs échantillons
Combinaison basée sur la structure: Combinaison de fragments de plusieurs échantillons

3. Augmentation au Niveau de l'Ensemble de Données

Représentation mathématique: x̃ ~ P(X), ỹ ~ P(y|x̃)

Sous-catégories:

Génération native: Utilisation uniquement de l'ensemble de données existant
Génération exogène: Combinaison avec des ressources externes

Points d'Innovation Technique

Perspective unifiée: Première analyse unifiée des méthodes d'augmentation de différentes modalités selon l'angle de la source d'information
Cohérence inter-modale: Identification des modèles communs entre différentes modalités (par exemple, l'application de mixup dans chaque modalité)
Classification systématique: Établissement d'un système de classification hiérarchique et inductif
Orientation pratique: Fourniture d'orientations théoriques pour la sélection de méthodes d'augmentation appropriées

Configuration Expérimentale

Méthodologie du Sondage

Collecte de littérature: Collecte systématique de littérature connexe de 2018-2025
Critères de classification: Classification des méthodes selon la taxonomie à deux niveaux proposée
Analyse comparative: Comparaison systématique avec 17 synthèses existantes
Études de cas: Analyse détaillée de méthodes typiques pour chaque catégorie

Dimensions d'Évaluation

L'article évalue les méthodes d'augmentation de données selon plusieurs dimensions:

Complexité computationnelle: Surcharge computationnelle de la méthode
Perte d'information: Degré de préservation de l'information pendant l'augmentation
Exigences d'analyse: Nécessité d'une analyse au niveau des échantillons

Résultats Expérimentaux

Principales Conclusions

1. Points Communs Inter-Modaux

Méthodes de type Mixup: Applications réussies dans toutes les modalités
Techniques de masquage: Opérations fondamentales dans chaque modalité
Modèles génératifs: Tendance dominante émergente

2. Caractéristiques Spécifiques à la Modalité

Images: L'invariance spatiale rend les transformations géométriques particulièrement efficaces
Texte: La nature discrète limite certaines méthodes de transformation
Graphes: La structure topologique offre un espace d'augmentation riche
Données tabulaires: La structure simple limite les choix d'augmentation
Séries temporelles: La nature temporelle est un facteur clé de considération

3. Évolution des Méthodes

Période précoce: Règles manuelles simples (par exemple, rotation, retournement)
Période intermédiaire: Recherche de stratégies automatiques (AutoAugment)
Période actuelle: Augmentation générative pilotée par les grands modèles

Analyse Comparative des Performances

L'article fournit une comparaison détaillée des méthodes via le Tableau II, incluant:

Nombre d'échantillons: Instance unique vs instances multiples vs niveau d'ensemble de données
Types d'information: Valeur, structure, mélange valeur-structure
Surcharge computationnelle: De négligeable à haute charge computationnelle
Perte d'information: De sans perte à perte élevée

Travaux Connexes

Analyse des Synthèses Existantes

Les auteurs ont analysé systématiquement 17 synthèses connexes et ont découvert:

Domaine des images: Recherche la plus mature, méthodes abondantes
Domaine du texte: Développement relativement lent en raison de la nature discrète
Domaine des graphes: Développement rapide ces dernières années
Domaine des données tabulaires: Recherche relativement limitée
Séries temporelles: Développement piloté par les applications

Avantages de cet Article

Par rapport aux travaux existants, cet article présente les avantages suivants:

Couverture complète: Première couverture de cinq modalités de données principales
Cadre unifié: Fourniture d'un système de classification indépendant de la modalité
Analyse approfondie: Compréhension approfondie des mécanismes selon l'angle d'utilisation de l'information
Orientation pratique: Fourniture de recommandations concrètes pour la sélection de méthodes

Conclusions et Discussion

Conclusions Principales

Existence d'une uniformité: Les méthodes d'augmentation de données de différentes modalités présentent une cohérence intrinsèque dans les modes d'utilisation de l'information
Structure hiérarchique claire: La taxonomie à deux niveaux basée sur le nombre d'échantillons et les types d'information possède une bonne capacité explicative
Tendances de développement claires: Évolution vers des directions générative et intelligente
Valeur d'orientation pour les applications: Fourniture d'un cadre de sélection de méthodes pour les applications pratiques

Limitations

Analyse théorique insuffisante: Principalement une synthèse de méthodes, manquant d'analyse théorique approfondie
Comparaison de performances limitée: Absence de comparaison quantitative des performances de différentes méthodes
Couverture des technologies émergentes: La couverture des techniques d'augmentation les plus récentes basées sur les grands modèles peut être incomplète
Orientation pour les applications pratiques: Bien que des recommandations de sélection soient fournies, des cas d'application concrets font défaut

Orientations Futures

Transfert inter-modal: Exploration des lois de transfert des méthodes d'augmentation entre différentes modalités
Augmentation intelligente: Utilisation de l'apprentissage par renforcement et des grands modèles pour réaliser une augmentation adaptative
Fondations théoriques: Établissement d'un cadre d'analyse théorique pour l'augmentation de données
Système d'évaluation: Développement de métriques d'évaluation plus complètes pour les effets d'augmentation
Modalités émergentes: Extension à l'audio, la vidéo et autres modalités de données émergentes

Évaluation Approfondie

Points Forts

Forte innovativité: Première proposition d'un cadre de classification inter-modal unifié, perspective novatrice
Bonne systématicité: Large couverture, classification claire, logique rigoureuse
Haute valeur pratique: Fourniture d'une excellente orientation pour les chercheurs et les praticiens
Littérature abondante: Collecte de nombreuses recherches récentes, informations complètes
Rédaction claire: Structure raisonnable, expression précise, facile à comprendre

Insuffisances

Manque d'analyse quantitative: Principalement des descriptions qualitatives, manquant de soutien par des données de performance
Profondeur théorique limitée: Plus une synthèse de méthodes, innovation théorique relativement insuffisante
Absence de vérification expérimentale: Pas de vérification expérimentale de l'efficacité du cadre de classification
Décalage technologique: La couverture des technologies les plus récentes de 2024-2025 peut ne pas être suffisamment opportune

Impact

Valeur académique: Fourniture d'un cadre théorique important pour le domaine de l'augmentation de données
Valeur pratique: Aide les chercheurs à comprendre rapidement et à sélectionner des méthodes appropriées
Effet directif: Peut promouvoir le développement de méthodes d'augmentation de données inter-modales
Valeur pédagogique: Approprié comme matériel d'introduction et de référence dans ce domaine

Scénarios Applicables

Introduction à la recherche: Approprié pour que les débutants comprennent rapidement l'ensemble du paysage de l'augmentation de données
Sélection de méthodes: Fourniture d'orientation pour la sélection de méthodes dans les projets pratiques
Recherche inter-modale: Fourniture de fondations théoriques pour la migration de méthodes inter-modales
Référence pédagogique: Approprié comme matériel pédagogique pour les cours connexes

Références Bibliographiques

L'article cite 244 références, couvrant les travaux principaux du domaine de l'augmentation de données, incluant:

Méthodes classiques: SMOTE, Mixup, Cutout, etc.
Méthodes automatisées: AutoAugment, RandAugment, etc.
Méthodes générative: Applications de GAN, VAE, modèles de diffusion, etc.
Méthodes basées sur les grands modèles: Applications de GPT, DALL-E, etc.

Évaluation globale: Ceci est un article de synthèse de haute qualité qui propose pour la première fois un cadre de classification unifié inter-modal pour l'augmentation de données, possédant une valeur académique et pratique importante. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de vérification expérimentale, sa perspective innovante et sa synthèse systématique en font une contribution importante au domaine.