Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
L'augmentation de données est un ensemble de techniques permettant de générer des données artificielles de haute qualité en manipulant les échantillons de données existants. En exploitant les techniques d'augmentation de données, les modèles d'IA peuvent améliorer significativement leur applicabilité dans les tâches impliquant des ensembles de données rares ou déséquilibrés, renforçant ainsi considérablement la capacité de généralisation des modèles d'IA. Les synthèses bibliographiques existantes se concentrent uniquement sur des types spécifiques de données unimodales et classifient ces méthodes selon une perspective spécifique à la modalité et centrée sur les opérations, ce qui manque d'une synthèse cohérente des méthodes d'augmentation de données à travers plusieurs modalités, limitant la compréhension de la manière dont les échantillons de données existants servent le processus d'augmentation. Pour combler cette lacune, ce sondage propose une taxonomie plus instructive qui couvre les techniques d'augmentation de données pour différentes modalités de données courantes en examinant comment exploiter les relations intrinsèques intra-instance et inter-instance. De plus, il classe les méthodes d'augmentation de données pour cinq modalités de données selon une approche inductive unifiée.
Cette recherche vise à résoudre plusieurs problèmes clés dans la littérature existante sur l'augmentation de données:
Fragmentation modale: Les synthèses existantes se concentrent uniquement sur des modalités de données spécifiques (images, texte, graphes, etc.), manquant d'une perspective unifiée inter-modale
Incohérence de classification: Différentes synthèses adoptent des approches de classification spécifiques à la modalité ou centrées sur les opérations, manquant d'un cadre théorique unifié
Compréhension insuffisante de l'essence: Les méthodes de classification existantes ne peuvent pas révéler les mécanismes intrinsèques et les modèles communs de l'augmentation de données
L'augmentation de données revêt une importance significative dans le domaine de l'IA:
Problème de rareté des données: Dans de nombreuses applications pratiques, l'acquisition de grandes quantités de données annotées est difficile et coûteuse
Déséquilibre des données: La distribution inégale des classes entraîne une dégradation des performances du modèle
Capacité de généralisation: L'augmentation de données peut améliorer la robustesse et la capacité de généralisation du modèle
Applications inter-domaines: Des techniques d'augmentation de données sont largement appliquées, de la vision par ordinateur au traitement du langage naturel
Sur la base des applications réussies de méthodes telles que mixup à travers différentes modalités, les auteurs estiment qu'un cadre unifié indépendant de la modalité est nécessaire pour comprendre les mécanismes essentiels de l'augmentation de données.
Proposition d'une taxonomie centrée sur les données indépendante de la modalité: Première proposition d'un cadre de classification unifié selon une perspective centrée sur les données, applicable à toutes les modalités de données
Premier sondage complet couvrant cinq modalités: Couvre les techniques d'augmentation de données pour les images, le texte, les graphes, les données tabulaires et les séries temporelles
Analyse des mécanismes d'utilisation de l'information: Analyse approfondie de la représentation cohérente de l'information et des modes d'utilisation améliorée dans différentes modalités
Organisation de la littérature la plus récente: Collecte et classification des recherches récentes sur l'augmentation de données, discussion des orientations futures
Les auteurs proposent une taxonomie à deux niveaux basée sur deux questions de recherche:
RQ1: Combien d'échantillons sont utilisés pour générer chaque nouvel échantillon?
Augmentation au niveau d'une instance unique (Single-instance Level)
Augmentation au niveau de plusieurs instances (Multi-instance Level)
Augmentation au niveau de l'ensemble de données (Dataset Level)
RQ2: Quelle partie de l'information est utilisée pour générer de nouvelles données?
Pour chaque niveau, une analyse supplémentaire des types d'information utilisés:
Information de valeur: Contenu numérique porté par les éléments
Information structurelle: Relations organisationnelles entre éléments
Information exogène: Connaissances externes ou ensembles de données
Existence d'une uniformité: Les méthodes d'augmentation de données de différentes modalités présentent une cohérence intrinsèque dans les modes d'utilisation de l'information
Structure hiérarchique claire: La taxonomie à deux niveaux basée sur le nombre d'échantillons et les types d'information possède une bonne capacité explicative
Tendances de développement claires: Évolution vers des directions générative et intelligente
Valeur d'orientation pour les applications: Fourniture d'un cadre de sélection de méthodes pour les applications pratiques
Analyse théorique insuffisante: Principalement une synthèse de méthodes, manquant d'analyse théorique approfondie
Comparaison de performances limitée: Absence de comparaison quantitative des performances de différentes méthodes
Couverture des technologies émergentes: La couverture des techniques d'augmentation les plus récentes basées sur les grands modèles peut être incomplète
Orientation pour les applications pratiques: Bien que des recommandations de sélection soient fournies, des cas d'application concrets font défaut
L'article cite 244 références, couvrant les travaux principaux du domaine de l'augmentation de données, incluant:
Méthodes classiques: SMOTE, Mixup, Cutout, etc.
Méthodes automatisées: AutoAugment, RandAugment, etc.
Méthodes générative: Applications de GAN, VAE, modèles de diffusion, etc.
Méthodes basées sur les grands modèles: Applications de GPT, DALL-E, etc.
Évaluation globale: Ceci est un article de synthèse de haute qualité qui propose pour la première fois un cadre de classification unifié inter-modal pour l'augmentation de données, possédant une valeur académique et pratique importante. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de vérification expérimentale, sa perspective innovante et sa synthèse systématique en font une contribution importante au domaine.