Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
L'aumento dei dati è una serie di tecniche che generano dati artificiali di alta qualità manipolando campioni di dati esistenti. Sfruttando le tecniche di aumento dei dati, i modelli di intelligenza artificiale possono migliorare significativamente l'applicabilità in compiti che coinvolgono dataset scarsi o sbilanciati, aumentando notevolmente la capacità di generalizzazione dei modelli di IA. Le revisioni della letteratura esistenti si concentrano solo su singoli tipi di dati unimodali e classificano questi metodi da prospettive specifiche della modalità e incentrate sulle operazioni, mancando di una sintesi coerente dei metodi di aumento dei dati tra più modalità, limitando la comprensione di come i campioni di dati esistenti servono al processo di aumento dei dati. Per colmare questa lacuna, questo sondaggio propone una tassonomia più illuminante che copre le tecniche di aumento dei dati per diverse modalità di dati comuni, esaminando come sfruttare le relazioni intrinseche tra istanze e all'interno delle istanze. Inoltre, classifica i metodi di aumento dei dati per cinque modalità di dati attraverso un approccio induttivo unificato.
Questa ricerca mira ad affrontare diversi problemi critici nella letteratura di revisione esistente sull'aumento dei dati:
Frammentazione Modale: Le revisioni esistenti si concentrano solo su modalità di dati specifiche (come immagini, testo, grafi, ecc.), mancando di una prospettiva unificata tra modalità
Incoerenza nella Classificazione: Diverse revisioni adottano metodi di classificazione specifici della modalità o incentrati sulle operazioni, mancando di un quadro teorico unificato
Comprensione Insufficiente dell'Essenza: I metodi di classificazione esistenti non riescono a rivelare i meccanismi intrinseci e i modelli comuni dell'aumento dei dati
L'aumento dei dati ha un'importanza significativa nel campo dell'IA:
Problema della Scarsità di Dati: In molte applicazioni pratiche, l'acquisizione di grandi quantità di dati annotati è difficile e costosa
Squilibrio dei Dati: La distribuzione non uniforme delle classi porta a prestazioni degradate del modello
Capacità di Generalizzazione: L'aumento dei dati migliora la robustezza e la capacità di generalizzazione del modello
Applicazioni Trasversali: Dalle tecniche di visione artificiale all'elaborazione del linguaggio naturale, le tecniche di aumento dei dati sono ampiamente applicate
Basandosi sul successo di metodi come mixup in diverse modalità, gli autori ritengono che sia necessario un quadro unificato indipendente dalla modalità per comprendere i meccanismi essenziali dell'aumento dei dati.
Propone una Tassonomia Incentrata sui Dati Indipendente dalla Modalità: Propone per la prima volta un quadro di classificazione unificato dalla prospettiva incentrata sui dati, applicabile a tutte le modalità di dati
Primo Sondaggio Completo Trasversale a Cinque Modalità: Copre le tecniche di aumento dei dati per immagini, testo, grafi, dati tabulari e serie temporali
Analisi del Meccanismo di Utilizzo dell'Informazione: Analizza in profondità la rappresentazione coerente dell'informazione e i modi di utilizzo dell'aumento in diverse modalità
Organizzazione della Letteratura Più Recente: Raccoglie e classifica la ricerca più recente sull'aumento dei dati, discutendo le direzioni future di sviluppo
Gli autori propongono una tassonomia a due livelli basata su due domande di ricerca:
RQ1: Quanti campioni vengono utilizzati per generare ogni nuovo campione?
Aumento a Livello di Singola Istanza (Single-instance Level)
Aumento a Livello di Istanze Multiple (Multi-instance Level)
Aumento a Livello di Dataset (Dataset Level)
RQ2: Quale parte dell'informazione viene utilizzata per generare nuovi dati?
Per ogni livello, viene ulteriormente analizzato il tipo di informazione utilizzata:
Informazione di Valore: Contenuto numerico portato dagli elementi
Informazione Strutturale: Relazioni organizzative tra elementi
Informazione Esterna: Conoscenza esterna o dataset
Analisi Teorica Insufficiente: Principalmente sintesi dei metodi, mancanza di analisi teorica approfondita
Confronto delle Prestazioni Limitato: Non fornisce confronti quantitativi delle prestazioni di diversi metodi
Copertura della Tecnologia Emergente: La copertura delle tecniche di aumento più recenti basate su grandi modelli potrebbe non essere sufficientemente completa
Guida Applicativa Pratica: Sebbene fornisca raccomandazioni di selezione, mancano casi di applicazione specifici
L'articolo cita 244 riferimenti bibliografici, coprendo i lavori principali nel campo dell'aumento dei dati, inclusi:
Metodi Classici: SMOTE, Mixup, Cutout, ecc.
Metodi Automatizzati: AutoAugment, RandAugment, ecc.
Metodi Generativi: Applicazioni di GAN, VAE, modelli Diffusion, ecc.
Metodi di Grandi Modelli: Applicazioni di GPT, DALL-E, ecc.
Valutazione Complessiva: Questo è un articolo di sondaggio di alta qualità che propone per la prima volta un quadro di classificazione unificato dell'aumento dei dati trasversale alle modalità, con importante valore accademico e pratico. Sebbene ci sia spazio per miglioramenti nella profondità teorica e nella verifica sperimentale, la sua prospettiva innovativa e la sintesi sistematica lo rendono un contributo importante nel campo.