Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
Datenerweiterung ist eine Reihe von Techniken zur Generierung hochwertiger künstlicher Daten durch Manipulation bestehender Datenstichproben. Durch die Nutzung von Datenerweiterungstechniken können KI-Modelle ihre Anwendbarkeit bei Aufgaben mit knappen oder unausgeglichenen Datensätzen erheblich verbessern und damit die Verallgemeinerungsfähigkeit von KI-Modellen deutlich erhöhen. Bestehende Literaturübersichten konzentrieren sich nur auf spezifische Typen unimodaler Daten und klassifizieren diese Methoden aus modalitätsspezifischen und operationszentrierten Perspektiven, wodurch eine konsistente Zusammenfassung von Datenerweiterungsmethoden über mehrere Modalitäten hinweg fehlt und das Verständnis dafür eingeschränkt wird, wie bestehende Datenstichproben dem Datenerweiterungsprozess dienen können. Um diese Lücke zu schließen, schlägt diese Übersicht eine aussagekräftigere Klassifizierungstaxonomie vor, die Datenerweiterungstechniken für verschiedene häufige Datenmodalitäten durch die Untersuchung der Nutzung innerer Beziehungen zwischen und innerhalb von Instanzen abdeckt. Darüber hinaus klassifiziert sie Datenerweiterungsmethoden für fünf Datenmodalitäten durch eine einheitliche induktive Methode.
Diese Forschung zielt darauf ab, mehrere Schlüsselprobleme in der bestehenden Literatur zur Datenerweiterung zu adressieren:
Modalitätsfragmentierung: Bestehende Übersichten konzentrieren sich nur auf spezifische Datenmodalitäten (wie Bilder, Text, Graphen), es fehlt eine einheitliche Perspektive über Modalitäten hinweg
Inkonsistente Klassifizierung: Verschiedene Übersichten verwenden modalitätsspezifische oder operationszentrierte Klassifizierungsmethoden, es fehlt ein einheitlicher theoretischer Rahmen
Unzureichendes Verständnis des Wesens: Bestehende Klassifizierungsmethoden können die inneren Mechanismen und gemeinsamen Muster der Datenerweiterung nicht offenbaren
Durch die Analyse von 17 verwandten Übersichten entdeckten die Autoren:
Begrenzte Abdeckung: Die meisten Übersichten konzentrieren sich nur auf eine einzelne Modalität
Begrenzte Klassifizierungsperspektive: Es fehlt eine einheitliche Klassifizierung aus einer datenzentrierten Perspektive
Vernachlässigung von Gemeinsamkeiten: Unfähigkeit, gemeinsame Muster von Datenerweiterungsmethoden über verschiedene Modalitäten hinweg zu identifizieren
Basierend auf der erfolgreichen Anwendung von Methoden wie Mixup über verschiedene Modalitäten hinweg vertreten die Autoren die Ansicht, dass ein modalitätsunabhängiger einheitlicher Rahmen erforderlich ist, um die wesentlichen Mechanismen der Datenerweiterung zu verstehen.
Vorschlag einer modalitätsunabhängigen datenzentrierten Klassifizierungstaxonomie: Erstmals ein einheitlicher Klassifizierungsrahmen aus datenzentrierter Perspektive, anwendbar auf alle Datenmodalitäten
Erste umfassende Übersicht über fünf Modalitäten: Abdeckung von Datenerweiterungstechniken für Bilder, Text, Graphen, Tabellen und Zeitreihen
Analyse des Informationsnutzungsmechanismus: Tiefgehende Analyse der konsistenten Darstellung und erweiterten Nutzung von Informationen in verschiedenen Modalitäten
Systematisierung der neuesten Literatur: Sammlung und Klassifizierung neuester Datenerweiterungsforschung, Diskussion zukünftiger Entwicklungsrichtungen
Große-Modell-Methoden: Anwendungen von GPT, DALL-E usw.
Gesamtbewertung: Dies ist ein hochqualitatives Übersichtspaper, das erstmals einen einheitlichen Datenerweiterungsklassifizierungsrahmen über Modalitäten hinweg vorschlägt und von großem akademischem und praktischem Wert ist. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und experimenteller Validierung gibt, machen seine innovative Perspektive und systematische Zusammenfassung es zu einem wichtigen Beitrag auf diesem Gebiet.