Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
El aumento de datos es un conjunto de técnicas que generan datos artificiales de alta calidad mediante la manipulación de muestras de datos existentes. Al aprovechar técnicas de aumento de datos, los modelos de IA pueden mejorar significativamente su aplicabilidad en tareas que involucran conjuntos de datos escasos o desequilibrados, mejorando así sustancialmente la capacidad de generalización de los modelos de IA. Las revisiones de literatura existentes se centran únicamente en tipos específicos de datos unimodales y clasifican estos métodos desde perspectivas específicas de modalidad y centradas en operaciones, careciendo de un resumen consistente de métodos de aumento de datos en múltiples modalidades, lo que limita la comprensión de cómo las muestras de datos existentes sirven al proceso de aumento de datos. Para cerrar esta brecha, esta encuesta propone una taxonomía más esclarecedora que cubre técnicas de aumento de datos de diferentes modalidades de datos comunes mediante el estudio de cómo aprovechar las relaciones intrínsecas entre instancias e intra-instancias. Además, clasifica métodos de aumento de datos de cinco modalidades de datos mediante un enfoque inductivo unificado.
Esta investigación aborda varios problemas clave en la literatura de encuestas existentes sobre aumento de datos:
Fragmentación Modal: Las encuestas existentes se centran únicamente en modalidades de datos específicas (como imágenes, texto, gráficos, etc.), careciendo de una perspectiva unificada entre modalidades
Inconsistencia en la Clasificación: Diferentes encuestas adoptan métodos de clasificación específicos de modalidad u orientados a operaciones, careciendo de un marco teórico unificado
Comprensión Insuficiente de la Esencia: Los métodos de clasificación existentes no pueden revelar los mecanismos intrínsecos y patrones comunes del aumento de datos
El aumento de datos tiene una importancia significativa en el campo de la IA:
Problema de Escasez de Datos: En muchas aplicaciones prácticas, obtener grandes cantidades de datos anotados es difícil y costoso
Desequilibrio de Datos: La distribución desigual de clases conduce a un rendimiento deficiente del modelo
Capacidad de Generalización: El aumento de datos mejora la robustez y capacidad de generalización del modelo
Aplicaciones Interdisciplinarias: Desde visión por computadora hasta procesamiento del lenguaje natural, las técnicas de aumento de datos se aplican ampliamente
Basándose en la aplicación exitosa de métodos como mixup en diferentes modalidades, los autores argumentan que se necesita un marco unificado agnóstico de modalidad para comprender los mecanismos esenciales del aumento de datos.
Propuesta de Taxonomía Centrada en Datos Agnóstica de Modalidad: Primera propuesta de un marco de clasificación unificado desde una perspectiva centrada en datos, aplicable a todas las modalidades de datos
Primera Encuesta Integral Multimodal de Cinco Modalidades: Cubre técnicas de aumento de datos para imágenes, texto, gráficos, datos tabulares y series temporales
Análisis de Mecanismos de Utilización de Información: Análisis profundo de cómo se representa y utiliza la información de manera consistente en diferentes modalidades
Organización de Literatura Reciente: Recopilación y clasificación de investigaciones recientes sobre aumento de datos, discutiendo direcciones futuras de desarrollo
Perspectiva Unificada: Primera vez que se analizan de manera unificada métodos de aumento en diferentes modalidades desde el ángulo de fuentes de información
Consistencia Multimodal: Identificación de patrones comunes entre modalidades (como la aplicación de mixup en cada modalidad)
Clasificación Sistemática: Establecimiento de un sistema de clasificación jerárquico e inductivo
Orientación Práctica: Proporciona orientación teórica para seleccionar métodos de aumento apropiados
Existencia de Uniformidad: Los métodos de aumento de datos en diferentes modalidades tienen consistencia intrínseca en la forma de utilizar información
Estructura Jerárquica Clara: El esquema de clasificación de dos niveles basado en cantidad de muestras e información tiene buena capacidad explicativa
Tendencias de Desarrollo Claras: Desarrollo hacia direcciones generativas e inteligentes
Valor de Orientación para Aplicaciones: Proporciona un marco para selección de métodos en aplicaciones prácticas
Análisis Teórico Insuficiente: Principalmente resumen de métodos, falta análisis teórico profundo
Comparación de Rendimiento Limitada: No proporciona comparación cuantitativa de rendimiento de diferentes métodos
Cobertura de Tecnologías Emergentes: La cobertura de técnicas de aumento impulsadas por modelos grandes más recientes puede no ser suficientemente completa
Orientación de Aplicación Práctica: Aunque proporciona recomendaciones de selección, carece de casos de aplicación específicos
El artículo cita 244 referencias, cubriendo trabajos principales en el campo del aumento de datos, incluyendo:
Métodos Clásicos: SMOTE, Mixup, Cutout, etc.
Métodos Automatizados: AutoAugment, RandAugment, etc.
Métodos Generativos: Aplicaciones de GAN, VAE, modelos de Difusión, etc.
Métodos de Modelos Grandes: Aplicaciones de GPT, DALL-E, etc.
Evaluación General: Este es un artículo de encuesta de alta calidad que propone por primera vez un marco de clasificación unificado de aumento de datos multimodal, con importante valor académico y práctico. Aunque hay espacio para mejora en profundidad teórica y verificación experimental, su perspectiva innovadora y resumen sistemático lo convierten en una contribución importante en este campo.