2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.

academic

Una Encuesta Integral sobre Aumento de Datos

Información Básica

ID del Artículo: 2405.09591
Título: Una Encuesta Integral sobre Aumento de Datos
Autores: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
Clasificación: cs.LG cs.AI
Fecha de Publicación: Mayo de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2405.09591

Resumen

El aumento de datos es un conjunto de técnicas que generan datos artificiales de alta calidad mediante la manipulación de muestras de datos existentes. Al aprovechar técnicas de aumento de datos, los modelos de IA pueden mejorar significativamente su aplicabilidad en tareas que involucran conjuntos de datos escasos o desequilibrados, mejorando así sustancialmente la capacidad de generalización de los modelos de IA. Las revisiones de literatura existentes se centran únicamente en tipos específicos de datos unimodales y clasifican estos métodos desde perspectivas específicas de modalidad y centradas en operaciones, careciendo de un resumen consistente de métodos de aumento de datos en múltiples modalidades, lo que limita la comprensión de cómo las muestras de datos existentes sirven al proceso de aumento de datos. Para cerrar esta brecha, esta encuesta propone una taxonomía más esclarecedora que cubre técnicas de aumento de datos de diferentes modalidades de datos comunes mediante el estudio de cómo aprovechar las relaciones intrínsecas entre instancias e intra-instancias. Además, clasifica métodos de aumento de datos de cinco modalidades de datos mediante un enfoque inductivo unificado.

Antecedentes de Investigación y Motivación

1. Problemas a Resolver

Esta investigación aborda varios problemas clave en la literatura de encuestas existentes sobre aumento de datos:

Fragmentación Modal: Las encuestas existentes se centran únicamente en modalidades de datos específicas (como imágenes, texto, gráficos, etc.), careciendo de una perspectiva unificada entre modalidades
Inconsistencia en la Clasificación: Diferentes encuestas adoptan métodos de clasificación específicos de modalidad u orientados a operaciones, careciendo de un marco teórico unificado
Comprensión Insuficiente de la Esencia: Los métodos de clasificación existentes no pueden revelar los mecanismos intrínsecos y patrones comunes del aumento de datos

2. Importancia del Problema

El aumento de datos tiene una importancia significativa en el campo de la IA:

Problema de Escasez de Datos: En muchas aplicaciones prácticas, obtener grandes cantidades de datos anotados es difícil y costoso
Desequilibrio de Datos: La distribución desigual de clases conduce a un rendimiento deficiente del modelo
Capacidad de Generalización: El aumento de datos mejora la robustez y capacidad de generalización del modelo
Aplicaciones Interdisciplinarias: Desde visión por computadora hasta procesamiento del lenguaje natural, las técnicas de aumento de datos se aplican ampliamente

3. Limitaciones de los Métodos Existentes

Mediante el análisis de 17 encuestas relacionadas existentes, los autores descubren:

Cobertura Limitada: La mayoría de las encuestas se centran únicamente en una única modalidad
Perspectivas de Clasificación Limitadas: Falta una clasificación unificada desde una perspectiva centrada en datos
Negligencia de Características Comunes: Incapacidad para identificar patrones comunes en métodos de aumento de datos entre diferentes modalidades

4. Motivación de la Investigación

Basándose en la aplicación exitosa de métodos como mixup en diferentes modalidades, los autores argumentan que se necesita un marco unificado agnóstico de modalidad para comprender los mecanismos esenciales del aumento de datos.

Contribuciones Principales

Propuesta de Taxonomía Centrada en Datos Agnóstica de Modalidad: Primera propuesta de un marco de clasificación unificado desde una perspectiva centrada en datos, aplicable a todas las modalidades de datos
Primera Encuesta Integral Multimodal de Cinco Modalidades: Cubre técnicas de aumento de datos para imágenes, texto, gráficos, datos tabulares y series temporales
Análisis de Mecanismos de Utilización de Información: Análisis profundo de cómo se representa y utiliza la información de manera consistente en diferentes modalidades
Organización de Literatura Reciente: Recopilación y clasificación de investigaciones recientes sobre aumento de datos, discutiendo direcciones futuras de desarrollo

Explicación Detallada de Métodos

Definición de Tareas

El aumento de datos se formaliza como un proceso de mapeo de funciones:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

donde D_L es el conjunto de datos anotado y D̃_L es el conjunto de datos aumentado.

Marco de Clasificación Principal

Los autores proponen un esquema de clasificación de dos niveles basado en dos preguntas de investigación:

RQ1: ¿Cuántas muestras se utilizan para generar cada nueva muestra?

Aumento a Nivel de Instancia Única (Single-instance Level)
Aumento a Nivel de Múltiples Instancias (Multi-instance Level)
Aumento a Nivel de Conjunto de Datos (Dataset Level)

RQ2: ¿Qué parte de la información se utiliza para generar nuevos datos? Para cada nivel, se analiza además el tipo de información utilizada:

Información de Valores: Contenido numérico que llevan los elementos
Información Estructural: Relaciones organizativas entre elementos
Información Exógena: Conocimiento externo o conjuntos de datos

Explicación Detallada del Sistema de Clasificación

1. Aumento a Nivel de Instancia Única

Representación Matemática: x̃ = x_i + ε(x_i), ỹ = y_i

Subcategorías:

Transformaciones Basadas en Valores: Perturbación de valores de elementos
- Imágenes: borrado de píxeles, transformaciones fotométricas
- Texto: sustitución de vocabulario, adición, eliminación
- Gráficos: enmascaramiento de atributos de nodos
- Datos Tabulares: enmascaramiento de celdas, ingeniería de características
- Series Temporales: perturbación de amplitud
Transformaciones Basadas en Estructura: Perturbación de relaciones estructurales
- Imágenes: recorte, transformaciones geométricas
- Texto: transformaciones sintácticas
- Gráficos: perturbación topológica, muestreo de subgrafos
- Datos Tabulares: partición de subtablas
- Series Temporales: corte de ventanas

2. Aumento a Nivel de Múltiples Instancias

Representación Matemática: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

Subcategorías:

Mezcla Basada en Valores: Mezcla aritmética de valores de múltiples muestras
Combinación Basada en Estructura: Combinación de fragmentos de múltiples muestras

3. Aumento a Nivel de Conjunto de Datos

Representación Matemática: x̃ ~ P(X), ỹ ~ P(y|x̃)

Subcategorías:

Generación Nativa: Utilización únicamente del conjunto de datos existente
Generación Exógena: Combinación con recursos externos

Puntos de Innovación Técnica

Perspectiva Unificada: Primera vez que se analizan de manera unificada métodos de aumento en diferentes modalidades desde el ángulo de fuentes de información
Consistencia Multimodal: Identificación de patrones comunes entre modalidades (como la aplicación de mixup en cada modalidad)
Clasificación Sistemática: Establecimiento de un sistema de clasificación jerárquico e inductivo
Orientación Práctica: Proporciona orientación teórica para seleccionar métodos de aumento apropiados

Configuración Experimental

Metodología de Encuesta

Recopilación de Literatura: Recopilación sistemática de literatura relacionada de 2018-2025
Criterios de Clasificación: Clasificación de métodos basada en el esquema de clasificación de dos niveles propuesto
Análisis Comparativo: Comparación sistemática con 17 encuestas existentes
Estudios de Casos: Análisis detallado de métodos típicos en cada categoría

Dimensiones de Evaluación

El artículo evalúa métodos de aumento de datos desde múltiples dimensiones:

Complejidad Computacional: Costo computacional del método
Pérdida de Información: Grado de preservación de información durante el aumento
Requisitos de Análisis: Si se requiere análisis a nivel de muestra

Resultados Experimentales

Hallazgos Principales

1. Características Comunes Multimodales

Métodos tipo Mixup tienen aplicaciones exitosas en todas las modalidades
Técnicas de Enmascaramiento son operaciones fundamentales en cada modalidad
Modelos Generativos se están convirtiendo en la tendencia principal

2. Características Específicas de Modalidad

Imágenes: La invariancia espacial hace que las transformaciones geométricas sean particularmente efectivas
Texto: La naturaleza discreta limita ciertos métodos de transformación
Gráficos: La estructura topológica proporciona un espacio rico para aumento
Datos Tabulares: La estructura simple limita las opciones de aumento
Series Temporales: La naturaleza temporal es un factor clave de consideración

3. Evolución de Métodos

Período Temprano: Reglas simples hechas a mano (como rotación, volteo)
Período Intermedio: Búsqueda automática de estrategias (AutoAugment)
Período Actual: Aumento generativo impulsado por modelos grandes

Análisis Comparativo de Rendimiento

El artículo proporciona comparaciones detalladas de métodos a través de la Tabla II, incluyendo:

Cantidad de Muestras: Instancia única vs múltiples instancias vs nivel de conjunto de datos
Tipo de Información: Valores, estructura, mezcla valor-estructura
Costo Computacional: De negligible a alto costo computacional
Pérdida de Información: De sin pérdida a alta pérdida

Trabajo Relacionado

Análisis de Encuestas Existentes

Los autores analizan sistemáticamente 17 encuestas relacionadas, descubriendo:

Dominio de Imágenes: Investigación más madura, métodos abundantes
Dominio de Texto: Desarrollo relativamente lento debido a limitaciones de naturaleza discreta
Dominio de Gráficos: Desarrollo rápido en años recientes
Dominio de Datos Tabulares: Investigación relativamente escasa
Series Temporales: Desarrollo impulsado por aplicaciones

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo tiene las siguientes ventajas:

Cobertura Integral: Primera vez que cubre cinco modalidades de datos principales
Marco Unificado: Proporciona un sistema de clasificación agnóstico de modalidad
Análisis Profundo: Comprensión profunda de mecanismos desde la perspectiva de utilización de información
Orientación Práctica: Proporciona recomendaciones específicas para selección de métodos

Conclusiones y Discusión

Conclusiones Principales

Existencia de Uniformidad: Los métodos de aumento de datos en diferentes modalidades tienen consistencia intrínseca en la forma de utilizar información
Estructura Jerárquica Clara: El esquema de clasificación de dos niveles basado en cantidad de muestras e información tiene buena capacidad explicativa
Tendencias de Desarrollo Claras: Desarrollo hacia direcciones generativas e inteligentes
Valor de Orientación para Aplicaciones: Proporciona un marco para selección de métodos en aplicaciones prácticas

Limitaciones

Análisis Teórico Insuficiente: Principalmente resumen de métodos, falta análisis teórico profundo
Comparación de Rendimiento Limitada: No proporciona comparación cuantitativa de rendimiento de diferentes métodos
Cobertura de Tecnologías Emergentes: La cobertura de técnicas de aumento impulsadas por modelos grandes más recientes puede no ser suficientemente completa
Orientación de Aplicación Práctica: Aunque proporciona recomendaciones de selección, carece de casos de aplicación específicos

Direcciones Futuras

Transferencia Multimodal: Exploración de leyes de transferencia de métodos de aumento entre diferentes modalidades
Aumento Inteligente: Utilización de aprendizaje por refuerzo y modelos grandes para lograr aumento adaptativo
Fundamentos Teóricos: Establecimiento de marco de análisis teórico para aumento de datos
Sistema de Evaluación: Desarrollo de métricas de evaluación más completas para efectos de aumento
Modalidades Emergentes: Extensión a modalidades de datos emergentes como audio y video

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera propuesta de marco de clasificación unificado multimodal, perspectiva novedosa
Buena Sistematicidad: Amplia cobertura, clasificación clara, lógica rigurosa
Alto Valor Práctico: Proporciona excelente orientación para investigadores y profesionales
Literatura Abundante: Recopilación de gran cantidad de investigación reciente, información completa
Escritura Clara: Estructura razonable, expresión precisa, fácil de entender

Deficiencias

Falta de Análisis Cuantitativo: Principalmente descripción cualitativa, falta apoyo de datos de rendimiento
Profundidad Teórica Limitada: Más resumen de métodos, innovación teórica relativamente insuficiente
Ausencia de Verificación Experimental: No verifica experimentalmente la efectividad del marco de clasificación
Rezago en Tecnologías Nuevas: La cobertura de tecnologías más recientes de 2024-2025 puede no ser suficientemente oportuna

Impacto

Valor Académico: Proporciona marco teórico importante para el campo del aumento de datos
Valor Práctico: Ayuda a investigadores a comprender rápidamente y seleccionar métodos apropiados
Función Orientadora: Puede promover el desarrollo de métodos de aumento de datos multimodales
Valor Educativo: Apropiado como material de introducción y referencia en este campo

Escenarios Aplicables

Introducción a la Investigación: Apropiado para que principiantes comprendan rápidamente el panorama completo del aumento de datos
Selección de Métodos: Proporciona orientación de selección de métodos para proyectos prácticos
Investigación Multimodal: Proporciona base teórica para transferencia de métodos multimodales
Referencia Docente: Apropiado como material de enseñanza para cursos relacionados

Referencias

El artículo cita 244 referencias, cubriendo trabajos principales en el campo del aumento de datos, incluyendo:

Métodos Clásicos: SMOTE, Mixup, Cutout, etc.
Métodos Automatizados: AutoAugment, RandAugment, etc.
Métodos Generativos: Aplicaciones de GAN, VAE, modelos de Difusión, etc.
Métodos de Modelos Grandes: Aplicaciones de GPT, DALL-E, etc.

Evaluación General: Este es un artículo de encuesta de alta calidad que propone por primera vez un marco de clasificación unificado de aumento de datos multimodal, con importante valor académico y práctico. Aunque hay espacio para mejora en profundidad teórica y verificación experimental, su perspectiva innovadora y resumen sistemático lo convierten en una contribución importante en este campo.