2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.
Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
academic

Una Encuesta Integral sobre Aumento de Datos

Información Básica

  • ID del Artículo: 2405.09591
  • Título: Una Encuesta Integral sobre Aumento de Datos
  • Autores: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación: Mayo de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2405.09591

Resumen

El aumento de datos es un conjunto de técnicas que generan datos artificiales de alta calidad mediante la manipulación de muestras de datos existentes. Al aprovechar técnicas de aumento de datos, los modelos de IA pueden mejorar significativamente su aplicabilidad en tareas que involucran conjuntos de datos escasos o desequilibrados, mejorando así sustancialmente la capacidad de generalización de los modelos de IA. Las revisiones de literatura existentes se centran únicamente en tipos específicos de datos unimodales y clasifican estos métodos desde perspectivas específicas de modalidad y centradas en operaciones, careciendo de un resumen consistente de métodos de aumento de datos en múltiples modalidades, lo que limita la comprensión de cómo las muestras de datos existentes sirven al proceso de aumento de datos. Para cerrar esta brecha, esta encuesta propone una taxonomía más esclarecedora que cubre técnicas de aumento de datos de diferentes modalidades de datos comunes mediante el estudio de cómo aprovechar las relaciones intrínsecas entre instancias e intra-instancias. Además, clasifica métodos de aumento de datos de cinco modalidades de datos mediante un enfoque inductivo unificado.

Antecedentes de Investigación y Motivación

1. Problemas a Resolver

Esta investigación aborda varios problemas clave en la literatura de encuestas existentes sobre aumento de datos:

  • Fragmentación Modal: Las encuestas existentes se centran únicamente en modalidades de datos específicas (como imágenes, texto, gráficos, etc.), careciendo de una perspectiva unificada entre modalidades
  • Inconsistencia en la Clasificación: Diferentes encuestas adoptan métodos de clasificación específicos de modalidad u orientados a operaciones, careciendo de un marco teórico unificado
  • Comprensión Insuficiente de la Esencia: Los métodos de clasificación existentes no pueden revelar los mecanismos intrínsecos y patrones comunes del aumento de datos

2. Importancia del Problema

El aumento de datos tiene una importancia significativa en el campo de la IA:

  • Problema de Escasez de Datos: En muchas aplicaciones prácticas, obtener grandes cantidades de datos anotados es difícil y costoso
  • Desequilibrio de Datos: La distribución desigual de clases conduce a un rendimiento deficiente del modelo
  • Capacidad de Generalización: El aumento de datos mejora la robustez y capacidad de generalización del modelo
  • Aplicaciones Interdisciplinarias: Desde visión por computadora hasta procesamiento del lenguaje natural, las técnicas de aumento de datos se aplican ampliamente

3. Limitaciones de los Métodos Existentes

Mediante el análisis de 17 encuestas relacionadas existentes, los autores descubren:

  • Cobertura Limitada: La mayoría de las encuestas se centran únicamente en una única modalidad
  • Perspectivas de Clasificación Limitadas: Falta una clasificación unificada desde una perspectiva centrada en datos
  • Negligencia de Características Comunes: Incapacidad para identificar patrones comunes en métodos de aumento de datos entre diferentes modalidades

4. Motivación de la Investigación

Basándose en la aplicación exitosa de métodos como mixup en diferentes modalidades, los autores argumentan que se necesita un marco unificado agnóstico de modalidad para comprender los mecanismos esenciales del aumento de datos.

Contribuciones Principales

  1. Propuesta de Taxonomía Centrada en Datos Agnóstica de Modalidad: Primera propuesta de un marco de clasificación unificado desde una perspectiva centrada en datos, aplicable a todas las modalidades de datos
  2. Primera Encuesta Integral Multimodal de Cinco Modalidades: Cubre técnicas de aumento de datos para imágenes, texto, gráficos, datos tabulares y series temporales
  3. Análisis de Mecanismos de Utilización de Información: Análisis profundo de cómo se representa y utiliza la información de manera consistente en diferentes modalidades
  4. Organización de Literatura Reciente: Recopilación y clasificación de investigaciones recientes sobre aumento de datos, discutiendo direcciones futuras de desarrollo

Explicación Detallada de Métodos

Definición de Tareas

El aumento de datos se formaliza como un proceso de mapeo de funciones:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

donde D_L es el conjunto de datos anotado y D̃_L es el conjunto de datos aumentado.

Marco de Clasificación Principal

Los autores proponen un esquema de clasificación de dos niveles basado en dos preguntas de investigación:

RQ1: ¿Cuántas muestras se utilizan para generar cada nueva muestra?

  • Aumento a Nivel de Instancia Única (Single-instance Level)
  • Aumento a Nivel de Múltiples Instancias (Multi-instance Level)
  • Aumento a Nivel de Conjunto de Datos (Dataset Level)

RQ2: ¿Qué parte de la información se utiliza para generar nuevos datos? Para cada nivel, se analiza además el tipo de información utilizada:

  • Información de Valores: Contenido numérico que llevan los elementos
  • Información Estructural: Relaciones organizativas entre elementos
  • Información Exógena: Conocimiento externo o conjuntos de datos

Explicación Detallada del Sistema de Clasificación

1. Aumento a Nivel de Instancia Única

Representación Matemática: x̃ = x_i + ε(x_i), ỹ = y_i

Subcategorías:

  • Transformaciones Basadas en Valores: Perturbación de valores de elementos
    • Imágenes: borrado de píxeles, transformaciones fotométricas
    • Texto: sustitución de vocabulario, adición, eliminación
    • Gráficos: enmascaramiento de atributos de nodos
    • Datos Tabulares: enmascaramiento de celdas, ingeniería de características
    • Series Temporales: perturbación de amplitud
  • Transformaciones Basadas en Estructura: Perturbación de relaciones estructurales
    • Imágenes: recorte, transformaciones geométricas
    • Texto: transformaciones sintácticas
    • Gráficos: perturbación topológica, muestreo de subgrafos
    • Datos Tabulares: partición de subtablas
    • Series Temporales: corte de ventanas

2. Aumento a Nivel de Múltiples Instancias

Representación Matemática: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

Subcategorías:

  • Mezcla Basada en Valores: Mezcla aritmética de valores de múltiples muestras
  • Combinación Basada en Estructura: Combinación de fragmentos de múltiples muestras

3. Aumento a Nivel de Conjunto de Datos

Representación Matemática: x̃ ~ P(X), ỹ ~ P(y|x̃)

Subcategorías:

  • Generación Nativa: Utilización únicamente del conjunto de datos existente
  • Generación Exógena: Combinación con recursos externos

Puntos de Innovación Técnica

  1. Perspectiva Unificada: Primera vez que se analizan de manera unificada métodos de aumento en diferentes modalidades desde el ángulo de fuentes de información
  2. Consistencia Multimodal: Identificación de patrones comunes entre modalidades (como la aplicación de mixup en cada modalidad)
  3. Clasificación Sistemática: Establecimiento de un sistema de clasificación jerárquico e inductivo
  4. Orientación Práctica: Proporciona orientación teórica para seleccionar métodos de aumento apropiados

Configuración Experimental

Metodología de Encuesta

  • Recopilación de Literatura: Recopilación sistemática de literatura relacionada de 2018-2025
  • Criterios de Clasificación: Clasificación de métodos basada en el esquema de clasificación de dos niveles propuesto
  • Análisis Comparativo: Comparación sistemática con 17 encuestas existentes
  • Estudios de Casos: Análisis detallado de métodos típicos en cada categoría

Dimensiones de Evaluación

El artículo evalúa métodos de aumento de datos desde múltiples dimensiones:

  • Complejidad Computacional: Costo computacional del método
  • Pérdida de Información: Grado de preservación de información durante el aumento
  • Requisitos de Análisis: Si se requiere análisis a nivel de muestra

Resultados Experimentales

Hallazgos Principales

1. Características Comunes Multimodales

  • Métodos tipo Mixup tienen aplicaciones exitosas en todas las modalidades
  • Técnicas de Enmascaramiento son operaciones fundamentales en cada modalidad
  • Modelos Generativos se están convirtiendo en la tendencia principal

2. Características Específicas de Modalidad

  • Imágenes: La invariancia espacial hace que las transformaciones geométricas sean particularmente efectivas
  • Texto: La naturaleza discreta limita ciertos métodos de transformación
  • Gráficos: La estructura topológica proporciona un espacio rico para aumento
  • Datos Tabulares: La estructura simple limita las opciones de aumento
  • Series Temporales: La naturaleza temporal es un factor clave de consideración

3. Evolución de Métodos

  • Período Temprano: Reglas simples hechas a mano (como rotación, volteo)
  • Período Intermedio: Búsqueda automática de estrategias (AutoAugment)
  • Período Actual: Aumento generativo impulsado por modelos grandes

Análisis Comparativo de Rendimiento

El artículo proporciona comparaciones detalladas de métodos a través de la Tabla II, incluyendo:

  • Cantidad de Muestras: Instancia única vs múltiples instancias vs nivel de conjunto de datos
  • Tipo de Información: Valores, estructura, mezcla valor-estructura
  • Costo Computacional: De negligible a alto costo computacional
  • Pérdida de Información: De sin pérdida a alta pérdida

Trabajo Relacionado

Análisis de Encuestas Existentes

Los autores analizan sistemáticamente 17 encuestas relacionadas, descubriendo:

  • Dominio de Imágenes: Investigación más madura, métodos abundantes
  • Dominio de Texto: Desarrollo relativamente lento debido a limitaciones de naturaleza discreta
  • Dominio de Gráficos: Desarrollo rápido en años recientes
  • Dominio de Datos Tabulares: Investigación relativamente escasa
  • Series Temporales: Desarrollo impulsado por aplicaciones

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo tiene las siguientes ventajas:

  1. Cobertura Integral: Primera vez que cubre cinco modalidades de datos principales
  2. Marco Unificado: Proporciona un sistema de clasificación agnóstico de modalidad
  3. Análisis Profundo: Comprensión profunda de mecanismos desde la perspectiva de utilización de información
  4. Orientación Práctica: Proporciona recomendaciones específicas para selección de métodos

Conclusiones y Discusión

Conclusiones Principales

  1. Existencia de Uniformidad: Los métodos de aumento de datos en diferentes modalidades tienen consistencia intrínseca en la forma de utilizar información
  2. Estructura Jerárquica Clara: El esquema de clasificación de dos niveles basado en cantidad de muestras e información tiene buena capacidad explicativa
  3. Tendencias de Desarrollo Claras: Desarrollo hacia direcciones generativas e inteligentes
  4. Valor de Orientación para Aplicaciones: Proporciona un marco para selección de métodos en aplicaciones prácticas

Limitaciones

  1. Análisis Teórico Insuficiente: Principalmente resumen de métodos, falta análisis teórico profundo
  2. Comparación de Rendimiento Limitada: No proporciona comparación cuantitativa de rendimiento de diferentes métodos
  3. Cobertura de Tecnologías Emergentes: La cobertura de técnicas de aumento impulsadas por modelos grandes más recientes puede no ser suficientemente completa
  4. Orientación de Aplicación Práctica: Aunque proporciona recomendaciones de selección, carece de casos de aplicación específicos

Direcciones Futuras

  1. Transferencia Multimodal: Exploración de leyes de transferencia de métodos de aumento entre diferentes modalidades
  2. Aumento Inteligente: Utilización de aprendizaje por refuerzo y modelos grandes para lograr aumento adaptativo
  3. Fundamentos Teóricos: Establecimiento de marco de análisis teórico para aumento de datos
  4. Sistema de Evaluación: Desarrollo de métricas de evaluación más completas para efectos de aumento
  5. Modalidades Emergentes: Extensión a modalidades de datos emergentes como audio y video

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera propuesta de marco de clasificación unificado multimodal, perspectiva novedosa
  2. Buena Sistematicidad: Amplia cobertura, clasificación clara, lógica rigurosa
  3. Alto Valor Práctico: Proporciona excelente orientación para investigadores y profesionales
  4. Literatura Abundante: Recopilación de gran cantidad de investigación reciente, información completa
  5. Escritura Clara: Estructura razonable, expresión precisa, fácil de entender

Deficiencias

  1. Falta de Análisis Cuantitativo: Principalmente descripción cualitativa, falta apoyo de datos de rendimiento
  2. Profundidad Teórica Limitada: Más resumen de métodos, innovación teórica relativamente insuficiente
  3. Ausencia de Verificación Experimental: No verifica experimentalmente la efectividad del marco de clasificación
  4. Rezago en Tecnologías Nuevas: La cobertura de tecnologías más recientes de 2024-2025 puede no ser suficientemente oportuna

Impacto

  1. Valor Académico: Proporciona marco teórico importante para el campo del aumento de datos
  2. Valor Práctico: Ayuda a investigadores a comprender rápidamente y seleccionar métodos apropiados
  3. Función Orientadora: Puede promover el desarrollo de métodos de aumento de datos multimodales
  4. Valor Educativo: Apropiado como material de introducción y referencia en este campo

Escenarios Aplicables

  1. Introducción a la Investigación: Apropiado para que principiantes comprendan rápidamente el panorama completo del aumento de datos
  2. Selección de Métodos: Proporciona orientación de selección de métodos para proyectos prácticos
  3. Investigación Multimodal: Proporciona base teórica para transferencia de métodos multimodales
  4. Referencia Docente: Apropiado como material de enseñanza para cursos relacionados

Referencias

El artículo cita 244 referencias, cubriendo trabajos principales en el campo del aumento de datos, incluyendo:

  • Métodos Clásicos: SMOTE, Mixup, Cutout, etc.
  • Métodos Automatizados: AutoAugment, RandAugment, etc.
  • Métodos Generativos: Aplicaciones de GAN, VAE, modelos de Difusión, etc.
  • Métodos de Modelos Grandes: Aplicaciones de GPT, DALL-E, etc.

Evaluación General: Este es un artículo de encuesta de alta calidad que propone por primera vez un marco de clasificación unificado de aumento de datos multimodal, con importante valor académico y práctico. Aunque hay espacio para mejora en profundidad teórica y verificación experimental, su perspectiva innovadora y resumen sistemático lo convierten en una contribución importante en este campo.