Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
데이터 증강은 기존 데이터 샘플을 조작하여 고품질의 인공 데이터를 생성하는 일련의 기술이다. 데이터 증강 기술을 활용함으로써 AI 모델은 희소하거나 불균형한 데이터셋을 포함하는 작업에서 적용 가능성을 크게 향상시킬 수 있으며, 이를 통해 AI 모델의 일반화 능력을 대폭 강화할 수 있다. 기존 문헌 조사는 특정 유형의 단일 모달리티 데이터에만 초점을 맞추고 있으며, 모달리티 특정 및 작업 중심의 관점에서 이러한 방법들을 분류하고 있어, 여러 모달리티에 걸친 데이터 증강 방법에 대한 일관된 요약이 부족하고, 기존 데이터 샘플이 데이터 증강 프로세스에 어떻게 활용되는지에 대한 이해를 제한하고 있다. 이러한 격차를 메우기 위해 본 조사는 인스턴스 간 및 인스턴스 내의 내재적 관계를 활용하는 방법을 연구함으로써 다양한 일반적인 데이터 모달리티의 데이터 증강 기술을 포괄하는 보다 통찰력 있는 분류법을 제안한다. 또한 통일된 귀납적 방법을 통해 5가지 데이터 모달리티의 데이터 증강 방법을 분류한다.
종합 평가: 이는 높은 품질의 조사 논문으로, 처음으로 모달리티 간 통일된 데이터 증강 분류 프레임워크를 제안하며, 중요한 학술 가치와 실용 가치를 가진다. 이론적 깊이와 실험 검증 측면에서 개선의 여지가 있지만, 창의적인 관점과 체계적인 요약으로 인해 해당 분야의 중요한 기여가 된다.