2025-11-19T22:43:14.617019

A Comprehensive Survey on Data Augmentation

Wang, Wang, Liu et al.
Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
academic

مسح شامل حول تعزيز البيانات

المعلومات الأساسية

  • معرّف الورقة: 2405.09591
  • العنوان: مسح شامل حول تعزيز البيانات
  • المؤلفون: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر: مايو 2024 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2405.09591

الملخص

تعزيز البيانات هو مجموعة من التقنيات التي تعمل على توليد بيانات اصطناعية عالية الجودة من خلال معالجة عينات البيانات الموجودة. باستخدام تقنيات تعزيز البيانات، يمكن لنماذج الذكاء الاصطناعي تحسين قابليتها للتطبيق بشكل كبير في المهام التي تتضمن مجموعات بيانات نادرة أو غير متوازنة، مما يعزز بشكل كبير قدرة التعميم لنماذج الذكاء الاصطناعي. تركز المسوحات الأدبية الموجودة على أنواع محددة من البيانات أحادية الوسيط فقط، وتصنف هذه الطرق من منظور خاص بالوسيط وموجه نحو العمليات، مما يفتقر إلى ملخص متسق لطرق تعزيز البيانات عبر أوساط متعددة، مما يحد من فهمنا لكيفية خدمة عينات البيانات الموجودة لعملية تعزيز البيانات. لسد هذه الفجوة، يقترح هذا المسح تصنيفاً أكثر إلهاماً يغطي تقنيات تعزيز البيانات لأوساط بيانات شائعة مختلفة من خلال دراسة كيفية الاستفادة من العلاقات الجوهرية بين الحالات وداخل الحالات. علاوة على ذلك، يصنف طرق تعزيز البيانات لخمسة أوساط بيانات من خلال منهج استقرائي موحد.

الخلفية البحثية والدافع

1. المشاكل المراد حلها

يهدف هذا البحث إلى حل عدة مشاكل رئيسية في الأدبيات الموجودة حول تعزيز البيانات:

  • الانقسام الوسيطي: تركز المسوحات الموجودة على أوساط بيانات محددة (مثل الصور والنصوص والرسوم البيانية)، وتفتقر إلى منظور موحد عبر الأوساط
  • عدم اتساق التصنيف: تستخدم المسوحات المختلفة طرق تصنيف خاصة بالوسيط أو موجهة نحو العمليات، وتفتقر إلى إطار نظري موحد
  • فهم ناقص للجوهر: لا يمكن لطرق التصنيف الموجودة الكشف عن الآليات الداخلية والأنماط المشتركة لتعزيز البيانات

2. أهمية المشكلة

يحمل تعزيز البيانات أهمية كبيرة في مجال الذكاء الاصطناعي:

  • مشكلة ندرة البيانات: في العديد من التطبيقات العملية، يكون الحصول على كميات كبيرة من البيانات المشروحة صعباً وباهظ التكلفة
  • عدم توازن البيانات: التوزيع غير المتساوي للفئات يؤدي إلى انخفاض أداء النموذج
  • قدرة التعميم: يمكن لتعزيز البيانات تحسين متانة النموذج وقدرته على التعميم
  • التطبيقات عبر المجالات: من رؤية الحاسوب إلى معالجة اللغة الطبيعية، يتم تطبيق تقنيات تعزيز البيانات على نطاق واسع

3. قيود الطرق الموجودة

من خلال تحليل 17 مسح ذي صلة، اكتشف المؤلفون:

  • نطاق تغطية محدود: تركز معظم المسوحات على وسيط واحد فقط
  • زوايا تصنيف محدودة: تفتقر إلى تصنيف موحد من منظور مركزي على البيانات
  • إهمال القواسم المشتركة: عدم القدرة على تحديد الأنماط المشتركة في طرق تعزيز البيانات بين الأوساط المختلفة

4. الدافع البحثي

بناءً على التطبيق الناجح لطرق مثل mixup عبر أوساط مختلفة، يعتقد المؤلفون بالحاجة إلى إطار عمل موحد مستقل عن الوسيط لفهم آليات تعزيز البيانات الجوهرية.

المساهمات الأساسية

  1. اقتراح تصنيف مركزي على البيانات ومستقل عن الوسيط: اقتراح إطار عمل موحد من منظور مركزي على البيانات للمرة الأولى، قابل للتطبيق على جميع أوساط البيانات
  2. أول مسح شامل عبر خمسة أوساط: يغطي تقنيات تعزيز البيانات للصور والنصوص والرسوم البيانية والجداول وبيانات السلاسل الزمنية
  3. تحليل آليات استخدام المعلومات: تحليل متعمق لكيفية التمثيل المتسق للمعلومات وطرق تعزيز الاستفادة منها في الأوساط المختلفة
  4. تنظيم الأدبيات الحديثة: جمع وتصنيف أحدث الأبحاث في تعزيز البيانات، ومناقشة الاتجاهات المستقبلية

شرح الطريقة

تعريف المهمة

يتم تشكيل تعزيز البيانات كعملية تعيين دالة:

f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}

حيث D_L هي مجموعة البيانات المشروحة، و D̃_L هي مجموعة البيانات المعززة.

إطار التصنيف الأساسي

يقترح المؤلفون نظام تصنيف ثنائي المستوى بناءً على سؤالين بحثيين:

السؤال البحثي الأول: كم عدد العينات المستخدمة لتوليد كل عينة جديدة؟

  • تعزيز على مستوى العينة الواحدة (Single-instance Level)
  • تعزيز على مستوى عينات متعددة (Multi-instance Level)
  • تعزيز على مستوى مجموعة البيانات (Dataset Level)

السؤال البحثي الثاني: أي جزء من المعلومات يتم استخدامه لتوليد بيانات جديدة؟ لكل مستوى، يتم تحليل إضافي لنوع المعلومات المستخدمة:

  • معلومات القيمة: المحتوى الرقمي الذي تحمله العناصر
  • معلومات البنية: العلاقات التنظيمية بين العناصر
  • معلومات خارجية: المعرفة الخارجية أو مجموعات البيانات

تفاصيل نظام التصنيف

1. تعزيز مستوى العينة الواحدة

التمثيل الرياضي: x̃ = x_i + ε(x_i), ỹ = y_i

الفئات الفرعية:

  • التحويلات القائمة على القيمة: تشويه قيم العناصر
    • الصور: محو البكسل، التحويلات الضوئية
    • النصوص: استبدال المفردات، الإضافة، الحذف
    • الرسوم البيانية: إخفاء خصائص العقد
    • الجداول: إخفاء الخلايا، هندسة الميزات
    • السلاسل الزمنية: تشويه السعة
  • التحويلات القائمة على البنية: تشويه العلاقات البنيوية
    • الصور: القص، التحويلات الهندسية
    • النصوص: التحويلات النحوية
    • الرسوم البيانية: تشويه الطوبولوجيا، أخذ عينات من الرسوم البيانية الجزئية
    • الجداول: تقسيم الجداول الفرعية
    • السلاسل الزمنية: شرائح النوافذ

2. تعزيز مستوى عينات متعددة

التمثيل الرياضي: x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j

الفئات الفرعية:

  • الخلط القائم على القيمة: الخلط الحسابي لقيم عينات متعددة
  • التركيب القائم على البنية: دمج أجزاء من عينات متعددة

3. تعزيز مستوى مجموعة البيانات

التمثيل الرياضي: x̃ ~ P(X), ỹ ~ P(y|x̃)

الفئات الفرعية:

  • التوليد الأصلي: استخدام مجموعة البيانات الموجودة فقط
  • التوليد الخارجي: دمج الموارد الخارجية

نقاط الابتكار التقني

  1. منظور موحد: توحيد تحليل طرق التعزيز في أوساط مختلفة من زاوية مصادر المعلومات للمرة الأولى
  2. الاتساق عبر الأوساط: تحديد الأنماط المشتركة بين الأوساط المختلفة (مثل تطبيق mixup في كل وسيط)
  3. التصنيف المنهجي: إنشاء نظام تصنيف هرمي واستقرائي
  4. التوجيه العملي: توفير إرشادات نظرية لاختيار طرق التعزيز المناسبة

إعداد التجربة

منهجية المسح

  • جمع الأدبيات: جمع منهجي للأدبيات ذات الصلة من 2018-2025
  • معايير التصنيف: تصنيف الطرق بناءً على نظام التصنيف ثنائي المستوى المقترح
  • التحليل المقارن: مقارنة منهجية مع 17 مسح موجود
  • دراسات الحالة: تحليل تفصيلي للطرق النموذجية في كل فئة

أبعاد التقييم

تقيّم الورقة طرق تعزيز البيانات من عدة أبعاد:

  • التعقيد الحسابي: التكلفة الحسابية للطريقة
  • فقدان المعلومات: درجة الحفاظ على المعلومات أثناء عملية التعزيز
  • متطلبات التحليل: ما إذا كان يتطلب تحليل على مستوى العينة

نتائج التجربة

النتائج الرئيسية

1. القواسم المشتركة عبر الأوساط

  • طرق من نوع Mixup لها تطبيقات ناجحة في جميع الأوساط
  • تقنيات الإخفاء هي عمليات أساسية في كل وسيط
  • النماذج التوليدية تصبح الاتجاه السائد

2. خصائص الوسيط

  • الصور: عدم التغير المكاني يجعل التحويلات الهندسية فعالة بشكل ملحوظ
  • النصوص: الطبيعة المنفصلة تحد من بعض طرق التحويل
  • الرسوم البيانية: البنية الطوبولوجية توفر مساحة تعزيز غنية
  • الجداول: البنية البسيطة تحد من خيارات التعزيز
  • السلاسل الزمنية: الخاصية الزمنية هي عامل اعتبار رئيسي

3. تطور الطريقة

  • المرحلة المبكرة: قواعد يدوية بسيطة (مثل الدوران والقلب)
  • المرحلة الوسيطة: البحث عن السياسات الآلية (AutoAugment)
  • الوقت الحاضر: التعزيز التوليدي المدفوع بالنماذج الكبيرة

تحليل المقارنة الأداء

توفر الورقة من خلال الجدول الثاني مقارنة تفصيلية للطرق، بما في ذلك:

  • عدد العينات: عينة واحدة مقابل عينات متعددة مقابل مستوى مجموعة البيانات
  • نوع المعلومات: القيمة والبنية والخليط من القيمة والبنية
  • التكلفة الحسابية: من المهملة إلى الحسابات الثقيلة
  • فقدان المعلومات: من بدون فقدان إلى فقدان عالي

الأعمال ذات الصلة

تحليل المسوحات الموجودة

قام المؤلف بتحليل منهجي لـ 17 مسح ذي صلة، واكتشف:

  • مجال الصور: البحث الأكثر نضجاً، طرق غنية
  • مجال النصوص: محدود بالطبيعة المنفصلة، التطور نسبياً أبطأ
  • مجال الرسوم البيانية: تطور سريع في السنوات الأخيرة
  • مجال الجداول: البحث نسبياً محدود
  • السلاسل الزمنية: التطور مدفوع بالتطبيقات

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، تتمتع هذه الورقة بالمزايا التالية:

  1. التغطية الشاملة: تغطي للمرة الأولى خمسة أوساط بيانات رئيسية
  2. إطار عمل موحد: توفير نظام تصنيف مستقل عن الوسيط
  3. تحليل عميق: فهم متعمق للآليات من زاوية استخدام المعلومات
  4. إرشادات عملية: توفير إطار عمل لاختيار الطريقة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. وجود الوحدة: طرق تعزيز البيانات في الأوساط المختلفة لها اتساق جوهري في طرق استخدام المعلومات
  2. وضوح البنية الهرمية: نظام التصنيف ثنائي المستوى بناءً على عدد العينات ونوع المعلومات له قابلية تفسير جيدة
  3. وضوح اتجاهات التطور: التطور نحو الطرق التوليدية والذكية
  4. قيمة التوجيه التطبيقي: توفير إطار عمل لاختيار الطريقة للتطبيقات العملية

القيود

  1. نقص التحليل النظري: في الغالب ملخص الطرق، يفتقر إلى تحليل نظري متعمق
  2. مقارنة الأداء محدودة: لم توفر مقارنة أداء كمية لطرق مختلفة
  3. تغطية التقنيات الناشئة: قد لا تكون التغطية كافية للتقنيات الحديثة للنماذج الكبيرة
  4. إرشادات التطبيق العملي: على الرغم من توفير اقتراحات الاختيار، تفتقر إلى حالات تطبيق محددة

الاتجاهات المستقبلية

  1. النقل عبر الأوساط: استكشاف قوانين نقل طرق التعزيز بين الأوساط المختلفة
  2. التعزيز الذكي: استخدام التعلم المعزز والنماذج الكبيرة لتحقيق التعزيز التكيفي
  3. الأساس النظري: إنشاء إطار تحليل نظري لتعزيز البيانات
  4. نظام التقييم: تطوير مؤشرات تقييم أكثر اكتمالاً لتأثير التعزيز
  5. الأوساط الناشئة: التوسع إلى أوساط بيانات ناشئة مثل الصوت والفيديو

التقييم المتعمق

المزايا

  1. ابتكار قوي: اقتراح إطار عمل تصنيف موحد عبر الأوساط للمرة الأولى، منظور جديد
  2. منهجية جيدة: نطاق تغطية واسع، تصنيف واضح، منطق صارم
  3. قيمة عملية عالية: توفير إرشادات جيدة للباحثين والممارسين
  4. أدبيات غنية: جمع كمية كبيرة من الأبحاث الحديثة، معلومات شاملة
  5. كتابة واضحة: بنية معقولة، تعبير دقيق، سهل الفهم

أوجه القصور

  1. نقص التحليل الكمي: في الغالب وصف نوعي، يفتقر إلى دعم بيانات الأداء
  2. عمق نظري محدود: في الغالب ملخص الطرق، الابتكار النظري نسبياً محدود
  3. غياب التحقق التجريبي: لم يتم التحقق من فعالية إطار التصنيف من خلال التجارب
  4. تأخر التقنيات الجديدة: قد لا تكون التغطية في الوقت المناسب للتقنيات الحديثة من 2024-2025

التأثير

  1. القيمة الأكاديمية: توفير إطار عمل نظري مهم لمجال تعزيز البيانات
  2. القيمة العملية: مساعدة الباحثين على الفهم السريع واختيار الطرق المناسبة
  3. دور التوجيه: قد يعزز تطوير طرق تعزيز البيانات عبر الأوساط
  4. القيمة التعليمية: مناسبة كمادة تعليمية ومرجع للدورات ذات الصلة

السيناريوهات المطبقة

  1. البدء البحثي: مناسبة للمبتدئين للفهم السريع للصورة الكاملة لتعزيز البيانات
  2. اختيار الطريقة: توفير إرشادات اختيار الطريقة للمشاريع العملية
  3. البحث عبر الأوساط: توفير أساس نظري لنقل الطرق عبر الأوساط
  4. المرجع التعليمي: مناسبة كمادة تعليمية للدورات ذات الصلة

المراجع

تستشهد الورقة بـ 244 مرجع، تغطي الأعمال الرئيسية في مجال تعزيز البيانات، بما في ذلك:

  • الطرق الكلاسيكية: SMOTE و Mixup و Cutout وغيرها
  • الطرق الآلية: AutoAugment و RandAugment وغيرها
  • الطرق التوليدية: تطبيقات GAN و VAE و Diffusion models وغيرها
  • طرق النماذج الكبيرة: تطبيقات GPT و DALL-E وغيرها

التقييم الإجمالي: هذه ورقة مسح عالية الجودة، تقترح إطار عمل تصنيف موحد لتعزيز البيانات عبر الأوساط للمرة الأولى، وتتمتع بقيمة أكاديمية وعملية مهمة. على الرغم من وجود مجال للتحسن في العمق النظري والتحقق التجريبي، فإن منظورها المبتكر وملخصها المنهجي يجعلها مساهمة مهمة في هذا المجال.