Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, this survey proposes a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities by investigating how to take advantage of the intrinsic relationship between and within instances. Additionally, it categorizes data augmentation methods across five data modalities through a unified inductive approach.
معرّف الورقة : 2405.09591العنوان : مسح شامل حول تعزيز البياناتالمؤلفون : Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhouالتصنيف : cs.LG cs.AIتاريخ النشر : مايو 2024 (نسخة أولية من arXiv)رابط الورقة : https://arxiv.org/abs/2405.09591 تعزيز البيانات هو مجموعة من التقنيات التي تعمل على توليد بيانات اصطناعية عالية الجودة من خلال معالجة عينات البيانات الموجودة. باستخدام تقنيات تعزيز البيانات، يمكن لنماذج الذكاء الاصطناعي تحسين قابليتها للتطبيق بشكل كبير في المهام التي تتضمن مجموعات بيانات نادرة أو غير متوازنة، مما يعزز بشكل كبير قدرة التعميم لنماذج الذكاء الاصطناعي. تركز المسوحات الأدبية الموجودة على أنواع محددة من البيانات أحادية الوسيط فقط، وتصنف هذه الطرق من منظور خاص بالوسيط وموجه نحو العمليات، مما يفتقر إلى ملخص متسق لطرق تعزيز البيانات عبر أوساط متعددة، مما يحد من فهمنا لكيفية خدمة عينات البيانات الموجودة لعملية تعزيز البيانات. لسد هذه الفجوة، يقترح هذا المسح تصنيفاً أكثر إلهاماً يغطي تقنيات تعزيز البيانات لأوساط بيانات شائعة مختلفة من خلال دراسة كيفية الاستفادة من العلاقات الجوهرية بين الحالات وداخل الحالات. علاوة على ذلك، يصنف طرق تعزيز البيانات لخمسة أوساط بيانات من خلال منهج استقرائي موحد.
يهدف هذا البحث إلى حل عدة مشاكل رئيسية في الأدبيات الموجودة حول تعزيز البيانات:
الانقسام الوسيطي : تركز المسوحات الموجودة على أوساط بيانات محددة (مثل الصور والنصوص والرسوم البيانية)، وتفتقر إلى منظور موحد عبر الأوساطعدم اتساق التصنيف : تستخدم المسوحات المختلفة طرق تصنيف خاصة بالوسيط أو موجهة نحو العمليات، وتفتقر إلى إطار نظري موحدفهم ناقص للجوهر : لا يمكن لطرق التصنيف الموجودة الكشف عن الآليات الداخلية والأنماط المشتركة لتعزيز البياناتيحمل تعزيز البيانات أهمية كبيرة في مجال الذكاء الاصطناعي:
مشكلة ندرة البيانات : في العديد من التطبيقات العملية، يكون الحصول على كميات كبيرة من البيانات المشروحة صعباً وباهظ التكلفةعدم توازن البيانات : التوزيع غير المتساوي للفئات يؤدي إلى انخفاض أداء النموذجقدرة التعميم : يمكن لتعزيز البيانات تحسين متانة النموذج وقدرته على التعميمالتطبيقات عبر المجالات : من رؤية الحاسوب إلى معالجة اللغة الطبيعية، يتم تطبيق تقنيات تعزيز البيانات على نطاق واسعمن خلال تحليل 17 مسح ذي صلة، اكتشف المؤلفون:
نطاق تغطية محدود : تركز معظم المسوحات على وسيط واحد فقطزوايا تصنيف محدودة : تفتقر إلى تصنيف موحد من منظور مركزي على البياناتإهمال القواسم المشتركة : عدم القدرة على تحديد الأنماط المشتركة في طرق تعزيز البيانات بين الأوساط المختلفةبناءً على التطبيق الناجح لطرق مثل mixup عبر أوساط مختلفة، يعتقد المؤلفون بالحاجة إلى إطار عمل موحد مستقل عن الوسيط لفهم آليات تعزيز البيانات الجوهرية.
اقتراح تصنيف مركزي على البيانات ومستقل عن الوسيط : اقتراح إطار عمل موحد من منظور مركزي على البيانات للمرة الأولى، قابل للتطبيق على جميع أوساط البياناتأول مسح شامل عبر خمسة أوساط : يغطي تقنيات تعزيز البيانات للصور والنصوص والرسوم البيانية والجداول وبيانات السلاسل الزمنيةتحليل آليات استخدام المعلومات : تحليل متعمق لكيفية التمثيل المتسق للمعلومات وطرق تعزيز الاستفادة منها في الأوساط المختلفةتنظيم الأدبيات الحديثة : جمع وتصنيف أحدث الأبحاث في تعزيز البيانات، ومناقشة الاتجاهات المستقبليةيتم تشكيل تعزيز البيانات كعملية تعيين دالة:
f_θ : D_L = {X, y} → D̃_L = {X̃, ỹ}
حيث D_L هي مجموعة البيانات المشروحة، و D̃_L هي مجموعة البيانات المعززة.
يقترح المؤلفون نظام تصنيف ثنائي المستوى بناءً على سؤالين بحثيين:
السؤال البحثي الأول: كم عدد العينات المستخدمة لتوليد كل عينة جديدة؟
تعزيز على مستوى العينة الواحدة (Single-instance Level) تعزيز على مستوى عينات متعددة (Multi-instance Level) تعزيز على مستوى مجموعة البيانات (Dataset Level) السؤال البحثي الثاني: أي جزء من المعلومات يتم استخدامه لتوليد بيانات جديدة؟
لكل مستوى، يتم تحليل إضافي لنوع المعلومات المستخدمة:
معلومات القيمة : المحتوى الرقمي الذي تحمله العناصرمعلومات البنية : العلاقات التنظيمية بين العناصرمعلومات خارجية : المعرفة الخارجية أو مجموعات البياناتالتمثيل الرياضي : x̃ = x_i + ε(x_i), ỹ = y_i
الفئات الفرعية :
التحويلات القائمة على القيمة : تشويه قيم العناصرالصور: محو البكسل، التحويلات الضوئية النصوص: استبدال المفردات، الإضافة، الحذف الرسوم البيانية: إخفاء خصائص العقد الجداول: إخفاء الخلايا، هندسة الميزات السلاسل الزمنية: تشويه السعة التحويلات القائمة على البنية : تشويه العلاقات البنيويةالصور: القص، التحويلات الهندسية النصوص: التحويلات النحوية الرسوم البيانية: تشويه الطوبولوجيا، أخذ عينات من الرسوم البيانية الجزئية الجداول: تقسيم الجداول الفرعية السلاسل الزمنية: شرائح النوافذ التمثيل الرياضي : x̃ = λ·x_i + (1-λ)·x_j, ỹ = λ·y_i + (1-λ)·y_j
الفئات الفرعية :
الخلط القائم على القيمة : الخلط الحسابي لقيم عينات متعددةالتركيب القائم على البنية : دمج أجزاء من عينات متعددةالتمثيل الرياضي : x̃ ~ P(X), ỹ ~ P(y|x̃)
الفئات الفرعية :
التوليد الأصلي : استخدام مجموعة البيانات الموجودة فقطالتوليد الخارجي : دمج الموارد الخارجيةمنظور موحد : توحيد تحليل طرق التعزيز في أوساط مختلفة من زاوية مصادر المعلومات للمرة الأولىالاتساق عبر الأوساط : تحديد الأنماط المشتركة بين الأوساط المختلفة (مثل تطبيق mixup في كل وسيط)التصنيف المنهجي : إنشاء نظام تصنيف هرمي واستقرائيالتوجيه العملي : توفير إرشادات نظرية لاختيار طرق التعزيز المناسبةجمع الأدبيات : جمع منهجي للأدبيات ذات الصلة من 2018-2025معايير التصنيف : تصنيف الطرق بناءً على نظام التصنيف ثنائي المستوى المقترحالتحليل المقارن : مقارنة منهجية مع 17 مسح موجوددراسات الحالة : تحليل تفصيلي للطرق النموذجية في كل فئةتقيّم الورقة طرق تعزيز البيانات من عدة أبعاد:
التعقيد الحسابي : التكلفة الحسابية للطريقةفقدان المعلومات : درجة الحفاظ على المعلومات أثناء عملية التعزيزمتطلبات التحليل : ما إذا كان يتطلب تحليل على مستوى العينةطرق من نوع Mixup لها تطبيقات ناجحة في جميع الأوساطتقنيات الإخفاء هي عمليات أساسية في كل وسيطالنماذج التوليدية تصبح الاتجاه السائدالصور : عدم التغير المكاني يجعل التحويلات الهندسية فعالة بشكل ملحوظالنصوص : الطبيعة المنفصلة تحد من بعض طرق التحويلالرسوم البيانية : البنية الطوبولوجية توفر مساحة تعزيز غنيةالجداول : البنية البسيطة تحد من خيارات التعزيزالسلاسل الزمنية : الخاصية الزمنية هي عامل اعتبار رئيسيالمرحلة المبكرة : قواعد يدوية بسيطة (مثل الدوران والقلب)المرحلة الوسيطة : البحث عن السياسات الآلية (AutoAugment)الوقت الحاضر : التعزيز التوليدي المدفوع بالنماذج الكبيرةتوفر الورقة من خلال الجدول الثاني مقارنة تفصيلية للطرق، بما في ذلك:
عدد العينات : عينة واحدة مقابل عينات متعددة مقابل مستوى مجموعة البياناتنوع المعلومات : القيمة والبنية والخليط من القيمة والبنيةالتكلفة الحسابية : من المهملة إلى الحسابات الثقيلةفقدان المعلومات : من بدون فقدان إلى فقدان عاليقام المؤلف بتحليل منهجي لـ 17 مسح ذي صلة، واكتشف:
مجال الصور : البحث الأكثر نضجاً، طرق غنيةمجال النصوص : محدود بالطبيعة المنفصلة، التطور نسبياً أبطأمجال الرسوم البيانية : تطور سريع في السنوات الأخيرةمجال الجداول : البحث نسبياً محدودالسلاسل الزمنية : التطور مدفوع بالتطبيقاتمقارنة بالأعمال الموجودة، تتمتع هذه الورقة بالمزايا التالية:
التغطية الشاملة : تغطي للمرة الأولى خمسة أوساط بيانات رئيسيةإطار عمل موحد : توفير نظام تصنيف مستقل عن الوسيطتحليل عميق : فهم متعمق للآليات من زاوية استخدام المعلوماتإرشادات عملية : توفير إطار عمل لاختيار الطريقةوجود الوحدة : طرق تعزيز البيانات في الأوساط المختلفة لها اتساق جوهري في طرق استخدام المعلوماتوضوح البنية الهرمية : نظام التصنيف ثنائي المستوى بناءً على عدد العينات ونوع المعلومات له قابلية تفسير جيدةوضوح اتجاهات التطور : التطور نحو الطرق التوليدية والذكيةقيمة التوجيه التطبيقي : توفير إطار عمل لاختيار الطريقة للتطبيقات العمليةنقص التحليل النظري : في الغالب ملخص الطرق، يفتقر إلى تحليل نظري متعمقمقارنة الأداء محدودة : لم توفر مقارنة أداء كمية لطرق مختلفةتغطية التقنيات الناشئة : قد لا تكون التغطية كافية للتقنيات الحديثة للنماذج الكبيرةإرشادات التطبيق العملي : على الرغم من توفير اقتراحات الاختيار، تفتقر إلى حالات تطبيق محددةالنقل عبر الأوساط : استكشاف قوانين نقل طرق التعزيز بين الأوساط المختلفةالتعزيز الذكي : استخدام التعلم المعزز والنماذج الكبيرة لتحقيق التعزيز التكيفيالأساس النظري : إنشاء إطار تحليل نظري لتعزيز البياناتنظام التقييم : تطوير مؤشرات تقييم أكثر اكتمالاً لتأثير التعزيزالأوساط الناشئة : التوسع إلى أوساط بيانات ناشئة مثل الصوت والفيديوابتكار قوي : اقتراح إطار عمل تصنيف موحد عبر الأوساط للمرة الأولى، منظور جديدمنهجية جيدة : نطاق تغطية واسع، تصنيف واضح، منطق صارمقيمة عملية عالية : توفير إرشادات جيدة للباحثين والممارسينأدبيات غنية : جمع كمية كبيرة من الأبحاث الحديثة، معلومات شاملةكتابة واضحة : بنية معقولة، تعبير دقيق، سهل الفهمنقص التحليل الكمي : في الغالب وصف نوعي، يفتقر إلى دعم بيانات الأداءعمق نظري محدود : في الغالب ملخص الطرق، الابتكار النظري نسبياً محدودغياب التحقق التجريبي : لم يتم التحقق من فعالية إطار التصنيف من خلال التجاربتأخر التقنيات الجديدة : قد لا تكون التغطية في الوقت المناسب للتقنيات الحديثة من 2024-2025القيمة الأكاديمية : توفير إطار عمل نظري مهم لمجال تعزيز البياناتالقيمة العملية : مساعدة الباحثين على الفهم السريع واختيار الطرق المناسبةدور التوجيه : قد يعزز تطوير طرق تعزيز البيانات عبر الأوساطالقيمة التعليمية : مناسبة كمادة تعليمية ومرجع للدورات ذات الصلةالبدء البحثي : مناسبة للمبتدئين للفهم السريع للصورة الكاملة لتعزيز البياناتاختيار الطريقة : توفير إرشادات اختيار الطريقة للمشاريع العمليةالبحث عبر الأوساط : توفير أساس نظري لنقل الطرق عبر الأوساطالمرجع التعليمي : مناسبة كمادة تعليمية للدورات ذات الصلةتستشهد الورقة بـ 244 مرجع، تغطي الأعمال الرئيسية في مجال تعزيز البيانات، بما في ذلك:
الطرق الكلاسيكية: SMOTE و Mixup و Cutout وغيرها الطرق الآلية: AutoAugment و RandAugment وغيرها الطرق التوليدية: تطبيقات GAN و VAE و Diffusion models وغيرها طرق النماذج الكبيرة: تطبيقات GPT و DALL-E وغيرها التقييم الإجمالي : هذه ورقة مسح عالية الجودة، تقترح إطار عمل تصنيف موحد لتعزيز البيانات عبر الأوساط للمرة الأولى، وتتمتع بقيمة أكاديمية وعملية مهمة. على الرغم من وجود مجال للتحسن في العمق النظري والتحقق التجريبي، فإن منظورها المبتكر وملخصها المنهجي يجعلها مساهمة مهمة في هذا المجال.