We present a transductive deep learning-based formulation for the sparse representation-based classification (SRC) method. The proposed network consists of a convolutional autoencoder along with a fully-connected layer. The role of the autoencoder network is to learn robust deep features for classification. On the other hand, the fully-connected layer, which is placed in between the encoder and the decoder networks, is responsible for finding the sparse representation. The estimated sparse codes are then used for classification. Various experiments on three different datasets show that the proposed network leads to sparse representations that give better classification results than state-of-the-art SRC methods. The source code is available at: github.com/mahdiabavisani/DSRC.
- معرّف الورقة البحثية: 1904.11093
- العنوان: تصنيف التمثيل الخفيف القائم على التعلم العميق
- المؤلفون: مهدي أبويساني (جامعة روتجرز)، فيشال إم باتيل (جامعة جونز هوبكنز)
- التصنيف: cs.CV cs.AI cs.LG stat.ML
- تاريخ النشر: 24 أبريل 2019 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/1904.11093
- رابط الكود: github.com/mahdiabavisani/DSRC
تقدم هذه الورقة طريقة تصنيف التمثيل الخفيف (SRC) القائمة على التعلم العميق الاستقرائي. تتكون الشبكة من مشفر ذاتي تلافيفي وطبقات متصلة بالكامل، حيث يكون المشفر الذاتي مسؤولاً عن تعلم الميزات العميقة القوية للتصنيف، بينما تكون الطبقة المتصلة بالكامل الموجودة بين المشفر وفك التشفير مسؤولة عن إيجاد التمثيل الخفيف. يتم استخدام الترميز الخفيف المقدر لاحقاً للتصنيف. تُظهر التجارب على ثلاث مجموعات بيانات مختلفة أن الشبكة المقترحة قادرة على إنتاج تمثيلات خفيفة بنتائج تصنيف أفضل من طرق SRC المتقدمة.
يعتبر الترميز الخفيف أداة قوية في معالجة الإشارات والتعلم الآلي، مع تطبيقات واسعة في رؤية الحاسوب والتعرف على الأنماط. تفترض طرق تصنيف التمثيل الخفيف (SRC) أن العينات غير المصنفة يمكن تمثيلها كمجموعة خطية خفيفة من عينات التدريب المصنفة، حيث يتم الحصول على التمثيل من خلال حل مشكلة التحسين التي تعزز الخفة، ثم يتم تعيين التسميات بناءً على قاعدة الحد الأدنى لخطأ إعادة البناء.
- عدم كفاية التمثيل الخطي: تعتمد طرق SRC التقليدية على التمثيل الخطي للبيانات، لكن التمثيل الخطي غالباً ما يكون غير كافٍ لتمثيل البنية غير الخطية للبيانات التي تظهر في العديد من التطبيقات العملية.
- قيود الطرق النواتية: تتطلب طرق SRC النواتية الموجودة استخدام دوال نواة محددة مسبقاً (مثل النواة متعددة الحدود أو الغاوسية)، وتعتبر اختيار الدالة النواة ومعاملات النواة مسائل مهمة في التدريب.
- قدرة تعلم الميزات غير الكافية: لا تستطيع الطرق التقليدية تعلم خريطة الميزات والترميز الخفيف المناسب للتمثيل الخفيف في نفس الوقت.
تقترح هذه الورقة إطار عمل قائم على الشبكات العصبية العميقة، قادر على إيجاد تعيين غير خطي صريح للبيانات مع الحصول على ترميز خفيف يمكن استخدامه للتصنيف. ثبت أن استخدام الشبكات العصبية لتعلم التعيينات غير الخطية ينتج تحسينات كبيرة في مهام التجميع في الفضاء الجزئي.
- اقتراح شبكة تصنيف التمثيل الخفيف العميق (DSRC): إطار عمل تدريب شامل يجمع بين المشفر الذاتي التلافيفي وطبقة الترميز الخفيف
- تصميم نموذج تعلم استقرائي: يقبل عينات التدريب والاختبار معاً، ويتعلم التعيينات المناسبة للتمثيل الخفيف
- تصميم طبقة ترميز خفيف مبتكرة: إدراج طبقة ترميز خفيف متخصصة بين المشفر وفك التشفير، لتحقيق التحسين الموحد لتعلم الميزات والترميز الخفيف
- التحقق التجريبي: التحقق من فعالية الطريقة على ثلاث مجموعات بيانات مختلفة، متفوقة بشكل كبير على طرق SRC الموجودة
بالنظر إلى مجموعة عينات التدريب المصنفة، الهدف هو تصنيف مجموعة عينات الاختبار غير المرئية. يتم بناء مصفوفة التدريب كما يلي:
Xtrain=[Xtrain1,Xtrain2,⋯,XtrainK]∈Rd0×n
حيث Xtraini∈Rd0×ni تحتوي على جميع عينات التدريب المصنفة بالتسمية i.
تحتوي شبكة DSRC على ثلاثة مكونات رئيسية:
- المشفر: يتعلم التعيين غير الخطي للبيانات
- طبقة الترميز الخفيف: تجد التمثيل الخفيف لعينات الاختبار
- فك التشفير: يستخدم لتدريب الشبكة
بالنسبة للميزات المضمنة Z=[Ztrain,Ztest]∈Rdz×(m+n)، يتم صياغة مشكلة الترميز الخفيف كما يلي:
minA∥Ztest−ZtrainA∥F2+λ0∥A∥1
يتم تعريف مخرجات طبقة الترميز الخفيف كما يلي:
Z^train=ZtrainIn,Z^test=ZtrainA
حيث In هي مصفوفة الوحدة n×n، و A∈Rn×m هي مصفوفة المعاملات الخفيفة.
دالة الهدف الكاملة للتدريب هي:
minΘ∥Z−ZΘsc∥F2+λ0∥Θsc∥1+λ1∥X−X^∥F2
حيث Θsc=[In0n×mA0m]
- إطار عمل التحسين الموحد: تعلم خريطة الميزات والترميز الخفيف في نفس الوقت، بدلاً من التحسين المنفصل
- التعلم الاستقرائي: الاستفادة من معلومات عينات الاختبار لتحسين تعلم الميزات
- القيود الخفيفة في الشبكات العصبية: دمج مشكلة التحسين الخفيف في تدريب الشبكة العصبية
- قابلية التدريب الشامل: يمكن تدريب الشبكة بأكملها بشكل شامل من خلال الانتشار العكسي
- مجموعة بيانات USPS للأرقام المكتوبة بخط اليد: تحتوي على 7291 صورة تدريب و 2007 صورة اختبار، تغطي 10 أرقام (0-9)
- مجموعة بيانات SVHN لأرقام المنازل في الشارع: تحتوي على 630,420 صورة ملونة لأرقام المنازل في العالم الحقيقي
- مجموعة بيانات UMDAA-01 للتعرف على الوجوه: تحتوي على 750 فيديو كاميرا أمامية لـ 50 مستخدماً
في جميع التجارب، تم تعديل حجم الصور المدخلة إلى 32×32، وبسبب أن عدد معاملات طبقة الترميز الخفيف يتناسب مع حاصل ضرب أحجام التدريب والاختبار، تم اختيار مجموعة فرعية أصغر من البيانات بشكل عشوائي للتجارب.
يتم استخدام متوسط دقة التصنيف للتحقق المتقاطع بخمس طيات كمؤشر تقييم رئيسي.
- طريقة SRC القياسية
- SRC النواتية (KSRC)
- ميزات المشفر الذاتي + SRC (AE-SRC)
- ميزات الشبكة المدربة مسبقاً + SRC: VGG-19, Inception-V3, ResNet-50, DenseNet-169
- الإطار: TensorFlow-1.4
- محسّن: ADAM، معدل التعلم 10−3
- التدريب المسبق: تدريب المشفر-فك التشفير لـ 20k جولة
- معاملات التنظيم: λ0=1, λ1=8
- بنية الشبكة: مشفر تلافيفي بـ 4 طبقات + فك تشفير بـ 3 طبقات عكسية
| مجموعة البيانات | SRC | KSRC | AE-SRC | VGG19-SRC | InceptionV3-SRC | ResNet50-SRC | DenseNet169-SRC | DSRC |
|---|
| USPS | 87.78% | 91.34% | 88.65% | 91.27% | 93.51% | 95.75% | 95.26% | 96.25% |
| SVHN | 15.71% | 27.42% | 18.69% | 52.86% | 41.14% | 47.88% | 37.65% | 67.75% |
| UMDAA-01 | 79.00% | 81.37% | 86.70% | 82.68% | 86.15% | 91.84% | 86.35% | 93.39% |
تم تحليل تأثير معاملات التنظيم:
| الطريقة | DSRC | DSC-SRC | DSRC₀.₅ | DSRC₁.₅ | DSRC₂ |
|---|
| دقة USPS | 96.25% | 78.25% | N/C | 95.75% | 96.25% |
تُظهر النتائج:
- اختيار المعايير L₁ و L₂ له تأثير طفيف على الأداء
- المعايير الأقل من 1 تؤدي إلى عدم الاستقرار ومشاكل التقارب
- أداء DSC-SRC أضعف، لأن ميزات الاختبار قد تشكل مجموعات معزولة بارتباط ضعيف مع ميزات التدريب
تصور مصفوفة المعاملات الخفيفة A يُظهر نمط قطري كتلي واضح، حيث تتوافق معظم المعاملات غير الصفرية لكل عينة اختبار مع عينات التدريب من نفس فئة العينة المرصودة.
في حالة العينات التدريبية المحدودة، تُظهر DSRC أداءً أفضل مقارنة بالشبكات التصنيفية المدربة مسبقاً (VGG-19, Inception-V3, ResNet-50, DenseNet-169)، خاصة عندما يكون لدينا بيانات تدريب أقل.
- SRC الكلاسيكي: اقترحه Wright وآخرون لأول مرة، وأظهر أداءً قوياً على مجموعات بيانات التعرف على الوجوه
- توسيع الطرق النواتية: تطوير توسيعات غير خطية لـ SRC باستخدام الحيلة النواتية
- الدمج مع التعلم العميق: التطبيقات الناجحة الحديثة للشبكات العصبية في مهام التجميع في الفضاء الجزئي
بالمقارنة مع الطرق الموجودة، تقترح هذه الورقة لأول مرة إطار عمل تعلم تمثيل خفيف عميق شامل، قادر على تحسين تعلم الميزات والترميز الخفيف معاً، مما يتجنب مشكلة اختيار الدالة النواة في الطرق النواتية.
- شبكة DSRC المقترحة قادرة على تعلم ميزات عميقة مناسبة للتمثيل الخفيف
- إطار العمل للتعلم الاستقرائي يستفيد بشكل فعال من معلومات عينات الاختبار
- تحقيق تحسينات أداء كبيرة على ثلاث مجموعات بيانات مختلفة
- تُظهر الطريقة أداءً استثنائياً خاصة في حالات البيانات التدريبية المحدودة
- التعقيد الحسابي: عدد معاملات طبقة الترميز الخفيف يتناسب مع حاصل ضرب عدد عينات التدريب والاختبار، مما يحد من حجم البيانات القابلة للمعالجة
- متطلبات الذاكرة: يتطلب تخزين جميع عينات التدريب والاختبار في نفس الوقت، مما يفرض متطلبات عالية على الذاكرة
- قيود التعلم الاستقرائي: يتطلب معرفة مسبقة بمجموعة الاختبار، غير مناسب لسيناريوهات التصنيف عبر الإنترنت
- حساسية المعاملات الفائقة: قد يؤثر اختيار معاملات التنظيم على الأداء
- تطوير تنفيذات أكثر كفاءة لطبقة الترميز الخفيف
- التوسع إلى مجموعات بيانات أكبر
- البحث عن نسخة استقرائية لدعم التصنيف عبر الإنترنت
- دمج آليات الانتباه لتحسين تعلم التمثيل الخفيف
- ابتكار قوي: أول دمج عضوي للتعلم العميق مع تصنيف التمثيل الخفيف، مع اقتراح معمارية شبكة جديدة
- أساس نظري متين: دمج ذكي لمشكلة التحسين الخفيف في إطار الشبكة العصبية
- تجارب شاملة: إجراء تجارب مقارنة شاملة ودراسات استئصالية على عدة مجموعات بيانات
- تحسين أداء كبير: تحقيق تحسينات أداء واضحة مقارنة بالطرق الموجودة
- قابلية إعادة الإنتاج الجيدة: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر
- قيود قابلية التوسع: يحد التعقيد البارامتري لطبقة الترميز الخفيف من التطبيقات العملية للطريقة
- حجم التجارب: بسبب القيود الحسابية، تم إجراء التجارب فقط على مجموعات فرعية نسبياً صغيرة من البيانات
- نقص التحليل النظري: افتقار إلى تحليل نظري لخصائص التقارب والتحسين للطريقة
- نطاق التطبيق محدود: يحد الإعداد الاستقرائي من نطاق تطبيق الطريقة
- المساهمة الأكاديمية: توفير أفكار جديدة لدمج تعلم التمثيل الخفيف والتعلم العميق
- القيمة العملية: لديها إمكانية تطبيق عملية في التعلم من عينات قليلة ومهام التصنيف المحددة
- الأهمية الإرشادية: توفير مرجع قيم للأبحاث اللاحقة ذات الصلة
- التصنيف من عينات قليلة: مناسب بشكل خاص لمهام التصنيف حيث تكون عينات التدريب محدودة
- تطبيقات المجال المحدد: مثل التعرف على الوجوه والتعرف على الأرقام المكتوبة بخط اليد والمجالات الأخرى التي تتفوق فيها SRC التقليدية
- نموذج أولي للبحث: كإطار عمل أساسي لأبحاث تعلم التمثيل الخفيف
- Wright, J. et al. "Robust face recognition via sparse representation." IEEE TPAMI, 2009.
- Ji, P. et al. "Deep subspace clustering networks." NIPS, 2017.
- Zhang, L. et al. "Kernel sparse representation-based classifier." IEEE TSP, 2012.
التقييم الشامل: هذه ورقة بحثية ذات أهمية ابتكارية في مجال تصنيف التمثيل الخفيف، حيث نجحت في دمج التعلم العميق مع طرق الترميز الخفيف التقليدية، واقترحت إطار عمل تعلم شامل. على الرغم من وجود بعض القيود في قابلية التوسع، فإنها توفر أفكاراً جديدة وطرقاً قيمة لمجالات البحث ذات الصلة.