We present a transductive deep learning-based formulation for the sparse representation-based classification (SRC) method. The proposed network consists of a convolutional autoencoder along with a fully-connected layer. The role of the autoencoder network is to learn robust deep features for classification. On the other hand, the fully-connected layer, which is placed in between the encoder and the decoder networks, is responsible for finding the sparse representation. The estimated sparse codes are then used for classification. Various experiments on three different datasets show that the proposed network leads to sparse representations that give better classification results than state-of-the-art SRC methods. The source code is available at: github.com/mahdiabavisani/DSRC.
- Papier-ID: 1904.11093
- Titel: Deep Sparse Representation-based Classification
- Autoren: Mahdi Abavisani (Rutgers University), Vishal M. Patel (Johns Hopkins University)
- Klassifikation: cs.CV cs.AI cs.LG stat.ML
- Veröffentlichungsdatum: 24. April 2019 (arXiv Preprint)
- Papier-Link: https://arxiv.org/abs/1904.11093
- Code-Link: github.com/mahdiabavisani/DSRC
In diesem Papier wird eine auf transduktivem tiefem Lernen basierende Methode zur Sparse-Repräsentations-Klassifikation (SRC) vorgestellt. Das Netzwerk besteht aus einem Faltungs-Autoencoder und vollständig verbundenen Schichten, wobei der Autoencoder für das Erlernen robuster tiefer Merkmale zur Klassifikation verantwortlich ist, während die zwischen dem Encoder und Decoder positionierte vollständig verbundene Schicht für die Ermittlung der Sparse-Repräsentation zuständig ist. Die geschätzten Sparse-Codes werden anschließend zur Klassifikation verwendet. Experimente auf drei verschiedenen Datensätzen zeigen, dass das vorgeschlagene Netzwerk Sparse-Repräsentationen mit besseren Klassifikationsergebnissen als fortschrittliche SRC-Methoden erzeugt.
Sparse-Codierung ist ein leistungsstarkes Werkzeug in der Signalverarbeitung und dem maschinellen Lernen mit breiter Anwendung in der Computervision und Mustererkennung. Die Sparse-Repräsentations-Klassifikationsmethode (SRC) geht davon aus, dass unmarkierte Stichproben als Sparse-Linearkombination markierter Trainingsstichproben dargestellt werden können. Die Repräsentation wird durch Lösung eines Sparsity-fördernden Optimierungsproblems erhalten, und Labels werden dann nach der Regel des minimalen Rekonstruktionsfehlers zugewiesen.
- Unzulänglichkeit linearer Repräsentation: Traditionelle SRC-Methoden basieren auf linearer Repräsentation von Daten, aber lineare Repräsentation ist fast immer unzureichend, um die nichtlinearen Strukturen von Daten in vielen praktischen Anwendungen darzustellen.
- Einschränkungen von Kernelmethoden: Bestehende Kernel-SRC-Methoden erfordern die Verwendung vordefinierter Kernfunktionen (wie Polynom- oder Gaußkerne), und die Auswahl der Kernfunktion und ihrer Parameter ist ein wichtiges Problem beim Training.
- Unzureichende Merkmalslernfähigkeit: Traditionelle Methoden können nicht gleichzeitig Merkmalsmappings und Sparse-Codes erlernen, die für die Sparse-Repräsentation geeignet sind.
Dieses Papier schlägt einen auf tiefen neuronalen Netzen basierenden Rahmen vor, der explizite nichtlineare Mappings von Daten finden kann, während gleichzeitig Sparse-Codes zur Klassifikation erhalten werden. Es wurde nachgewiesen, dass das Erlernen nichtlinearer Mappings mit neuronalen Netzen zu signifikanten Verbesserungen bei Unterraum-Clustering-Aufgaben führt.
- Vorschlag eines Deep Sparse Representation Classification Network (DSRC): Ein End-to-End-Trainingsrahmen, der Faltungs-Autoencoder und Sparse-Codierungsschichten kombiniert
- Entwurf eines transduktiven Lernmodells: Akzeptiert gleichzeitig Trainings- und Teststichproben und erlernt Mappings, die für die Sparse-Repräsentation geeignet sind
- Innovative Sparse-Codierungsschicht-Gestaltung: Einfügen einer speziellen Sparse-Codierungsschicht zwischen Encoder und Decoder zur Realisierung einer einheitlichen Optimierung von Merkmalserlernung und Sparse-Codierung
- Experimentelle Validierung: Validierung der Methodeneffektivität auf drei verschiedenen Datensätzen mit signifikanten Verbesserungen gegenüber bestehenden SRC-Methoden
Gegeben eine Menge markierter Trainingsstichproben besteht das Ziel darin, eine Menge ungesehener Teststichproben zu klassifizieren. Die Trainingsmatrix wird konstruiert als:
Xtrain=[Xtrain1,Xtrain2,⋯,XtrainK]∈Rd0×n
wobei Xtraini∈Rd0×ni alle Trainingsstichproben mit Label i enthält.
Das DSRC-Netzwerk besteht aus drei Hauptkomponenten:
- Encoder: Erlernt nichtlineare Mappings von Daten
- Sparse-Codierungsschicht: Ermittelt Sparse-Repräsentationen von Teststichproben
- Decoder: Wird zum Trainieren des Netzwerks für die Rekonstruktion verwendet
Für eingebettete Merkmale Z=[Ztrain,Ztest]∈Rdz×(m+n) wird das Sparse-Codierungsproblem formuliert als:
minA∥Ztest−ZtrainA∥F2+λ0∥A∥1
Die Ausgabe der Sparse-Codierungsschicht wird definiert als:
Z^train=ZtrainIn,Z^test=ZtrainA
wobei In die n×n Identitätsmatrix ist und A∈Rn×m die Sparse-Koeffizientenmatrix ist.
Die vollständige Trainingszielfunction ist:
minΘ∥Z−ZΘsc∥F2+λ0∥Θsc∥1+λ1∥X−X^∥F2
wobei Θsc=[In0n×mA0m]
- Einheitlicher Optimierungsrahmen: Erlernt gleichzeitig Merkmalsmappings und Sparse-Codes statt separater Optimierung
- Transduktives Lernen: Nutzt Teststichproben-Informationen zur Verbesserung des Merkmalslernens
- Sparse-Beschränkungen in neuronalen Netzen: Bettet Sparse-Optimierungsprobleme in das neuronale Netzwerk-Training ein
- End-to-End trainierbar: Das gesamte Netzwerk kann durch Backpropagation end-to-end trainiert werden
- USPS Handschrift-Ziffern-Datensatz: Enthält 7291 Trainingsbilder und 2007 Testbilder mit 10 Ziffern (0-9)
- SVHN Street View House Numbers Datensatz: Enthält 630.420 Farbbilder von Hausnummern aus der realen Welt
- UMDAA-01 Gesichtserkennungs-Datensatz: Enthält 750 Frontkamera-Videos von 50 Benutzern
In allen Experimenten werden Eingabebilder auf 32×32 Größe angepasst. Da die Parameteranzahl der Sparse-Codierungsschicht proportional zum Produkt der Trainings- und Testgröße ist, werden zufällig kleinere Datenteilmengen für Experimente ausgewählt.
Die durchschnittliche Klassifikationsgenauigkeit mit fünffacher Kreuzvalidierung wird als Hauptbewertungsmetrik verwendet.
- Standard SRC-Methode
- Kernel SRC (KSRC)
- Autoencoder-Merkmale + SRC (AE-SRC)
- Vortrainierte Netzwerk-Merkmale + SRC: VGG-19, Inception-V3, ResNet-50, DenseNet-169
- Framework: TensorFlow-1.4
- Optimierer: ADAM, Lernrate 10−3
- Vortraining: Encoder-Decoder-Vortraining für 20k Iterationen
- Regularisierungsparameter: λ0=1, λ1=8
- Netzwerkstruktur: 4-schichtiger Faltungs-Encoder + 3-schichtiger Transponiert-Faltungs-Decoder
| Datensatz | SRC | KSRC | AE-SRC | VGG19-SRC | InceptionV3-SRC | ResNet50-SRC | DenseNet169-SRC | DSRC |
|---|
| USPS | 87,78% | 91,34% | 88,65% | 91,27% | 93,51% | 95,75% | 95,26% | 96,25% |
| SVHN | 15,71% | 27,42% | 18,69% | 52,86% | 41,14% | 47,88% | 37,65% | 67,75% |
| UMDAA-01 | 79,00% | 81,37% | 86,70% | 82,68% | 86,15% | 91,84% | 86,35% | 93,39% |
Eine Analyse der Auswirkungen von Regularisierungsnormen wurde durchgeführt:
| Methode | DSRC | DSC-SRC | DSRC₀.₅ | DSRC₁.₅ | DSRC₂ |
|---|
| USPS-Genauigkeit | 96,25% | 78,25% | N/V | 95,75% | 96,25% |
Die Ergebnisse zeigen:
- Die Wahl zwischen L₁- und L₂-Regularisierung hat geringen Einfluss auf die Leistung
- Normen kleiner als 1 führen zu Instabilität und Konvergenzproblemen
- DSC-SRC zeigt schlechtere Leistung, da Testmerkmale möglicherweise isolierte Gruppen mit schwacher Verbindung zu Trainingsmerkmalen bilden
Die Visualisierung der Sparse-Koeffizientenmatrix A zeigt ein ausgeprägtes Blockdiagonal-Muster, wobei die meisten Nicht-Null-Koeffizienten jeder Teststichprobe Trainingsstichproben derselben Klasse wie die beobachtete Teststichprobe entsprechen.
Bei begrenzten Trainingsstichproben zeigt DSRC bessere Leistung als vortrainierte Klassifikationsnetzwerke (VGG-19, Inception-V3, ResNet-50, DenseNet-169), besonders wenn weniger Trainingsdaten vorhanden sind.
- Klassisches SRC: Erstmals von Wright et al. vorgeschlagen, zeigt robuste Leistung bei Gesichtserkennungs-Datensätzen
- Kernel-Methoden-Erweiterung: Entwicklung nichtlinearer Erweiterungen von SRC mit Kernel-Trick
- Kombination mit tiefem Lernen: Jüngste erfolgreiche Anwendungen neuronaler Netze bei Unterraum-Clustering-Aufgaben
Im Vergleich zu bestehenden Methoden schlägt dieses Papier erstmals einen end-to-end Deep Sparse Representation Learning Framework vor, der gleichzeitig Merkmalserlernung und Sparse-Codierung optimiert und die Probleme der Kernfunktionsauswahl in Kernelmethoden vermeidet.
- Das vorgeschlagene DSRC-Netzwerk kann tiefe Merkmale erlernen, die für die Sparse-Repräsentation geeignet sind
- Der transduktive Lernrahmen nutzt Teststichproben-Informationen effektiv
- Signifikante Leistungsverbesserungen werden auf allen drei Datensätzen erreicht
- Die Methode zeigt besonders hervorragende Leistung bei begrenzten Trainingsdaten
- Rechenkomplexität: Die Parameteranzahl der Sparse-Codierungsschicht ist proportional zum Produkt der Trainings- und Teststichprobenanzahl, was die verarbeitbare Datengröße begrenzt
- Speicheranforderungen: Erfordert gleichzeitige Speicherung aller Trainings- und Teststichproben mit hohen Speicheranforderungen
- Transduktive Einschränkung: Erfordert vorherige Kenntnis des Testsatzes, nicht geeignet für Online-Klassifikationsszenarien
- Hyperparameter-Empfindlichkeit: Die Auswahl von Regularisierungsparametern kann die Leistung beeinflussen
- Entwicklung effizienterer Sparse-Codierungsschicht-Implementierungen
- Erweiterung auf größere Datensätze
- Untersuchung induktiver Versionen zur Unterstützung von Online-Klassifikation
- Integration von Aufmerksamkeitsmechanismen zur Verbesserung des Sparse-Repräsentationslernens
- Hohe Innovativität: Erstmalige organische Kombination von tiefem Lernen und Sparse-Repräsentations-Klassifikation mit neuartiger Netzwerkarchitektur
- Solide theoretische Grundlagen: Geschickte Einbettung von Sparse-Optimierungsproblemen in den neuronalen Netzwerk-Rahmen
- Umfassende Experimente: Umfassende Vergleichsexperimente und Ablationsstudien auf mehreren Datensätzen
- Signifikante Leistungsverbesserung: Deutliche Verbesserungen gegenüber bestehenden Methoden
- Gute Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code verfügbar
- Skalierungsbeschränkungen: Die Parameterkomplexität der Sparse-Codierungsschicht begrenzt die praktische Anwendbarkeit
- Experimentelle Skalierung: Aufgrund von Rechenbeschränkungen werden Experimente nur auf relativ kleinen Datenteilmengen durchgeführt
- Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Konvergenz und Optimierungseigenschaften
- Begrenzte Anwendungsszenarien: Transduktive Einstellung begrenzt den Anwendungsbereich
- Akademischer Beitrag: Bietet neue Perspektiven für die Kombination von Sparse-Repräsentationserlernen und tiefem Lernen
- Praktischer Wert: Hat praktisches Anwendungspotenzial beim Few-Shot-Learning und spezifischen Klassifikationsaufgaben
- Inspirationswert: Bietet wertvolle Referenzen für nachfolgende verwandte Forschungen
- Few-Shot-Klassifikation: Besonders geeignet für Klassifikationsaufgaben mit begrenzten Trainingsstichproben
- Domänenspezifische Anwendungen: Wie Gesichtserkennung, Handschrift-Ziffernerkennung und andere traditionelle SRC-Anwendungsgebiete
- Forschungsprototyp: Als grundlegender Rahmen für Sparse-Repräsentationslern-Forschung
- Wright, J. et al. "Robust face recognition via sparse representation." IEEE TPAMI, 2009.
- Ji, P. et al. "Deep subspace clustering networks." NIPS, 2017.
- Zhang, L. et al. "Kernel sparse representation-based classifier." IEEE TSP, 2012.
Gesamtbewertung: Dies ist eine Arbeit mit innovativer Bedeutung im Bereich der Sparse-Repräsentations-Klassifikation, die erfolgreich tiefes Lernen mit traditionellen Sparse-Codierungsmethoden kombiniert und einen end-to-end Lernrahmen vorschlägt. Obwohl es gewisse Einschränkungen in der Skalierbarkeit gibt, bietet es wertvolle neue Ideen und Methoden für verwandte Forschungsgebiete.