We present a transductive deep learning-based formulation for the sparse representation-based classification (SRC) method. The proposed network consists of a convolutional autoencoder along with a fully-connected layer. The role of the autoencoder network is to learn robust deep features for classification. On the other hand, the fully-connected layer, which is placed in between the encoder and the decoder networks, is responsible for finding the sparse representation. The estimated sparse codes are then used for classification. Various experiments on three different datasets show that the proposed network leads to sparse representations that give better classification results than state-of-the-art SRC methods. The source code is available at: github.com/mahdiabavisani/DSRC.
- ID Articolo: 1904.11093
- Titolo: Deep Sparse Representation-based Classification
- Autori: Mahdi Abavisani (Rutgers University), Vishal M. Patel (Johns Hopkins University)
- Classificazione: cs.CV cs.AI cs.LG stat.ML
- Data di Pubblicazione: 24 aprile 2019 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/1904.11093
- Link Codice: github.com/mahdiabavisani/DSRC
Questo articolo propone un metodo di classificazione basato su rappresentazione sparsa (SRC) mediante apprendimento profondo transduttivo. La rete è composta da un autoencoder convoluzionale e da strati completamente connessi, dove l'autoencoder è responsabile dell'apprendimento di caratteristiche profonde robuste per la classificazione, mentre lo strato completamente connesso posizionato tra l'encoder e il decoder è incaricato di trovare la rappresentazione sparsa. La codifica sparsa stimata viene successivamente utilizzata per la classificazione. Gli esperimenti su tre diversi dataset dimostrano che la rete proposta produce rappresentazioni sparse con risultati di classificazione migliori rispetto ai metodi SRC all'avanguardia.
La codifica sparsa è uno strumento potente nell'elaborazione dei segnali e nell'apprendimento automatico, con ampie applicazioni nella visione artificiale e nel riconoscimento di pattern. Il metodo di classificazione basato su rappresentazione sparsa (SRC) presuppone che i campioni non etichettati possano essere rappresentati come una combinazione lineare sparsa di campioni di addestramento etichettati, ottenendo la rappresentazione risolvendo un problema di ottimizzazione che promuove la sparsità, per poi assegnare le etichette in base alla regola dell'errore di ricostruzione minimo.
- Insufficienza della rappresentazione lineare: I metodi SRC tradizionali si basano sulla rappresentazione lineare dei dati, ma la rappresentazione lineare è quasi sempre insufficiente per rappresentare le strutture non lineari dei dati che emergono in molte applicazioni pratiche.
- Limitazioni dei metodi kernel: I metodi SRC kernel esistenti richiedono l'uso di funzioni kernel predeterminate (come kernel polinomiali o gaussiani), e la scelta della funzione kernel e dei suoi parametri rappresenta un problema importante nell'addestramento.
- Capacità insufficiente di apprendimento delle caratteristiche: I metodi tradizionali non riescono ad apprendere simultaneamente la mappatura delle caratteristiche e la codifica sparsa adatte alla rappresentazione sparsa.
Questo articolo propone un framework basato su reti neurali profonde che può trovare mappature non lineari esplicite dei dati, ottenendo contemporaneamente codifiche sparse utilizzabili per la classificazione. È stato dimostrato che l'utilizzo di reti neurali per apprendere mappature non lineari produce miglioramenti significativi nei compiti di clustering di sottospazi.
- Propone la rete di classificazione basata su rappresentazione sparsa profonda (DSRC): Un framework di addestramento end-to-end che combina autoencoder convoluzionale e strato di codifica sparsa
- Progetta un modello di apprendimento transduttivo: Che accetta contemporaneamente campioni di addestramento e test, apprendendo mappature adatte alla rappresentazione sparsa
- Design innovativo dello strato di codifica sparsa: Inserisce uno strato di codifica sparsa specializzato tra l'encoder e il decoder, realizzando l'ottimizzazione unificata dell'apprendimento delle caratteristiche e della codifica sparsa
- Verifica sperimentale: Convalida l'efficacia del metodo su tre diversi dataset, superando significativamente i metodi SRC esistenti
Dato un insieme di campioni di addestramento etichettati, l'obiettivo è classificare un insieme di campioni di test non visti. La matrice di addestramento è costruita come:
Xtrain=[Xtrain1,Xtrain2,⋯,XtrainK]∈Rd0×n
dove Xtraini∈Rd0×ni contiene tutti i campioni di addestramento etichettati come i.
La rete DSRC contiene tre componenti principali:
- Encoder: Apprende la mappatura non lineare dei dati
- Strato di codifica sparsa: Trova la rappresentazione sparsa dei campioni di test
- Decoder: Utilizzato per l'addestramento della rete mediante ricostruzione
Per le caratteristiche incorporate Z=[Ztrain,Ztest]∈Rdz×(m+n), il problema di codifica sparsa è formulato come:
minA∥Ztest−ZtrainA∥F2+λ0∥A∥1
L'output dello strato di codifica sparsa è definito come:
Z^train=ZtrainIn,Z^test=ZtrainA
dove In è la matrice identità n×n e A∈Rn×m è la matrice dei coefficienti sparsi.
La funzione obiettivo di addestramento completa è:
minΘ∥Z−ZΘsc∥F2+λ0∥Θsc∥1+λ1∥X−X^∥F2
dove Θsc=[In0n×mA0m]
- Framework di ottimizzazione unificato: Apprende simultaneamente la mappatura delle caratteristiche e la codifica sparsa, piuttosto che ottimizzarle separatamente
- Apprendimento transduttivo: Utilizza le informazioni dei campioni di test per migliorare l'apprendimento delle caratteristiche
- Vincoli di sparsità nelle reti neurali: Incorpora il problema di ottimizzazione sparsa nell'addestramento della rete neurale
- Addestrabile end-to-end: L'intera rete può essere addestrata end-to-end mediante backpropagation
- Dataset USPS di cifre manoscritte: Contiene 7291 immagini di addestramento e 2007 immagini di test, coprendo 10 cifre (0-9)
- Dataset SVHN di numeri civici da Street View: Contiene 630.420 immagini a colori di numeri civici del mondo reale
- Dataset UMDAA-01 di riconoscimento facciale: Contiene 750 video frontali di 50 utenti
In tutti gli esperimenti, le immagini di input vengono ridimensionate a 32×32. Poiché il numero di parametri dello strato di codifica sparsa è proporzionale al prodotto delle dimensioni di addestramento e test, vengono selezionati casualmente sottoinsiemi di dati più piccoli per gli esperimenti.
La precisione di classificazione media mediante validazione incrociata a cinque fold viene utilizzata come metrica di valutazione principale.
- Metodo SRC standard
- SRC kernel (KSRC)
- Caratteristiche dell'autoencoder + SRC (AE-SRC)
- Caratteristiche di rete pre-addestrata + SRC: VGG-19, Inception-V3, ResNet-50, DenseNet-169
- Framework: TensorFlow-1.4
- Ottimizzatore: ADAM, tasso di apprendimento 10−3
- Pre-addestramento: 20k iterazioni di pre-addestramento encoder-decoder
- Parametri di regolarizzazione: λ0=1, λ1=8
- Struttura di rete: encoder convoluzionale a 4 strati + decoder di deconvoluzione a 3 strati
| Dataset | SRC | KSRC | AE-SRC | VGG19-SRC | InceptionV3-SRC | ResNet50-SRC | DenseNet169-SRC | DSRC |
|---|
| USPS | 87,78% | 91,34% | 88,65% | 91,27% | 93,51% | 95,75% | 95,26% | 96,25% |
| SVHN | 15,71% | 27,42% | 18,69% | 52,86% | 41,14% | 47,88% | 37,65% | 67,75% |
| UMDAA-01 | 79,00% | 81,37% | 86,70% | 82,68% | 86,15% | 91,84% | 86,35% | 93,39% |
È stata analizzata l'influenza della norma di regolarizzazione:
| Metodo | DSRC | DSC-SRC | DSRC₀.₅ | DSRC₁.₅ | DSRC₂ |
|---|
| Precisione USPS | 96,25% | 78,25% | N/C | 95,75% | 96,25% |
I risultati mostrano che:
- La scelta tra regolarizzazione L₁ e L₂ ha un impatto minore sulle prestazioni
- Norme inferiori a 1 causano instabilità e problemi di convergenza
- DSC-SRC ha prestazioni inferiori perché le caratteristiche di test potrebbero formare gruppi isolati con connessione debole alle caratteristiche di addestramento
La visualizzazione della matrice dei coefficienti sparsi A mostra un chiaro pattern a blocchi diagonali, dove la maggior parte dei coefficienti non nulli di ogni campione di test corrisponde ai campioni di addestramento della stessa classe del campione di test osservato.
In caso di campioni di addestramento limitati, DSRC mostra prestazioni migliori rispetto alle reti di classificazione pre-addestrate (VGG-19, Inception-V3, ResNet-50, DenseNet-169), con vantaggi ancora più evidenti quando i dati di addestramento sono scarsi.
- SRC classico: Proposto inizialmente da Wright et al., mostra prestazioni robuste su dataset di riconoscimento facciale
- Estensioni con metodi kernel: Sviluppo di estensioni non lineari di SRC utilizzando il kernel trick
- Combinazione con apprendimento profondo: Recenti applicazioni di successo delle reti neurali nei compiti di clustering di sottospazi
Rispetto ai metodi esistenti, questo articolo propone per la prima volta un framework di apprendimento di rappresentazione sparsa profonda end-to-end, in grado di ottimizzare simultaneamente l'apprendimento delle caratteristiche e la codifica sparsa, evitando il problema della scelta della funzione kernel nei metodi kernel.
- La rete DSRC proposta è in grado di apprendere caratteristiche profonde adatte alla rappresentazione sparsa
- Il framework di apprendimento transduttivo utilizza efficacemente le informazioni dei campioni di test
- Su tutti e tre i dataset diversi si ottengono miglioramenti significativi delle prestazioni
- Il metodo mostra prestazioni particolarmente eccellenti in caso di dati di addestramento limitati
- Complessità computazionale: Il numero di parametri dello strato di codifica sparsa è proporzionale al prodotto del numero di campioni di addestramento e test, limitando la scala dei dati elaborabili
- Requisiti di memoria: Richiede l'archiviazione simultanea di tutti i campioni di addestramento e test, con elevati requisiti di memoria
- Limitazione transduttiva: Richiede la conoscenza preventiva dell'insieme di test, non adatto per scenari di classificazione online
- Sensibilità ai iperparametri: La scelta dei parametri di regolarizzazione potrebbe influenzare le prestazioni
- Sviluppare implementazioni più efficienti dello strato di codifica sparsa
- Estendere a dataset di scala più grande
- Ricercare versioni induttive per supportare la classificazione online
- Combinare con meccanismi di attenzione per migliorare l'apprendimento della rappresentazione sparsa
- Forte innovazione: Combina per la prima volta l'apprendimento profondo con la classificazione basata su rappresentazione sparsa, proponendo un'architettura di rete innovativa
- Fondamenti teorici solidi: Incorpora ingegnosamente il problema di ottimizzazione sparsa nel framework della rete neurale
- Esperimenti completi: Conduce esperimenti di confronto completi e studi di ablazione su più dataset
- Miglioramento significativo delle prestazioni: Raggiunge miglioramenti evidenti delle prestazioni rispetto ai metodi esistenti
- Buona riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open source
- Limitazioni di scalabilità: La complessità parametrica dello strato di codifica sparsa limita l'applicazione pratica del metodo
- Scala sperimentale: A causa dei vincoli computazionali, gli esperimenti vengono condotti solo su sottoinsiemi di dati relativamente piccoli
- Analisi teorica insufficiente: Manca l'analisi teorica sulla convergenza e sulle proprietà di ottimizzazione del metodo
- Scenari di applicazione limitati: L'impostazione transduttiva limita l'ambito di applicazione del metodo
- Contributo accademico: Fornisce nuove prospettive per la combinazione di apprendimento di rappresentazione sparsa e apprendimento profondo
- Valore pratico: Ha potenziale di applicazione pratica nell'apprendimento con pochi campioni e in compiti di classificazione specifici
- Significato ispiratore: Fornisce riferimenti preziosi per la ricerca correlata successiva
- Classificazione con pochi campioni: Particolarmente adatto per compiti di classificazione con campioni di addestramento limitati
- Applicazioni specifiche del dominio: Come il riconoscimento facciale, il riconoscimento di cifre manoscritte e altri domini in cui SRC tradizionale eccelle
- Prototipo di ricerca: Come framework fondamentale per la ricerca sull'apprendimento di rappresentazione sparsa
- Wright, J. et al. "Robust face recognition via sparse representation." IEEE TPAMI, 2009.
- Ji, P. et al. "Deep subspace clustering networks." NIPS, 2017.
- Zhang, L. et al. "Kernel sparse representation-based classifier." IEEE TSP, 2012.
Valutazione Complessiva: Questo è un lavoro innovativo nel campo della classificazione basata su rappresentazione sparsa, che combina con successo l'apprendimento profondo con i metodi tradizionali di codifica sparsa, proponendo un framework di apprendimento end-to-end. Sebbene presenti alcune limitazioni in termini di scalabilità, fornisce nuove prospettive e metodi preziosi per il campo di ricerca correlato.