Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
Costringere le Reti ReLU a Esibire Esponenzialmente Molte Regioni Lineari all'Inizializzazione e Durante l'Addestramento
Nelle reti neurali con funzioni di attivazione ReLU, il numero di regioni lineari a tratti dell'output può teoricamente crescere esponenzialmente con la profondità. Tuttavia, quando i parametri iniziali vengono campionati casualmente, ciò è estremamente improbabile, portando spesso all'uso di reti inutilmente grandi. Per affrontare questo problema, il presente articolo propone un nuovo metodo di parametrizzazione della rete che vincola i pesi affinché una rete di profondità d produca esattamente 2d regioni lineari all'inizializzazione e le mantenga durante l'addestramento. Il metodo è più preciso di diversi ordini di grandezza rispetto alle reti inizializzate casualmente nell'apprendimento di approssimazioni di funzioni convesse unidimensionali. Gli autori presentano inoltre risultati preliminari che estendono la costruzione a funzioni multidimensionali e non convesse, consentendo a questa tecnica di sostituire i tradizionali strati densi in varie architetture.
Le reti ReLU possiedono teoricamente una capacità espressiva potente, con il numero di regioni lineari che può crescere esponenzialmente con la profondità, ma nella pratica esiste un divario significativo:
Divario tra Teoria e Pratica: Sebbene teoricamente una rete ReLU di profondità d possa produrre 2d regioni lineari, Hanin & Rolnick (2019) hanno dimostrato che il numero medio di regioni lineari di una rete inizializzata casualmente è indipendente dalla profondità e dipende solo dal numero totale di neuroni.
Limitazioni della Discesa del Gradiente: La discesa del gradiente ha difficoltà a creare nuove regioni di attivazione, poiché il numero di regioni lineari non è una proprietà "locale" dello spazio dei parametri e non può essere direttamente ottimizzato attraverso l'ottimizzazione del gradiente.
Problema della Ridondanza della Rete: In pratica, circa il 95% dei pesi potrebbe essere eliminato senza influenzare significativamente l'accuratezza, indicando che i metodi di addestramento tradizionali sono inefficienti.
La motivazione centrale di questo articolo è sviluppare algoritmi matematici per evitare le limitazioni dell'inizializzazione casuale, costringendo le reti ReLU a realizzare la loro capacità espressiva teorica, ottenendo così migliori prestazioni con reti più piccole.
Nuovo Metodo di Reparametrizzazione: Propone una strategia di reparametrizzazione per reti ReLU di larghezza 4 neuroni e profondità arbitraria, garantendo che una rete di profondità d produca 2d regioni di attivazione all'inizializzazione.
Strategia di Preaddestramento: Sviluppa un metodo di preaddestramento che forza l'esistenza di 2d regioni di attivazione durante il processo di ottimizzazione.
Miglioramento Significativo delle Prestazioni: Realizza miglioramenti delle prestazioni di ordini di grandezza nei casi di test unidimensionali.
Applicazioni Estese: Estende il metodo a funzioni non convesse e multidimensionali, e come sostituzione plug-and-play per strati densi in reti arbitrarie.
Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # Posizioni dei picchi triangolari
while Epochs > 0:
Network ← Set_Weights(A) # Impostazione dei pesi in base ad A
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # Retropropagazione attraverso l'impostazione dei pesi
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # Aggiornamento di A anziché dei pesi della rete
Questo articolo si basa sulla teoria classica dell'approssimazione delle reti neurali:
Teorema di Approssimazione Universale: Capacità di approssimazione di reti di larghezza infinita o profondità infinita
Teoria del Vantaggio della Profondità: Alcune funzioni richiedono neuroni sub-esponenziali in reti profonde ma neuroni di livello esponenziale in reti superficiali
Svolta Teorica: Primo metodo pratico per forzare le reti ReLU a produrre regioni lineari di livello esponenziale
Miglioramento Significativo: Realizzazione di miglioramenti di precisione di ordini di grandezza nei compiti di approssimazione di funzioni unidimensionali
Potenziale di Estensione: Dimostrazione dell'applicabilità del metodo a funzioni multidimensionali e non convesse
Valore Pratico: Può servire come sostituzione plug-and-play per strati densi in architetture esistenti
Restrizioni Architetturali: Il metodo attuale è limitato a strutture specifiche di larghezza 4 neuroni
Restrizioni sulla Classe di Funzioni: Applicazione diretta a funzioni convesse unidimensionali, l'estensione multidimensionale richiede strategie di composizione
Effetto Limitato su Compiti di Classificazione: I miglioramenti non sono significativi su compiti di classificazione di immagini
Completezza Teorica: Mancanza di un quadro teorico universale per reti ReLU arbitrarie
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
Valutazione Complessiva: Questo è un articolo eccellente che combina teoria e pratica, raggiungendo importanti progressi nella realizzazione della capacità espressiva delle reti ReLU. Sebbene l'ambito di applicazione attuale sia limitato, fornisce contributi preziosi e ispiratori sia alla teoria che alla pratica dell'apprendimento profondo.