Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
Obligar a las Redes ReLU a Exhibir Exponencialmente Muchas Regiones Lineales en la Inicialización y Durante el Entrenamiento
En redes neuronales con funciones de activación ReLU, el número de regiones lineales por partes de la salida puede crecer teóricamente de forma exponencial con la profundidad. Sin embargo, cuando los parámetros iniciales se muestrean aleatoriamente, esto es extremadamente improbable, lo que a menudo resulta en el uso de redes innecesariamente grandes. Para abordar este problema, este artículo propone un novedoso método de parametrización de redes que restringe los pesos de modo que una red de profundidad d produzca exactamente 2d regiones lineales en la inicialización y mantenga estas regiones durante el entrenamiento. El método es varios órdenes de magnitud más preciso que las redes inicializadas aleatoriamente correspondientes al aprender aproximaciones de funciones convexas unidimensionales. Los autores también muestran resultados preliminares que extienden la construcción a funciones multidimensionales y no convexas, permitiendo que esta técnica reemplace capas densas tradicionales en varias arquitecturas.
Las redes ReLU poseen teóricamente una capacidad expresiva poderosa, con el número de regiones lineales creciendo exponencialmente con la profundidad, pero existe una brecha significativa en las aplicaciones prácticas:
Brecha entre Teoría y Práctica: Aunque teóricamente una red ReLU de profundidad d puede producir 2d regiones lineales, Hanin & Rolnick (2019) demostraron que el número promedio de regiones lineales en redes inicializadas aleatoriamente es independiente de la profundidad, dependiendo solo del número total de neuronas.
Limitaciones del Descenso de Gradiente: El descenso de gradiente tiene dificultades para crear nuevas regiones de activación, ya que el número de regiones lineales no es una propiedad "local" en el espacio de parámetros y no puede optimizarse directamente mediante optimización por gradiente.
Problema de Redundancia de Redes: En la práctica, aproximadamente el 95% de los pesos pueden eliminarse sin afectar significativamente la precisión, lo que indica que los métodos de entrenamiento tradicionales son ineficientes.
La motivación central de este artículo es desarrollar algoritmos matemáticos para evitar las limitaciones de la inicialización aleatoria, forzando a las redes ReLU a realizar su capacidad expresiva teórica, logrando así un mejor rendimiento con redes más pequeñas.
Método de Reparametrización Novedoso: Propone una estrategia de reparametrización para redes ReLU de ancho 4 neuronas y profundidad arbitraria, asegurando que una red de profundidad d produzca 2d regiones de activación en la inicialización.
Estrategia de Preentrenamiento: Desarrolla un método de preentrenamiento que fuerza la existencia de 2d regiones de activación durante el proceso de optimización.
Mejora Significativa de Rendimiento: Logra mejoras de rendimiento de red de varios órdenes de magnitud en casos de prueba unidimensionales.
Aplicaciones Extendidas: Extiende el método a funciones no convexas y multidimensionales, y como reemplazo plug-and-play para capas densas en redes arbitrarias.
Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # Posiciones de picos triangulares
while Epochs > 0:
Network ← Set_Weights(A) # Establecer pesos según A
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # Retropropagación a través del establecimiento de pesos
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # Actualizar A en lugar de pesos de red
Este artículo se construye sobre la base de la teoría clásica de aproximación de redes neuronales:
Teorema de Aproximación Universal: Capacidad de aproximación de redes de ancho infinito o profundidad infinita
Teoría de Ventaja de Profundidad: Ciertas funciones requieren neuronas subexponenciales en redes profundas pero neuronas de nivel exponencial en redes superficiales
Restricciones de Arquitectura: El método actual se limita a estructuras específicas de ancho 4 neuronas
Restricciones de Clase de Función: Directamente aplicable a funciones convexas unidimensionales, la extensión multidimensional requiere estrategias de combinación
Efecto Limitado en Tareas de Clasificación: Las mejoras no son significativas en tareas de clasificación de imágenes
Completitud Teórica: Falta un marco teórico universal para redes ReLU arbitrarias
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, logrando un avance importante en la realización de la capacidad expresiva de redes ReLU. Aunque el rango de aplicaciones actual es limitado, proporciona contribuciones valiosas e inspiradoras tanto para la teoría como para la práctica del aprendizaje profundo.