2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

Obligar a las Redes ReLU a Exhibir Exponencialmente Muchas Regiones Lineales en la Inicialización y Durante el Entrenamiento

Información Básica

ID del Artículo: 2311.18022
Título: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Autores: Max Milkert, David Hyde, Forrest Laine
Clasificación: cs.LG cs.AI
Fecha de Publicación/Conferencia: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canadá. PMLR 267, 2025
Enlace del Artículo: https://arxiv.org/abs/2311.18022

Resumen

En redes neuronales con funciones de activación ReLU, el número de regiones lineales por partes de la salida puede crecer teóricamente de forma exponencial con la profundidad. Sin embargo, cuando los parámetros iniciales se muestrean aleatoriamente, esto es extremadamente improbable, lo que a menudo resulta en el uso de redes innecesariamente grandes. Para abordar este problema, este artículo propone un novedoso método de parametrización de redes que restringe los pesos de modo que una red de profundidad $d$ produzca exactamente $2^d$ regiones lineales en la inicialización y mantenga estas regiones durante el entrenamiento. El método es varios órdenes de magnitud más preciso que las redes inicializadas aleatoriamente correspondientes al aprender aproximaciones de funciones convexas unidimensionales. Los autores también muestran resultados preliminares que extienden la construcción a funciones multidimensionales y no convexas, permitiendo que esta técnica reemplace capas densas tradicionales en varias arquitecturas.

Contexto de Investigación y Motivación

Definición del Problema

Las redes ReLU poseen teóricamente una capacidad expresiva poderosa, con el número de regiones lineales creciendo exponencialmente con la profundidad, pero existe una brecha significativa en las aplicaciones prácticas:

Brecha entre Teoría y Práctica: Aunque teóricamente una red ReLU de profundidad $d$ puede producir $2^d$ regiones lineales, Hanin & Rolnick (2019) demostraron que el número promedio de regiones lineales en redes inicializadas aleatoriamente es independiente de la profundidad, dependiendo solo del número total de neuronas.
Limitaciones del Descenso de Gradiente: El descenso de gradiente tiene dificultades para crear nuevas regiones de activación, ya que el número de regiones lineales no es una propiedad "local" en el espacio de parámetros y no puede optimizarse directamente mediante optimización por gradiente.
Problema de Redundancia de Redes: En la práctica, aproximadamente el 95% de los pesos pueden eliminarse sin afectar significativamente la precisión, lo que indica que los métodos de entrenamiento tradicionales son ineficientes.

Motivación de la Investigación

La motivación central de este artículo es desarrollar algoritmos matemáticos para evitar las limitaciones de la inicialización aleatoria, forzando a las redes ReLU a realizar su capacidad expresiva teórica, logrando así un mejor rendimiento con redes más pequeñas.

Contribuciones Principales

Método de Reparametrización Novedoso: Propone una estrategia de reparametrización para redes ReLU de ancho 4 neuronas y profundidad arbitraria, asegurando que una red de profundidad $d$ produzca $2^d$ regiones de activación en la inicialización.
Estrategia de Preentrenamiento: Desarrolla un método de preentrenamiento que fuerza la existencia de $2^d$ regiones de activación durante el proceso de optimización.
Mejora Significativa de Rendimiento: Logra mejoras de rendimiento de red de varios órdenes de magnitud en casos de prueba unidimensionales.
Aplicaciones Extendidas: Extiende el método a funciones no convexas y multidimensionales, y como reemplazo plug-and-play para capas densas en redes arbitrarias.

Explicación Detallada del Método

Idea Central

El método se basa en la combinación de funciones de onda triangular para construir redes con regiones lineales de nivel exponencial:

Definición de Función Triangular

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

donde $0 < ai < 1$ es la posición del pico de la función triangular en la capa $i$ .

Forma de Onda Compuesta

Cada capa produce una onda triangular mediante composición de funciones:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

Estas formas de onda poseen $2^i$ regiones lineales, duplicándose en cada capa.

Salida de la Red

La salida final de la red es la suma ponderada de las ondas triangulares de cada capa:

F(x) = Σ(i=0 to ∞) si * Wi(x)

Diseño de la Arquitectura de Red

Implementación de Capa Única

Cada función triangular se implementa con dos neuronas ReLU:

Neurona t1: Peso de entrada 1, peso de salida 1/a, siempre activada
Neurona t2: Sesgo -a, peso de salida -1/(a-a²), activada cuando x>a

Composición Multicapa

La composición de funciones se logra mediante apilamiento profundo, con cada capa conteniendo:

Neuronas t1, t2: Implementan la función triangular
Neurona sum: Acumula la salida de onda triangular de la capa anterior
Neurona bias: Maneja el sesgo de decaimiento exponencial

Forma de Matriz de Pesos

La forma matricial de la capa oculta es:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

Restricciones de Diferenciabilidad

Teorema 3.1

Para asegurar que la salida de la red sea diferenciable en el límite de profundidad infinita, los coeficientes de escala deben satisfacer:

si+1 = si(1-ai+1)ai+2

Esta restricción asegura la continuidad de la derivada, previniendo que la salida se convierta en una curva fractal.

Algoritmo de Entrenamiento

Proceso de Entrenamiento de Tres Etapas

Reparametrización e Inicialización: Establecer pesos de red según las posiciones de picos triangulares
Preentrenamiento: Entrenar la red bajo restricciones de reparametrización
Entrenamiento Estándar: Optimizar directamente los pesos de la red

Flujo del Algoritmo

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # Posiciones de picos triangulares
while Epochs > 0:
    Network ← Set_Weights(A)  # Establecer pesos según A
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # Retropropagación a través del establecimiento de pesos
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # Actualizar A en lugar de pesos de red

Configuración Experimental

Experimentos de Función Unidimensional

Conjunto de Datos

Datos Densos: 500 puntos equiespaciados en el intervalo 0,1
Datos Escasos: 10 puntos de entrenamiento, 10 puntos de prueba (ubicados entre puntos de entrenamiento)

Funciones Objetivo

$x^3$ , $x^{11}$ (funciones convexas, combinación por resta)
$\sin(x)$ , $\tanh(3x)$ (aproximadas mediante combinación por suma)

Configuración de Red

Ancho de 4 neuronas, 5 capas ocultas
Optimizador Adam, tasa de aprendizaje 0.001, 1000 épocas

Métodos de Comparación

Red por Defecto: Inicialización Kaiming
Distribución RAAI: Inicialización de distribución de pesos mejorada
Omitir Preentrenamiento: Usar inicialización de este artículo pero solo entrenamiento estándar
Preentrenamiento sin Regularización: Sin restricciones de diferenciabilidad forzada
Método Completo: Preentrenamiento + restricciones de diferenciabilidad

Experimentos Extendidos

Funciones No Convexas y Multidimensionales

Función No Convexa: $y = x^3 - x$ (diferencia de dos redes)
Función Bidimensional: $z = r^3$ (suma de dos redes)

Clasificación de Imágenes

VGG-16 en ImageNet: Reemplazar capas densas del clasificador
CIFAR-10: Aplicar en arquitectura CNN

Resultados Experimentales

Resultados de Aproximación de Función Unidimensional

Rendimiento en Datos Densos (Error MSE Mínimo)

Método	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Inicialización Kaiming	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
Distribución RAAI	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
Omitir Preentrenamiento	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
Preentrenamiento sin Regularización	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
Método Completo	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

Hallazgos Clave

Mejora de Órdenes de Magnitud: El método completo es 3 órdenes de magnitud más preciso que la red por defecto
Importancia del Preentrenamiento: Incluso omitiendo preentrenamiento, solo la inicialización mejora significativamente
Efecto de Restricciones de Diferenciabilidad: Forzar diferenciabilidad mejora aún más la estabilidad y precisión
Problema de ReLU Muerto: Los métodos tradicionales fallan en aproximadamente el 50% de las redes debido al fenómeno de ReLU muerto

Capacidad de Generalización en Datos Escasos

Método	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Inicialización Kaiming	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
Método Completo	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

Resultados de Aplicaciones Extendidas

Funciones No Convexas y Multidimensionales

Aproximación $x^3-x$ : Error del método de este artículo 5.52×10⁻⁷ vs error de red estándar 8×5 de 8×10⁻⁶
Aproximación $z=r^3$ : Error del método de este artículo 3.5×10⁻⁶ vs error de red estándar 1.5×10⁻⁴ (mejora de casi dos órdenes de magnitud)

Rendimiento de Clasificación de Imágenes

VGG-16 en ImageNet: Ventaja en etapas tempranas de entrenamiento, precisión final comparable (73.3%)
CIFAR-10: Rendimiento comparable con métodos estándar, demostrando la generalidad del método

Trabajo Relacionado

Teoría de Aproximación de Funciones

Este artículo se construye sobre la base de la teoría clásica de aproximación de redes neuronales:

Teorema de Aproximación Universal: Capacidad de aproximación de redes de ancho infinito o profundidad infinita
Teoría de Ventaja de Profundidad: Ciertas funciones requieren neuronas subexponenciales en redes profundas pero neuronas de nivel exponencial en redes superficiales

Construcción de Onda Triangular

Toma prestado del trabajo de Telgarsky (2015) y Yarotsky (2017):

Onda Triangular Simétrica: Utilizada para construir aproximaciones de $x^2$ con precisión exponencial
Composición de Funciones: Lograr representación de funciones complejas mediante composición entre capas

Métodos de Inicialización de Red

Contraste con métodos de inicialización existentes:

Inicialización Kaiming/Xavier: Métodos homogeneizados basados en distribuciones estadísticas
Problema de ReLU Muerto: Problema inherente de inicialización aleatoria en redes profundas
Contribución de este Artículo: Inicialización heterogénea basada en construcción matemática

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico: Primera implementación práctica de un método que fuerza a redes ReLU a producir regiones lineales de nivel exponencial
Mejora Significativa: Logra mejoras de precisión de varios órdenes de magnitud en tareas de aproximación de funciones unidimensionales
Potencial de Extensión: Demuestra la aplicabilidad del método a funciones multidimensionales y no convexas
Valor Práctico: Puede servir como reemplazo plug-and-play para capas densas en arquitecturas existentes

Limitaciones

Restricciones de Arquitectura: El método actual se limita a estructuras específicas de ancho 4 neuronas
Restricciones de Clase de Función: Directamente aplicable a funciones convexas unidimensionales, la extensión multidimensional requiere estrategias de combinación
Efecto Limitado en Tareas de Clasificación: Las mejoras no son significativas en tareas de clasificación de imágenes
Completitud Teórica: Falta un marco teórico universal para redes ReLU arbitrarias

Direcciones Futuras

Extensión Teórica: Buscar conjuntos densos de funciones unidimensionales que puedan representarse eficientemente
Métodos Multidimensionales: Desarrollar métodos más naturales para representación de funciones multidimensionales
Estructura Dispersa: Superar la limitación actual de solo crear matrices de bloque diagonal dispersas
Exploración de Aplicaciones: Identificar tareas de regresión prácticas más adecuadas

Evaluación Profunda

Ventajas

Innovación Teórica: Proporciona un puente que conecta la capacidad expresiva teórica con la implementación práctica
Rigor Matemático: Análisis completo de diferenciabilidad y pruebas de convergencia
Validación Experimental Completa: Verificación integral desde unidimensional a multidimensional, de regresión a clasificación
Valor Práctico: Aplicable directamente a arquitecturas existentes sin necesidad de rediseño

Insuficiencias

Rango de Aplicabilidad Limitado: Las ventajas principales se concentran en tareas específicas de aproximación de funciones
Problemas de Escalabilidad: La extensión multidimensional depende de combinaciones simples, sin garantías teóricas
Efecto Limitado en Aplicaciones Prácticas: Mejoras limitadas en tareas de clasificación reales
Complejidad Computacional: El entrenamiento de dos etapas aumenta la complejidad de implementación

Impacto

Contribución Teórica: Proporciona nuevas perspectivas y herramientas para la teoría del aprendizaje profundo
Significado Metodológico: Demuestra el valor de la construcción matemática en el diseño de redes neuronales
Potencial Práctico: Puede tener valor importante en computación científica y aplicaciones de ingeniería
Efecto Inspirador: Proporciona nuevas ideas y direcciones para investigación posterior

Escenarios de Aplicabilidad

Computación Científica: Tareas de cálculo numérico que requieren aproximación de función de alta precisión
Aplicaciones de Ingeniería: Sistemas de control, procesamiento de señales y otros campos que requieren modelado preciso
Escenarios de Datos Pequeños: Tareas con datos de entrenamiento escasos pero que requieren buena generalización
Investigación Teórica: Como herramienta para investigar la capacidad expresiva de redes neuronales

Referencias

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, logrando un avance importante en la realización de la capacidad expresiva de redes ReLU. Aunque el rango de aplicaciones actual es limitado, proporciona contribuciones valiosas e inspiradoras tanto para la teoría como para la práctica del aprendizaje profundo.