Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
ReLU 활성화 함수를 가진 신경망에서 출력의 구간별 선형 영역 수는 이론적으로 깊이에 따라 지수적으로 증가할 수 있습니다. 그러나 초기 매개변수가 무작위로 샘플링될 때, 이러한 현상은 극히 드물게 발생하며, 이는 종종 불필요하게 큰 네트워크의 사용으로 이어집니다. 이 문제를 해결하기 위해 본 논문은 새로운 네트워크 매개변수화 방법을 제안하며, 깊이가 d인 네트워크가 초기화 시 정확히 2d개의 선형 영역을 생성하고 훈련 중에 이러한 영역을 유지하도록 가중치를 제약합니다. 이 방법은 볼록 1차원 함수 근사 학습에서 무작위 초기화된 대응 네트워크보다 정확도에서 몇 자릿수 우수합니다. 저자들은 또한 이 구성이 다차원 및 비볼록 함수로 확장되는 초기 결과를 보여주며, 이 기법이 다양한 아키텍처의 기존 밀집층을 대체할 수 있음을 입증합니다.
Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # 삼각파 피크 위치
while Epochs > 0:
Network ← Set_Weights(A) # A에 따라 가중치 설정
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # 가중치 설정을 통한 역전파
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # 네트워크 가중치가 아닌 A 업데이트