2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

ReLU 네트워크를 초기화 및 훈련 중에 지수적으로 많은 선형 영역을 나타내도록 강제하기

기본 정보

논문 ID: 2311.18022
제목: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
저자: Max Milkert, David Hyde, Forrest Laine
분류: cs.LG cs.AI
발표 시간/학회: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
논문 링크: https://arxiv.org/abs/2311.18022

초록

ReLU 활성화 함수를 가진 신경망에서 출력의 구간별 선형 영역 수는 이론적으로 깊이에 따라 지수적으로 증가할 수 있습니다. 그러나 초기 매개변수가 무작위로 샘플링될 때, 이러한 현상은 극히 드물게 발생하며, 이는 종종 불필요하게 큰 네트워크의 사용으로 이어집니다. 이 문제를 해결하기 위해 본 논문은 새로운 네트워크 매개변수화 방법을 제안하며, 깊이가 $d$ 인 네트워크가 초기화 시 정확히 $2^d$ 개의 선형 영역을 생성하고 훈련 중에 이러한 영역을 유지하도록 가중치를 제약합니다. 이 방법은 볼록 1차원 함수 근사 학습에서 무작위 초기화된 대응 네트워크보다 정확도에서 몇 자릿수 우수합니다. 저자들은 또한 이 구성이 다차원 및 비볼록 함수로 확장되는 초기 결과를 보여주며, 이 기법이 다양한 아키텍처의 기존 밀집층을 대체할 수 있음을 입증합니다.

연구 배경 및 동기

문제 정의

ReLU 네트워크는 이론적으로 강력한 표현 능력을 가지고 있으며, 선형 영역의 수는 깊이에 따라 지수적으로 증가할 수 있지만, 실제 응용에서는 중대한 격차가 존재합니다:

이론과 실제의 괴리: 이론적으로 깊이 $d$ 인 ReLU 네트워크는 $2^d$ 개의 선형 영역을 생성할 수 있지만, Hanin & Rolnick (2019)은 무작위 초기화 네트워크의 평균 선형 영역 수가 깊이와 무관하며 오직 신경원의 총 개수와만 관련이 있음을 증명했습니다.
경사 하강법의 한계: 경사 하강법은 새로운 활성화 영역을 생성하기 어렵습니다. 왜냐하면 선형 영역의 수는 매개변수 공간에서 "국소적" 속성이 아니며, 경사 최적화를 통해 직접 최적화될 수 없기 때문입니다.
네트워크 중복 문제: 실제로 약 95%의 가중치가 정확도에 큰 영향을 주지 않고 제거될 수 있으며, 이는 기존 훈련 방법의 비효율성을 나타냅니다.

연구 동기

본 논문의 핵심 동기는 무작위 초기화의 한계를 피하기 위한 수학적 알고리즘을 개발하여 ReLU 네트워크가 이론적 표현 능력을 실현하도록 강제함으로써, 더 작은 네트워크로 더 나은 성능을 달성하는 것입니다.

핵심 기여

새로운 재매개변수화 방법: 4개 신경원 너비, 임의의 깊이를 가진 ReLU 네트워크의 재매개변수화 전략을 제안하여, 깊이 $d$ 네트워크가 초기화 시 $2^d$ 개의 활성화 영역을 생성하도록 보장합니다.
사전훈련 전략: 최적화 과정 중에 $2^d$ 개의 활성화 영역의 존재를 강제하는 사전훈련 방법을 개발합니다.
현저한 성능 향상: 1차원 테스트 사례에서 자릿수 수준의 네트워크 성능 개선을 달성합니다.
확장 응용: 방법을 비볼록 및 다차원 함수로 확장하고, 임의의 네트워크에서 밀집층의 플러그 앤 플레이 대체품으로 사용합니다.

방법 상세 설명

핵심 개념

이 방법은 삼각파 함수의 조합을 기반으로 지수 수준의 선형 영역을 가진 네트워크를 구축합니다:

삼각함수 정의

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

여기서 $0 < ai < 1$ 은 $i$ 번째 층 삼각함수의 피크 위치입니다.

파형 조합

각 층은 함수 조합을 통해 삼각파를 생성합니다:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

이러한 파형은 $2^i$ 개의 선형 영역을 가지며, 각 층마다 두 배씩 증가합니다.

네트워크 출력

최종 네트워크 출력은 각 층 삼각파의 가중합입니다:

F(x) = Σ(i=0 to ∞) si * Wi(x)

네트워크 아키텍처 설계

단일 층 구현

각 삼각함수는 두 개의 ReLU 신경원으로 구현됩니다:

신경원 t1: 입력 가중치 1, 출력 가중치 1/a, 항상 활성화
신경원 t2: 편향 -a, 출력 가중치 -1/(a-a²), x>a일 때 활성화

다층 조합

깊이 스택을 통해 함수 조합을 구현하며, 각 층은 다음을 포함합니다:

t1, t2 신경원: 삼각함수 구현
합 신경원: 이전 층의 삼각파 출력 누적
편향 신경원: 지수 감소 편향 처리

가중치 행렬 형식

은닉층의 행렬 형식은 다음과 같습니다:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

미분가능성 제약

정리 3.1

무한 깊이 극한에서 네트워크 출력이 미분가능하도록 보장하기 위해, 스케일링 계수는 다음을 만족해야 합니다:

si+1 = si(1-ai+1)ai+2

이 제약은 도함수의 연속성을 보장하여 출력이 프랙탈 곡선이 되는 것을 방지합니다.

훈련 알고리즘

3단계 훈련 과정

재매개변수화 및 초기화: 삼각파 피크 위치에 따라 네트워크 가중치 설정
사전훈련: 재매개변수화 제약 하에서 네트워크 훈련
표준 훈련: 네트워크 가중치 직접 최적화

알고리즘 흐름

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # 삼각파 피크 위치
while Epochs > 0:
    Network ← Set_Weights(A)  # A에 따라 가중치 설정
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # 가중치 설정을 통한 역전파
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # 네트워크 가중치가 아닌 A 업데이트

실험 설정

1차원 함수 실험

데이터셋

밀집 데이터: 0,1 구간의 500개 등간격 점
희소 데이터: 10개 훈련점, 10개 테스트점 (훈련점 사이에 위치)

목표 함수

$x^3$ , $x^{11}$ (볼록 함수, 뺄셈 조합)
$\sin(x)$ , $\tanh(3x)$ (덧셈 조합을 통한 근사)

네트워크 구성

4개 신경원 너비, 5개 은닉층
Adam 최적화기, 학습률 0.001, 1000 에포크

비교 방법

기본 네트워크: Kaiming 초기화
RAAI 분포: 개선된 가중치 분포 초기화
사전훈련 스킵: 본 논문 초기화만 사용하되 표준 훈련만 수행
정규화 없는 사전훈련: 미분가능성 제약 미적용
완전한 방법: 사전훈련 + 미분가능성 제약

확장 실험

비볼록 및 다차원 함수

비볼록 함수: $y = x^3 - x$ (두 네트워크의 차)
2차원 함수: $z = r^3$ (두 네트워크의 합)

이미지 분류

ImageNet의 VGG-16: 분류기의 밀집층 대체
CIFAR-10: CNN 아키텍처에 적용

실험 결과

1차원 함수 근사 결과

밀집 데이터 성능 (최소 MSE 오차)

방법	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming 초기화	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
RAAI 분포	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
사전훈련 스킵	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
정규화 없는 사전훈련	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
완전한 방법	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

주요 발견

자릿수 개선: 완전한 방법이 기본 네트워크보다 3자릿수 정확함
사전훈련의 중요성: 사전훈련을 스킵해도 초기화만으로 현저한 개선
미분가능성 제약 효과: 미분가능성 강제로 안정성과 정확도 추가 향상
죽은 ReLU 문제: 기존 방법에서 약 50% 네트워크가 죽은 ReLU 현상으로 붕괴

희소 데이터 일반화 능력

방법	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming 초기화	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
완전한 방법	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

확장 응용 결과

비볼록 및 다차원 함수

$x^3-x$ 근사: 본 논문 방법 오차 5.52×10⁻⁷ vs 표준 8×5 네트워크 오차 8×10⁻⁶
$z=r^3$ 근사: 본 논문 방법 오차 3.5×10⁻⁶ vs 표준 네트워크 오차 1.5×10⁻⁴ (약 2자릿수 개선)

이미지 분류 성능

ImageNet VGG-16: 훈련 초기에 우위, 최종 정확도 동등 (73.3%)
CIFAR-10: 표준 방법과 동등한 성능, 방법의 일반성 입증

결론 및 논의

주요 결론

이론적 돌파: ReLU 네트워크가 지수 수준의 선형 영역을 생성하도록 강제하는 실용적 방법을 처음 실현
현저한 개선: 1차원 함수 근사 작업에서 자릿수 수준의 정확도 향상 달성
확장 잠재력: 다차원 및 비볼록 함수에서의 방법 적용 가능성 입증
실용적 가치: 기존 아키텍처의 밀집층의 플러그 앤 플레이 대체품으로 사용 가능

한계

아키텍처 제한: 현재 방법은 4개 신경원 너비의 특정 구조로 제한
함수 클래스 제한: 1차원 볼록 함수에 직접 적용 가능, 다차원 확장은 조합 전략 필요
분류 작업 효과 제한: 이미지 분류 등의 작업에서 개선 미미
이론적 완전성: 임의의 ReLU 네트워크에 대한 통용 이론 프레임워크 부재

향후 방향

이론 확장: 효율적으로 표현 가능한 1차원 함수의 조밀한 집합 탐색
다차원 방법: 더 자연스러운 다차원 함수 표현 방법 개발
희소 구조: 현재 희소 블록 대각 행렬만 생성 가능한 제한 극복
응용 탐색: 더 적합한 실용적 회귀 작업 발굴

심층 평가

장점

이론적 혁신: 이론적 표현 능력과 실제 구현 간의 다리 제공
수학적 엄밀성: 완전한 미분가능성 분석 및 수렴성 증명
충분한 실험: 1차원에서 다차원까지, 회귀에서 분류까지의 포괄적 검증
실용적 가치: 기존 아키텍처에 직접 적용 가능, 재설계 불필요

부족한 점

제한된 적용 범위: 주요 우위는 특정 유형의 함수 근사 작업에 집중
확장성 문제: 다차원 확장은 단순 조합에 의존, 이론적 보장 부재
실제 응용 효과: 실제 분류 작업에서의 개선 제한적
계산 복잡도: 2단계 훈련으로 구현 복잡성 증가

영향력

이론적 기여: 심층 학습 이론에 새로운 관점과 도구 제공
방법론적 의의: 신경망 설계에서 수학적 구성의 가치 입증
실용적 잠재력: 과학 계산 및 공학 응용에서 중요한 가치 가능
영감 제공: 후속 연구에 새로운 사고와 방향 제시

적용 시나리오

과학 계산: 고정확도 함수 근사가 필요한 수치 계산 작업
공학 응용: 제어 시스템, 신호 처리 등 정확한 모델링이 필요한 분야
소규모 데이터 시나리오: 훈련 데이터 부족하지만 좋은 일반화가 필요한 작업
이론 연구: 신경망 표현 능력 연구의 도구로 사용

참고문헌

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

종합 평가: 이는 ReLU 네트워크의 표현 능력 실현 측면에서 중요한 돌파구를 이룬 이론과 실제를 모두 중시하는 우수한 논문입니다. 현재 응용 범위는 제한적이지만, 심층 학습 이론과 실제에 가치 있는 기여와 영감을 제공합니다.