Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
๋
ผ๋ฌธ ID : 2510.09423์ ๋ชฉ : Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models์ ์ : Yankun Han (ํ๋ก๋ฆฌ๋ค ๋ํ๊ต)๋ถ๋ฅ : cs.LG (๊ธฐ๊ณํ์ต)๋ฐํ ์๊ฐ : 2025๋
10์ 10์ผ (arXiv ์ฌ์ ์ธ์๋ณธ)๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2510.09423 ๊ฐ์ค์น ์ด๊ธฐํ๋ ํ๋ จ ์์ ์ ์ ํธ ์ ํ ๋ฐ ๊ธฐ์ธ๊ธฐ ํ๋ฆ์ ์ ์ดํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ ๊ฐ์ง ์์ญ์ ํฌ๊ดํ๋ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๊ฒฌ๊ณ ํ๊ณ ๊ฒฝํ์ ์ผ๋ก ๊ฒ์ฆ๋ ์ฐ๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค: ๊ฐ๊ฒฐํ ReLU ๋ค์ธต ํผ์
ํธ๋ก ๊ณผ GPT-2 ์คํ์ผ์ Transformer์
๋๋ค. ์ฒซ์งธ, ์ด๊ธฐ ํ์คํธ์ฐจ์ ๋ํ ๋ก๊ทธ ์ค์บ์ ํตํด ๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ ํญ๋ฐ ์์ญ์ ๋งคํํ๊ณ , ํ์คํธ์ฐจ๊ฐ 1e-2์์ 1e-1 ์ฌ์ด์ ๊ด๋ฒ์ํ ์์ ๋์ญ์ ์๋ณํ์ต๋๋ค. ๋์งธ, ์ ์ด๋ ๋น๊ต๋ฅผ ํตํด ReLU ํ์ฑํ ํจ์์์ Kaiming(fan-in) ์ด๊ธฐํ๊ฐ Xavier ์ด๊ธฐํ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์๋ ดํจ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ๋ถ์ฐ ๋ณด์กด ์ด๋ก ๊ณผ ์ผ์นํฉ๋๋ค. ์
์งธ, ์ฒ์๋ถํฐ ๊ตฌ์ถํ 12์ธต GPT-2 ์คํ์ผ ๋ชจ๋ธ์์ ์ฌ์ ํ๋ จ ๊ณผ์ ์ค ๊ฐ ์ธต์ Q/K/V ๊ฐ์ค์น ๋ถ์ฐ ๋ณํ๋ฅผ ์ถ์ ํ์ฌ, ๊น์ด ๊ด๋ จ ๊ท ํ ํ์์ ๊ด์ฐฐํ์ต๋๋ค: ์์ ์ธต์ ๋น ๋ฅด๊ฒ ํ์ฅ๋๋ ๋ฐ๋ฉด ๊น์ ์ธต์ ๋์ฑ ์ ์ง์ ์ผ๋ก ๋ณํํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ๊ฐ ํด๊ฒฐํ๊ณ ์ ํ๋ ํต์ฌ ๋ฌธ์ ๋ ์ฌ์ธต ์ ๊ฒฝ๋ง ๋ฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ ๊ฐ์ค์น ์ด๊ธฐํ๊ฐ ํ๋ จ ์์ ์ฑ ๋ฐ ์๋ ด์ฑ์ ๋ฏธ์น๋ ์ํฅ์
๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ค์์ ํฌํจํฉ๋๋ค:
์ด๊ธฐํ ๊ท๋ชจ ๋ฏผ๊ฐ๋ : ์๋ก ๋ค๋ฅธ ์ด๊ธฐ ํ์คํธ์ฐจ๊ฐ ํ๋ จ ์์ ์ฑ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋๊ฐํ์ฑํ ํจ์ ํน์ด์ฑ : ReLU ๋ฐ GELU ๋ฑ์ ํ์ฑํ ํจ์๊ฐ ํน์ ์ด๊ธฐํ ์ ๋ต์ ํ์๋ก ํ๋๊ฐํ๋ Transformer์ ๋ถ์ฐ ๋์ญํ : ๋๊ท๋ชจ Transformer ๋ชจ๋ธ์์ ๋ถ์ฐ ์์ ํ๊ฐ ๊ณ์ ์กด์ฌํ๋๊ฐ๊ฐ์ค์น ์ด๊ธฐํ๋ ์ฌ์ธตํ์ต ํ๋ จ ์ฑ๊ณต์ ํต์ฌ ์์์ด๋ฉฐ, ๋ถ์ ์ ํ ์ด๊ธฐํ๋ ๋ค์์ ์ด๋ํฉ๋๋ค:
๊ธฐ์ธ๊ธฐ ์์ค : ์ ํธ๊ฐ ๊น์ ์ธต์ ๋คํธ์ํฌ์์ ๊ณ์ธต๋ณ๋ก ๊ฐ์๊ธฐ์ธ๊ธฐ ํญ๋ฐ : ์ ํธ๊ฐ ์ ํ ๊ณผ์ ์์ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ จ ๋ถ์์ ์ฑ : ์ต์ ํ ๊ณผ์ ์์์ ์ง๋ ๋ฐ ๋ฐ์ฐ๊ณ ์ ์ ์ธ ์ด๊ธฐํ ๋ฐฉ๋ฒ(LeCun, Xavier/Glorot, He/Kaiming)์ ์ด๋ก ์ ์ผ๋ก ๋ถ์ฐ ๋ณด์กด์ ์ง๊ด์ ๊ฐ์ง๊ณ ์์ง๋ง, ์ค์ ์์ฉ์์๋ ์ฌ์ ํ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค:
์ด์์ ์ธ ๊ท๋ชจ ํธ์ฐจ์ ๋ํ ๋ฏผ๊ฐ๋๊ฐ ์ถฉ๋ถํ ์ ๋ํ๋์ง ์์ ํน์ ํ์ฑํ ํจ์(์: ReLU, GELU)์ ์ํฅ ๋ฉ์ปค๋์ฆ์ด ๋ถ๋ช
ํ ๋๊ท๋ชจ Transformer์์์ ์ฑ๋ฅ์ ๋ํ ์ฒด๊ณ์ ์ฐ๊ตฌ ๋ถ์กฑ ํตํฉ ๋ถ์ฐ ๋ถ์ ํ๋ ์์ํฌ : ์ผ๋ฐ์ ์ธ ํ์ฑํ ํจ์(ReLU, GELU)์ ์ ๋ฐฉํฅ ๋ฐ ์ญ๋ฐฉํฅ ๋ถ์ฐ ์ ํ ์กฐ๊ฑด์ ๋์ถํ์ฌ, fan-in ์ค์ผ์ผ๋ง์ด ์ ํธ ์งํญ์ ์ด๋ป๊ฒ ๋ณด์กดํ๋์ง, ๊ทธ๋ฆฌ๊ณ ReLU์ ๊ณ์ 2์ ์ถ์ฒ๋ฅผ ์ค๋ช
ํฉ๋๋ค.๊ท๋ชจ ๋ฏผ๊ฐ๋ ์ ๋ํ : 25๊ฐ์ ํ์คํธ์ฐจ ๊ฐ์ ๋ํ ๋ก๊ทธ ์ค์บ์ ํตํด ๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ์์ญ์ ๋งคํํ๊ณ , ์์ ์ ์ธ ํ๋ จ ๋์ญ ฯ โ 10โปยฒ, 10โปยน ์ ์๋ณํ์ต๋๋ค.ํ์ฑํ ํจ์ ์ธ์ ์ด๊ธฐํ ๊ฒ์ฆ : ์ ์ด๋ ReLU MLP ํ๋ จ์์ Kaiming normal(fan-in)์ด Xavier normal๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ ์์ค ๋ถ์ฐ์ด ๋ ์์์ ์
์ฆํ์ต๋๋ค.Transformer ๋ถ์ฐ ๋์ญํ ๋ถ์ : ์ฒ์๋ถํฐ ๊ตฌ์ถํ 12์ธต GPT-2 ์คํ์ผ ๋ชจ๋ธ์์ ๋ช
ํํ ๊น์ด ๊ด๋ จ ํจํด์ ๋ฐ๊ฒฌํ์ต๋๋ค: ์์ ์ธต ๊ฐ์ค์น ํ์คํธ์ฐจ๋ ๋น ๋ฅด๊ฒ ํ์ฅ๋๊ณ , ๊น์ ์ธต์ ๋์ฑ ์ ์ง์ ์ด๋ฉฐ, ์ต์ข
์ ์ผ๋ก ๋ชจ๋ ์ข์ ๋ถ์ฐ ๋์ญ์์ ์์ ํ๋ฉ๋๋ค.์ ํ ๋งคํ์ ๊ฒฝ์ฐ:
Var[z_l] = n_in ฯยฒ_W Var[x_{l-1}]
๋น์ ํ ํ์ฑํ ํ:
Var[x_l] โ c_ฯ n_in ฯยฒ_W Var[x_{l-1}]
์ฌ๊ธฐ์ c_ฯ = E[ฯ(z)ยฒ]/Var[z]๋ ํ์ฑํ ํจ์ ๊ด๋ จ ์์์
๋๋ค.
ํ์ฑํ ๊ฐ์ ์์ค ๋๋ ํญ๋ฐ์ ํผํ๊ธฐ ์ํด ฯยฒ_W โ 1/(c_ฯ n_in)์ ์ ํํฉ๋๋ค:
ReLU : c_ฯ โ 1/2์ด๋ฏ๋ก ฯยฒ_W โ 2/n_in (He/Kaiming)GELU : c_ฯ โ 0.45-0.5๋ก ReLU๋ณด๋ค ์ฝ๊ฐ ์์์ญ์ ํ๋ ๋ค์์ ์ ๊ณตํฉ๋๋ค:
Var[ฮด_{l-1}] โ n_out ฯยฒ_W d_ฯ Var[ฮด_l]
์ฌ๊ธฐ์ d_ฯ = E[ฯ'(z)ยฒ]์
๋๋ค. ReLU์ ๊ฒฝ์ฐ d_ฯ = 1/2์ด๊ณ , ๊ธฐ์ธ๊ธฐ ๋ถ์ฐ ๊ท ํ์ ์ํด์๋ ฯยฒ_W โ 2/n_out์ด ํ์ํฉ๋๋ค.
์ ๋ฐฉํฅ ๋ฐ ์ญ๋ฐฉํฅ ๋ณด์กด ์กฐ๊ฑด์ ์ผ๋ฐ์ ์ผ๋ก ๋์์ ๋ง์กฑ๋ ์ ์์ผ๋ฉฐ, n_in โ n_out ๋ฐ c_ฯ โ d_ฯ์ธ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํฉ๋๋ค. ์ค์ ๋ก๋ ์ ๋ฐฉํฅ ์ ํธ ์์ ์ฑ์ ์ ์งํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ ์ค์ํ๋ฉฐ, ์ด๋ fan-in He/Kaiming์ด Xavier๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ ์ด์ ๋ฅผ ์ค๋ช
ํฉ๋๋ค.
๋คํธ์ํฌ ์ํคํ
์ฒ : 784โ64โ32โ32โ10์ ReLU MLP๋ฐ์ดํฐ์
: MNIST์ค์บ ๋ฒ์ : 10โปโด์์ 10๊น์ง 25๊ฐ์ ํ์คํธ์ฐจ ๊ฐ, ๋ก๊ทธ ๊ฐ๊ฒฉํ๊ฐ ์งํ : ์์ค ๊ถค์ , ๋ถ๋ฅ ์ ํ๋๋คํธ์ํฌ ์ํคํ
์ฒ : 11โ16โ32โ32โ1์ ReLU ๋คํธ์ํฌ๋ฐ์ดํฐ์
: UCI Wine ์ด์ง ๋ถ๋ฅ ์์
๋น๊ต ๋ฐฉ์ : Xavier normal vs Kaiming uniformํต๊ณ ๊ฒ์ฆ : 10ํ ๋ฌด์์ ์คํ, ์์ ์ด๋ฃฌ t ๊ฒ์ ๋ชจ๋ธ ๊ท๋ชจ : 12์ธต GPT-2 ์คํ์ผ Transformer์ด๊ธฐํ : ํ์ค ๊ตฌ์ฑ(๋๋ถ๋ถ์ ๋ชจ๋ std=0.02, ์๋ฒ ๋ฉ ์ธต xavier normal)์ต์ ํ๊ธฐ : AdamW, ํ์ต๋ฅ 1ร10โปโด, ๋ฐฐ์น ํฌ๊ธฐ 16์ถ์ ๋์ : ๋ชจ๋ ์ธต์ Q/K/V ํฌ์ ๊ฐ์ค์น ํ์คํธ์ฐจ์์ ๊ตฌ๊ฐ : ฯ โ 10โปยฒ, 10โปยน ๋ด์์ ํ๋ จ์ด ํํํ๊ณ , ๊ธฐ์ธ๊ธฐ ์ฑ๋ฅ์ด ์ํธํ๋ฉฐ, ์ ํ๋๊ฐ ์ด ๊ตฌ๊ฐ ๋ด์์ ์ต๊ณ ๊ฐ์ ๋๋ฌํฉ๋๋ค.๊ธฐ์ธ๊ธฐ ์์ค : ๊ทน์ ๊ท๋ชจ(ฯ โฒ 10โปยณ)๋ ์
๋ฐ์ดํธ ์์ค ๋ฐ ์ ํ๋ ์ ํ๋ฅผ ์ด๋ํฉ๋๋ค.๊ธฐ์ธ๊ธฐ ํญ๋ฐ : ๊ทน๋ ๊ท๋ชจ(ฯ โณ 1)๋ ๋ถ์์ ํ ์์ค ๋ฐ ๊ฐํ์ ๋ฐ์ฐ์ ์์ฑํฉ๋๋ค.Kaiming ์ด๊ธฐํ๋ ์ฌ๋ฌ ์ฐจ์์์ ์ง์์ ์ผ๋ก Xavier๋ฅผ ๋ฅ๊ฐํฉ๋๋ค:
์๋ ด ์๋ : ๋ชฉํ ๋ฌ์ฑ๊น์ง์ ์ค์๊ฐ ์ํฌํฌ๊ฐ ๋ ์ ๊ณ , ์ด๊ธฐ ์์ค ๊ฐ์๊ฐ ๋ ๊ฐํ๋ฆ
๋๋ค.์ ํ๋ : ์ต์ข
๊ฒ์ฆ ์ ํ๋๊ฐ Xavier์ ์ผ์นํ๊ฑฐ๋ ์ฝ๊ฐ ์ด๊ณผํฉ๋๋ค.ํต๊ณ์ ์ ์์ฑ : ์์ ์ด๋ฃฌ t ๊ฒ์ ์ ์์ค ๋ฐ ํ๋ จ ์ ํ๋ ์ฐจ์ด๊ฐ ์ ์ํจ์ ๋ณด์ฌ์ค๋๋ค(p < 0.05).๊น์ด ๊ด๋ จ ํจํด : ์์ ์ธต์ ์ด๊ธฐ ํ๋ จ์์ ๋น ๋ฅด๊ณ ํ์ ํ ๊ฐ์ค์น ํ์คํธ์ฐจ ํ์ฅ์ ๋ณด์ด๋ ๋ฐ๋ฉด, ๊น์ ์ธต์ ๋์ฑ ๋๋ฆฌ๊ณ ํํํ ํ์ฅ์ ๋ณด์
๋๋ค.๋ถ์ฐ ๊ท ํ : ๋ชจ๋ ์ธต์ ์ต์ข
์ ์ผ๋ก ์ข์ ๋ถ์ฐ ๋์ญ์์ ์์ ํ๋ฉ๋๋ค.๋ถํฌ ํฌ์ํ : ํ๋ จ ํ ๊ฐ์ค์น ๋ถํฌ๋ ๋์ฑ ํฌ์ํด์ง๋ฉฐ, ๋ง์ ํญ๋ชฉ์ด 0์ ๊ฐ๊น์ ๋ณํ์ง ์๊ณ , ์์์ ํฐ ๊ฐ์ค์น๊ฐ ์ง๋ฐฐ์ ์
๋๋ค.๋
ผ๋ฌธ์ Transformer์ ์ ์ง์ ๊ท ํ ํจํด์ ๋๋ฌ๋
๋๋ค:
์์ ์ธต์ ๋น ๋ฅธ ์ ์ : ์
๋ ฅ์ ๊ฐ๊น์ด ์ธต์ ๋์ ์ ํธ ๋ ์ก์๋น ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๊ธฐ ์ ๊ทน์ ์ค์ผ์ผ๋ง์ ์ฅ๋ คํฉ๋๋ค.๊น์ ์ธต์ ์ ์ง์ ์กฐ์ : ์์ฐจ ๊ฒฝ๋ก ๊ธธ์ด ๋ฐ ์ฌ์ ์ ๊ทํ๋ ๊น์ ์ธต์ ์ ํจ ์คํ
ํฌ๊ธฐ๋ฅผ ์ ํํฉ๋๋ค.์๋ฌต์ ์ ์ฝ : ์ฃผ์ softmax ํฌํ ๋ฐ AdamW์ ๊ฐ์ค์น ๊ฐ์๋ ํฐ ๋งค๊ฐ๋ณ์ ๊ท๋ชจ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.ReLU/GELU MLP : fan-in He/Kaiming์์ ์์ํฉ๋๋ค. ๋งค์ฐ ๋ถ๊ท ํํ ์ธต์ด ๊ธฐ์ธ๊ธฐ ๋๋ฆฌํํธ๋ฅผ ์ด๋ํ๋ฉด, fan-average ์ ํ์ผ๋ก ์ฝ๊ฐ ์ด๋ํฉ๋๋ค.๊น์ ์์ฐจ ์คํ : ์์ฐจ ์ค์ผ์ผ๋ง(์: 1/โL) ๋๋ ์ ๊ทํ๋ ๊น์ด ๋ถ์ฐ ๋๋ฆฌํํธ ๋ฐฉ์ง์ ๋์์ด ๋ฉ๋๋ค.Transformer ํฌ์ : ์์ ํ์คํธ์ฐจ ์ด๊ธฐํ(์: 0.02)๋ฅผ ์ฌ์ฉํ๊ณ , ๊ฐ ์ธต์ ํ์คํธ์ฐจ ๋ฐ ๊ธฐ์ธ๊ธฐ ๋ฒ์๋ฅผ ๋ชจ๋ํฐ๋งํฉ๋๋ค.LeCun ๋ฐฉ๋ฒ : ์ ํ ํ์ฑํ์ ๋ํ ๋ถ์ฐ ๋ณด์กด ๊ท์นGlorot/Xavier : tanh/sigmoid ์ค์ผ์ผ๋ง์ ์ํ fan ๊ธฐ๋ฐHe/Kaiming : ReLU์์ ์ด์ฐจ ๋ชจ๋ฉํธ ๋ฐ๊ฐ์ ๋ณด์ ํ๋ ํ์ฑํ ์ธ์ ์ค์ผ์ผ๋งFixup ์ด๊ธฐํ : ์ ์คํ๊ฒ ์ ํ๋ ์ด๊ธฐํ ๋ฐ ์์ฐจ ์ค์ผ์ผ๋ง์ ํตํด ๊ทน๋๋ก ๊น์ ๋คํธ์ํฌ์์ ์ ๊ทํ ํ์์ฑ ์ ๊ฑฐDeepNet : ์ฒ ์ธต๊ธ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์์น์ ๊น์ด ์ค์ผ์ผ๋ง ๊ท์น ์ ์์ฌ์ ์ ๊ทํ ์ฅ์ : ์ฌํ ์ ๊ทํ์ ๋น๊ตํ์ฌ ํํํ ๊ธฐ์ธ๊ธฐ ํ๋ฆ์ ํตํด ์ต์ ํ ์์ ์ฑ ๊ฐ์ ์์ ์ฑ ๋์ญ ์กด์ฌ : ฯ โ 10โปยฒ, 10โปยน ๋ฒ์ ๋ด์ ๊ด๋ฒ์ํ์ง๋ง ๋ฏผ๊ฐํ ์์ ์ฑ ๋์ญ์ด ์กด์ฌํฉ๋๋ค.ํ์ฑํ ํจ์ ํน์ด์ฑ ์ค์ : Kaiming ์ด๊ธฐํ๋ ReLU ๋คํธ์ํฌ์์ ์ค์ ๋ก Xavier๋ณด๋ค ์ฐ์ํฉ๋๋ค.๊น์ด ๊ด๋ จ ๋์ญํ : Transformer๋ ๊น์ด ๊ด๋ จ ๋ถ์ฐ ๊ท ํ์ ๋ํ๋ด๋ฉฐ, ์์ ์ธต์ ๋น ๋ฅด๊ฒ ์ ์ํ๊ณ ๊น์ ์ธต์ ์ ์ง์ ์ผ๋ก ์กฐ์ ๋ฉ๋๋ค.์คํ ๊ท๋ชจ : GPT-2 ์คํ์ ์๋์ ์ผ๋ก ์์ต๋๋ค(12์ธต). ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋์์ ๋ค๋ฅผ ์ ์์ต๋๋ค.ํ์ฑํ ํจ์ ๋ฒ์ : ์ฃผ๋ก ReLU ๋ฐ GELU์ ์ด์ ์ ๋ง์ถ๋ฉฐ, ๋ค๋ฅธ ํ์ฑํ ํจ์์ ๋ถ์์ ์ ํ์ ์
๋๋ค.์ต์ ํ๊ธฐ ์์กด์ฑ : ๊ฒฐ๊ณผ๋ ํน์ ์ต์ ํ๊ธฐ(AdamW) ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ฏผ๊ฐํ ์ ์์ต๋๋ค.์ ์ํ ๊น์ด ์ธ์ ์ด๊ธฐํ : ๊ฐ ์ธต ๋๋ ๊ฐ ํค๋์ ๊ท๋ชจ๋ฅผ ํ์ตํ์ฌ ์์ ์ธต์ ์ต์ข
๋ถ์ฐ ์์ค์ ๋ ๊ฐ๊น๊ฒ ๋ง๋ญ๋๋ค.์ต์ ํ๊ธฐ ๋ฐ ์ค์ผ์ค ๊ฒฐํฉ : ์์ด ๊ธธ์ด, ๊ฐ์ค์น ๊ฐ์ ๋ฐ ๊ธฐ์ธ๊ธฐ ํด๋ฆฌํ์ ๊ณต๋์ผ๋ก ์ต์ ํํฉ๋๋ค.๊น์ด ๋ฐ ๋๋น ์ค์ผ์ผ๋ง : ๋ ํฐ ๋ชจ๋ธ์์ ๊น์ด ๊ด๋ จ ๊ท ํ์ ์ง์์ฑ์ ํ๊ฐํฉ๋๋ค.์ด๋ก ๊ณผ ์ค์ ์ ๊ฒฐํฉ : ๊ณ ์ ์ ๋ถ์ฐ ์ ํ ์ด๋ก ์ ํ๋ Transformer ๋์๊ณผ ์ ๊ธฐ์ ์ผ๋ก ๊ฒฐํฉํฉ๋๋ค.์ฒด๊ณ์ ์คํ ์ค๊ณ : ๊ฐ๋จํ MLP์์ ๋ณต์กํ Transformer๋ก์ ์ ์ง์ ๊ฒ์ฆ๋์ ์ค์ ๊ฐ์น : ๊ตฌ์ฒด์ ์ธ ์ด๊ธฐํ ๊ถ์ฅ์ฌํญ ๋ฐ ์ง๋จ ๋ฐฉ๋ฒ ์ ๊ณตํต๊ณ์ ์๋ฐ์ฑ : ์์ ์ด๋ฃฌ t ๊ฒ์ ๋ฑ์ ํต๊ณ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒฐ๊ณผ ์ ์์ฑ ๊ฒ์ฆ์ด๋ก ๋ถ์ ๊น์ด ์ ํ : ๊น์ด ๊ด๋ จ ํ์์ ๋ํ ๋ ๊น์ ์ด๋ก ์ ์ค๋ช
๋ถ์กฑ์คํ ๊ท๋ชจ ์ ์ฝ : ๊ณ์ฐ ์์ ์ ํ์ผ๋ก ์ธํด ์ง์ ํ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๊ฒ์ฆํ์ง ๋ชปํจ์ผ๋ฐํ ๋ฌธ์ : ๊ฒฐ๊ณผ๋ ์ฃผ๋ก ํน์ ์ํคํ
์ฒ ๋ฐ ์์
์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.ํ์ ๊ธฐ์ฌ : ์ด๊ธฐํ ์ด๋ก ์ ํ๋์ ๊ด์ ์ ์ ๊ณตํ์ฌ ๊ณ ์ ์ด๋ก ๊ณผ ํ์ฌ ์ค์ ๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค.์ค์ ๊ฐ์น : ์ค๋ฌด์์๊ฒ ๋ช
ํํ ์ด๊ธฐํ ์ ๋ต ๋ฐ ์ง๋จ ๋๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.์ฌํ์ฑ : ์คํ ์ค๊ณ๊ฐ ๋ช
ํํ๊ณ ์ฝ๋ ๋ฐ ๋งค๊ฐ๋ณ์ ์ค์ ์ด ์์ธํ์ฌ ์ฌํ์ด ์ฉ์ดํฉ๋๋ค.์ฌ์ธต ๋คํธ์ํฌ ํ๋ จ : ํนํ ReLU/GELU ํ์ฑํ์ ์ฌ์ธต ๋คํธ์ํฌ์ ์ ํฉํฉ๋๋ค.Transformer ์ต์ ํ : ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ํ๋ จ์ ์ด๊ธฐํ ์ง๋๋ฅผ ์ ๊ณตํฉ๋๋ค.์ฐ๊ตฌ ๋๊ตฌ : ์ฐ๊ตฌ์์๊ฒ ๊ฐ์ค์น ๋์ญํ ๋ถ์์ ์ํ ๋ฐฉ๋ฒ๋ก ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.๋
ผ๋ฌธ์ LeCun, Glorot, He ๋ฑ์ ๊ธฐ์ด ์ฐ๊ตฌ๋ฅผ ํฌํจํ ์ด๊ธฐํ ๋ถ์ผ์ ํต์ฌ ์ ์๊ณผ Transformer ์ต์ ํ์ ์ต๊ทผ ์ง์ ์ ์ธ์ฉํ์ฌ ๋ณธ ์ฐ๊ตฌ์ ๊ฒฌ๊ณ ํ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.