Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
๋
ผ๋ฌธ ID : 2511.12056์ ๋ชฉ : PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling์ ์ : Sijie Wang, Qiang Wang, Shaohuai Shi (ํ์ผ๋น๊ณต์
๋ํ๊ต ์ ์ ์บ ํผ์ค)๋ถ๋ฅ : cs.CV, cs.AI, cs.DC๋ฐํ ์๊ฐ : 2025๋
11์ 15์ผ (arXiv ํ๋ฆฌํ๋ฆฐํธ)๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2511.12056 ๋น๋์ค ์์ฑ ๊ธฐ์ ์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ผ๋ฉฐ, ํ์ฐ ํธ๋์คํฌ๋จธ(DiT) ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ฐฐํฌ์์ ๋๋ฆฐ ์ถ๋ก ์๋์ ๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น ๋ฌธ์ ์ ์ง๋ฉดํ๊ณ ์์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์ธ ๊ฐ์ง ํ์ ์ ํตํด ๋น๋์ค ์์ฑ์ ๊ฐ์ํํ๋ PipeDiT ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค: (1) PipeSP ์๊ณ ๋ฆฌ์ฆ์ ์ํ์ค ๋ณ๋ ฌํ์์ ๊ณ์ฐ๊ณผ ํต์ ์ ํ์ดํ๋ผ์ด๋์ ๊ตฌํํฉ๋๋ค; (2) DeDiVAE ๋ฐฉ๋ฒ์ ํ์ฐ ๋ชจ๋๊ณผ VAE ๋์ฝ๋๋ฅผ ์๋ก ๋ค๋ฅธ GPU ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฆฌํฉ๋๋ค; (3) Aco ์ฃผ์๋ ฅ ํ๋ ฅ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ GPU ํ์ฉ๋ฅ ์ ์ต์ ํํฉ๋๋ค. OpenSoraPlan๊ณผ HunyuanVideo ๋ ๊ฐ์ ์คํ์์ค ํ๋ ์์ํฌ์ ๋ํ ์คํ์ PipeDiT๊ฐ 1.06๋ฐฐ์์ 4.02๋ฐฐ์ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ฐ ํธ๋์คํฌ๋จธ(DiT)๋ ๋น๋์ค ์์ฑ์์ ๋ ๊ฐ์ง ์ฃผ์ ๋ณ๋ชฉ ํ์์ ์ง๋ฉดํฉ๋๋ค:
๋์ ์ถ๋ก ์ง์ฐ : ์ญ๋ฐฉํฅ ํ์ฐ ๊ณผ์ ์ ๊ณ ์ ํ ์ง๋ ฌ ํน์ฑ์ด ๋ณ๋ ฌ์ฑ์ ์ฌ๊ฐํ๊ฒ ์ ํํฉ๋๋ค๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น : VAE ๋์ฝ๋ฉ ๋จ๊ณ์์ ๋ชฉํ ํด์๋ ๋ฐ ํ๋ ์ ์๋๋ก ์
์ํ๋งํ๊ธฐ ๋๋ฌธ์ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฐจ์งํฉ๋๋ค์ค์ฉ์ฑ ์๊ตฌ์ฌํญ : ๋น๋์ค ์์ฑ ์๋น์ค๋ ์ฌ๋ฌ ๋์ ์ฟผ๋ฆฌ๋ฅผ ์ฒ๋ฆฌํด์ผ ํ๋ฉฐ, ์ถ๋ก ํจ์จ์ฑ์ด ์ฌ์ฉ์ ๊ฒฝํ๊ณผ ์๋น์ค ๋น์ฉ์ ์ง์ ์ํฅ์ ๋ฏธ์นฉ๋๋คํ๋์จ์ด ์ ํ : ์คํ์ ๋ฐ๋ฅด๋ฉด 48GB GPU ๋ฉ๋ชจ๋ฆฌ ์ ํ ํ์์ OpenSoraPlan์ 1024ร576ร97 ํด์๋๋ฅผ ์ด๊ณผํ๋ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, HunyuanVideo๋ 256ร128ร33์ผ๋ก ๋์ฑ ์ ํ๋ฉ๋๋ค์ด๋ฏธ์ง ์์ฑ ์ต์ ํ ๋ฐฉ๋ฒ :
DistriFusion๊ณผ PipeFusion์ ์ด๋ฏธ์ง ์์ฑ์ ์ํด ์ค๊ณ๋์ด ๋น๋์ค ์์ฑ์ ๊ธด ์ํ์ค ํน์ฑ์ ์ ํฉํ์ง ์์ต๋๋ค ๋น๋์ค ์์ฑ ์ต์ ํ ๋ฐฉ๋ฒ :
Teacache ๋ฑ์ ๋ฐฉ๋ฒ : ์๊ฐ ๋จ๊ณ ํน์ฑ์ ์ฌ์ฌ์ฉํ์ฌ ๊ณ์ฐ์ ์ค์ด์ง๋ง ์์ฑ ํ์ง์ ์ ํ์ํฌ ์ ์์ต๋๋ค์ํ์ค ๋ณ๋ ฌํ(SP) ๋ฐฉ๋ฒ :
Ulysses : ์ฃผ์๋ ฅ ํค๋๋ฅผ ๋ถํ ํ์ฌ ๋ณ๋ ฌํํ์ง๋ง ๊ณ์ฐ๊ณผ ํต์ ์ด ์ง๋ ฌ๋ก ์คํ๋๊ณ GPU ๋ฆฌ์์ค๊ฐ ์ถฉ๋ถํ ํ์ฉ๋์ง ์๋ ๋ฌธ์ ๊ฐ ์์ต๋๋คRing-Attention : ๋ ๋์ ๋ณ๋ ฌ๋๋ฅผ ์ง์ํ์ง๋ง ํต์ ์ค๋ฒํค๋๊ฐ ํฝ๋๋คUSP : ๋ ๊ฐ์ง๋ฅผ ๊ฒฐํฉํ์ง๋ง ์ถ๊ฐ ํต์ ์ค๋ฒํค๋๋ฅผ ์ฆ๊ฐ์ํต๋๋ค์คํ๋ก๋ฉ ์ ๋ต :
CPU-GPU ๋ฐ์ดํฐ ์ ์ก์ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ค์ด์ง๋ง ์๋นํ ์ ์ก ์ค๋ฒํค๋๋ฅผ ๋์
ํ์ฌ ํจ์จ์ฑ์ด ๋ฎ์ต๋๋ค OpenSoraPlan๊ณผ HunyuanVideo์ ์ฑ๋ฅ ๋ถ์(๊ทธ๋ฆผ 2)์์ ๋ค์์ ๋ณผ ์ ์์ต๋๋ค:
์๊ฐ ๋ณ๋ชฉ : ํ์ฐ ๋จ๊ณ์ ์์ ์๊ฐ์ด ๋ค๋ฅธ ๋จ๊ณ๋ฅผ ํจ์ฌ ์ด๊ณผํฉ๋๋ค๋ฉ๋ชจ๋ฆฌ ๋ณ๋ชฉ : VAE ๋์ฝ๋ฉ ํผํฌ ๋ฉ๋ชจ๋ฆฌ๊ฐ 44GB์ ๋๋ฌํฉ๋๋ค(256ร128ร33 ํด์๋)๋ฆฌ์์ค ๋ญ๋น : ํ์ฐ ๋ชจ๋๊ณผ VAE ๋์ฝ๋์ ๊ณต๋ ๋ฐฐ์น๋ก ์ธํ ์ง๋ ฌ ์คํ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๋ญ๋นPipeSP ์๊ณ ๋ฆฌ์ฆ : ํ์ดํ๋ผ์ธํ๋ ์ํ์ค ๋ณ๋ ฌํ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ์ฃผ์๋ ฅ ํค๋ ์ฐจ์์์ ๋ถํ ํ๊ณ ์ฆ์ All-to-All ํต์ ์ ํธ๋ฆฌ๊ฑฐํจ์ผ๋ก์จ ๊ณ์ฐ๊ณผ ํต์ ์ ์ค์ฒฉ์ ๊ตฌํํ๊ณ GPU ํ์ฉ๋ฅ ์ ํฅ์์ํต๋๋คDeDiVAE ๋ชจ๋ ๋ถ๋ฆฌ : ํ์ฐ ๋ชจ๋๊ณผ VAE ๋์ฝ๋๋ฅผ ์๋ก ๋ค๋ฅธ GPU ๊ทธ๋ฃน์ ํ ๋นํ์ฌ ๋ชจ๋ ์์ค์ ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ๋ฅผ ๊ตฌํํ๊ณ ํผํฌ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ํฌ๊ฒ ์ค์
๋๋ค(OpenSoraPlan์์ ์ต๋ 53.3% ๊ฐ์)Aco ์ฃผ์๋ ฅ ํ๋ ฅ ์ฒ๋ฆฌ : DiT ๋ธ๋ก์ ์ ํ ํฌ์๊ณผ ์ฃผ์๋ ฅ ๊ณ์ฐ์ผ๋ก ์ธ๋ถํํ์ฌ ๋์ฝ๋ฉ GPU ๊ทธ๋ฃน์ด ์ ํด ์๊ฐ์ ์ฃผ์๋ ฅ ๊ณ์ฐ์ ์ฐธ์ฌํ๋๋ก ํ์ฌ ์ ์ฒด ํจ์จ์ฑ์ ๋์ฑ ํฅ์์ํต๋๋ค์์คํ
๊ตฌํ ๋ฐ ๊ฒ์ฆ : OpenSoraPlan(2B ๋งค๊ฐ๋ณ์)๊ณผ HunyuanVideo(13B ๋งค๊ฐ๋ณ์)์์ ๊ตฌํํ๊ณ , 8-GPU ์์คํ
๋ ๊ฐ์์ ๊ด๋ฒ์ํ ์คํ์ ์ํํ์ฌ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ฑ๊ณผ ํ์ฅ์ฑ์ ์
์ฆํฉ๋๋ค๋น๋์ค ์์ฑ ํ๋ก์ธ์ค :
์
๋ ฅ : ํ
์คํธ ํ๋กฌํํธ์ถ๋ ฅ : ๊ณ ํ์ง ๋น๋์ค2๋จ๊ณ ํ๋ก์ธ์ค :
๋
ธ์ด์ฆ ์ ๊ฑฐ ๋จ๊ณ : ํ์ฐ ๋ชจ๋ธ์ด ์ฌ๋ฌ ์๊ฐ ๋จ๊ณ๋ฅผ ํตํด ์ ์ฌ ํํ์ ๋ฐ๋ณต์ ์ผ๋ก ์ต์ ํํฉ๋๋ค๋์ฝ๋ฉ ๋จ๊ณ : VAE ๋์ฝ๋๊ฐ ์ ์ฌ ํํ์ ์ ์ฒด ํด์๋ ๋น๋์ค๋ก ์
์ํ๋งํฉ๋๋ค์๋ Ulysses์ ๋ฌธ์ :
๋ชจ๋ ์ฃผ์๋ ฅ ํค๋ ๊ณ์ฐ์ด ์๋ฃ๋ ํ์๋ง ๋จ์ผ All-to-All ํต์ ์ด ์คํ๋ฉ๋๋ค GPU๋ ํต์ ์ ๊ธฐ๋ค๋ฆฌ๋ ๋์ ์ ํด ์ํ์
๋๋ค PipeSP ์ค๊ณ (์๊ณ ๋ฆฌ์ฆ 1):
๊ฐ ์ฃผ์๋ ฅ ํค๋ j โ [0, h-1]์ ๋ํด:
1. attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:]) ๊ณ์ฐ
2. ๊ณ์ฐ ์๋ฃ๋ฅผ ํ์ํ๋ CUDA ์ด๋ฒคํธ ๊ธฐ๋ก
3. ์ด๋ฒคํธ ์๋ฃ ํ ์ฆ์ All-to-All ํต์ ํธ๋ฆฌ๊ฑฐ
4. ๊ฒฐ๊ณผ ์์ง
ํ์ฒ๋ฆฌ ์ ๋ ฌ (๊ฒฐ๊ณผ ์ค์ ๋ ฌ ๋ฌธ์ ํด๊ฒฐ):
view(-1, h, n, D) โ permute(0, 2, 1, 3) โ view(-1, nh, D) ์ํ์ค ๋ณํ์ ํตํด์ธํฐ๋ฆฌ๋น๋ ํ
์๋ฅผ ์๋ Ulysses๊ฐ ๊ธฐ๋ํ๋ head-contiguous ๋ ์ด์์์ผ๋ก ๋งคํํฉ๋๋ค ์ํ์ ์ ํ์ฑ ์ฆ๋ช
:
reshape ๋งคํ ฯ_{h,n}๊ณผ ์นํ ์ฐ์ฐ ฯ๋ฅผ ์ ์ํ๋ฉด, ๋ณตํฉ ๋งคํ ฮจ = ฯ^{-1}{h,n} โ ฯ โ ฯ {h,n}์ ๋ค์์ ๋ง์กฑํฉ๋๋ค:
(ฮจT_mod)[b, k_orig(i,j), d] = T_mod[b, k_mod(i,j), d]
์ต์ ํ๋ ๊ฒฐ๊ณผ๊ฐ ์๋ ๊ตฌํ๊ณผ ์์ ํ ์ผ์นํจ์ ๋ณด์ฅํฉ๋๋ค.
GPU ๊ทธ๋ฃนํ ์ ๋ต :
๋
ธ์ด์ฆ ์ ๊ฑฐ ๊ทธ๋ฃน : N_denoise๊ฐ์ GPU, ํ์ฐ ๋ฐฑ๋ณธ ๋คํธ์ํฌ ์ ์ฅ๋์ฝ๋ฉ ๊ทธ๋ฃน : N_decode = N - N_denoise๊ฐ์ GPU, VAE ๋์ฝ๋ ์ ์ฅ์ต์ GPU ํ ๋น :
1์ฐจ ๊ท ํ ์กฐ๊ฑด์ ๊ธฐ๋ฐ์ผ๋ก ๋ ๊ทธ๋ฃน์ ์คํ ์๊ฐ์ ๋์ผํ๊ฒ ํ์ฌ ์ค์ฒฉ์ ์ต๋ํํฉ๋๋ค:
N_decode โ โ(T_decode / (T_decode + T_denoise)) ร Nโ
์ฌ๊ธฐ์ T_denoise์ T_decode๋ ๊ฐ๊ฐ ๋จ์ผ GPU์ ๋
ธ์ด์ฆ ์ ๊ฑฐ ๋ฐ ๋์ฝ๋ฉ ์๊ฐ์
๋๋ค.
๋ค์ค ํ๋กฌํํธ ํ์ดํ๋ผ์ธ :
์ฒซ ๋ฒ์งธ ํ๋กฌํํธ์ ๋์ฝ๋ฉ์ด ๋ ๋ฒ์งธ ํ๋กฌํํธ์ ๋
ธ์ด์ฆ ์ ๊ฑฐ์ ๋ณ๋ ฌ๋ก ์คํ๋ฉ๋๋ค ๊ณต์ ํ๋ฅผ ํตํด ์ ์ฌ ํํ์ ์ ๋ฌํ์ฌ ์์ฐ์-์๋น์ ํจํด์ ๊ตฌํํฉ๋๋ค ๋๊ธฐ : ๋
ธ์ด์ฆ ์ ๊ฑฐ ์๊ฐ์ด ๋์ฝ๋ฉ ์๊ฐ์ ํจ์ฌ ์ด๊ณผํ ๋, ๋์ฝ๋ฉ GPU ๊ทธ๋ฃน์ ๋๋ถ๋ถ์ ์๊ฐ ๋์ ์ ํด ์ํ์
๋๋ค
์ธ๋ถํ๋ ๋ถํด :
DiT ๋ธ๋ก์ ๋ค์์ผ๋ก ๋ถํดํฉ๋๋ค:
์ ํ ํฌ์ : Q = XW_Q, K = XW_K, V = XW_V (๋
ธ์ด์ฆ ์ ๊ฑฐ ๊ทธ๋ฃน์ด ์คํ)์ฃผ์๋ ฅ ์ปค๋ : Attn(Q,K,V) (๋์ฝ๋ฉ ๊ทธ๋ฃน์์ ๋ณ๋ ฌ๋ก ์คํ ๊ฐ๋ฅ)์คํ ํ๋ฆ :
ํ๋กฌํํธ 1 ๋จ๊ณ (๋์ฝ๋ฉ ํ๊ฐ ๋น์ด์์):๋
ธ์ด์ฆ ์ ๊ฑฐ ๊ทธ๋ฃน์ด Q,K,V๋ฅผ ๊ณ์ฐํ๊ณ P2P ํต์ ์ ํตํด ๋์ฝ๋ฉ ๊ทธ๋ฃน์ผ๋ก ์ ์กํฉ๋๋ค ๋ ๊ทธ๋ฃน์ด ์ฃผ์๋ ฅ ๊ณ์ฐ์ ๋ณ๋ ฌ๋ก ์คํํฉ๋๋ค All-to-All ๋ฐ P2P ํต์ ์ ํตํด ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํฉ๋๋ค ํ๋กฌํํธ 2 ๋จ๊ณ (๋์ฝ๋ฉ ํ๊ฐ ๋น์ด์์ง ์์):๋
ธ์ด์ฆ ์ ๊ฑฐ ๊ทธ๋ฃน์ด ๋
๋ฆฝ์ ์ผ๋ก ์ฃผ์๋ ฅ ๊ณ์ฐ์ ์คํํฉ๋๋ค ๋์ฝ๋ฉ ๊ทธ๋ฃน์ด VAE ๋์ฝ๋ฉ์ ๋ณ๋ ฌ๋ก ์คํํฉ๋๋ค ์ฑ๋ฅ ๋ถ์ :
์ด๋ก ์ ๊ฐ์ ๋น์จ:
S = T_baseline / T_coop = (t_L + t_A) / (t_L + t_A ร N_denoise/N)
์ฌ๊ธฐ์ t_L๊ณผ t_A๋ ๊ฐ๊ฐ ์ ํ ํฌ์๊ณผ ์ฃผ์๋ ฅ ๊ณ์ฐ์ ์๊ฐ์
๋๋ค.
์ฃผ์๋ ฅ ํค๋ ๋ถ๊ท ๋ฑ ๋ถํ ๋ฌธ์ ์ฒ๋ฆฌ :
OpenSoraPlan : ํค๋ ์ฐจ์ ํจ๋ฉ์ ๋์
ํ์ฌ ๋ถํ ๊ท ํ์ ๋ณด์ฅํฉ๋๋คHunyuanVideo/Wan : USP๋ฅผ ์ง์ํ์ฌ Ulysses์ Ring-Attention ๊ฐ์ ์ ์ฐํ๊ฒ ์ ํํ ์ ์์ด ํจ๋ฉ ์ค๋ฒํค๋๋ฅผ ํผํฉ๋๋คํต์ -๊ณ์ฐ ์ค์ฒฉ : PipeSP๋ ์ธ๋ถํ๋ ํค๋ ์์ค์ ํ์ดํ๋ผ์ธ์ ํตํด Ulysses์์ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ธ ํต์ ์จ๊น์ ๊ตฌํํฉ๋๋ค๋ชจ๋ ์์ค ๋ถ๋ฆฌ : DeDiVAE๋ ๊ธฐ์กด์ ๊ณต๋ ๋ฐฐ์น ์ค๊ณ๋ฅผ ๋ฐ์ด๋์ด GPU ๊ทธ๋ฃน ๋ถ๋ฆฌ๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ์ ์ด์ค ์ต์ ํ๋ฅผ ๊ตฌํํฉ๋๋ค๋์ ๋ฆฌ์์ค ์ค์ผ์ค๋ง : Aco๋ ์์
๋ถํ์ ๋ฐ๋ผ ์ ํด GPU ๋ฆฌ์์ค๋ฅผ ๋์ ์ผ๋ก ํ์ฉํ์ฌ ๊ธฐ์กด ์ ์ ํ ๋น์ ํจ์จ์ฑ ์์ค์ ํผํฉ๋๋ค์ํ์ ์๋ฐ์ฑ : PipeSP ๋ณํ์ ํ์์ ์ ํ์ฑ ์ฆ๋ช
์ ์ ๊ณตํ์ฌ ์ต์ ํ๊ฐ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ณ๊ฒฝํ์ง ์์์ ๋ณด์ฅํฉ๋๋ค์์คํ
1 : 8ร NVIDIA RTX A6000 (48GB)
CPU: Intel Xeon Platinum 8358 @2.60GHz ์ํธ ์ฐ๊ฒฐ: NVLink (112.5GB/s, 4ร) ์์คํ
2 : 8ร NVIDIA L40 (48GB)
CPU: Intel Xeon Platinum 8358 @2.60GHz ์ํธ ์ฐ๊ฒฐ: PCIe 4.0 (x16) OpenSoraPlan v1.3.0 : 2B ๋งค๊ฐ๋ณ์, Ulysses ์ํ์ค ๋ณ๋ ฌํ ์ฌ์ฉHunyuanVideo : 13B ๋งค๊ฐ๋ณ์, xDiT์ USP ํตํฉ๋จ์ผ ์๊ฐ ๋จ๊ณ ์ง์ฐ : PipeSP์ ์ต์ ํ ํจ๊ณผ๋ฅผ ์ธก์ ํฉ๋๋ค์๋-ํฌ-์๋ ์ง์ฐ : ์ฌ๋ฌ ๋น๋์ค ์์ฑ์ ์ด ์๊ฐ, PipeDiT ์ ์ฒด ์ต์ ํ ํจ๊ณผ๋ฅผ ์ธก์ ํฉ๋๋คํผํฌ GPU ๋ฉ๋ชจ๋ฆฌ : DeDiVAE์ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ํจ๊ณผ๋ฅผ ํ๊ฐํฉ๋๋คํด์๋ ์ค์ :
480ร352 (65/97/129 ํ๋ ์) 640ร352 (65/97/129 ํ๋ ์) 800ร592 (65/97/129 ํ๋ ์) 1024ร576 (65/97/129 ํ๋ ์) ์๊ฐ ๋จ๊ณ : 10, 20, 30, 40, 50
ํ๋กฌํํธ ์ : 10๊ฐ (์ฃผ์ ์คํ), ์ถ๊ฐ ๊ตฌ์ฑ์ ๋ณด์ถฉ ์๋ฃ ์ฐธ์กฐ
๋น๊ต ๋ฐฉ๋ฒ :
๊ธฐ์ค์ : ์๋ ๊ตฌํ + ์คํ๋ก๋ฉ PipeDiT (Aco ์ ์ธ): PipeSP + DeDiVAE PipeDiT (Aco ํฌํจ): ์์ ํ ๋ฐฉ๋ฒ OpenSoraPlan (A6000) :
์ต๊ณ ๊ฐ์ : 480ร352ร97, 10 ๋จ๊ณ โ 2.12ร (227์ด โ 107์ด)๊ณ ํด์๋ : 1024ร576ร97, 50 ๋จ๊ณ โ 1.18ร (2162์ด โ 1832์ด)์ถ์ธ : ๋ฎ์ ํด์๋, ์ ์ ํ๋ ์, ์งง์ ์๊ฐ ๋จ๊ณ์์ ๊ฐ์ ๋น์จ์ด ๋ ๋๋๋ฌ์ง๋๋คHunyuanVideo (A6000) :
์ต๊ณ ๊ฐ์ : 480ร352ร97, 10 ๋จ๊ณ โ 3.27ร (540์ด โ 165์ด)๋ํ ๋ชจ๋ธ ์ด์ : ๋ ํฐ ๋งค๊ฐ๋ณ์ ์๋ก ์ธํด ์คํ๋ก๋ฉ ์ค๋ฒํค๋๊ฐ ๋ ๋์ PipeDiT ์ต์ ํ ํจ๊ณผ๊ฐ ๋ ๋ช
ํํฉ๋๋ค๊ณ ํด์๋ : 1024ร576ร97, 50 ๋จ๊ณ โ 1.08ร (3726์ด โ 3453์ด)ํ๋ซํผ ์ฐจ์ด :
A6000 (NVLink)์ L40 (PCIe)์ ๋นํด ๋ ๋์ ๊ฐ์ ๋น์จ์ ๋ฌ์ฑํฉ๋๋ค ์๋ฅผ ๋ค์ด HunyuanVideo 480ร352ร97, 10 ๋จ๊ณ: A6000 3.27ร vs L40 2.95ร ๋ณด์ถฉ ์๋ฃ ์์ ํ ๊ฒฐ๊ณผ :
์ต๊ณ ๊ฐ์์ด **4.02ร**์ ๋๋ฌํฉ๋๋ค (HunyuanVideo, 480ร352ร65, 10 ๋จ๊ณ) 12๊ฐ์ง ํด์๋ ร 5๊ฐ์ง ์๊ฐ ๋จ๊ณ ๊ตฌ์ฑ, ์ด 60๊ฐ ์คํ์ ํฌํจํฉ๋๋ค ์ต์ ๊ตฌ์ฑ : 640ร352ร129
OpenSoraPlan (A6000): 1.15ร ๊ฐ์ (2.10์ด โ 1.83์ด) OpenSoraPlan (L40): 1.04ร ๊ฐ์ (2.44์ด โ 2.34์ด) ์ฑ๋ฅ ํน์ฑ :
์ค๊ฐ ํด์๋์์ ์ต๊ณ ์ ํจ๊ณผ (๊ณ์ฐ๊ณผ ํต์ ์๊ฐ์ ๊ท ํ) ๊ทน๋๋ก ๋ฎ์ ํด์๋: ํต์ ์ค๋ฒํค๋๊ฐ ์ด๋์ ์์ํฉ๋๋ค ๊ทน๋๋ก ๋์ ํด์๋: ํต์ ๋น์จ์ด ๊ฐ์ํ์ฌ ์ต์ ํ ์ด๋์ด ๊ฐ์ํฉ๋๋ค OpenSoraPlan :
1024ร576ร129: ๊ธฐ์ค์ OOM โ ์คํ๋ก๋ฉ 28.3GB โ DeDiVAE 28.1GB 800ร592ร129: ๊ธฐ์ค์ 39.8GB โ DeDiVAE 18.6GB (53.3% ๊ฐ์ ) 480ร352ร129: ๊ธฐ์ค์ 26.5GB โ DeDiVAE 18.0GB (32.1% ๊ฐ์) HunyuanVideo :
๋ชจ๋ ๊ตฌ์ฑ์์ ๊ธฐ์ค์ ์ด OOM์
๋๋ค ์คํ๋ก๋ฉ: 29.37-33.01GB (31.2-38.8% ๊ฐ์) DeDiVAE: 41.44-42.12GB (12.2-13.7% ๊ฐ์) ์ฐธ๊ณ : HunyuanVideo์ DeDiVAE ๋ฉ๋ชจ๋ฆฌ๊ฐ ์คํ๋ก๋ฉ๋ณด๋ค ๋์ ์ด์ ๋ ๋ํ ํ
์คํธ ์ธ์ฝ๋๋ฅผ VAE ๋์ฝ๋์ ๊ณต๋ ๋ฐฐ์นํ๊ธฐ ๋๋ฌธ์ด๋ฉฐ, ์ด๋ ๋ฐฉ๋ฒ์ ์ ์ฐํ ์ ์์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๊ตฌ์ฑ ์์ ๊ธฐ์ฌ๋ ๋ถ์ (OpenSoraPlan A6000, 30 ๋จ๊ณ):
๊ตฌ์ฑ 480ร352ร65 640ร352ร129 1024ร576ร129 ๊ธฐ์ค์ (A) 314์ด (1ร) 665์ด (1ร) 1995์ด (1ร) +DeDiVAE (B) 217์ด (1.45ร) 500์ด (1.33ร) 2138์ด (0.93ร) +PipeSP (C) 200์ด (1.57ร) 509์ด (1.31ร) 1936์ด (1.03ร) +Aco (D) 261์ด (1.20ร) 507์ด (1.31ร) 1690์ด (1.18ร)
ํต์ฌ ๋ฐ๊ฒฌ :
DeDiVAE : ๋ฎ์ ํด์๋์์ ํ์ ํ ๊ฐ์ , ๋์ ํด์๋์์ ๋
ธ์ด์ฆ ์ ๊ฑฐ GPU ๊ฐ์๋ก ์ธํ ํจ๊ณผ ๊ฐ์PipeSP : OpenSoraPlan์์ ๋ช
ํํ ํจ๊ณผ (๋ชจ๋ํ๋์ง ์์ ์ค๊ณ๋ก ๋ ๋ง์ ์ค์ฒฉ ํ์ฉ)Aco : ๋์ ๋ถํ ์์
์์ ๊ฐ์ ์ด ๋ช
ํํ์ฌ DeDiVAE์ ๊ณ ํด์๋ ๋ถ์กฑ์ ๋ณด์ํฉ๋๋คAco ์ฑ๋ฅ ํํธ๋งต (๊ทธ๋ฆผ 5) :
PipeDiT w/ Aco์ w/o Aco์ ์ง์ฐ ์ฐจ์ด๋ฅผ ํ์ํฉ๋๋ค ๋์ ์์
๋ถํ ๊ตฌ์ฑ์์ Aco๊ฐ ํ์ ํ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค ์์ฑ ๊ฒฐ๊ณผ ์ผ๊ด์ฑ ๊ฒ์ฆ (๊ทธ๋ฆผ 6) :
๋์ผํ ํ๋กฌํํธ, ๊ตฌ์ฑ ๋ฐ ์ํ๋ง ํ๋ ์ ์ธ๋ฑ์ค ํ์์ PipeDiT ์์ฑ ๊ฒฐ๊ณผ๊ฐ ์๋ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์์ ํ ์ผ์นํฉ๋๋ค ์ต์ ํ๊ฐ ์์ฑ ํ์ง์ ์ํฅ์ ๋ฏธ์น์ง ์์์ ์ฆ๋ช
ํฉ๋๋ค ๊ฐ์ ๋น์จ๊ณผ ์์
๋ถํ์ ๊ด๊ณ :๋ฎ์ ํด์๋ + ์งง์ ์๊ฐ ๋จ๊ณ โ ์ต๊ณ ๊ฐ์ (4.02ร) ๋์ ํด์๋ + ๊ธด ์๊ฐ ๋จ๊ณ โ ์ฌ์ ํ ๊ฐ์ (1.06-1.18ร) ์ด์ : ๊ณ์ฐ ์๊ฐ ๋น์จ ์ฆ๊ฐ๋ก ์คํ๋ก๋ฉ ๋ณ๋ชฉ์ ์๋์ ์ํฅ ๊ฐ์ ํ๋์จ์ด ์ํธ ์ฐ๊ฒฐ์ ์ํฅ :NVLink (A6000) vs PCIe (L40): ์ ์๊ฐ ๋ ๋์ ๊ฐ์ ๋น์จ ๊ณ ๋์ญํญ ์ํธ ์ฐ๊ฒฐ์ด PipeSP์ ํต์ ์จ๊น ํจ๊ณผ๋ฅผ ์ฆ๋์ํต๋๋ค ๋ชจ๋ธ ๊ท๋ชจ์ ์ํฅ :๋ํ ๋ชจ๋ธ (HunyuanVideo 13B)์ด ์ํ ๋ชจ๋ธ (OpenSoraPlan 2B)๋ณด๋ค ๋ ๋ง์ ์ด๋์ ์ป์ต๋๋ค ์ด์ : ์คํ๋ก๋ฉ ์ค๋ฒํค๋๊ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋น๋กํฉ๋๋ค ํฅํ ์ถ์ธ ์ ์ :ํ์ฌ ์ถ์ธ: ๋ ์ ์ ์๊ฐ ๋จ๊ณ + ๋ ๊ณต๊ฒฉ์ ์ธ VAE ์์ถ ์์: ๋
ธ์ด์ฆ ์ ๊ฑฐ ์๊ฐ ๊ฐ์๋ก PipeDiT ๊ฐ์ ๋น์จ์ด ๋์ฑ ํฅ์๋ ๊ฒ MoE ์ํคํ
์ฒ (์: Wan2.2): ๋ ํฐ ๋ชจ๋ธ๋ก ์คํ๋ก๋ฉ์ด ๋์ฑ ๋ถ๊ฐ๋ฅํด์ ธ PipeDiT ์ด์ ์ด ๋ ๋ช
ํํด์ง๋๋ค DistriFusion :
์
๋ ฅ์ ์ฌ๋ฌ ํจ์น๋ก ๋ถํ ํ์ฌ ์๋ก ๋ค๋ฅธ GPU์ ๋ถ์ฐ์ํต๋๋ค ์ด์ ์๊ฐ ๋จ๊ณ์ ์ค๊ฐ ํน์ฑ ๋งต์ ์ฌ์ฌ์ฉํ์ฌ ์ปจํ
์คํธ๋ฅผ ์ ๊ณตํฉ๋๋ค ๋น๋๊ธฐ ํต์ ์ ํตํด ํต์ ์ค๋ฒํค๋๋ฅผ ์จ๊น๋๋ค ํ๊ณ : ์ด๋ฏธ์ง๋ฅผ ์ํด ์ค๊ณ๋์ด ๋น๋์ค์ ๊ธด ์ํ์ค์ ์ ํฉํ์ง ์์ต๋๋คPipeFusion :
์ด๋ฏธ์ง๋ฅผ ํจ์น๋ก ๋ถํ ํ๊ณ GPU ๊ฐ ๋คํธ์ํฌ ๋ ์ด์ด๋ฅผ ๋ถ์ฐ์ํต๋๋ค ์์ฑ ์ ๋ฉ๋ชจ๋ฆฌ ์ ํ์ ํด๊ฒฐํฉ๋๋ค ํ๊ณ : ๊ณ์ธต ๋ณ๋ ฌํ๊ฐ ๋น๋์ค ์์ฑ์ ์ํ์ค ํน์ฑ์ ์ ํฉํ์ง ์์ต๋๋ค์๊ฐ ๋จ๊ณ ๊ฐ์ ๋ฐฉ๋ฒ :
Teacache : ์ธ์ ํ ์๊ฐ ๋จ๊ณ ํน์ฑ์ ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํ์ฌ ์ด์ ๋จ๊ณ ์ถ๋ ฅ์ ์ฌ์ฌ์ฉํฉ๋๋คDeepCache, Delta-DiT, FORA : ์ ์ฌํ ์ ๋ต์ผ๋ก ์๊ฐ ๋จ๊ณ๋ฅผ ์ค์
๋๋คํ๊ณ : ์์ฑ ํ์ง ์ ํ๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค์ํ์ค ๋ณ๋ ฌํ ๋ฐฉ๋ฒ :
Ulysses (DeepSpeed) : ์ฃผ์๋ ฅ ํค๋๋ก ๋ถํ ํ์ฌ ์ 3ํ, ํ 1ํ All-to-All์ ์ํํ์ง๋ง ๊ณ์ฐ๊ณผ ํต์ ์ด ์ง๋ ฌ์
๋๋คRing-Attention : ์ํ์ค๋ก ๋ถํ ํ์ฌ P2P ํต์ ์ ์ํํ๊ณ ๋์ ๋ณ๋ ฌ๋๋ฅผ ์ง์ํ์ง๋ง ์ค๋ฒํค๋๊ฐ ํฝ๋๋คUSP (ํตํฉ SP) : ๋ ๊ฐ์ง๋ฅผ ๊ฒฐํฉํ์ฌ ์ ์ฐํ๊ฒ ๊ตฌ์ฑํ์ง๋ง ํต์ ์ค๋ฒํค๋๋ฅผ ์ฆ๊ฐ์ํต๋๋ค๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์ฌ : Ulysses์์ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ธ ๊ณ์ฐ-ํต์ ํ์ดํ๋ผ์ธ์ ๊ตฌํํฉ๋๋ค์คํ๋ก๋ฉ ์ ๋ต :
HunyuanVideo, Wan, OpenSoraPlan์ด ๋ชจ๋ ์ฑํํฉ๋๋ค CPU-GPU ๋์ ๋ชจ๋ธ ๊ฐ์ค์น ์ ์ก ํ๊ณ : ์ ์ก ์ค๋ฒํค๋๊ฐ ์๋นํ์ฌ ํจ์จ์ฑ์ด ๋ฎ์ต๋๋ค๋ณธ ๋
ผ๋ฌธ์ DeDiVAE :
๋ชจ๋ ์์ค ๋ถ๋ฆฌ + GPU ๊ทธ๋ฃน ๋ถ๋ฆฌ ์คํ๋ก๋ฉ ์ค๋ฒํค๋๋ฅผ ํผํ๋ฉด์ ํผํฌ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ค์
๋๋ค LightSeq, FlexSP, LoongServe :
๊ธด ์ปจํ
์คํธ Transformer์ ์ํ์ค ๋ณ๋ ฌํ๋ฅผ ๋์์ผ๋ก ํฉ๋๋ค ์ฐจ์ด์ : ๋ณธ ๋
ผ๋ฌธ์ ๋น๋์ค ์์ฑ DiT์ ํน์ ์ต์ ํ์ ์ค์ ์ ๋ก๋๋คxDiT :
DiT ์ถ๋ก ์์ง์ผ๋ก USP๋ฅผ ํตํฉํฉ๋๋ค ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์ฌ : ๊ทธ ๊ธฐ๋ฐ ์์ PipeDiT๋ฅผ ๊ตฌํํ์ฌ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ฑ์ ์ฆ๋ช
ํฉ๋๋คPipeSP ํจ๊ณผ์ฑ : ํค๋ ์์ค์ ํ์ดํ๋ผ์ธ์ ํตํด ๊ณ์ฐ-ํต์ ์ค์ฒฉ์ ๊ตฌํํ์ฌ ๋จ์ผ ์๊ฐ ๋จ๊ณ ์ง์ฐ์ ์ต๋ 15% ํฅ์์ํต๋๋คDeDiVAE ํ๊ธฐ์ฑ : ๋ชจ๋ ๋ถ๋ฆฌ + GPU ๊ทธ๋ฃน ๋ถ๋ฆฌ๋ก ํผํฌ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ต๋ 53.3% ๊ฐ์์์ผ ๊ณ ํด์๋ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋คAco ์ํธ ๋ณด์์ฑ : ๋์ ๋ฆฌ์์ค ํ์ฉ์ผ๋ก DeDiVAE์ ๋์ ๋ถํ ์ ๋ถ์กฑ์ ๋ณด์ํ์ฌ ์ ์ฒด ๊ฐ์ 1.06-4.02ร๋ฅผ ๋ฌ์ฑํฉ๋๋ค์ผ๋ฐ์ฑ ๊ฒ์ฆ : 2B (OpenSoraPlan)์ 13B (HunyuanVideo) ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ ๋ชจ๋์์ ํจ๊ณผ์ ์
๋๋คํ์ง ๋ณด์ฆ : ์ต์ ํ๊ฐ ์์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๋ณ๊ฒฝํ์ง ์์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๊ฐ ์๋ ๊ตฌํ๊ณผ ์์ ํ ์ผ์นํฉ๋๋คํ๋์จ์ด ์์กด์ฑ :NVLink ํ๋ซํผ์ด PCIe๋ณด๋ค ํจ๊ณผ๊ฐ ์ฐ์ํ๋ฉฐ ์ํธ ์ฐ๊ฒฐ ๋์ญํญ์ ๋ฏผ๊ฐํฉ๋๋ค ๋ค์ค GPU ์์คํ
์ด ํ์ํฉ๋๋ค (์คํ์์ 8-GPU ์ฌ์ฉ) ์์
๋ถํ ์ ์์ฑ :๊ทน๋๋ก ๋์ ํด์๋ + ๊ธด ์๊ฐ ๋จ๊ณ์์ ๊ฐ์ ๋น์จ์ด ๊ฐ์ํฉ๋๋ค (๊ณ์ฐ ์ฃผ๋) Aco๋ ๋ฎ์ ์์
๋ถํ์์ ์ถ๊ฐ ์ค๋ฒํค๋๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค ์ฃผ์๋ ฅ ํค๋ ์ ์ฝ :USP๋ฅผ ์ง์ํ์ง ์๋ ๋ชจ๋ธ์ ๋ถ๊ท ๋ฑ ๋ถํ ๊ฒฝ์ฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ํจ๋ฉ์ด ํ์ํฉ๋๋ค ์ผ๋ถ GPU๊ฐ ์ค๋ณต ๊ณ์ฐ์ ์คํํ ์ ์์ต๋๋ค ๋ชจ๋ ๊ณต๋ ๋ฐฐ์น ์ ์ฐ์ฑ :HunyuanVideo๋ ํ
์คํธ ์ธ์ฝ๋๋ฅผ VAE์ ๊ณต๋ ๋ฐฐ์นํด์ผ ํฉ๋๋ค ๋ํ ์ธ์ฝ๋๊ฐ ๋ถ๋ถ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ํจ๊ณผ๋ฅผ ์์ํ ์ ์์ต๋๋ค ๋ค์ค ํ๋กฌํํธ ์์กด์ฑ :DeDiVAE ํ์ดํ๋ผ์ธ์ ์ฌ๋ฌ ๋์ ์ฟผ๋ฆฌ๊ฐ ์์ด์ผ ํ์ดํ๋ผ์ธ ํจ์จ์ด ๋์ต๋๋ค ๋จ์ผ ํ๋กฌํํธ ์๋๋ฆฌ์ค์์ GPU ์ ํด ์ํ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค ๋์ GPU ํ ๋น :์ค์๊ฐ ์์
๋ถํ์ ๋ฐ๋ผ N_denoise์ N_decode๋ฅผ ์๋์ผ๋ก ์กฐ์ ํฉ๋๋ค ๋ค์ํ ํด์๋ ๋ฐ ์๊ฐ ๋จ๊ณ์ ์ต์ ๊ตฌ์ฑ์ ๊ณ ๋ คํฉ๋๋ค ๋ ๋ง์ ๋ณ๋ ฌํ ์ฐจ์์ผ๋ก ํ์ฅ :ํ
์ ๋ณ๋ ฌํ ๋ฐ ๋ฐ์ดํฐ ๋ณ๋ ฌํ์ ๊ฒฐํฉํฉ๋๋ค ๋ ํฐ ๊ท๋ชจ ๋ชจ๋ธ ์ง์ (์: 100B+ ๋งค๊ฐ๋ณ์) ์ด์ง์ ํ๋์จ์ด ์ง์ :๋ค์ํ GPU ๋ชจ๋ธ์ ํผํฉ ์์คํ
์ ์ ์ํฉ๋๋ค PCIe ์ํธ ์ฐ๊ฒฐ์ ํต์ ์ ๋ต์ ์ต์ ํํฉ๋๋ค MoE ์ํคํ
์ฒ ์ต์ ํ :Wan2.2 ๋ฑ MoE ๋ชจ๋ธ์ ์ํ ์ ๋ฌธํ๋ ์ต์ ํ ์ ๋ฌธ๊ฐ ๋ผ์ฐํ
์ผ๋ก ์ธํ ๋ถํ ๋ถ๊ท ํ ์ฒ๋ฆฌ ์๋-ํฌ-์๋ ์ต์ ํ :ํ
์คํธ ์ธ์ฝ๋ ์ต์ ํ ํตํฉ ๋ ๊ณต๊ฒฉ์ ์ธ VAE ์์ถ ๋ฐฉ๋ฒ ํ์ ์๋ ํ๋ ํ๋ ์์ํฌ :ํ๋์จ์ด ๊ตฌ์ฑ ๋ฐ ๋ชจ๋ธ ํน์ฑ์ ๋ฐ๋ผ ์ต์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์๋์ผ๋ก ๊ฒ์ํฉ๋๋ค ์ฌ์ฉ์ ๋ฐฐํฌ ํ๋ก์ธ์ค๋ฅผ ๋จ์ํํฉ๋๋ค ๋์ ํ์ ์ฑ :PipeSP๋ Ulysses์์ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ธ ํต์ -๊ณ์ฐ ํ์ดํ๋ผ์ธ์ ๊ตฌํํฉ๋๋ค DeDiVAE๋ ๊ธฐ์กด ๊ณต๋ ๋ฐฐ์น ํจ๋ฌ๋ค์์ ๋ฐ์ด๋์ด ๋ชจ๋ ์์ค ๋ถ๋ฆฌ์ ์๋ก์ด ์ฌ๊ณ ๋ฐฉ์์ ์ ์ํฉ๋๋ค Aco ๋์ ๋ฆฌ์์ค ์ค์ผ์ค๋ง์ ์์คํ
์ค๊ณ์ ๊น์ด ์๋ ์ฌ๊ณ ๋ฅผ ๋ฐ์ํฉ๋๋ค ์ด๋ก ์ ์๋ฐ์ฑ :PipeSP ๋ณํ์ ํ์์ ์ํ ์ฆ๋ช
์ ์ ๊ณตํฉ๋๋ค (๋ณด์ถฉ ์๋ฃ) ์ต์ GPU ํ ๋น์ 1์ฐจ ๊ท ํ ์กฐ๊ฑด์ ์ด๋ก ์ ์ ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค Aco ์ฑ๋ฅ ๋ถ์์ด ๋ช
ํํ ๊ฐ์ ๋น์จ ๊ณต์์ ์ ๊ณตํฉ๋๋ค ์ถฉ๋ถํ ์คํ :๋ ๋ชจ๋ธ (2B ๋ฐ 13B ๋งค๊ฐ๋ณ์) ร ๋ ํ๋ซํผ (A6000 ๋ฐ L40) 12๊ฐ์ง ํด์๋ ร 5๊ฐ์ง ์๊ฐ ๋จ๊ณ = 60๊ฐ ๊ตฌ์ฑ (์์ ํ ๊ฒฐ๊ณผ) ์์ธํ ์๊ฑฐ ์คํ์ผ๋ก ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ๋๋ฅผ ๋ถ์ํฉ๋๋ค ์์ฑ ๊ฒฐ๊ณผ ์ผ๊ด์ฑ ๊ฒ์ฆ์ผ๋ก ํ์ง ๋ฌด์์ค์ ๋ณด์ฅํฉ๋๋ค ๋์ ์ค์ฉ ๊ฐ์น :์ฃผ์ ์คํ์์ค ํ๋ ์์ํฌ์์ ๊ตฌํ๋์ด ์ฌํ ๋ฐ ๋ฐฐํฌ๊ฐ ์ฉ์ดํฉ๋๋ค ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ํฌ๊ฒ ์ค์ฌ ๊ณ ํด์๋ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค 1.06-4.02ร ๊ฐ์์ด ์ง์ ์ ์ผ๋ก ์๋น์ค ๋น์ฉ ์ ๊ฐ์ผ๋ก ์ ํ๋ฉ๋๋ค ๋ช
ํํ ์์ฑ :๋
ผ๋ฆฌ ๊ตฌ์กฐ๊ฐ ์์ ํ๊ณ ๋ฌธ์ ๋ถ์์์ ๋ฐฉ๋ฒ ์ค๊ณ๊น์ง ๊ณ์ธต์ด ๋ช
ํํฉ๋๋ค ํ๋ถํ ๊ทธ๋ํ (ํ๋ฆ๋, ์ฑ๋ฅ ๊ทธ๋ํ, ํํธ๋งต)๊ฐ ๊ฐ๋
์ฑ์ ํฅ์์ํต๋๋ค ๋ณด์ถฉ ์๋ฃ๊ฐ ์์ ํ ์คํ ๋ฐ์ดํฐ ๋ฐ ์ด๋ก ์ฆ๋ช
์ ์ ๊ณตํฉ๋๋ค ๋ฐฉ๋ฒ์ ํ๊ณ :๋์ ํ๋์จ์ด ์๊ตฌ์ฌํญ : ๋ค์ค GPU ์์คํ
๊ณผ ๊ณ ๋์ญํญ ์ํธ ์ฐ๊ฒฐ์ด ํ์ํฉ๋๋ค๋ถํ ์์กด์ฑ : ๋จ์ผ ํ๋กฌํํธ ์๋๋ฆฌ์ค์์ ํ์ดํ๋ผ์ธ ํจ์จ์ด ๊ฐ์ํฉ๋๋คํ์ฅ์ฑ : Ulysses๋ ์ฃผ์๋ ฅ ํค๋ ์๋ก ์ ํ๋๋ฉฐ, Ring-Attention์ผ๋ก ์ ํํ๋ฉด ๋ณต์ก๋๊ฐ ์ฆ๊ฐํฉ๋๋ค์คํ ์ค๊ณ ๊ฒฐํจ :์ฌ์ฉ์ ์ฐ๊ตฌ ๋ถ์ฌ : ์์ฑ ํ์ง์ ์ฃผ๊ด์ ์ธ์์ ํ๊ฐํ์ง ์์์ต๋๋ค๋จ์ผ ์งํ : ์ฃผ๋ก ์ง์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ์ ์ค์ ์ ๋๊ณ ์๋์ง ์๋น, ์ฒ๋ฆฌ๋ ๋ฑ์ ๊ณ ๋ คํ์ง ์์์ต๋๋คํ๋์จ์ด ์ปค๋ฒ๋ฆฌ์ง ๋ถ์กฑ : 48GB GPU๋ง ํ
์คํธํ์ฌ ๋ ํฌ๊ฑฐ๋ ์์ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ฑ์ ๊ฒ์ฆํ์ง ์์์ต๋๋ค๋ถ์ ๊น์ด ๋ถ์กฑ :ํต์ ์ค๋ฒํค๋ ์ธ๋ถ์ฌํญ : P2P vs All-to-All์ ๊ตฌ์ฒด์ ์ค๋ฒํค๋๋ฅผ ์์ธํ ๋ถ์ํ์ง ์์์ต๋๋ค๋ถํ ๊ท ํ : ๋ถ๊ท ๋ฑํ ์ฃผ์๋ ฅ ํค๋ ๋ถํฌ์ ์ํฅ์ ๋
ผ์ํ์ง ์์์ต๋๋ค์คํจ ์ฌ๋ก : ๋ฐฉ๋ฒ์ด ์ ์ฉ๋์ง ์๋ ์๋๋ฆฌ์ค๋ฅผ ์ ์ํ์ง ์์์ต๋๋ค๋ถ์์ ํ ๋น๊ต :์ต์ ๋ฐฉ๋ฒ ๋ถ์ฌ : 2024-2025๋
์ ์ต์ ์ต์ ํ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ง ์์์ต๋๋ค๋จ์ผ ๊ธฐ์ค์ : ์คํ๋ก๋ฉ๊ณผ๋ง ๋น๊ตํ๊ณ ๋ค๋ฅธ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ์ ๋ต (์: ์์ํ, ๊ฐ์ง์น๊ธฐ)์ ํฌํจํ์ง ์์์ต๋๋ค์ฌํ์ฑ ๋ฌธ์ :์ฝ๋ ๋ฏธ๊ณต๊ฐ : ๋
ผ๋ฌธ ๋ฐํ ์ ์ฝ๋ ๋งํฌ๋ฅผ ์ ๊ณตํ์ง ์์์ต๋๋คํ์ดํผํ๋ผ๋ฏธํฐ ์ธ๋ถ์ฌํญ : ์ผ๋ถ ๊ตฌํ ์ธ๋ถ์ฌํญ (์: ์ด๋ฒคํธ ๋๊ธฐํ ๋ฉ์ปค๋์ฆ)์ ์ค๋ช
์ด ๋ถ์ถฉ๋ถํฉ๋๋ค๋ถ์ผ์ ๋ํ ๊ธฐ์ฌ :
์ด๋ก ์ ๊ธฐ์ฌ : ๋ชจ๋ ์์ค ๋ถ๋ฆฌ์ ์์คํ
์ต์ ํ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์์ค๋ฌด์ ๊ธฐ์ฌ : ๋น๋์ค ์์ฑ ์๋น์ค๋ฅผ ์ํ ์คํ ๊ฐ๋ฅํ ๊ฐ์ ์๋ฃจ์
์ ๊ณต์๊ฐ ์ ๊ณต : ์ธ๋ถํ๋ ํ์ดํ๋ผ์ธ ์ฌ๊ณ ๋ฅผ ๋ค๋ฅธ ๋ค๋จ๊ณ ์์ฑ ์์
์ผ๋ก ํ๋ ๊ฐ๋ฅ์ ์ฌ์ ์ํฅ :
๋จ๊ธฐ : OpenSoraPlan ๋ฐ HunyuanVideo ์ปค๋ฎค๋ํฐ๊ฐ ์ง์ ์ฑํ ๊ฐ๋ฅ์ค๊ธฐ : ์์ฉ ๋น๋์ค ์์ฑ ์๋น์ค์ ์ํคํ
์ฒ ์ค๊ณ์ ์ํฅ์ฅ๊ธฐ : DiT ์ถ๋ก ์ต์ ํ๋ฅผ ๋
๋ฆฝ์ ์ธ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ์ถ์ง์ธ์ฉ ์ ๋ง :
์์คํ
์ต์ ํ ๋ถ์ผ: ๋ค์ค GPU ์ถ๋ก ์ต์ ํ์ ์ค์ ์ฐธ๊ณ ์๋ฃ ๋น๋์ค ์์ฑ ๋ถ์ผ: ๊ฐ์ ๊ธฐ์ค์ ๋ฐฉ๋ฒ ์์: 1-2๋
๋ด ์ธ์ฉ๋์ด 50-100ํ์ ๋๋ฌํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค ์ต์ ์ ์ฉ ์๋๋ฆฌ์ค :
๋ค์ค ์ฌ์ฉ์ ๋น๋์ค ์์ฑ ์๋น์ค :๋์ ์ฟผ๋ฆฌ๊ฐ ๋ง์ ํ์ดํ๋ผ์ธ ํจ์จ์ด ๋์ต๋๋ค ์ง์ฐ์ ๋ฏผ๊ฐํ์ฌ ๊ฐ์์ด ์ฌ์ฉ์ ๊ฒฝํ์ ์ง์ ํฅ์์ํต๋๋ค ๊ณ ํด์๋ ๋น๋์ค ์์ฑ :๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ์๋๋ฆฌ์ค์์ DeDiVAE ์ด์ ์ด ๋ช
ํํฉ๋๋ค ๋นํจ์จ์ ์ธ ์คํ๋ก๋ฉ ์ ๋ต์ ๋์ฒดํฉ๋๋ค NVLink ๋ค์ค GPU ์์คํ
:๊ณ ๋์ญํญ ์ํธ ์ฐ๊ฒฐ์ด PipeSP ํจ๊ณผ๋ฅผ ์ฆ๋์ํต๋๋ค A100/H100 ๋ฑ ๋ฐ์ดํฐ์ผํฐ GPU ๋ํ ๋ชจ๋ธ ์ถ๋ก :13B+ ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ์์ ์คํ๋ก๋ฉ ์ค๋ฒํค๋๊ฐ ์๋นํฉ๋๋ค MoE ์ํคํ
์ฒ ๋ชจ๋ธ ๋ถ์ ์ฉ ์๋๋ฆฌ์ค :
๋จ์ผ GPU ์ถ๋ก : ๋ฐฉ๋ฒ์ด ๋ค์ค GPU ๋ณ๋ ฌํ์ ์์กดํฉ๋๋ค๊ทน๋๋ก ๋ฎ์ ํด์๋ ์์ฑ : ๊ณ์ฐ ์๊ฐ์ด ์งง์ ์ต์ ํ ์ด๋์ด ์์ต๋๋ค๋จ์ผ ํ๋กฌํํธ ๋ฐฐ์น ์ฒ๋ฆฌ : ํ์ดํ๋ผ์ธ์ด ์ถฉ๋ถํ ์ค์ฒฉ๋์ง ์์ต๋๋คPCIe ์ํธ ์ฐ๊ฒฐ + ๋ฎ์ ์์
๋ถํ : ํต์ ์ค๋ฒํค๋๊ฐ ์ด๋์ ์์ํ ์ ์์ต๋๋ค๋ฐฐํฌ ๊ถ์ฅ์ฌํญ :
์์
๋ถํ ํ๊ฐ : ๋์ ์ฟผ๋ฆฌ ์, ํด์๋ ๋ถํฌ ํ๊ฐํ๋์จ์ด ๊ตฌ์ฑ : NVLink ํ๋ซํผ ์ฐ์ ์ ํ๋งค๊ฐ๋ณ์ ํ๋ : ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ N_denoise/N_decode ๋น์จ ์กฐ์ ์งํ ๋ชจ๋ํฐ๋ง : ์ง์ฐ, ๋ฉ๋ชจ๋ฆฌ, GPU ํ์ฉ๋ฅ ๋ชจ๋ํฐ๋ง์ฃผ์ ์ธ์ฉ :
Ulysses (Jacobs et al. 2023) : DeepSpeed-Ulysses ์ํ์ค ๋ณ๋ ฌํ ๊ธฐ์ด ๋ฐฉ๋ฒRing-Attention (Li et al. 2021) : ์ํ์ค ์ฐจ์ ๋ถํ ๋ณ๋ ฌํ ์ ๋ตUSP (Fang & Zhao 2024) : ํตํฉ ์ํ์ค ๋ณ๋ ฌํ ํ๋ ์์ํฌDistriFusion (Li et al. 2024b) : ์ด๋ฏธ์ง ์์ฑ์ ํจ์น ์์ค ๋ณ๋ ฌํTeacache (Liu et al. 2025) : ์๊ฐ ๋จ๊ณ ํน์ฑ ์ฌ์ฌ์ฉ ๋ฐฉ๋ฒOpenSoraPlan (PKU-YuanGroup 2025) : ์คํ์์ค ๋น๋์ค ์์ฑ ํ๋ ์์ํฌHunyuanVideo (Kong et al. 2024) : ๋๊ท๋ชจ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ข
ํฉ ํ๊ฐ : ์ด๊ฒ์ ๋น๋์ค ์์ฑ DiT ์ถ๋ก ์ ์ค์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ ์ ์ธ ์๋ฃจ์
์ ์ ์ํ๋ ๊ณ ํ์ง์ ์์คํ
์ต์ ํ ๋
ผ๋ฌธ์
๋๋ค. ์ธ ๊ฐ์ง ๊ธฐ์ ํ์ ์ด ์ํธ ๋ณด์์ ์ผ๋ก ์์ฉํ์ฌ ์์ ํ ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ํ์ฑํฉ๋๋ค. ์คํ ์ค๊ณ๊ฐ ํฌ๊ด์ ์ด๊ณ ๊ฒฐ๊ณผ๊ฐ ์ค๋๋ ฅ ์์ต๋๋ค. ์ฃผ์ ๋ถ์กฑ์ ์ ํ๋์จ์ด ์์กด์ฑ๊ณผ ์ผ๋ถ ์คํ ๋ถ์์ ๊น์ด์
๋๋ค. ๋น๋์ค ์์ฑ ์๋น์ค ์ ๊ณต์ ๋ฐ ์์คํ
์ต์ ํ ์ฐ๊ตฌ์์๊ฒ ์ค์ํ ์ฐธ๊ณ ๊ฐ์น๊ฐ ์์ต๋๋ค. ์ ์๊ฐ ์ฝ๋๋ฅผ ๊ณต๊ฐํ๊ณ ์ค์ ํ๋ก๋์
ํ๊ฒฝ์์ ์ฅ๊ธฐ ์์ ์ฑ์ ๊ฒ์ฆํ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค.