While transformers have been at the core of most recent advancements in sequence generative models, their computational cost remains quadratic in sequence length. Several subquadratic architectures have been proposed to address this computational issue. Some of them, including long convolution sequence models (LCSMs), such as Hyena, address this issue at training time but remain quadratic during inference. We propose a method for speeding up LCSMs' exact inference to quasilinear $O(L\log^2L)$ time, identify the key properties that make this possible, and propose a general framework that exploits these. Our approach, inspired by previous work on relaxed polynomial interpolation, is based on a tiling which helps decrease memory movement and share computation. It has the added benefit of allowing for almost complete parallelization across layers of the position-mixing part of the architecture. Empirically, we provide a proof of concept implementation for Hyena, which gets up to $7.8\times$ end-to-end improvement over standard inference by improving $110\times$ within the position-mixing part.
논문 ID : 2410.12982제목 : Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond저자 : Costin-Andrei Oncescu, Sanket Purandare, Stratos Idreos, Sham Kakade (하버드 대학교)분류 : cs.LG, cs.AI발표 시간 : arXiv 사전인쇄본, 2024년 10월 제출, 2025년 11월 업데이트(v2)논문 링크 : https://arxiv.org/abs/2410.12982 본 논문은 장문 합성곱 수열 모델(LCSMs)의 추론 단계에서 발생하는 이차 시간 복잡도 문제를 해결하기 위해 Flash Inference 프레임워크를 제안하며, 정확한 추론의 시간 복잡도를 준선형 O ( L log 2 L ) O(L\log^2L) O ( L log 2 L ) 로 감소시킵니다. 이 방법은 이완 다항식 보간(relaxed polynomial interpolation)에서 영감을 받았으며, 타일링(tiling) 전략을 기반으로 메모리 이동을 감소시키고 계산을 공유합니다. Hyena 아키텍처에서의 실험은 종단 간 추론에서 7.8배 가속, 위치 혼합 부분에서 110배 가속을 보여줍니다.
Transformer는 수열 생성 모델에서 큰 성공을 거두었지만, 계산 비용이 수열 길이에 대해 이차적으로 증가(O ( L 2 ) O(L^2) O ( L 2 ) )하며, 이는 훈련 및 추론 단계 모두에서 병목이 됩니다. 이 문제를 해결하기 위해 연구자들은 상태 공간 모델(SSMs)과 장문 합성곱 수열 모델(LCSMs, 예: Hyena)을 포함한 다양한 준이차 아키텍처를 제안했습니다.
훈련 효율성 해결됨 : LCSMs은 FFT를 통해 훈련 시 O ( L log L ) O(L\log L) O ( L log L ) 복잡도 달성추론 효율성 미해결 : 자회귀 추론에서 입력 수열이 점진적으로 생성되므로 FFT를 직접 사용할 수 없어 복잡도가 O ( L 2 ) O(L^2) O ( L 2 ) 로 악화됨장문 맥락 요구 : 대규모 언어 모델이 점점 더 긴 맥락을 처리함에 따라 추론 효율성 문제가 더욱 두드러짐근사 방법(Massaroli et al. 2024) : 합성곱 필터를 저차원 LTI SSM으로 투영하지만 이는 근사일 뿐이며, 비용이 많이 드는 증류 사전계산이 필요하고 데이터 의존 필터를 지원하지 않음재귀적 관점 : 저차원 SSM에는 효율적일 수 있지만 고차원 SSM(차원이 수열 길이에 가까운)에는 여전히 비효율적구조 활용 방법 : 필터가 특정 구조(예: 저순위 LTI SSM)를 가져야 하므로 모델 표현력 제한본 논문은 필터의 특정 구조에 의존하지 않으면서 데이터 의존 필터를 지원하는 정확하고 범용적인 추론 가속 프레임워크를 제공하는 것을 목표로 합니다.
첫 번째 준선형 정확 추론 알고리즘 : LCSMs의 O ( L log 2 L ) O(L\log^2 L) O ( L log 2 L ) 시간 복잡도 정확 추론 알고리즘 제안, 이전 근사 방법 대비 정확한 시뮬레이션 구현범용 프레임워크 식별 : 빠른 추론을 가능하게 하는 핵심 아키텍처 속성(기여 기반, 쿼리 무관) 식별, Flash Inference 프레임워크를 더 넓은 아키텍처 클래스에 적용계층 간 병렬화 : 타일링 전략을 활용하여 위치 혼합 부분의 거의 완전한 계층 간 병렬 계산 구현메모리 최적화 : 타일링 방법을 통해 데이터 이동을 Ω ( L 2 ) \Omega(L^2) Ω ( L 2 ) 에서 O ( L log L ) O(L\log L) O ( L log L ) 로 크게 감소, 데이터 무관 필터의 경우 2배 활성화 저장소 절감실증 검증 : Hyena 아키텍처에서 종단 간 7.8배 가속, 합성곱 부분 110배 가속 달성자회귀 수열 생성 : 프롬프트 수열 x 1 , … , x p x_1, \ldots, x_p x 1 , … , x p 가 주어지면 모델은 후속 토큰을 순차적으로 생성해야 합니다. 각 위치 i i i 에서 모델은 모든 계층을 통해 활성화 a i [ 1 , M ] a^{[1,M]}_i a i [ 1 , M ] 를 계산하고, 마지막으로 a i M a^M_i a i M 에서 x i + 1 x_{i+1} x i + 1 을 샘플링합니다.
핵심 계산 병목 : 각 계층 ℓ \ell ℓ 과 각 차원에 대해 다음을 계산해야 합니다:
z t = ∑ i = 1 t y i ⋅ ρ t − i z_t = \sum_{i=1}^{t} y_i \cdot \rho_{t-i} z t = ∑ i = 1 t y i ⋅ ρ t − i
여기서 y y y 는 입력 수열, ρ \rho ρ 는 길이 L L L 의 합성곱 필터입니다. 단순한 구현은 Ω ( L 2 ) \Omega(L^2) Ω ( L 2 ) 시간이 필요합니다.
모델은 M M M 개 계층으로 구성되며, 각 계층은 다음을 포함합니다:
위치 혼합 모듈 (mixer): mixer ℓ : R L × D → R L × D \text{mixer}^\ell: \mathbb{R}^{L\times D} \to \mathbb{R}^{L\times D} mixer ℓ : R L × D → R L × D , 서로 다른 위치의 임베딩을 상호작용특성 혼합 모듈 (block): block ℓ : R D → R D \text{block}^\ell: \mathbb{R}^D \to \mathbb{R}^D block ℓ : R D → R D , MLP, 계층 정규화 등 포함활성화 계산:
a ℓ ( x ) i = block ℓ ( mixer ℓ ( a ℓ − 1 ( x ) ) i ) a^\ell(x)_i = \text{block}^\ell(\text{mixer}^\ell(a^{\ell-1}(x))_i) a ℓ ( x ) i = block ℓ ( mixer ℓ ( a ℓ − 1 ( x ) ) i )
LCSMs의 경우 mixer는 합성곱을 통해 구현됩니다:
mixer ℓ ( y ) t = ∑ i = 1 t y i ⊙ ρ t − i ℓ \text{mixer}^\ell(y)_t = \sum_{i=1}^{t} y_i \odot \rho^\ell_{t-i} mixer ℓ ( y ) t = ∑ i = 1 t y i ⊙ ρ t − i ℓ
여기서 ⊙ \odot ⊙ 는 Hadamard 곱, ρ ℓ ∈ R L × D \rho^\ell \in \mathbb{R}^{L\times D} ρ ℓ ∈ R L × D 는 필터입니다(일반적으로 저차원 매개변수 θ \theta θ 에서 생성: ρ = f ( θ ) \rho = f(\theta) ρ = f ( θ ) ).
Lazy(게으른) 방법 :
필요할 때만 z t = ∑ i = 1 t y i ⋅ ρ t − i z_t = \sum_{i=1}^{t} y_i \cdot \rho_{t-i} z t = ∑ i = 1 t y i ⋅ ρ t − i 계산 각 위치에 O ( t ) O(t) O ( t ) 연산 필요, 총 복잡도 O ( L 2 ) O(L^2) O ( L 2 ) Eager(열성적) 방법 :
y t y_t y t 를 사용할 수 있을 때 모든 미래 위치에 대한 기여를 즉시 계산t t t 번째 반복에 O ( L − t ) O(L-t) O ( L − t ) 연산 필요, 총 복잡도 여전히 O ( L 2 ) O(L^2) O ( L 2 ) Relaxed(이완) 방법 (본 논문 제안):
기여 공간을 타일로 분할하고 FFT를 사용하여 타일 내 기여를 효율적으로 계산 핵심 혁신: 균형 잡힌 직사각형 타일링(세로로 긴 타일이 아님) τ ( y , [ l , r ] , ρ , [ l ′ , r ′ ] ) \tau(y, [l,r], \rho, [l',r']) τ ( y , [ l , r ] , ρ , [ l ′ , r ′ ]) 를 y [ l , r ] y_{[l,r]} y [ l , r ] 의 z [ l ′ , r ′ ] z_{[l',r']} z [ l ′ , r ′ ] 에 대한 집계 기여로 정의합니다:
τ ( y , [ l , r ] , ρ , [ l ′ , r ′ ] ) t = ∑ i = l r y i ⋅ ρ t − i , ∀ l ′ ≤ t ≤ r ′ \tau(y, [l,r], \rho, [l',r'])_t = \sum_{i=l}^{r} y_i \cdot \rho_{t-i}, \quad \forall l' \leq t \leq r' τ ( y , [ l , r ] , ρ , [ l ′ , r ′ ] ) t = ∑ i = l r y i ⋅ ρ t − i , ∀ l ′ ≤ t ≤ r ′
보조정리 1 : FFT 기반 알고리즘이 존재하여 O ( ( L 1 + L 2 ) log ( L 1 + L 2 ) ) O((L_1+L_2)\log(L_1+L_2)) O (( L 1 + L 2 ) log ( L 1 + L 2 )) 시간에 τ \tau τ 를 계산할 수 있습니다. 여기서 L 1 = r − l + 1 L_1 = r-l+1 L 1 = r − l + 1 , L 2 = r ′ − l ′ + 1 L_2 = r'-l'+1 L 2 = r ′ − l ′ + 1 입니다.
for i = 1 to L-1:
U ← i를 나누는 최대 2의 거듭제곱
z_i += y_i * ρ_0 # 빨간색 셀: 직접 의존성
z[i+1:i+U] += τ(y, [i-U+1, i], ρ, [i+1, i+U]) # 회색 블록: 열성적 계산
return z_i
unlock y_{i+1}
핵심 특성 :
i i i 번째 반복에서 변의 길이가 U U U 인 회색 블록 계산(U U U 는 i i i 를 나누는 최대 2의 거듭제곱)빨간색 셀은 현재 위치의 직접 의존성 처리 회색 블록은 미래 기여의 일부를 미리 계산 복잡도 분석(명제 1) :
길이 2 q 2^q 2 q 의 블록에 대해 2 P − 1 − q 2^{P-1-q} 2 P − 1 − q 번 호출(L = 2 P L=2^P L = 2 P ) 총 시간: ∑ q = 0 P − 1 2 P − 1 − q ⋅ O ( 2 q log 2 q ) = O ( L log 2 L ) \sum_{q=0}^{P-1} 2^{P-1-q} \cdot O(2^q \log 2^q) = O(L\log^2 L) ∑ q = 0 P − 1 2 P − 1 − q ⋅ O ( 2 q log 2 q ) = O ( L log 2 L ) 메모리: O ( L ) O(L) O ( L ) (피크는 최대 블록에 의해 결정) 알고리즘 1을 다중 계층 다중 차원으로 확장:
for i = 1 to L-1:
U ← i를 나누는 최대 2의 거듭제곱
for ℓ = 1 to M: # 계층 순회
b^ℓ_i += a^{ℓ-1}_i ⊙ ρ^ℓ_0 # 빨간색 셀
a^ℓ_i = block^ℓ(b^ℓ_i)
b^ℓ[i+1:i+U] += τ(a^{ℓ-1}, [i-U+1, i], ρ^ℓ, [i+1, i+U]) # 회색 블록
a^0_{i+1} = sampler(a^M_i)
복잡도(명제 2) :
Mixer 부분: O ( M D L log 2 L ) O(MDL\log^2 L) O ( M D L log 2 L ) Block 부분: L M LM L M 번 호출(일반적으로 O ( M L D 2 ) O(MLD^2) O ( M L D 2 ) ) 활성화 저장소: O ( M L D ) O(MLD) O ( M L D ) 회색 블록 계산은 모든 계층에서 병렬로 실행 가능합니다:
for i = 1 to L-1:
for ℓ = 1 to M:
빨간색 셀 처리(순차 필수)
parallel for ℓ = 1 to M:
회색 블록 처리(병렬 가능)
장점 :
작은 블록(87.5%의 블록 크기 ≤ 4)은 일반적으로 메모리 지연 제한, 병렬화는 메모리 대역폭 포화 가능 큰 블록은 FFT를 사용하여 구현, 계산 집약적이므로 병렬화는 처리량 향상 데이터 이동 : Ω ( L 2 ) \Omega(L^2) Ω ( L 2 ) 에서 O ( L log L ) O(L\log L) O ( L log L ) 로 감소(평균 반복당 log L \log L log L 개 위치 접근)활성화 재사용 : 위치 i i i 에서 a i ℓ a^\ell_i a i ℓ 의 공간을 사용하여 b i ℓ b^\ell_i b i ℓ 저장(이후 b i ℓ b^\ell_i b i ℓ 불필요)FFT 사전계산 : log L \log L log L 개의 서로 다른 블록 크기에 대해 필터의 DFT 사전계산, 1.5배 계산 절감표준 FFT 합성곱은 길이 4U의 FFT 필요(출력 길이 3U-1) 본 논문은 길이 2U의 순환 합성곱만 필요(관심 있는 출력 범위 [ U , 2 U − 1 ] [U, 2U-1] [ U , 2 U − 1 ] 은 순환의 영향 없음) 타일링 전략 수정(알고리즘 5)을 통해 ρ \rho ρ 가 데이터에 의존하는 경우 지원, 비용은 2배 계산량입니다.
P.1 기여 기반(Contribution-based) :
Mixer는 기여 집계 작업을 통해 작동합니다:
mixer ( y ) i = read ( agg ( cont ( y , 1 , i ) , … , cont ( y , i , i ) ) ) \text{mixer}(y)_i = \text{read}(\text{agg}(\text{cont}(y,1,i), \ldots, \text{cont}(y,i,i))) mixer ( y ) i = read ( agg ( cont ( y , 1 , i ) , … , cont ( y , i , i )))
여기서:
cont : R D × N × N → X \text{cont}: \mathbb{R}^D \times \mathbb{N} \times \mathbb{N} \to \mathcal{X} cont : R D × N × N → X : 기여 함수agg : X ∗ → X \text{agg}: \mathcal{X}^* \to \mathcal{X} agg : X ∗ → X : 결합 법칙 집계 함수read : X → R D \text{read}: \mathcal{X} \to \mathbb{R}^D read : X → R D : 읽기 함수예시 :
LCSMs : X = R D \mathcal{X}=\mathbb{R}^D X = R D , agg = ∑ \text{agg}=\sum agg = ∑ , cont ( y , i , j ) = y i ⊙ ρ j − i \text{cont}(y,i,j)=y_i\odot\rho_{j-i} cont ( y , i , j ) = y i ⊙ ρ j − i Self-attention : X = R D × R \mathcal{X}=\mathbb{R}^D\times\mathbb{R} X = R D × R , cont ( y , i , j ) = ( v i ⋅ e ⟨ k i , q j ⟩ , e ⟨ k i , q j ⟩ ) \text{cont}(y,i,j)=(v_i\cdot e^{\langle k_i,q_j\rangle}, e^{\langle k_i,q_j\rangle}) cont ( y , i , j ) = ( v i ⋅ e ⟨ k i , q j ⟩ , e ⟨ k i , q j ⟩ ) , read ( v , w ) = v / w \text{read}(v,w)=v/w read ( v , w ) = v / w P.2 쿼리 무관(Query-independent) :
cont ( y , i , j ) \text{cont}(y,i,j) cont ( y , i , j ) 는 y [ i + 1 , L ] y_{[i+1,L]} y [ i + 1 , L ] 에 의존하지 않음(LCSMs 만족, Transformer 불만족)
A \mathcal{A} A 가 블록 기여를 T ( L 1 , L 2 ) T(L_1, L_2) T ( L 1 , L 2 ) 시간에 계산할 수 있다고 가정합니다:
A ( y , [ l , r ] , [ l ′ , r ′ ] ) = agg ( cont ( y , l , p ) , … , cont ( y , r , p ) ) \mathcal{A}(y, [l,r], [l',r']) = \text{agg}(\text{cont}(y,l,p), \ldots, \text{cont}(y,r,p)) A ( y , [ l , r ] , [ l ′ , r ′ ]) = agg ( cont ( y , l , p ) , … , cont ( y , r , p ))
정리 2 : P.1과 P.2 하에서 각 계층은 다음을 실행합니다:
L − 1 L-1 L − 1 번의 A \mathcal{A} A 호출(2 P − 1 − q 2^{P-1-q} 2 P − 1 − q 번의 길이 2 q 2^q 2 q 호출)총 시간: ∑ q = 0 P − 1 2 P − 1 − q T ( 2 q , 2 q ) \sum_{q=0}^{P-1} 2^{P-1-q} T(2^q, 2^q) ∑ q = 0 P − 1 2 P − 1 − q T ( 2 q , 2 q ) 계층 간 병렬화: 회색 블록은 데이터 의존성 없음, 병렬 가능 두 가지 실험 설정 :
Hyena 아키텍처 : 실제 LCSM 모델합성 설정 : 단순화된 LCSM(블록은 MLP+GELU, 샘플러는 노이즈 추가)하이퍼파라미터 스캔 :
배치 크기 B ∈ { 1 , 2 , 4 , 8 } B \in \{1,2,4,8\} B ∈ { 1 , 2 , 4 , 8 } 계층 수 M ∈ { 18 , 36 } M \in \{18, 36\} M ∈ { 18 , 36 } 임베딩 차원 D ∈ { 256 , 768 , 864 } D \in \{256, 768, 864\} D ∈ { 256 , 768 , 864 } 수열 길이 L L L : 메모리에 맞는 최대 2의 거듭제곱(2 15 2^{15} 2 15 에서 2 18 2^{18} 2 18 ) 하드웨어 : NVIDIA H100 및 A100 GPU
워밍업 및 평균 : 2회 워밍업, 4회 실행 평균
기준선 :
Lazy : 단순 위치별 계산Eager : 모든 미래 기여 미리 계산Lazy NP / Eager NP : 비병렬 버전(계층 간 병렬화 미사용)본 논문 방법의 τ \tau τ 구현 (7가지, 4가지가 Pareto 최전선):
Conv1D : PyTorch 기본 1D 합성곱 커널(명시적 패딩 필요)Flash Conv1D : FlashFFTConv의 융합 커널FFT : PyTorch 원본 FFT 합성곱(DFT→원소별 곱→IDFT)FlashFFT : FlashFFTConv의 융합 FFT 커널Hybrid : 블록 크기에 따라 동적으로 최적 구현 선택종단 간 시간 : 모든 L L L 개 토큰 생성의 총 시간Mixer 누적 시간 : 위치 혼합 부분만의 시간토큰당 시간 : 단일 토큰의 평균 생성 시간가속비 : Lazy(병렬 버전) 대비 배수 향상공학적 최적화 :
CUDA Graphs : 단일 토큰 생성의 모든 커널 스케줄을 그래프로 기록, 이후 재생하여 CPU 오버헤드 감소(10-20% 향상)FFT 사전계산 : log 2 ( L ) − 1 \log_2(L)-1 log 2 ( L ) − 1 개 블록 크기에 대해 합성곱 커널의 DFT 사전계산FlashFFT 사전 구성 : 다양한 블록 크기에 대해 구성 사전 초기화하여 하드웨어 성능 최대화우측 패딩 : 좌측 패딩 대신 우측 패딩 사용, 계산 시간 절반 감소순환 합성곱 : 순환 합성곱 성질을 활용하여 FFT 길이 절반 감소Mixer 부분 가속 (Lazy 대비):
최고 110배 : B = 1 , M = 18 , D = 864 , L = 2 17 B=1, M=18, D=864, L=2^{17} B = 1 , M = 18 , D = 864 , L = 2 17 평균 64-110배 : 다양한 구성에서 지속적인 현저한 가속Eager/Lazy 기준선 : 0.54배(실제로는 더 느림, 최적화 미흡)종단 간 가속 (표2):
최고 7.8배 : B = 8 , M = 18 , D = 864 , L = 2 15 B=8, M=18, D=864, L=2^{15} B = 8 , M = 18 , D = 864 , L = 2 15 평균 3-8배 : 종단 간 향상은 비mixer 부분(MLP 등)으로 제한시간 분해 (그림2a): mixer가 주도적 위치에서 보조적 부분으로 감소토큰당 응답 시간 (그림2c):
낮은 분산 : 93.75%의 토큰이 블록 크기 ≤ 8 사용, 시간 안정적산발적 스파이크 : 큰 블록 계산 시 발생(하지만 빈도 낮음)Mixer 가속 :
Hybrid : 80-124배단일 구현 : Flash Conv1D(5.5-6.5배), FlashFFT(31-56배), FFT(74-119배)Conv1D (이차 복잡도): 여전히 5-6배 가속(타일링으로 인한 산술 강도 향상 검증)종단 간 가속 :
Hybrid : 3.8-11.6배CUDA Graphs 효과 : CUDA Graphs 없을 때 종단 간 1.6배, 사용 후 8배 달성Pareto 최적 곡선 (그림3a):
다양한 블록 크기에서 서로 다른 τ \tau τ 구현이 최적 작은 블록 (U≤4): Flash Conv1D 최적(메모리 지연 제한)중간 블록 (4<U≤64): FlashFFT 최적큰 블록 (U>64): FFT 최적(계산 집약적)Lazy NP vs Lazy : 0.76-0.91배(병렬화 10-30% 향상)Eager NP vs Eager : 0.49-0.53배(병렬화 거의 2배 향상)본 논문 방법 : 작은 블록이 주도적, 병렬화 효과 현저함Hybrid : 항상 최적 또는 거의 최적FFT : 대부분의 경우 Hybrid에 가까움(차이 <20%)Flash Conv1D : O ( L 2 ) O(L^2) O ( L 2 ) 이지만 여전히 Lazy/Eager보다 5배 빠름(메모리 친화적)비합성곱 부분 : 모든 방법에서 일정(CUDA Graphs 보장)합성곱 부분 : Hybrid이 모든 기준선을 현저히 능가누적 mixer 시간 곡선 (그림2b, 그림3b):
Lazy/Eager : 선형 증가(기울기 일정)본 논문 방법 : 로그 증가(기울기 감소)교차점 : 약 100-1000 토큰에서, 이후 우위 현저함이론과 실제 일치 : O ( L log 2 L ) O(L\log^2 L) O ( L log 2 L ) 복잡도가 실험에서 현저한 가속으로 나타남메모리 대역폭 중요성 : Flash Conv1D는 이차 복잡도이지만 메모리 접근 최적화를 통해 여전히 5배 가속 달성동적 선택 필요성 : 모든 블록 크기에서 최적인 단일 τ \tau τ 구현 없음, Hybrid 전략 핵심CPU 오버헤드 무시 불가 : CUDA Graphs가 종단 간 가속을 1.6배에서 8배로 향상병렬화 수익 : 작은 블록이 주도적(87.5%), 계층 간 병렬화 효과 현저함SSMs : Mamba(선택적 SSM), S4(구조화된 SSM)LCSMs : Hyena, H3, CKConv, FlexConv기타 : Mega(이동 평균 게이트 주의)재귀적 관점 : SSM의 재귀 형식 활용, 시간 O ( L D ′ ) O(LD') O ( L D ′ ) (D ′ D' D ′ 는 상태 차원)근사 방법 :
Massaroli et al. 2024: 저차원 LTI SSM으로 증류(근사, 데이터 의존 미지원) 본 논문: 정확, 데이터 의존 지원 구조 활용 :
확장 합성곱(Paine et al. 2016): 선형 시간, 특정 구조 필요 본 논문: 구조 가정 없음 Agarwal et al. 2024 (FutureFill): 유사 알고리즘, 선형 동역학계 중심본 논문 장점 : 데이터 의존 필터 지원, 시스템 수준 최적화 더 완성도 높음van der Hoeven 1997 : 이완 다항식 보간 이론 기초FlashFFTConv : 효율적 FFT 합성곱 구현이론적 기여 : LCSMs 추론을 위한 첫 번째 O ( L log 2 L ) O(L\log^2 L) O ( L log 2 L ) 정확 알고리즘범용 프레임워크 : 핵심 속성(기여 기반, 쿼리 무관) 식별, 더 넓은 아키텍처에 적용 가능실증 검증 : Hyena에서 종단 간 7.8배 가속, mixer 부분 110배 가속시스템 최적화 : 계층 간 병렬화, 메모리 최적화, 동적 구현 선택 등 공학적 기여데이터 의존 필터 : 이론적으로 지원하지만 2배 계산량 필요, 실험 검증 부족메모리 요구 : 여전히 전체 활성화 O ( M L D ) O(MLD) O ( M L D ) 저장 필요(vs 재귀적 관점의 O ( M D ′ ) O(MD') O ( M D ′ ) )적용 범위 :
Transformer에 부적용(쿼리 무관 미만족) 극저차원 SSM(D ′ ≪ log 2 L D' \ll \log^2 L D ′ ≪ log 2 L )에는 재귀적 관점이 더 최적일 수 있음 프롬프트 단계 : 긴 프롬프트 시 사전 채우기(prefill)가 여전히 시간 주도, 자회귀 생성 최적화의 상대적 수익 제한하드웨어 의존성 : 가속 효과는 GPU 메모리 대역폭 특성에 의존아키텍처 설계 : Flash Inference 요구사항을 만족하면서 고품질인 새로운 아키텍처 설계인과 데이터 의존 필터 : 필터가 데이터 의존하면서 인과성 유지 방법(Arora et al., Karami & Ghodsi가 이미 잠재력 보임)혼합 방법 : 재귀적 관점(작은 상태 차원)과 합성곱 관점(큰 상태 차원) 결합더 많은 아키텍처 : 프레임워크 속성을 만족하는 다른 모델로 확장(예: 특정 주의 변형)분산 추론 : 다중 GPU/다중 노드 시나리오에서의 최적화복잡도 분석 완전 : 보조정리 1에서 정리 2까지 증명 체인 명확범용 프레임워크 추상화 : P.1과 P.2 속성 추상화 적절, LCSMs 포함하면서 부적용 경우(예: Transformer) 배제수학 도구 선택 : 이완 다항식 보간 이론 응용 정교함타일링 전략 : 균형 잡힌 직사각형 타일링(vs 세로로 긴 타일)이 핵심 통찰계층 간 병렬화 : 회색 블록의 무의존성 식별, 전통적 계층 순차 실행 돌파동적 구현 선택 : Hybrid 전략은 하드웨어 특성에 대한 깊은 이해 반영다차원 평가 : 종단 간, mixer, 토큰당 시간매개변수 스캔 포괄 : 21가지 구성 조합(B, M, D, L)소거 실험 상세 : 7가지 τ \tau τ 구현, 병렬 vs 비병렬, CUDA Graphs 효과두 가지 설정 : 실제 Hyena + 합성(무관 요소 배제)시스템 수준 최적화 : CUDA Graphs, FFT 사전계산, 순환 합성곱 등 실용적 기법오픈소스 잠재력 : 알고리즘 설명 상세, 복현 용이메모리 분석 : 부록 D/E의 메모리 사용에 대한 세밀한 논의시각화 우수 : 그림1의 타일링 示意도 직관적기호 일관성 : 전문 기호 체계 명확부록 완성도 : 확장 논의, 증명, 추가 실험 조직 양호실제 모델 훈련 없음 : 무작위 초기화 가중치 사용, 모델 품질에 미치는 영향 미검증종단 간 비교 부족 : Mamba 등 다른 효율적 아키텍처와 비교 없음프롬프트 단계 분석 부족 : 긴 프롬프트 시나리오에서의 실제 수익 충분히 탐색 안 됨데이터 의존 필터 미실측 : 알고리즘 5는 이론만 논의, 실험 검증 없음메모리 오버헤드 : O ( M L D ) O(MLD) O ( M L D ) 활성화 저장소가 긴 수열/다중 계층에서 여전히 병목 가능피크 메모리 : 최대 블록이 추가 O ( L D ) O(LD) O ( L D ) 공간 필요(순차 처리로 완화 가능하지만)적용성 제한 :
Transformer에 부적용(주류 아키텍처) LCSMs 자체 품질이 Transformer보다 낮을 수 있음 아키텍처가 특정 속성 만족 필요 상수 인수 : O ( L log 2 L ) O(L\log^2 L) O ( L log 2 L ) 의 상수가 클 수 있음(실험에서 작은 블록 시 FFT 최적 아님)최적성 : log 2 L \log^2 L log 2 L 이 하한인지 미증명내존 복잡도 권형 : 시간-메모리 Pareto 최전선에 대한 심층 분석 부족근사 방법과 : Massaroli et al.의 품질-속도 권형 실험 비교 없음재귀적 관점과 : 재귀적 관점이 더 최적인 시점의 정량 분석 부족(정성적 논의만)구조 활용 방법과 : 확장 합성곱 등 특정 구조 방법과 비교 없음개척적 : LCSMs 추론을 위한 첫 번째 준선형 정확 알고리즘이론 깊이 : 이완 다항식 보간과 수열 모델 추론 연결프레임워크 가치 : 범용 속성 식별, 향후 아키텍처 설계 지도 가능즉시 적용 가능 : Hyena 등 기존 모델에 직접 적용 가능공학 영감 : 시스템 최적화 기법(CUDA Graphs 등) 이전 가능한계성 : LCSMs이 실제 응용에서 Transformer만큼 보편화되지 않아 직접 영향 제한알고리즘 명확 : 의사 코드 상세, 구현 용이실험 세부 : 하이퍼파라미터, 하드웨어 구성 명확오픈소스 잠재력 : 코드 공개 미언급이지만 설명으로 충분한 복현 가능하드웨어 의존성 : 고급 GPU(H100/A100) 필요하여 전체 결과 검증 어려움장문 수열 생성 : L > 10 4 L > 10^4 L > 1 0 4 , 복잡도 우위 명확자회귀 주도 : 생성 토큰 수가 프롬프트 길이보다 훨씬 많음LCSM 아키텍처 : 훈련된 Hyena 등 모델고급 하드웨어 : GPU 메모리 대역폭 높음, 병렬화 지원단문 수열 : L < 1000 L < 1000 L < 1000 , 상수 오버헤드가 우위 상쇄 가능긴 프롬프트 단문 생성 : 사전 채우기 주도, 자회귀 최적화 수익 제한Transformer 모델 : 쿼리 무관 속성 미만족극저차원 SSM : D ′ ≪ log 2 L D' \ll \log^2 L D ′ ≪ log 2 L , 재귀적 관점이 더 최적혼합 아키텍처 : Transformer + LCSM 계층(부분 계층 적용)근사 변형 : 본 논문 정확 방법과 저순위 근사 결합다른 모달리티 : 오디오, 비디오 생성(합성곱 더 일반적)van der Hoeven, J. (1997) . Lazy multiplication of formal power series. ISSAC. 이론 기초 Poli, M. et al. (2023) . Hyena hierarchy: Towards larger convolutional language models. 주요 응용 대상 Massaroli, S. et al. (2024) . Laughing hyena distillery: Extracting compact recurrences from convolutions. NeurIPS. 근사 방법 비교 Gu, A. & Dao, T. (2023) . Mamba: Linear-time sequence modeling with selective state spaces. SSM 관련 연구 Fu, D. Y. et al. (2023) . FlashFFTConv: Efficient convolutions for long sequences with tensor cores. 구현 기초 Agarwal, N. et al. (2024) . FutureFill: Fast generation from convolutional sequence models. 병렬 연구 종합 평가 : 이는 이론과 실제가 긴밀하게 결합된 우수한 논문입니다. 이론적으로는 LCSMs 추론을 위한 첫 번째 준선형 정확 알고리즘을 제공하고 범용 프레임워크를 추상화했으며, 실제로는 시스템 수준 최적화를 통해 현저한 가속을 달성했습니다. 주요 한계는 LCSMs 자체가 실제 응용에서 Transformer만큼 보편화되지 않았다는 점과 데이터 의존 필터의 실험 검증 부족입니다. 본 연구는 수열 모델 추론 최적화에 새로운 관점을 제공하며, 특히 향후 아키텍처 설계에 지도 가치가 있습니다. 모델 효율성, 수열 모델링, 시스템 최적화에 관심 있는 연구자에게 추천합니다.