2025-11-24T16:10:17.960735

Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond

Oncescu, Purandare, Idreos et al.

While transformers have been at the core of most recent advancements in sequence generative models, their computational cost remains quadratic in sequence length. Several subquadratic architectures have been proposed to address this computational issue. Some of them, including long convolution sequence models (LCSMs), such as Hyena, address this issue at training time but remain quadratic during inference. We propose a method for speeding up LCSMs' exact inference to quasilinear $O(L\log^2L)$ time, identify the key properties that make this possible, and propose a general framework that exploits these. Our approach, inspired by previous work on relaxed polynomial interpolation, is based on a tiling which helps decrease memory movement and share computation. It has the added benefit of allowing for almost complete parallelization across layers of the position-mixing part of the architecture. Empirically, we provide a proof of concept implementation for Hyena, which gets up to $7.8\times$ end-to-end improvement over standard inference by improving $110\times$ within the position-mixing part.

academic

Flash Inference: 長卷積序列モデルおよびそれ以降の準線形時間推論

基本情報

論文ID: 2410.12982
タイトル: Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond
著者: Costin-Andrei Oncescu, Sanket Purandare, Stratos Idreos, Sham Kakade（ハーバード大学）
分類: cs.LG, cs.AI
発表時期: arXivプレプリント、2024年10月提出、2025年11月更新（v2）
論文リンク: https://arxiv.org/abs/2410.12982

要約

本論文は、長卷積序列モデル（LCSMs）の推論段階における二次時間複雑度の問題に対処し、Flash Inferenceフレームワークを提案する。これにより、精密推論の時間複雑度を準線形 $O(L\log^2L)$ に削減する。本手法は緩和多項式補間（relaxed polynomial interpolation）に着想を得ており、タイリング（tiling）戦略に基づいてメモリ移動を削減し計算を共有する。Hyenaアーキテクチャ上の実験では、エンドツーエンド推論で7.8倍の高速化、位置混合部分で110倍の高速化を達成した。

研究背景と動機

1. 核心的問題

Transformerは序列生成モデルで大きな成功を収めているが、その計算コストは序列長に対して二次的に増加する（ $O(L^2)$ ）。これは訓練と推論の両段階でボトルネックとなる。この問題を解決するため、研究者は状態空間モデル（SSMs）や長卷積序列モデル（LCSMs、例えばHyena）を含む複数の亜二次アーキテクチャを提案している。

2. 問題の重要性

訓練効率は解決済み：LCSMsはFFTを通じて訓練時に $O(L\log L)$ の複雑度を達成できる
推論効率は未解決：自回帰推論では、入力序列が段階的に生成されるため、FFTを直接使用できず、複雑度は $O(L^2)$ に低下する
長コンテキスト需要：大規模言語モデルがより長いコンテキストを処理するにつれ、推論効率の問題がより顕著になる

3. 既存手法の限界

近似手法（Massaroli et al. 2024）：卷積フィルタを低次元LTI SSMに投影するが、これは近似に過ぎず、高価な蒸留前計算が必要であり、データ依存フィルタをサポートしない
再帰的視点：低次元SSMには効率的である可能性があるが、高次元SSM（次元が序列長に近い）ではまだ効率が低い
構造利用手法：フィルタが特定の構造（例えば低秩LTI SSM）を持つ必要があり、モデルの表現能力を制限する

4. 研究動機

本論文は、フィルタの特定の構造に依存せず、同時にデータ依存フィルタをサポートする精密かつ汎用的な推論加速フレームワークを提供することを目指している。

核心的貢献

初の準線形精密推論アルゴリズム：LCSMsの $O(L\log^2 L)$ 時間複雑度精密推論アルゴリズムを提案し、従来の近似手法に比べて精密シミュレーションを実現
汎用フレームワークの識別：高速推論を可能にする主要なアーキテクチャ属性（貢献基盤、クエリ非依存）を識別し、より広いアーキテクチャクラスに適用可能なFlash Inferenceフレームワークを提案
層間並列化：タイリング戦略を利用して位置混合部分のほぼ完全な層間並列計算を実現
メモリ最適化：タイリング方法により、データ移動を $\Omega(L^2)$ から $O(L\log L)$ に大幅削減。データ独立フィルタの場合、活性化ストレージを2倍節約
実証検証：Hyenaアーキテクチャ上でエンドツーエンド7.8倍の高速化、卷積部分110倍の高速化を実現

手法の詳細

タスク定義

自回帰序列生成：プロンプト序列 $x_1, \ldots, x_p$ が与えられた場合、モデルは後続のトークンを順次生成する必要がある。各位置 $i$ で、モデルはすべての層を通じて活性化 $a^{[1,M]}_i$ を計算し、最後に $a^M_i$ からサンプリングして $x_{i+1}$ を生成する。

核心的計算ボトルネック：各層 $\ell$ と各次元について、以下を計算する必要がある： $z_t = \sum_{i=1}^{t} y_i \cdot \rho_{t-i}$

ここで $y$ は入力序列、 $\rho$ は長さ $L$ の卷積フィルタである。素朴な実装には $\Omega(L^2)$ の時間が必要である。

モデルアーキテクチャ

1. 汎用アーキテクチャ定義

モデルは $M$ 層で構成され、各層は以下を含む：

位置混合モジュール（mixer）： $\text{mixer}^\ell: \mathbb{R}^{L\times D} \to \mathbb{R}^{L\times D}$ 、異なる位置の埋め込みを相互作用させる
特徴混合モジュール（block）： $\text{block}^\ell: \mathbb{R}^D \to \mathbb{R}^D$ 、MLPと層正規化を含む

活性化計算： $a^\ell(x)_i = \text{block}^\ell(\text{mixer}^\ell(a^{\ell-1}(x))_i)$

2. LCSM固有の定義

LCSMsの場合、mixerは卷積を通じて実装される： $\text{mixer}^\ell(y)_t = \sum_{i=1}^{t} y_i \odot \rho^\ell_{t-i}$

ここで $\odot$ はHadamard積、 $\rho^\ell \in \mathbb{R}^{L\times D}$ はフィルタである（通常は低次元パラメータ $\theta$ から生成される： $\rho = f(\theta)$ ）。

核心アルゴリズム：緩和多項式補間

1. 3つの計算戦略

Lazy（遅延）方法：

$z_t = \sum_{i=1}^{t} y_i \cdot \rho_{t-i}$ を必要な時のみ計算
各位置に $O(t)$ の操作が必要で、総複雑度は $O(L^2)$

Eager（急速）方法：

$y_t$ が利用可能になったとき、すべての将来位置への貢献を直ちに計算
第 $t$ 回の反復に $O(L-t)$ の操作が必要で、総複雑度は依然として $O(L^2)$

Relaxed（緩和）方法（本論文で提案）：

貢献空間をブロック化し、FFTを使用してブロック内の貢献を効率的に計算
主要な革新：細長い条状ではなく、バランスの取れた矩形ブロック分割

2. 貢献集約の定義

$\tau(y, [l,r], \rho, [l',r'])$ を $y_{[l,r]}$ から $z_{[l',r']}$ への集約貢献として定義： $\tau(y, [l,r], \rho, [l',r'])_t = \sum_{i=l}^{r} y_i \cdot \rho_{t-i}, \quad \forall l' \leq t \leq r'$

補題1：FFTベースのアルゴリズムが存在し、 $O((L_1+L_2)\log(L_1+L_2))$ の時間で $\tau$ を計算できる。ここで $L_1 = r-l+1$ 、 $L_2 = r'-l'+1$ である。

3. ブロック分割戦略（アルゴリズム1）

for i = 1 to L-1:
    U ← iを整除する最大の2の冪
    z_i += y_i * ρ_0  # 赤いセル：直接依存
    z[i+1:i+U] += τ(y, [i-U+1, i], ρ, [i+1, i+U])  # 灰色ブロック：急速計算
    return z_i
    unlock y_{i+1}

主要な特性：

第 $i$ 回の反復で、辺の長さが $U$ の灰色ブロック（ $U$ は $i$ を整除する最大の2の冪）を計算
赤いセルは現在位置の直接依存を処理
灰色ブロックは部分的な将来の貢献を事前計算

複雑度分析（命題1）：

長さ $2^q$ のブロックについて、 $2^{P-1-q}$ 回の呼び出しがある（ $L=2^P$ ）
総時間： $\sum_{q=0}^{P-1} 2^{P-1-q} \cdot O(2^q \log 2^q) = O(L\log^2 L)$
メモリ： $O(L)$ （ピークは最大ブロックによって決定）

LCSM推論アルゴリズム（アルゴリズム2）

アルゴリズム1を複数層複数次元に拡張：

for i = 1 to L-1:
    U ← iを整除する最大の2の冪
    for ℓ = 1 to M:  # 層を反復
        b^ℓ_i += a^{ℓ-1}_i ⊙ ρ^ℓ_0  # 赤いセル
        a^ℓ_i = block^ℓ(b^ℓ_i)
        b^ℓ[i+1:i+U] += τ(a^{ℓ-1}, [i-U+1, i], ρ^ℓ, [i+1, i+U])  # 灰色ブロック
    a^0_{i+1} = sampler(a^M_i)

複雑度（命題2）：

Mixer部分： $O(MDL\log^2 L)$
Block部分： $LM$ 回の呼び出し（通常 $O(MLD^2)$ ）
活性化ストレージ： $O(MLD)$

技術的革新点

1. 層間並列化（アルゴリズム3）

灰色ブロック計算はすべての層で並列実行可能：

for i = 1 to L-1:
    for ℓ = 1 to M:
        赤いセルを処理（順序必須）
    parallel for ℓ = 1 to M:
        灰色ブロックを処理（並列可能）

利点：

小さなブロック（87.5%のブロックサイズ≤4）は通常メモリレイテンシ制限であり、並列化はメモリ帯域幅を飽和させることができる
大きなブロックはFFTを使用して実装され、計算集約的であり、並列化はスループットを向上させる

2. メモリ最適化

データ移動： $\Omega(L^2)$ から $O(L\log L)$ に削減（平均して各反復で $\log L$ 個の位置にアクセス）
活性化の再利用：位置 $i$ で $a^\ell_i$ のスペースを使用して $b^\ell_i$ を格納（その後 $b^\ell_i$ は不要）
FFT前計算： $\log L$ 個の異なるブロックサイズについてフィルタのDFTを前計算し、1.5倍の計算を節約

3. 循環卷積トリック

標準的なFFT卷積には4U長のFFTが必要（出力長3U-1）
本論文は2U長の循環卷積のみが必要（関心のある出力範囲 $[U, 2U-1]$ は循環の影響を受けない）

4. データ依存フィルタ拡張（付録B）

ブロック分割戦略を修正（アルゴリズム5）することで、 $\rho$ がデータに依存する場合をサポート。代償として計算量は2倍になる。

汎用フレームワーク：Flash Inference

アーキテクチャ属性

P.1 貢献基盤（Contribution-based）： Mixerは貢献集約作業を通じて機能： $\text{mixer}(y)_i = \text{read}(\text{agg}(\text{cont}(y,1,i), \ldots, \text{cont}(y,i,i)))$

ここで：

$\text{cont}: \mathbb{R}^D \times \mathbb{N} \times \mathbb{N} \to \mathcal{X}$ ：貢献関数
$\text{agg}: \mathcal{X}^* \to \mathcal{X}$ ：結合律集約関数
$\text{read}: \mathcal{X} \to \mathbb{R}^D$ ：読み取り関数

例：

LCSMs： $\mathcal{X}=\mathbb{R}^D$ 、 $\text{agg}=\sum$ 、 $\text{cont}(y,i,j)=y_i\odot\rho_{j-i}$
Self-attention： $\mathcal{X}=\mathbb{R}^D\times\mathbb{R}$ 、 $\text{cont}(y,i,j)=(v_i\cdot e^{\langle k_i,q_j\rangle}, e^{\langle k_i,q_j\rangle})$ 、 $\text{read}(v,w)=v/w$

P.2 クエリ非依存（Query-independent）： $\text{cont}(y,i,j)$ は $y_{[i+1,L]}$ に依存しない（LCSMsは満たすが、Transformerは満たさない）

汎用アルゴリズム（アルゴリズム4）

ブロック貢献を $T(L_1, L_2)$ 時間で計算できるアルゴリズム $\mathcal{A}$ が存在すると仮定： $\mathcal{A}(y, [l,r], [l',r']) = \text{agg}(\text{cont}(y,l,p), \ldots, \text{cont}(y,r,p))$

定理2：P.1とP.2の下で、各層は以下を実行：

$L-1$ 回の $\mathcal{A}$ 呼び出し（ $2^{P-1-q}$ 回の長さ $2^q$ の呼び出し）
総時間： $\sum_{q=0}^{P-1} 2^{P-1-q} T(2^q, 2^q)$
層間並列化：灰色ブロックはデータ依存がなく、並列化可能

実験設定

データセットと構成

2つの実験設定：

Hyenaアーキテクチャ：実際のLCSMモデル
合成設定：簡略化されたLCSM（blocksはMLP+GELU、samplerはノイズを追加）

ハイパーパラメータスイープ：

バッチサイズ $B \in \{1,2,4,8\}$
層数 $M \in \{18, 36\}$
埋め込み次元 $D \in \{256, 768, 864\}$
序列長 $L$ ：メモリに収まる最大の2の冪（ $2^{15}$ から $2^{18}$ ）

ハードウェア：NVIDIA H100およびA100 GPU

ウォームアップと平均化：2回のウォームアップ、4回の実行の平均

比較手法

ベースライン：

Lazy：素朴な位置ごとの計算
Eager：すべての将来の貢献を事前計算
Lazy NP / Eager NP：非並列版（層間並列化を使用しない）

本論文の $\tau$ 実装（7種類、4種類がPareto前沿上）：

Conv1D：PyTorchデフォルト1D卷積カーネル（明示的なパディングが必要）
Flash Conv1D：FlashFFTConvの融合カーネル
FFT：PyTorch原生FFT卷積（DFT→要素ごとの乗算→IDFT）
FlashFFT：FlashFFTConvの融合FFTカーネル
Hybrid：ブロックサイズに基づいて動的に最適な実装を選択

評価指標

エンドツーエンド時間：すべての $L$ トークンを生成するための総時間
Mixer累積時間：位置混合部分のみの時間
トークンあたりの時間：単一トークンの平均生成時間
加速比：Lazy（並列版）に対する倍数改善

実装の詳細

エンジニアリング最適化：

CUDA Graphs：単一トークン生成のすべてのカーネルスケジューリングをグラフとして記録し、後続の再生でCPUオーバーヘッドを削減（10-20%改善）
FFT前計算： $\log_2(L)-1$ 個のブロックサイズについてフィルタのDFTを前計算
FlashFFT事前設定：異なるブロックサイズについて設定を事前初期化してハードウェアパフォーマンスを最大化
右パディング：左パディングではなく右パディングを使用して計算時間を半減
循環卷積：循環卷積の性質を利用してFFT長を半減

実験結果

主要な結果

1. Hyenaアーキテクチャ（表1、図2）

Mixer部分の加速（Lazyに対する相対値）：

最高110×： $B=1, M=18, D=864, L=2^{17}$
平均64-110×：異なる構成で継続的に顕著な加速
Eager/Lazyベースライン：わずか0.54×（実際にはより遅い、最適化されていないため）

エンドツーエンド加速（表2）：

最高7.8×： $B=8, M=18, D=864, L=2^{15}$
平均3-8×：エンドツーエンドの改善は非mixer部分（MLPなど）によって制限される
時間分解（図2a）：mixerが支配的な位置から次要な部分へ低下

トークンあたりの応答時間（図2c）：

低分散：93.75%のトークンはブロックサイズ≤8を使用し、時間は安定
散発的なスパイク：大きなブロック計算時に発生（ただし頻度は低い）

2. 合成設定（表3-4、図3）

Mixer加速：

Hybrid：80-124×
単一実装：Flash Conv1D（5.5-6.5×）、FlashFFT（31-56×）、FFT（74-119×）
Conv1D（二次複雑度）：依然として5-6×の加速を達成（ブロック分割がもたらす算術強度の向上を検証）

エンドツーエンド加速：

Hybrid：3.8-11.6×
CUDA Graphsの効果：CUDA Graphsなしではエンドツーエンドはわずか1.6×、使用後は8×に達する

Pareto最適曲線（図3a）：

異なるブロックサイズで、異なる $\tau$ 実装が最適
小ブロック（U≤4）：Flash Conv1Dが最適（メモリレイテンシ制限）
中ブロック（4<U≤64）：FlashFFTが最適
大ブロック（U>64）：FFTが最適（計算集約的）

アブレーション実験

1. 層間並列化の効果

Lazy NP vs Lazy：0.76-0.91×（並列化で10-30%改善）
Eager NP vs Eager：0.49-0.53×（並列化で約2倍改善）
本論文の手法：小ブロックが支配的で、並列化の効果は顕著

2. $\tau$ 実装の比較（図3b）

Hybridは常に最適またはほぼ最適
FFTは多くの場合Hybridに近い（差異<20%）
Flash Conv1Dは $O(L^2)$ であるにもかかわらず、依然としてLazy/Eagerより5倍高速（メモリフレンドリー）

3. 時間分解（図3c、図4）

非卷積部分：すべての手法で一貫（CUDA Graphsが保証）
卷積部分：Hybridはすべてのベースラインを大幅に上回る

ケーススタディ

累積mixer時間曲線（図2b、図3b）：

Lazy/Eager：線形増加（勾配一定）
本論文の手法：対数増加（勾配逓減）
交差点：約100-1000トークン付近で、その後優位性が顕著

実験の知見

理論と実践の一致： $O(L\log^2 L)$ 複雑度が実験で顕著な加速として現れる
メモリ帯域幅の重要性：Flash Conv1Dは二次複雑度であるが、メモリアクセスの最適化により依然として5倍の加速を達成
動的選択の必要性：単一の $\tau$ 実装がすべてのブロックサイズで最適ではなく、Hybrid戦略が重要
CPUオーバーヘッドの無視できない性：CUDA Graphsはエンドツーエンド加速を1.6×から8×に向上させる
並列化の利益：小ブロックが支配的（87.5%）で、層間並列化の効果は顕著

結論と議論

主要な結論

理論的貢献：LCSMsの推論に対する初の準線形精密アルゴリズム
汎用フレームワーク：主要属性（貢献基盤、クエリ非依存）を識別し、より広いアーキテクチャに適用可能
実証検証：Hyena上でエンドツーエンド7.8×加速、mixer部分110×加速
システム最適化：層間並列化、メモリ最適化、動的実装選択などのエンジニアリング貢献

限界

データ依存フィルタ：理論的にはサポートされるが、計算量が2倍になり、実験検証が不十分
メモリ要件：依然としてすべての活性化 $O(MLD)$ を格納する必要（再帰的視点の $O(MD')$ と比較）
適用範囲：
- Transformerには適用不可（クエリ非依存を満たさない）
- 極低次元SSM（ $D' \ll \log^2 L$ ）では、再帰的視点がより優位である可能性
プロンプト段階：長いプロンプト時、プリフィル（prefill）が依然として時間を支配し、自回帰生成の最適化の相対的利益は限定的
ハードウェア依存：加速効果はGPUメモリ帯域幅特性に依存

将来の方向

アーキテクチャ設計：Flash Inferenceの要件を満たし、高品質な新しいアーキテクチャの設計
因果データ依存フィルタ：フィルタをデータ依存にしながら因果性を保つ方法（Arora et al.、Karami & Ghodsiが既に可能性を示唆）
ハイブリッド手法：再帰的視点（小状態次元）と卷積視点（大状態次元）の結合
より多くのアーキテクチャ：フレームワーク属性を満たす他のモデル（特定の注意変体など）への拡張
分散推論：複数GPU/複数ノード環境での最適化

深い評価

利点

1. 理論的厳密性

複雑度分析の完全性：補題1から定理2まで、証明チェーンが明確
汎用フレームワークの抽象化：P.1とP.2の属性は適切に抽象化され、LCSMsを包含しつつ不適用な場合（Transformerなど）を排除
数学ツールの選択：緩和多項式補間理論の応用が巧妙

2. 手法の革新性

ブロック分割戦略：バランスの取れた矩形分割（細長い条状との比較）が主要な洞察
層間並列化：灰色ブロックが依存性を持たないことを認識し、従来の層順序実行の限界を突破
動的実装選択：Hybrid戦略はハードウェア特性への深い理解を反映

3. 実験の十分性

多次元評価：エンドツーエンド、mixer、トークンあたりの時間
パラメータスイープの包括性：21種類の構成組み合わせ（B、M、D、L）
アブレーション実験の詳細さ：7種類の $\tau$ 実装、並列化の有無、CUDA Graphsの効果
2つの設定：実際のHyena + 合成（無関係な要因を排除）

4. エンジニアリング貢献

システムレベルの最適化：CUDA Graphs、FFT前計算、循環卷積などの実用的なテクニック
オープンソース化の可能性：アルゴリズム記述が詳細で再現が容易
メモリ分析：付録D/Eのメモリ使用に関する細致な議論

5. 執筆の明確性

優れた可視化：図1のブロック分割示意図が直感的
記号の一貫性：全文の記号体系が明確
充実した付録：拡張議論、証明、追加実験が良く組織されている

不足

1. 実験の限界

実際のモデル訓練がない：ランダム初期化の重みを使用し、モデル品質への影響を検証していない
エンドツーエンド比較の欠如：Mambaなど他の効率的なアーキテクチャとの比較がない
プロンプト段階の分析不足：長いプロンプト場面での実際の利益が十分に探索されていない
データ依存フィルタの未実装：アルゴリズム5は理論的議論のみで、実験検証がない

2. 手法の限界

メモリオーバーヘッド： $O(MLD)$ の活性化ストレージは長序列/多層時にボトルネックになる可能性
ピークメモリ：最大ブロックに追加の $O(LD)$ スペースが必要（順序処理で緩和可能だが）
適用性の制限：
- Transformerには適用不可（主流アーキテクチャ）
- LCSMs自体の品質がTransformerより劣る可能性
- アーキテクチャが特定の属性を満たす必要がある

3. 理論分析

定数因子： $O(L\log^2 L)$ の定数が大きい可能性（実験では小ブロック時FFTが最適でない）
最適性： $\log^2 L$ が下界であるかどうかが証明されていない
時間-メモリPareto前沿：時間-メモリのトレードオフの深い分析が不足

4. 比較の不足

近似手法との比較：Massaroli et al.の品質-速度トレードオフの実験比較がない
再帰的視点との比較：再帰的視点がより優位な場合の定量分析が不足（定性的議論のみ、 $D' \in O(\log^2 L)$ ）
構造利用手法との比較：拡張卷積など特定構造手法との比較がない

影響力

1. 学術的貢献

開拓的：LCSMsの推論に対する初の準線形精密アルゴリズム
理論的深さ：緩和多項式補間と序列モデル推論の接続
フレームワークの価値：汎用属性の識別が将来のアーキテクチャ設計を指導できる

2. 実用的価値

即座に適用可能：Hyenaなど既存モデルに直接適用可能
エンジニアリング啓発：システム最適化テクニック（CUDA Graphsなど）は移転可能
限界：LCSMsは実際の応用ではTransformerほど普及していないため、直接的な影響は限定的

3. 再現性

アルゴリズムの明確性：疑似コードが詳細で実装が容易
実験の詳細：ハイパーパラメータ、ハードウェア構成が明確
オープンソース化の可能性：記述が十分で再現可能
ハードウェア依存：高性能GPU（H100/A100）が必要で全結果を検証

適用シナリオ

1. 理想的なシナリオ

長序列生成： $L > 10^4$ 、複雑度優位が明顕
自回帰主導：生成トークン数がプロンプト長をはるかに上回る
LCSMアーキテクチャ：既に訓練されたHyenaなどのモデル
高性能ハードウェア：GPUメモリ帯域幅が高く、並列化をサポート

2. 不適用なシナリオ

短序列： $L < 1000$ 、定数オーバーヘッドが優位性を相殺する可能性
長プロンプト短生成：プリフィルが支配的で、自回帰最適化の利益が限定的
Transformerモデル：クエリ非依存属性を満たさない
極低次元SSM： $D' \ll \log^2 L$ 、再帰的視点がより優位

3. 潜在的な拡張

ハイブリッドアーキテクチャ：Transformer + LCSM層（部分層に本手法を適用）
近似変体：本論文の精密手法と低秩近似の結合
他のモダリティ：音声、ビデオ生成（卷積がより一般的）

主要参考文献

van der Hoeven, J. (1997). Lazy multiplication of formal power series. ISSAC. 理論的基礎
Poli, M. et al. (2023). Hyena hierarchy: Towards larger convolutional language models. 主要な応用対象
Massaroli, S. et al. (2024). Laughing hyena distillery: Extracting compact recurrences from convolutions. NeurIPS. 近似手法の比較
Gu, A. & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. SSM関連研究
Fu, D. Y. et al. (2023). FlashFFTConv: Efficient convolutions for long sequences with tensor cores. 実装基礎
Agarwal, N. et al. (2024). FutureFill: Fast generation from convolutional sequence models. 並行研究

総合評価：これは理論と実践が密接に結合した優れた論文である。理論的には、LCSMs推論に対する初の準線形精密アルゴリズムを提供し、汎用フレームワークを抽象化している。実践的には、システムレベルの最適化を通じて顕著な加速を実現している。主な限界は、LCSMs自体が実際の応用ではTransformerほど普及していないこと、およびデータ依存フィルタの実験検証が不足していることである。本研究は序列モデル推論最適化に新しい視点を提供し、特に将来のアーキテクチャ設計に指導的意義を持つ。モデル効率、序列モデリング、システム最適化に関心のある研究者に推奨される。