Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.
論文ID : 2501.00375タイトル : Token Pruning for Caching Better: 9× Acceleration on Stable Diffusion for Free著者 : Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang分類 : cs.CV (コンピュータビジョン), cs.LG (機械学習)発表日 : 2024年12月31日論文リンク : https://arxiv.org/abs/2501.00375 コードリンク : github.com/EvelynZhang-epiclab/DaToStable Diffusionはテキスト画像生成分野で顕著な成功を収めていますが、その反復的なノイズ除去メカニズムは高い計算コストと遅い生成速度をもたらします。特徴キャッシング等の方法はその有効性と単純性から注目を集めていますが、先前のタイムステップで計算された特徴を単純に再利用すると、隣接するタイムステップ間の特徴が類似するようになり、時間経過に伴う特徴の動的性が低下し、最終的に生成画像の品質に悪影響を及ぼします。本論文は、特徴キャッシングの限界に対処するため、動的認識トークン剪枝(DaTo)手法を提案しています。DaToは動的性の低いトークンを選択的に剪枝し、高動的性トークンのみが自己注意層に参加することを許可することで、タイムステップ間の特徴動的性を拡張します。ImageNetでStable Diffusionに適用した場合、この手法は9倍の加速を実現し、同時にFIDが0.33低下しました。COCO-30kでは7倍の加速が観察され、FIDが大幅に2.17低下しました。
拡散モデルは生成モデリング分野で大きな進展を遂げており、テキスト画像生成やビデオ生成などのタスクに広く応用されています。しかし、拡散モデルの反復的なノイズ除去メカニズムは膨大な計算コストと遅い生成速度をもたらし、より広範な応用を制限しています。
拡散モデルを加速するための現在の手法は主に以下を含みます:
サンプリングステップ数の削減 : DDIMなどの高速サンプラー各ステップの計算コスト削減 : 知識蒸留、構造剪枝、量子化、トークン剪枝、特徴キャッシングこのうち、特徴キャッシング はその有効性と単純性から広く支持されており、先前のタイムステップで計算された特徴を保存し、後続のタイムステップで再利用します。しかし、特徴の再利用は異なるタイムステップの特徴が類似した値を持つことを強制し、タイムステップに沿った特徴の動的性を低下させ、元の拡散プロセスを損傷させ、生成品質を低下させます。
論文は実験的観察を通じて、元のStable Diffusionと比較して、特徴キャッシングを使用するモデルでは隣接するタイムステップ間の特徴差が大幅に減少することを発見しました。これは重要な問題を引き起こします: 特徴キャッシングを実行しながら、正しい特徴動的性を維持することは可能でしょうか?
動的認識トークン剪枝(DaTo)手法の提案 : 異なるタイムステップ間で特徴キャッシングによって動的性が低下したトークンを剪枝し、高動的性トークンでそれらを復元することにより、特徴キャッシングによる生成品質低下を回避します。進化探索戦略の設計 : 進化的手法を通じて最適な特徴キャッシングとトークン剪枝戦略を探索し、DaToの可能性を十分に引き出す方法を提案します。顕著なパフォーマンス向上の実現 : Stable DiffusionおよびSDXLでの広範な実験により、訓練とデータなしで、Stable Diffusionで最大9倍の加速と生成品質の損失なしを達成できることが示されています。本論文のタスクは、画像生成品質を維持しながら、Stable Diffusionモデルの推論プロセスを大幅に加速することです。入力はテキストプロンプト、出力は対応する高品質画像であり、制約条件はモデルの再訓練が不要なことです。
基本トークン選択 :
時間ノイズ差分スコア : t番目のタイムステップについて、前の2つの隣接するタイムステップの出力の絶対差を計算します:
DiffScore = (1/C) * Σ|f_up_0(x_{t+2})_c - f_up_0(x_{t+1})_c|
パッチベースのトークン選択 : 画像をs×sの非重複パッチに分割し、各パッチ内で最高DiffScoreを持つトークンを基本トークンとして選択します。CFG整列 :
分類器自由ガイダンス(CFG)を処理するため、条件付き生成の基本トークン位置を無条件生成にコピーします:
X_base,i,j[k] = X_base,i,j[k - B/2], k ∈ {B/2, B/2+1, ..., B-1}
剪枝トークン選択 :
コサイン類似度に基づいて基本トークンと最も類似したK個のトークンを剪枝用に選択します:
X_prune = arg topK max Cosine_Similarity(X_i, X_j)
剪枝トークン復元 :
剪枝されたトークンを、最も類似した基本トークンを直接コピーして復元します。
探索空間の剪枝 :
キャッシング深度dは{0, 1, 1/2}に制限 剪枝比率rは{0.3, 0.4, 0.5, 0.6, 0.7}に制限 進化探索アルゴリズム :
NSGA-II多目的最適化アルゴリズムを使用し、最適化目標は以下を含みます:
探索プロセスには選択、交叉、変異などの標準進化操作が含まれ、最終的に最適なステップ認識戦略F(t)が得られます。
動的性復元メカニズム : 低動的性トークンを選択的に剪枝し、高動的性トークンで復元することにより、特徴キャッシングによって破壊された特徴動的性分布を成功裏に復元します。統一されたキャッシング剪枝フレームワーク : 特徴キャッシングとトークン剪枝を訓練不要なフレームワークに結合し、時間およびトークンレベルの情報再利用を実現します。適応的戦略探索 : 異なるタイムステップの異なる冗長特性に対して、最適なキャッシング深度と剪枝比率を自動的に探索する方法を提案します。ImageNet-1k : 2000枚の512×512画像を生成(クラスあたり2枚)COCO-30k : 30000枚の画像を生成(キャプションあたり1枚)MS COCOバリデーションセット : SDXL評価用、5k枚の1024×1024画像を生成FID (Fréchet Inception Distance) : 生成品質の測定CLIPスコア : テキスト画像アライメント評価Inception Score : 画像品質評価レイテンシと加速比 : 効率評価DDIM/DPM : 高速サンプラーToMeSD : トークンマージング手法DeepCache : 特徴キャッシング手法DeepCache & ToMeSD : 素朴な組み合わせ手法NSGA-II進化アルゴリズムを使用、母集団サイズ20、100世代実行 CFGスケール: 7.5 (SD v1.5), 9.0 (SD v2), 7.0 (SDXL) サンプリングステップ数: 50ステップPLMS 単一の4090 GPUでテスト Stable Diffusion v1.5 (ImageNet) :
構成e1: 9.01倍加速、FIDが27.64から27.31に低下 すべての構成で比較手法を上回る Stable Diffusion v2 (ImageNet) :
構成e2: 7.25倍加速、FIDは28.20 元のモデルと比較してFIDが29.8から28.20に低下 COCO-30kデータセット :
SD v1.5: 7倍加速、FIDが12.15から9.98に低下(2.17低下) SD v2: 7.25倍加速、FIDが13.68から13.88 SDXL (MS COCO) :
2.32倍加速、FIDが24.25から23.10に低下 DeepCache(1.75倍)およびDeepCache&ToMeSD(1.78倍)を大幅に上回る DiffScoreの有効性 :
異なるキャッシング設定と剪枝比率の下で、DiffScoreを使用することで一貫してFIDスコアが向上し、時間ノイズ差分スコアの有効性が証明されました。
CFG整列の影響 :
剪枝比率の増加に伴い、CFG整列構成がもたらす利益は徐々に増加し、高剪枝比率(0.7)ではFID改善が13ポイントから30ポイントまで変動します。
視覚的比較結果はDaToが複数の側面で優れたパフォーマンスを示しています:
コンテンツ忠実度 : 元の画像コンテンツと高度に類似詳細保持 : 高詳細シーンで細かいテクスチャを保持スタイル適応 : 画像から画像へのタスクでコンテンツ保存とスタイル精度のバランスを取るプロンプト整列 : 複雑なテキストプロンプト内のすべての要素を正確に生成特徴動的性復元 : DaToは特徴差分布を元のStable Diffusionに近いレベルに成功裏に復元スパース符号化効果 : 適度なトークン剪枝と特徴キャッシングは、重要な特徴に焦点を当てることでモデルパフォーマンスを改善できる戦略の一般化性 : SD v1.5で探索された戦略はSDXLおよび他のデータセットで良好なパフォーマンスを示すサンプリングステップ削減 : DDIM、一貫性モデルなどネットワーク圧縮 : 量子化、剪枝、蒸留などアーキテクチャ最適化 : U-Net改善、Transformer最適化など学習手法 : DynamicViT、A-ViTなど補助モデルを使用したランキングと剪枝ヒューリスティック手法 : Token Pooling、Token Mergingなど訓練不要な手法拡散モデル応用 : ToMeSD、AT-EDMなど生成タスク向けの適応U-Netキャッシング : DeepCacheは時間冗長性を利用した特徴キャッシングDiTキャッシング : Δ-DiTはDiffusion Transformer向けのキャッシング戦略最適化課題 : 効率向上と生成品質維持のバランスDaToは特徴キャッシングによる特徴動的性損失の問題を成功裏に解決 進化探索で得られた適応的戦略は固定構成を大幅に上回る この手法は複数のモデルとデータセットで顕著な加速と品質向上を実現 探索コスト : ≤20 GPU時間は許容可能ですが、追加の計算リソースが必要ハードウェア依存 : パフォーマンス向上はハードウェア構成によって異なる可能性がある極端な設定での限界 : 過度な剪枝比率または低いキャッシング更新頻度はパフォーマンスを損傷適応的戦略学習 : より知的な適応的キャッシングと剪枝戦略の開発他のアーキテクチャへの適応 : より多くの拡散モデルアーキテクチャへの拡張理論分析 : 拡散モデルにおけるスパース符号化原理の深い理解革新性が高い : 特徴キャッシングの動的性損失問題を初めて体系的に解決方法が実用的 : 訓練不要で、展開と統合が容易実験が充分 : 複数のモデルとデータセットで包括的評価を実施理論的支持 : スパース符号化の理論的説明を提供オープンソース対応 : 完全なコード実装を提供理論分析が不十分 : この手法がなぜFIDを改善できるかについての理論的説明が相対的に単純探索アルゴリズムへの依存 : 最適戦略を見つけるために進化探索が必要で、使用複雑度が増加評価指標が単一 : 主にFIDに依存し、より多様な品質指標が不足ユーザー研究の欠如 : 生成品質を検証するための人間評価がない学術的価値 : 拡散モデル加速に新しい思考と手法を提供実用的価値 : 既存のStable Diffusionモデルに直接適用可能再現性 : 詳細な実装詳細とオープンソースコードを提供示唆性 : 生成モデルにおけるトークンレベル最適化の応用例を提供リソース制限環境 : モバイルデバイス、エッジコンピューティングシーンリアルタイム応用 : 高速生成が必要なインタラクティブアプリケーションバッチ生成 : 大規模画像生成タスク研究プロトタイプ : 高速反復が必要な研究プロジェクト論文は拡散モデル、トークン削減、キャッシング機構など複数の関連分野の重要な研究を含む46の参考文献を引用しており、本研究に堅実な理論的基礎と比較ベンチマークを提供しています。
総合評価 : これは拡散モデル加速という重要な問題に対して革新的なソリューションを提案した高品質なコンピュータビジョン論文です。方法設計が巧妙で、実験評価が包括的であり、実用的価値が顕著です。理論分析の深さにおいてやや不足していますが、その実際の貢献と影響力は認識に値します。