2025-11-23T17:13:17.428108

Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free

Zhang, Xiao, Tang et al.
Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.
academic

トークン剪枝によるキャッシング改善: Stable Diffusionで9倍の加速を無料で実現

基本情報

  • 論文ID: 2501.00375
  • タイトル: Token Pruning for Caching Better: 9× Acceleration on Stable Diffusion for Free
  • 著者: Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang
  • 分類: cs.CV (コンピュータビジョン), cs.LG (機械学習)
  • 発表日: 2024年12月31日
  • 論文リンク: https://arxiv.org/abs/2501.00375
  • コードリンク: github.com/EvelynZhang-epiclab/DaTo

要約

Stable Diffusionはテキスト画像生成分野で顕著な成功を収めていますが、その反復的なノイズ除去メカニズムは高い計算コストと遅い生成速度をもたらします。特徴キャッシング等の方法はその有効性と単純性から注目を集めていますが、先前のタイムステップで計算された特徴を単純に再利用すると、隣接するタイムステップ間の特徴が類似するようになり、時間経過に伴う特徴の動的性が低下し、最終的に生成画像の品質に悪影響を及ぼします。本論文は、特徴キャッシングの限界に対処するため、動的認識トークン剪枝(DaTo)手法を提案しています。DaToは動的性の低いトークンを選択的に剪枝し、高動的性トークンのみが自己注意層に参加することを許可することで、タイムステップ間の特徴動的性を拡張します。ImageNetでStable Diffusionに適用した場合、この手法は9倍の加速を実現し、同時にFIDが0.33低下しました。COCO-30kでは7倍の加速が観察され、FIDが大幅に2.17低下しました。

研究背景と動機

問題背景

拡散モデルは生成モデリング分野で大きな進展を遂げており、テキスト画像生成やビデオ生成などのタスクに広く応用されています。しかし、拡散モデルの反復的なノイズ除去メカニズムは膨大な計算コストと遅い生成速度をもたらし、より広範な応用を制限しています。

既存手法の限界

拡散モデルを加速するための現在の手法は主に以下を含みます:

  1. サンプリングステップ数の削減: DDIMなどの高速サンプラー
  2. 各ステップの計算コスト削減: 知識蒸留、構造剪枝、量子化、トークン剪枝、特徴キャッシング

このうち、特徴キャッシングはその有効性と単純性から広く支持されており、先前のタイムステップで計算された特徴を保存し、後続のタイムステップで再利用します。しかし、特徴の再利用は異なるタイムステップの特徴が類似した値を持つことを強制し、タイムステップに沿った特徴の動的性を低下させ、元の拡散プロセスを損傷させ、生成品質を低下させます。

研究動機

論文は実験的観察を通じて、元のStable Diffusionと比較して、特徴キャッシングを使用するモデルでは隣接するタイムステップ間の特徴差が大幅に減少することを発見しました。これは重要な問題を引き起こします: 特徴キャッシングを実行しながら、正しい特徴動的性を維持することは可能でしょうか?

核心的貢献

  1. 動的認識トークン剪枝(DaTo)手法の提案: 異なるタイムステップ間で特徴キャッシングによって動的性が低下したトークンを剪枝し、高動的性トークンでそれらを復元することにより、特徴キャッシングによる生成品質低下を回避します。
  2. 進化探索戦略の設計: 進化的手法を通じて最適な特徴キャッシングとトークン剪枝戦略を探索し、DaToの可能性を十分に引き出す方法を提案します。
  3. 顕著なパフォーマンス向上の実現: Stable DiffusionおよびSDXLでの広範な実験により、訓練とデータなしで、Stable Diffusionで最大9倍の加速と生成品質の損失なしを達成できることが示されています。

方法の詳細

タスク定義

本論文のタスクは、画像生成品質を維持しながら、Stable Diffusionモデルの推論プロセスを大幅に加速することです。入力はテキストプロンプト、出力は対応する高品質画像であり、制約条件はモデルの再訓練が不要なことです。

モデルアーキテクチャ

1. 動的認識トークン剪枝(DaTo)

基本トークン選択:

  • 時間ノイズ差分スコア: t番目のタイムステップについて、前の2つの隣接するタイムステップの出力の絶対差を計算します:
    DiffScore = (1/C) * Σ|f_up_0(x_{t+2})_c - f_up_0(x_{t+1})_c|
    
  • パッチベースのトークン選択: 画像をs×sの非重複パッチに分割し、各パッチ内で最高DiffScoreを持つトークンを基本トークンとして選択します。

CFG整列: 分類器自由ガイダンス(CFG)を処理するため、条件付き生成の基本トークン位置を無条件生成にコピーします:

X_base,i,j[k] = X_base,i,j[k - B/2], k ∈ {B/2, B/2+1, ..., B-1}

剪枝トークン選択: コサイン類似度に基づいて基本トークンと最も類似したK個のトークンを剪枝用に選択します:

X_prune = arg topK max Cosine_Similarity(X_i, X_j)

剪枝トークン復元: 剪枝されたトークンを、最も類似した基本トークンを直接コピーして復元します。

2. タイムステップ認識特徴キャッシング

探索空間の剪枝:

  • キャッシング深度dは{0, 1, 1/2}に制限
  • 剪枝比率rは{0.3, 0.4, 0.5, 0.6, 0.7}に制限

進化探索アルゴリズム: NSGA-II多目的最適化アルゴリズムを使用し、最適化目標は以下を含みます:

  • 推論レイテンシ
  • 生成品質(FID)

探索プロセスには選択、交叉、変異などの標準進化操作が含まれ、最終的に最適なステップ認識戦略F(t)が得られます。

技術的革新点

  1. 動的性復元メカニズム: 低動的性トークンを選択的に剪枝し、高動的性トークンで復元することにより、特徴キャッシングによって破壊された特徴動的性分布を成功裏に復元します。
  2. 統一されたキャッシング剪枝フレームワーク: 特徴キャッシングとトークン剪枝を訓練不要なフレームワークに結合し、時間およびトークンレベルの情報再利用を実現します。
  3. 適応的戦略探索: 異なるタイムステップの異なる冗長特性に対して、最適なキャッシング深度と剪枝比率を自動的に探索する方法を提案します。

実験設定

データセット

  • ImageNet-1k: 2000枚の512×512画像を生成(クラスあたり2枚)
  • COCO-30k: 30000枚の画像を生成(キャプションあたり1枚)
  • MS COCOバリデーションセット: SDXL評価用、5k枚の1024×1024画像を生成

評価指標

  • FID (Fréchet Inception Distance): 生成品質の測定
  • CLIPスコア: テキスト画像アライメント評価
  • Inception Score: 画像品質評価
  • レイテンシと加速比: 効率評価

比較手法

  • DDIM/DPM: 高速サンプラー
  • ToMeSD: トークンマージング手法
  • DeepCache: 特徴キャッシング手法
  • DeepCache & ToMeSD: 素朴な組み合わせ手法

実装詳細

  • NSGA-II進化アルゴリズムを使用、母集団サイズ20、100世代実行
  • CFGスケール: 7.5 (SD v1.5), 9.0 (SD v2), 7.0 (SDXL)
  • サンプリングステップ数: 50ステップPLMS
  • 単一の4090 GPUでテスト

実験結果

主要結果

Stable Diffusion v1.5 (ImageNet):

  • 構成e1: 9.01倍加速、FIDが27.64から27.31に低下
  • すべての構成で比較手法を上回る

Stable Diffusion v2 (ImageNet):

  • 構成e2: 7.25倍加速、FIDは28.20
  • 元のモデルと比較してFIDが29.8から28.20に低下

COCO-30kデータセット:

  • SD v1.5: 7倍加速、FIDが12.15から9.98に低下(2.17低下)
  • SD v2: 7.25倍加速、FIDが13.68から13.88

SDXL (MS COCO):

  • 2.32倍加速、FIDが24.25から23.10に低下
  • DeepCache(1.75倍)およびDeepCache&ToMeSD(1.78倍)を大幅に上回る

アブレーション実験

DiffScoreの有効性: 異なるキャッシング設定と剪枝比率の下で、DiffScoreを使用することで一貫してFIDスコアが向上し、時間ノイズ差分スコアの有効性が証明されました。

CFG整列の影響: 剪枝比率の増加に伴い、CFG整列構成がもたらす利益は徐々に増加し、高剪枝比率(0.7)ではFID改善が13ポイントから30ポイントまで変動します。

ケース分析

視覚的比較結果はDaToが複数の側面で優れたパフォーマンスを示しています:

  • コンテンツ忠実度: 元の画像コンテンツと高度に類似
  • 詳細保持: 高詳細シーンで細かいテクスチャを保持
  • スタイル適応: 画像から画像へのタスクでコンテンツ保存とスタイル精度のバランスを取る
  • プロンプト整列: 複雑なテキストプロンプト内のすべての要素を正確に生成

実験的発見

  1. 特徴動的性復元: DaToは特徴差分布を元のStable Diffusionに近いレベルに成功裏に復元
  2. スパース符号化効果: 適度なトークン剪枝と特徴キャッシングは、重要な特徴に焦点を当てることでモデルパフォーマンスを改善できる
  3. 戦略の一般化性: SD v1.5で探索された戦略はSDXLおよび他のデータセットで良好なパフォーマンスを示す

関連研究

効率的な拡散モデル

  • サンプリングステップ削減: DDIM、一貫性モデルなど
  • ネットワーク圧縮: 量子化、剪枝、蒸留など
  • アーキテクチャ最適化: U-Net改善、Transformer最適化など

トークン削減戦略

  • 学習手法: DynamicViT、A-ViTなど補助モデルを使用したランキングと剪枝
  • ヒューリスティック手法: Token Pooling、Token Mergingなど訓練不要な手法
  • 拡散モデル応用: ToMeSD、AT-EDMなど生成タスク向けの適応

キャッシング機構

  • U-Netキャッシング: DeepCacheは時間冗長性を利用した特徴キャッシング
  • DiTキャッシング: Δ-DiTはDiffusion Transformer向けのキャッシング戦略
  • 最適化課題: 効率向上と生成品質維持のバランス

結論と考察

主要な結論

  1. DaToは特徴キャッシングによる特徴動的性損失の問題を成功裏に解決
  2. 進化探索で得られた適応的戦略は固定構成を大幅に上回る
  3. この手法は複数のモデルとデータセットで顕著な加速と品質向上を実現

限界

  1. 探索コスト: ≤20 GPU時間は許容可能ですが、追加の計算リソースが必要
  2. ハードウェア依存: パフォーマンス向上はハードウェア構成によって異なる可能性がある
  3. 極端な設定での限界: 過度な剪枝比率または低いキャッシング更新頻度はパフォーマンスを損傷

今後の方向性

  1. 適応的戦略学習: より知的な適応的キャッシングと剪枝戦略の開発
  2. 他のアーキテクチャへの適応: より多くの拡散モデルアーキテクチャへの拡張
  3. 理論分析: 拡散モデルにおけるスパース符号化原理の深い理解

深い評価

利点

  1. 革新性が高い: 特徴キャッシングの動的性損失問題を初めて体系的に解決
  2. 方法が実用的: 訓練不要で、展開と統合が容易
  3. 実験が充分: 複数のモデルとデータセットで包括的評価を実施
  4. 理論的支持: スパース符号化の理論的説明を提供
  5. オープンソース対応: 完全なコード実装を提供

不足点

  1. 理論分析が不十分: この手法がなぜFIDを改善できるかについての理論的説明が相対的に単純
  2. 探索アルゴリズムへの依存: 最適戦略を見つけるために進化探索が必要で、使用複雑度が増加
  3. 評価指標が単一: 主にFIDに依存し、より多様な品質指標が不足
  4. ユーザー研究の欠如: 生成品質を検証するための人間評価がない

影響力

  1. 学術的価値: 拡散モデル加速に新しい思考と手法を提供
  2. 実用的価値: 既存のStable Diffusionモデルに直接適用可能
  3. 再現性: 詳細な実装詳細とオープンソースコードを提供
  4. 示唆性: 生成モデルにおけるトークンレベル最適化の応用例を提供

適用シーン

  1. リソース制限環境: モバイルデバイス、エッジコンピューティングシーン
  2. リアルタイム応用: 高速生成が必要なインタラクティブアプリケーション
  3. バッチ生成: 大規模画像生成タスク
  4. 研究プロトタイプ: 高速反復が必要な研究プロジェクト

参考文献

論文は拡散モデル、トークン削減、キャッシング機構など複数の関連分野の重要な研究を含む46の参考文献を引用しており、本研究に堅実な理論的基礎と比較ベンチマークを提供しています。


総合評価: これは拡散モデル加速という重要な問題に対して革新的なソリューションを提案した高品質なコンピュータビジョン論文です。方法設計が巧妙で、実験評価が包括的であり、実用的価値が顕著です。理論分析の深さにおいてやや不足していますが、その実際の貢献と影響力は認識に値します。