2025-11-23T17:13:17.428108

Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free

Zhang, Xiao, Tang et al.

Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.

academic

Potatura dei Token per un Caching Migliore: Accelerazione 9× su Stable Diffusion Gratuita

Informazioni Fondamentali

ID Articolo: 2501.00375
Titolo: Token Pruning for Caching Better: 9× Acceleration on Stable Diffusion for Free
Autori: Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang
Classificazione: cs.CV (Visione Artificiale), cs.LG (Apprendimento Automatico)
Data di Pubblicazione: 31 dicembre 2024
Link Articolo: https://arxiv.org/abs/2501.00375
Link Codice: github.com/EvelynZhang-epiclab/DaTo

Riassunto

Stable Diffusion ha ottenuto notevoli successi nel campo della generazione di immagini da testo, tuttavia il suo meccanismo iterativo di denoising comporta elevati costi computazionali e velocità di generazione lenta. Sebbene metodi come il caching delle caratteristiche abbiano attirato attenzione per la loro efficacia e semplicità, il semplice riutilizzo delle caratteristiche calcolate in passi temporali precedenti causa la similarità delle caratteristiche tra passi temporali adiacenti, riducendo la dinamicità delle caratteristiche nel tempo e compromettendo infine la qualità dell'immagine generata. Questo articolo propone un metodo di potatura dei token consapevole della dinamicità (DaTo) per affrontare i limiti del caching delle caratteristiche. DaTo pota selettivamente i token con dinamicità inferiore, consentendo solo ai token ad alta dinamicità di partecipare ai livelli di auto-attenzione, estendendo così la dinamicità delle caratteristiche tra i passi temporali. Quando applicato a Stable Diffusion su ImageNet, il metodo raggiunge un'accelerazione di 9×, mentre l'FID diminuisce di 0,33; su COCO-30k si osserva un'accelerazione di 7×, con una diminuzione significativa dell'FID di 2,17.

Contesto di Ricerca e Motivazione

Contesto del Problema

I modelli di diffusione hanno compiuto progressi significativi nel campo della modellazione generativa, con applicazioni diffuse nella generazione di immagini da testo, generazione di video e altri compiti. Tuttavia, il meccanismo iterativo di denoising dei modelli di diffusione comporta enormi costi computazionali e velocità di generazione lenta, limitando applicazioni più ampie.

Limitazioni dei Metodi Esistenti

I metodi attuali per accelerare i modelli di diffusione includono principalmente:

Riduzione dei passi di campionamento: come campionatori veloci DDIM
Riduzione del costo computazionale per passo: inclusi distillazione della conoscenza, potatura strutturale, quantizzazione, potatura dei token e caching delle caratteristiche

Tra questi, il caching delle caratteristiche è ampiamente apprezzato per la sua efficacia e semplicità, poiché memorizza le caratteristiche calcolate in passi temporali precedenti e le riutilizza nei passi temporali successivi. Tuttavia, il riutilizzo delle caratteristiche forza caratteristiche di diversi passi temporali ad avere valori simili, riducendo la dinamicità delle caratteristiche lungo i passi temporali, compromettendo il processo di diffusione originale e riducendo così la qualità della generazione.

Motivazione della Ricerca

L'articolo osserva sperimentalmente che, rispetto a Stable Diffusion originale, il modello che utilizza il caching delle caratteristiche mostra una differenza significativamente ridotta nelle caratteristiche tra passi temporali adiacenti. Questo suscita una domanda critica: è possibile mantenere la corretta dinamicità delle caratteristiche mentre si esegue il caching delle caratteristiche?

Contributi Fondamentali

Propone il metodo di potatura dei token consapevole della dinamicità (DaTo): potando selettivamente i token la cui dinamicità è stata ridotta dal caching delle caratteristiche in diversi passi temporali e ripristinandoli con token ad alta dinamicità, evita la diminuzione della qualità della generazione causata dal caching delle caratteristiche.
Progetta una strategia di ricerca evolutiva: propone di cercare la strategia ottimale di caching delle caratteristiche e potatura dei token attraverso metodi evolutivi, sfruttando pienamente il potenziale di DaTo.
Realizza miglioramenti significativi delle prestazioni: esperimenti estesi su Stable Diffusion e SDXL dimostrano che, senza addestramento e dati aggiuntivi, è possibile ottenere un'accelerazione fino a 9× su Stable Diffusion senza perdita di qualità della generazione.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di questo articolo è accelerare significativamente il processo di inferenza del modello Stable Diffusion mantenendo la qualità della generazione di immagini. L'input è un prompt di testo, l'output è l'immagine di alta qualità corrispondente, con il vincolo di non richiedere il riaddestrament del modello.

Architettura del Modello

1. Potatura dei Token Consapevole della Dinamicità (DaTo)

Selezione di Token di Base:

Punteggio di Differenza Temporale del Rumore: per il passo temporale t-esimo, calcola la differenza assoluta degli output dei due passi temporali adiacenti precedenti:
```
DiffScore = (1/C) * Σ|f_up_0(x_{t+2})_c - f_up_0(x_{t+1})_c|
```
Selezione di Token Basata su Patch: divide l'immagine in patch non sovrapposte s×s, selezionando in ogni patch il token con il DiffScore più alto come token di base.

Allineamento CFG: Per gestire la guida libera da classificatore (CFG), copia le posizioni dei token di base della generazione condizionata alla generazione non condizionata:

X_base,i,j[k] = X_base,i,j[k - B/2], k ∈ {B/2, B/2+1, ..., B-1}

Selezione di Token da Potare: Seleziona i K token più simili ai token di base in base alla similarità del coseno per la potatura:

X_prune = arg topK max Cosine_Similarity(X_i, X_j)

Ripristino dei Token Potati: Ripristina i token potati copiando direttamente il token di base più simile.

2. Caching delle Caratteristiche Consapevole del Passo Temporale

Potatura dello Spazio di Ricerca:

Profondità di caching d limitata a {0, 1, 1/2}
Rapporto di potatura r limitato a {0.3, 0.4, 0.5, 0.6, 0.7}

Algoritmo di Ricerca Evolutiva: Utilizza l'algoritmo di ottimizzazione multi-obiettivo NSGA-II, con obiettivi di ottimizzazione che includono:

Latenza di inferenza
Qualità della generazione (FID)

Il processo di ricerca include operazioni evolutive standard come selezione, incrocio, mutazione, ottenendo infine la strategia ottimale consapevole del passo F(t).

Punti di Innovazione Tecnica

Meccanismo di Ripristino della Dinamicità: attraverso la potatura selettiva dei token a bassa dinamicità e il ripristino con token ad alta dinamicità, ripristina con successo la distribuzione della dinamicità delle caratteristiche compromessa dal caching delle caratteristiche.
Framework Unificato di Caching-Potatura: combina il caching delle caratteristiche e la potatura dei token in un framework indipendente dall'addestramento, realizzando il riutilizzo delle informazioni a livello temporale e di token.
Ricerca di Strategie Adattive: per le diverse caratteristiche di ridondanza di diversi passi temporali, propone un metodo per cercare automaticamente la profondità di caching e il rapporto di potatura ottimali.

Configurazione Sperimentale

Dataset

ImageNet-1k: generazione di 2000 immagini 512×512 (2 per classe)
COCO-30k: generazione di 30000 immagini (1 per didascalia)
Set di Validazione MS COCO: per valutazione SDXL, generazione di 5k immagini 1024×1024

Metriche di Valutazione

FID (Fréchet Inception Distance): misura la qualità della generazione
CLIP Score: valuta l'allineamento testo-immagine
Inception Score: valutazione della qualità dell'immagine
Latenza e Rapporto di Accelerazione: valutazione dell'efficienza

Metodi di Confronto

DDIM/DPM: campionatori veloci
ToMeSD: metodo di fusione dei token
DeepCache: metodo di caching delle caratteristiche
DeepCache & ToMeSD: metodo di combinazione ingenua

Dettagli di Implementazione

Algoritmo evolutivo NSGA-II, dimensione della popolazione 20, esecuzione per 100 generazioni
CFG scale: 7.5 (SD v1.5), 9.0 (SD v2), 7.0 (SDXL)
Passi di campionamento: 50 passi PLMS
Test su singola GPU 4090

Risultati Sperimentali

Risultati Principali

Stable Diffusion v1.5 (ImageNet):

Configurazione e1: accelerazione 9.01×, FID da 27.64 a 27.31
Superiore ai metodi di confronto in tutte le configurazioni

Stable Diffusion v2 (ImageNet):

Configurazione e2: accelerazione 7.25×, FID 28.20
Rispetto al modello originale FID da 29.8 a 28.20

Dataset COCO-30k:

SD v1.5: accelerazione 7×, FID da 12.15 a 9.98 (diminuzione di 2.17)
SD v2: accelerazione 7.25×, FID da 13.68 a 13.88

SDXL (MS COCO):

Accelerazione 2.32×, FID da 24.25 a 23.10
Significativamente superiore a DeepCache (1.75×) e DeepCache&ToMeSD (1.78×)

Esperimenti di Ablazione

Efficacia del DiffScore: In diverse impostazioni di caching e rapporti di potatura, l'uso di DiffScore migliora costantemente i punteggi FID, provando l'efficacia del punteggio di differenza temporale del rumore.

Impatto dell'Allineamento CFG: Con l'aumento del rapporto di potatura, i benefici della configurazione di allineamento CFG aumentano gradualmente, con miglioramenti FID che variano da 13 a 30 punti con rapporti di potatura elevati (0.7).

Analisi di Casi

I risultati di confronto visivo mostrano che DaTo si comporta eccellentemente in molteplici aspetti:

Fedeltà del Contenuto: altamente simile al contenuto dell'immagine originale
Conservazione dei Dettagli: mantiene trame fini in scene ad alto dettaglio
Adattamento dello Stile: bilancia la conservazione del contenuto e l'accuratezza dello stile nei compiti da immagine a immagine
Allineamento del Prompt: genera accuratamente tutti gli elementi nei prompt di testo complessi

Scoperte Sperimentali

Ripristino della Dinamicità delle Caratteristiche: DaTo ripristina con successo la distribuzione della differenza delle caratteristiche a livelli prossimi a quelli di Stable Diffusion originale
Effetto di Codifica Sparsa: la potatura moderata dei token e il caching delle caratteristiche possono migliorare le prestazioni del modello concentrandosi su caratteristiche critiche
Generalizzazione della Strategia: la strategia cercata su SD v1.5 si comporta bene su SDXL e altri dataset

Lavori Correlati

Modelli di Diffusione Efficienti

Riduzione dei Passi di Campionamento: DDIM, modelli di consistenza, ecc.
Compressione della Rete: quantizzazione, potatura, distillazione, ecc.
Ottimizzazione dell'Architettura: miglioramenti U-Net, ottimizzazione Transformer, ecc.

Strategie di Riduzione dei Token

Metodi di Apprendimento: DynamicViT, A-ViT e altri che utilizzano modelli ausiliari per l'ordinamento e la potatura
Metodi Euristici: Token Pooling, Token Merging e altri metodi indipendenti dall'addestramento
Applicazioni nei Modelli di Diffusione: ToMeSD, AT-EDM e altri adattamenti per compiti generativi

Meccanismi di Caching

Caching U-Net: DeepCache sfrutta la ridondanza temporale per il caching delle caratteristiche
Caching DiT: strategia di caching Δ-DiT per Diffusion Transformer
Sfide di Ottimizzazione: bilanciamento tra miglioramento dell'efficienza e mantenimento della qualità della generazione

Conclusioni e Discussione

Conclusioni Principali

DaTo risolve con successo il problema della perdita di dinamicità delle caratteristiche causata dal caching delle caratteristiche
La strategia adattiva ottenuta attraverso la ricerca evolutiva è significativamente superiore alle configurazioni fisse
Il metodo realizza accelerazione e miglioramento della qualità significativi su più modelli e dataset

Limitazioni

Costo di Ricerca: sebbene ≤20 ore GPU sia accettabile, richiede comunque risorse computazionali aggiuntive
Dipendenza dall'Hardware: i miglioramenti delle prestazioni possono variare in base alla configurazione hardware
Limitazioni in Impostazioni Estreme: rapporti di potatura eccessivamente elevati o frequenze di aggiornamento della cache eccessivamente basse compromettono le prestazioni

Direzioni Future

Apprendimento di Strategie Adattive: sviluppare strategie di caching e potatura più intelligenti e adattive
Adattamento ad Altre Architetture: estendere a più architetture di modelli di diffusione
Analisi Teorica: comprendere più profondamente il ruolo dei principi di codifica sparsa nei modelli di diffusione

Valutazione Approfondita

Punti di Forza

Forte Innovazione: primo affrontamento sistematico del problema della perdita di dinamicità nel caching delle caratteristiche
Metodo Pratico: indipendente dall'addestramento, facile da distribuire e integrare
Esperimenti Completi: valutazione completa su più modelli e dataset
Supporto Teorico: fornisce spiegazione teorica basata sulla codifica sparsa
Favorevole all'Open Source: fornisce implementazione completa del codice

Insufficienze

Analisi Teorica Insufficiente: la spiegazione teorica del perché il metodo migliora l'FID è relativamente semplice
Dipendenza dall'Algoritmo di Ricerca: richiede ricerca evolutiva per trovare la strategia ottimale, aumentando la complessità d'uso
Metriche di Valutazione Singolari: si basa principalmente su FID per la valutazione, mancano metriche di qualità più diversificate
Assenza di Ricerca Umana: nessuna valutazione umana per verificare la qualità della generazione

Impatto

Valore Accademico: fornisce nuove idee e metodi per l'accelerazione dei modelli di diffusione
Valore Pratico: applicabile direttamente ai modelli Stable Diffusion esistenti
Riproducibilità: fornisce dettagli di implementazione dettagliati e codice open source
Ispirazione: fornisce esempi di applicazione dell'ottimizzazione a livello di token nei modelli generativi

Scenari Applicabili

Ambienti con Risorse Limitate: dispositivi mobili, scenari di edge computing
Applicazioni in Tempo Reale: applicazioni interattive che richiedono generazione veloce
Generazione in Batch: compiti di generazione di immagini su larga scala
Prototipi di Ricerca: progetti di ricerca che richiedono iterazione veloce

Riferimenti Bibliografici

L'articolo cita 46 riferimenti correlati, coprendo importanti lavori in più aree correlate come modelli di diffusione, riduzione dei token e meccanismi di caching, fornendo una base teorica solida e benchmark di confronto per questa ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, che propone una soluzione innovativa a un importante problema di accelerazione dei modelli di diffusione. La progettazione del metodo è ingegnosa, la valutazione sperimentale è completa e il valore pratico è notevole. Sebbene vi sia una certa insufficienza nella profondità dell'analisi teorica, il suo contributo effettivo e il suo impatto meritano riconoscimento.