2025-11-17T17:13:12.426721

Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model

Saghatchian, Moghadam, Nickabadi

Diffusion models have emerged as a promising approach for generating high-quality, high-dimensional images. Nevertheless, these models are hindered by their high computational cost and slow inference, partly due to the quadratic computational complexity of the self-attention mechanisms with respect to input size. Various approaches have been proposed to address this drawback. One such approach focuses on reducing the number of tokens fed into the self-attention, known as token merging (ToMe). In our method, which is called cached adaptive token merging(CA-ToMe), we calculate the similarity between tokens and then merge the r proportion of the most similar tokens. However, due to the repetitive patterns observed in adjacent steps and the variation in the frequency of similarities, we aim to enhance this approach by implementing an adaptive threshold for merging tokens and adding a caching mechanism that stores similar pairs across several adjacent steps. Empirical results demonstrate that our method operates as a training-free acceleration method, achieving a speedup factor of 1.24 in the denoising process while maintaining the same FID scores compared to existing approaches.

academic

Fusion de Tokens Adaptatifs en Cache : Réduction Dynamique de Tokens et Élimination des Calculs Redondants dans les Modèles de Diffusion

Informations Fondamentales

ID de l'article : 2501.00946
Titre : Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model
Auteurs : Omid Saghatchian, Atiyeh Gh. Moghadam, Ahmad Nickabadi (Université de Technologie Amirkabir)
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 1er janvier 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00946
Lien du code : https://github.com/omidiu/ca_tome

Résumé

Les modèles de diffusion sont devenus une méthode prometteuse pour générer des images de haute qualité et de haute dimension. Cependant, ces modèles sont entravés par des coûts de calcul élevés et une vitesse d'inférence lente, en partie en raison de la complexité de calcul quadratique du mécanisme d'auto-attention par rapport à la taille d'entrée. Cet article propose la méthode de fusion de tokens adaptatifs en cache (CA-ToMe), qui résout ce problème en calculant la similarité entre les tokens et en fusionnant les tokens dont la similarité dépasse un paramètre de seuil t. En raison des motifs répétitifs observés dans les étapes adjacentes et des variations de fréquence de similarité, la méthode améliore les approches de fusion de tokens en implémentant un seuil adaptatif et en ajoutant un mécanisme de cache. Les résultats expérimentaux montrent que la méthode, en tant que méthode d'accélération sans entraînement, réalise une accélération de 1,24× dans le processus de débruitage tout en maintenant le même score FID que les méthodes existantes.

Contexte de Recherche et Motivation

Définition du Problème

Les modèles de diffusion excellent dans les tâches de génération d'images, mais font face à de graves problèmes d'efficacité de calcul :

Coûts de calcul élevés : La complexité quadratique du mécanisme d'auto-attention entraîne une vitesse d'inférence lente
Processus de débruitage en série : Impossible de paralléliser, chaque étape de débruitage nécessite des calculs répétés
Calculs redondants : Il existe une quantité importante de calculs répétés entre les étapes temporelles adjacentes

Importance du Problème

La latence élevée des modèles de diffusion limite leur utilisation dans les applications nécessitant une inférence rapide
Les coûts de calcul élevés rendent le déploiement des modèles difficile, en particulier dans les environnements aux ressources limitées
Les méthodes d'accélération existantes nécessitent soit un réentraînement, soit entraînent des pertes de qualité significatives

Limitations des Méthodes Existantes

Les méthodes réduisant le nombre d'étapes d'échantillonnage nécessitent généralement un réentraînement ou l'utilisation de solveurs numériques complexes
Les méthodes d'élagage de tokens entraînent une perte d'information et une dégradation des performances
La fusion de tokens traditionnelle (ToMe) utilise un taux de fusion fixe, incapable de s'adapter aux variations de distribution de similarité entre différentes étapes temporelles et couches

Motivation de la Recherche

Basée sur l'observation de deux phénomènes clés :

Il existe des variations significatives dans la distribution de similarité des tokens entre différentes étapes temporelles et couches
Les paires de tokens entre les étapes d'inférence adjacentes présentent une similarité élevée

Contributions Principales

Proposition d'un mécanisme de seuil adaptatif : Ajuste dynamiquement la stratégie de fusion selon la distribution de similarité des tokens, remplaçant le taux de fusion fixe
Conception d'un mécanisme de cache : Exploite la similarité entre les étapes adjacentes, met en cache les paires de tokens pour réduire les calculs répétés
Implémentation d'une accélération sans entraînement : La méthode peut être appliquée directement aux modèles pré-entraînés sans réentraînement
Réalisation d'un meilleur compromis qualité-vitesse : Par rapport à la méthode ToMe de base, réalise une inférence plus rapide tout en maintenant la qualité de l'image

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Séquence de tokens dans le processus de débruitage du modèle de diffusion Sortie : Processus d'inférence accéléré avec fusion adaptative et optimisation de cache Contraintes : Maintenir une baisse non significative de la qualité de l'image générée

Architecture du Modèle

1. Mécanisme de Fusion de Tokens Adaptatifs

La méthode ToMe traditionnelle utilise un ratio fixe r pour la fusion de tokens, tandis que CA-ToMe introduit un seuil de similarité t :

Idée Centrale :

Diviser l'image en régions de foulée de taille sx × sy
Sélectionner le token du coin supérieur gauche de chaque région de foulée comme token cible
Calculer la similarité cosinus entre les tokens sources et les tokens cibles
Fusionner uniquement les paires de tokens dont la similarité dépasse le seuil t

Analyse des Avantages :

Scénario A : Lorsque la plupart des tokens ont une similarité faible, un taux de fusion fixe force la fusion de tokens non similaires, entraînant une perte d'information. Le seuil adaptatif garantit que seuls les tokens hautement similaires sont fusionnés
Scénario B : Lorsque la plupart des tokens sont hautement similaires (comme au début du débruitage), un taux de fusion fixe limite la quantité de fusion. Le seuil adaptatif permet de fusionner davantage de tokens, améliorant l'efficacité

2. Conception du Mécanisme de Cache

Basée sur l'analyse de la distance de Jaccard révélant une similarité élevée des paires de tokens entre les étapes adjacentes :

$JaccardDistance(A_n, A_{n+1}) = 1 - \frac{|A_n \cap A_{n+1}|}{|A_n \cup A_{n+1}|}$

où An représente l'ensemble de toutes les paires source-cible de tokens à l'étape n.

Stratégie d'Implémentation :

Définir des points de contrôle (checkpoints), calculer les matrices de similarité uniquement à des étapes temporelles spécifiques
Réutiliser les paires de tokens calculées précédemment aux étapes non-checkpoint
Réduire significativement les frais généraux de calcul répété des matrices de similarité

Points d'Innovation Technique

Adaptabilité Dynamique : Ajuste automatiquement la stratégie de fusion selon la distribution de similarité, évitant les limitations des paramètres fixes
Optimisation de la Dimension Temporelle : Exploite la redondance entre les étapes temporelles, réduisant la quantité de calcul via le cache
Application Sélective au Niveau des Couches : Applique spécifiquement l'optimisation aux couches supérieures du U-Net (D1 et U1) qui sont intensives en calcul
Pas de Réentraînement Nécessaire : En tant que méthode d'accélération plug-and-play, peut être appliquée directement aux modèles existants

Configuration Expérimentale

Ensembles de Données

Ensemble de données ImageNet-1k : Génération de 2000 images de résolution 512×512 (2 images par classe, 1000 classes au total)
Ensemble de Validation : Utilisation de 5000 images de validation ImageNet-1k pour calculer le score FID
Modèle de Prompt : « A high-quality photograph of a classname. »

Indicateurs d'Évaluation

FID (Distance d'Inception de Fréchet) : Indicateur principal pour mesurer la qualité des images générées
Temps d'Inférence : Temps moyen pour générer 2000 images
PSNR : Rapport Signal-Bruit de Crête, mesure la qualité de reconstruction au niveau des pixels
SSIM : Indice de Similarité Structurelle, évalue la cohérence spatiale et structurelle

Méthodes de Comparaison

Baseline : Stable Diffusion v1.5 original
ToMe : Méthode traditionnelle de fusion de tokens (r=50%)

Détails d'Implémentation

Matériel : GPU Tesla V100S
Étapes de Diffusion : 50 étapes d'échantillonnage PLMS
Échelle CFG : 7,5
Taille de Foulée : Fixée à 2×2
Couches d'Application : Appliquée uniquement aux couches D1 et U1 du U-Net

Résultats Expérimentaux

Résultats Principaux

Modèle	FID	Temps Moyen (s)	Ratio d'Accélération
Baseline	33,66	7,61±0,001	1,0×
ToMe	34,16	6,39±0,006	1,19×
CA-ToMe	34,05	6,09±0,001	1,24×

Découvertes Clés :

CA-ToMe réalise la vitesse d'inférence la plus rapide (6,09s)
Le score FID (34,05) surpasse ToMe (34,16) et se rapproche du baseline (33,66)
Atteint le meilleur équilibre entre vitesse et qualité

Analyse des Paramètres de Seuil

Seuil t	FID	Temps Moyen (s)	PSNR	SSIM
0,4	35,28	6,07±0,007	27,90	0,191
0,5	35,46	6,07±0,004	27,909	0,208
0,6	35,56	6,10±0,005	27,908	0,218
0,7	34,30	6,23±0,002	27,910	0,234
0,8	33,80	6,58±0,004	27,904	0,239
0,9	33,42	6,92±0,003	27,907	0,238

Observations :

Les variations dans la plage de seuil 0,4-0,6 sont faibles, car la plupart des tokens ont une similarité ≥0,6
Le seuil 0,7 offre le meilleur compromis qualité-vitesse
Les seuils plus élevés améliorent la qualité mais réduisent la vitesse

Comparaison des Configurations de Cache

Configuration	Paramètres de Checkpoint	Temps (s)	FID
CONFIG 1	0,1,2,3,5,10,15,25,35	6,18±0,02	36,14
CONFIG 2	0,10,11,12,15,20,25,30,35,45	6,13±0,001	34,33
CONFIG 3	0,8,11,13,20,25,30,35,45,46,47,48,49	6,09±0,001	34,05

CONFIG 3 offre les meilleures performances, cohérent avec l'analyse de la distance de Jaccard, avec plus de checkpoints définis aux étapes 8, 11, 13 et aux étapes finales.

Études d'Ablation

En comparant les contributions de différents composants :

Seuil Adaptatif Uniquement : Améliore la qualité de l'image par rapport au taux de fusion fixe
Mécanisme de Cache Uniquement : Réduit significativement le temps de calcul
CA-ToMe Complet : La combinaison des deux techniques réalise les meilleures performances

Travaux Connexes

Méthodes d'Accélération des Modèles de Diffusion

Réduction du nombre d'étapes d'échantillonnage :
- Méthodes de distillation de connaissances 26,51,28
- Échantillonnage implicite 32
- Solveurs d'équations différentielles avancés 52,33
- La plupart nécessitent un réentraînement
Réduction du calcul par étape :
- Méthodes de quantification 31,36
- Réduction de tokens 21,40,41,43,44
- Techniques de cache 24,37,38,39
- Plug-and-play, sans réentraînement nécessaire

Techniques de Réduction de Tokens

Élagage de Tokens : Suppression directe des tokens non importants, pouvant entraîner une perte d'information
Fusion de Tokens : Fusion des tokens similaires, préservant l'intégrité de l'information
- ToMe 21 : Utilise un taux de fusion fixe
- CA-ToMe de cet article : Seuil adaptatif + mécanisme de cache

Techniques de Cache

Les méthodes de cache existantes ciblent différents composants :

Cache d'attention croisée 38
Cache d'encodeur U-Net 39
Cache de caractéristiques avancées 24

Cet article est le premier à appliquer le cache au calcul de similarité de la fusion de tokens.

Conclusion et Discussion

Conclusions Principales

Le seuil adaptatif résout efficacement les limitations du taux de fusion fixe, ajustant dynamiquement la stratégie de fusion selon la distribution de similarité
Le mécanisme de cache exploite la redondance entre les étapes temporelles, réduisant significativement les calculs répétés
La méthode CA-ToMe réalise une accélération de 1,24×, tout en maintenant voire en améliorant légèrement la qualité de l'image
La caractéristique sans entraînement confère à la méthode une bonne praticité et scalabilité

Limitations

Ajustement des paramètres de seuil : Nécessite d'ajuster le seuil optimal pour différents modèles et tâches
Portée d'application limitée : Principalement destinée aux modèles de diffusion avec architecture U-Net
Frais généraux de cache : Nécessite de la mémoire supplémentaire pour stocker les informations des paires de tokens en cache
Limitation au niveau des couches : Appliquée uniquement aux couches supérieures, peut manquer les opportunités d'optimisation dans d'autres couches

Directions Futures

Apprentissage automatique du seuil : Développer des méthodes pour déterminer automatiquement le seuil optimal
Extension à d'autres architectures : S'adapter aux nouvelles architectures de modèles de diffusion comme DiT
Stratégies de cache plus raffinées : Mécanismes de cache adaptatifs basés sur le contenu
Optimisation matérielle : Implémentations optimisées pour des matériels spécifiques

Évaluation Approfondie

Points Forts

Innovation Forte : Introduit la pensée adaptative dans la fusion de tokens, formant une solution complète en combinaison avec le mécanisme de cache
Valeur Pratique Élevée : Les caractéristiques sans entraînement et plug-and-play la rendent facile à déployer
Expériences Complètes : Des études d'ablation complètes et une analyse paramétrique soutiennent l'efficacité de la méthode
Fondations Théoriques Solides : L'analyse de similarité basée sur la distance de Jaccard fournit un soutien théorique au mécanisme de cache

Insuffisances

Analyse Théorique Insuffisante : Manque de guidance théorique pour la sélection du seuil adaptatif
Portée Expérimentale Limitée : Validation uniquement sur ImageNet, manque d'évaluation sur d'autres ensembles de données et tâches
Méthodes de Comparaison Limitées : Comparaison principalement avec ToMe, manque de comparaison avec d'autres méthodes d'accélération
Évaluation de Qualité Unique : Dépend principalement de la métrique FID, manque d'évaluation humaine et d'autres indicateurs de qualité

Impact

Contribution Académique : Fournit de nouvelles perspectives et méthodes pour l'accélération des modèles de diffusion
Valeur Pratique : Peut être appliquée directement aux modèles de diffusion existants, avec des perspectives d'application larges
Reproductibilité : Fournit une implémentation de code complète, facilitant la reproduction et l'extension
Nature Inspirante : Les idées d'adaptabilité et de cache peuvent inspirer davantage de recherches connexes

Scénarios d'Application

Environnements aux Ressources Limitées : Appareils mobiles, informatique en périphérie, etc.
Applications en Temps Réel : Applications interactives nécessitant une génération d'images rapide
Déploiement à Grande Échelle : Réduction des coûts de calcul des serveurs et de la latence
Prototypes de Recherche : Fourniture de composants de base pour d'autres techniques d'accélération

Références

Cet article cite 54 références connexes, incluant principalement :

Théories fondamentales des modèles de diffusion 1,2,3
Applications de génération d'images 4,5,18,19,20
Techniques d'accélération 24,25,26,27,28
Méthodes de traitement de tokens 21,40,41,43,44
Techniques de cache 24,37,38,39

Évaluation Globale : Ceci est un travail ayant une valeur pratique dans le domaine de l'accélération des modèles de diffusion. Grâce à la combinaison ingénieuse d'un seuil adaptatif et d'un mécanisme de cache, il réalise une amélioration significative de la vitesse tout en maintenant la qualité de l'image. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et la portée expérimentale, sa nature sans entraînement et ses bons résultats expérimentaux lui confèrent une valeur pratique et un impact élevés.