2025-11-12T05:04:10.017076

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations

Lin, Lu, Chen

Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.

academic

RATLIP: Synthèse Texte-Image CLIP Adversariale Générative Basée sur les Transformations Affines Récurrentes

Informations Fondamentales

ID de l'article: 2405.08114
Titre: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
Auteurs: Chengde Lin, Xijun Lu, Guangxi Chen
Classification: cs.CV (Vision par Ordinateur)
Date de publication: Mai 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2405.08114
Lien du code: https://github.com/OxygenLu/RATLIP

Résumé

Cet article propose RATLIP, une méthode de synthèse texte-image CLIP adversariale générative basée sur les transformations affines récurrentes. Face au problème des méthodes de transformations affines conditionnelles (CAT) existantes où chaque couche prédit indépendamment sans accès aux informations textuelles globales, les auteurs proposent d'utiliser des réseaux de neurones récurrents pour modéliser les transformations affines récurrentes (RAT), garantissant que différentes couches peuvent accéder aux informations globales. Simultanément, un mécanisme d'attention par mélange est introduit pour atténuer les caractéristiques d'oubli des RNN. La méthode utilise le modèle CLIP préentraîné dans le générateur et le discriminateur. Les expériences sur les ensembles de données CUB, Oxford et CelebA-tiny démontrent la supériorité de la méthode.

Contexte de Recherche et Motivation

Définition du Problème

La synthèse texte-image est une tâche de génération multimodale extrêmement difficile qui nécessite de générer des images réalistes de haute qualité basées sur des descriptions textuelles. Cette tâche a des applications prometteuses dans l'édition d'images pilotée par texte, la synthèse d'images virtuelles, la reconstruction faciale et d'autres domaines.

Limitations des Méthodes Existantes

Problèmes des méthodes GAN traditionnelles: Les réseaux adversariaux génératifs souffrent souvent d'une faible cohérence entre les images générées et les descriptions textuelles, ainsi que d'une richesse insuffisante des images synthétisées
Défauts des transformations affines conditionnelles: Les méthodes CAT existantes (telles que la normalisation par batch conditionnelle CBN et la normalisation d'instance conditionnelle CIN) sont des perceptrons multicouches qui prédisent indépendamment les données basées sur les statistiques de batch entre couches adjacentes, sans accès aux informations textuelles globales par les autres couches
Problèmes des modèles de diffusion: Bien que les modèles de diffusion aient obtenu des résultats impressionnants, le temps d'inférence est long et les frais de calcul sont élevés

Motivation de la Recherche

Les auteurs considèrent que les blocs de fusion de caractéristiques isolés font que la normalisation d'instance conditionnelle se produit indépendamment dans différentes couches, ignorant les relations sémantiques entre la fusion de texte entre couches et les relations sémantiques au sein des informations textuelles globales. Ces blocs de fusion isolés sont difficiles à optimiser car ils sont considérés comme n'interagissant pas les uns avec les autres dans le modèle.

Contributions Principales

Proposition du module de transformation affine récurrente: Un module de transformation affine récurrente basé sur les connexions de saut LSTM des couches de caractéristiques, permettant aux informations textuelles fusionnées dans différentes couches d'avoir des relations sémantiques au sein des informations textuelles globales, améliorant ainsi l'effet de fusion
Introduction du mécanisme d'attention par mélange: L'introduction d'une attention par mélange entre chaque deux modules de transformation affine récurrente, simulant le modèle "apprentissage-révision" du processus d'apprentissage en éthologie, supprimant l'oubli des informations textuelles et maintenant une transmission stable des connaissances
Cadre d'intégration CLIP: Le générateur et le discriminateur utilisent tous deux le puissant modèle CLIP préentraîné, le discriminateur exploitant la capacité de CLIP à comprendre les scènes complexes pour évaluer avec précision la qualité des images générées
Vérification expérimentale: Des expériences étendues sont menées sur les ensembles de données CUB, Oxford et CelebA-tiny, démontrant la supériorité de la méthode proposée par rapport aux modèles de pointe actuels

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une description textuelles T, générer une image de haute qualité sémantiquement cohérente avec celle-ci. L'entrée est une description textuelles T et un vecteur de bruit Z, la sortie est l'image synthétisée.

Architecture du Modèle

Cadre Global

RATLIP est une amélioration basée sur le cadre GALIP, contenant trois composants principaux:

Encodeur de texte CLIP préentraîné: Encode la description textuelles d'entrée en vecteur de phrase T
Générateur G: Contient les modules RAT Bridge, CLIP-BLK et Image-G
Discriminateur D: Basé sur CLIP-ViT gelé, contenant un discriminateur d'appariement

Conception du Bloc RAT

L'innovation centrale de la transformation affine récurrente réside dans le remplacement du perceptron multicouche traditionnel par un LSTM:

Formule CAT traditionnelle:

Affine(c|hi) = γi · c + βi
γ = MLP1(hi), β = MLP2(hi)

Modélisation LSTM du Bloc RAT:

h0 = MLP3(z), c0 = MLP4(z)
[it, ft, ot, ut] = [σ, σ, σ, tanh](T(s[ht-1]))
ct = ft ⊙ ct-1 + it ⊙ ut
ht = ot ⊙ tanh(ct)
γt, βt = MLP1^t(ht), MLP2^t(ht)

Où it, ft, ot sont respectivement la porte d'entrée, la porte d'oubli et la porte de sortie.

Mécanisme d'Attention par Mélange

Pour résoudre le problème d'oubli d'informations du LSTM lors d'un apprentissage prolongé, les auteurs introduisent une attention par mélange entre chaque deux blocs RAT:

Regroupement des paramètres d'entrée selon des règles
Traitement séparé des informations spatiales et de canal
Refusion pour obtenir une représentation d'information riche
Simulation du modèle d'apprentissage biologique "apprentissage-révision"

Points d'Innovation Technique

Accès aux informations globales: Grâce aux connexions de saut LSTM et au partage de poids, garantissant la cohérence des informations textuelles entre les blocs de fusion de différentes couches
Amélioration de la mémoire: Le mécanisme d'attention par mélange atténue efficacement les caractéristiques d'oubli du LSTM, maintenant une transmission stable et à long terme des connaissances
Intégration CLIP: Exploitation complète de la capacité d'apprentissage de représentation multimodale de CLIP, améliorant l'associativité texte-image

Configuration Expérimentale

Ensembles de Données

Ensemble de données CUB: Contient 11 788 images d'oiseaux de 200 classes différentes
Ensemble de données Oxford: Contient 8 189 images de fleurs de 102 classes différentes
Ensemble de données CelebA-tiny: Basé sur CelebAMask-HQ avec 10 000 photos sélectionnées aléatoirement, 8 000 pour l'entraînement et 2 000 pour les tests

Chaque image de chaque ensemble de données contient 10 phrases de description.

Métriques d'Évaluation

FID (Distance d'Inception de Fréchet): Évalue la qualité des images générées, plus la valeur est basse, mieux c'est
CLIP-Score (CS): Évalue la cohérence texte-image, plus la valeur est haute, mieux c'est

Détails d'Implémentation

Utilisation de ViT-B/32 comme modèle CLIP
Taux d'apprentissage du générateur: 0,0001, taux d'apprentissage du discriminateur: 0,0004
Optimiseur: Adam
Matériel: 3×GPU 3090

Méthodes de Comparaison

AttnGAN
LAFITE
DF-GAN
GALIP (ligne de base)

Résultats Expérimentaux

Résultats Principaux

Méthode	FID↓ (CUB/CelebA-tiny)	CS↑ (CUB/Oxford/CelebA-tiny)
AttnGAN	23,98/125,98	-/-/21,15
LAFITE	14,58/-	31,25/-/-
DF-GAN	14,81/137,6	29,20/26,67/24,41
GALIP	10,0/94,45	31,60/31,77/27,95
RATLIP	13,28/81,48	32,03/31,94/28,91

Découvertes Clés:

FID atteint les performances SOTA sur l'ensemble de données CelebA-tiny
Amélioration de 0,78 à 0,96 sur la métrique CS sur les trois ensembles de données
Classement deuxième sur FID pour l'ensemble de données CUB

Expériences d'Ablation

Méthode	CS↑ (CUB/Oxford/CelebA-tiny)
Ligne de base	31,60/31,77/27,95
RAT	31,62/31,83/27,63
RAT+ATT	32,03/31,94/28,91

Analyse:

Le bloc RAT seul montre une légère amélioration sur CUB et Oxford, mais une baisse de performance sur CelebA-tiny
L'ajout d'une attention par mélange produit une amélioration significative sur tous les ensembles de données, validant l'efficacité du mécanisme d'attention pour supprimer l'oubli du LSTM

Analyse des Paramètres

Les auteurs ont effectué une analyse paramétrique sur la taille de la couche cachée LSTM h (h = 0,4,8,16,32,64,128), découvrant par visualisation Grad-CAM que h=64 produit les meilleurs résultats avec une couverture complète de la région rouge sur la cible.

Analyse de Cas

Analyse des caractéristiques de l'espace sémantique: En comparant les résultats de génération de deux descriptions "He is young, receding hairline" et "He is old, receding hairline", on découvre:

Dans la ligne de base, "young" est couvert par "receding hairline", entraînant l'apparition de rides sur le visage
RATLIP peut générer des images sémantiquement plus appropriées, avec les descriptions d'âge différentes produisant les caractéristiques visuelles correspondantes
Dans l'espace latent, les vecteurs de caractéristiques de RATLIP sont fusionnés plus clairement, évitant une fusion de caractéristiques confuse

Travaux Connexes

Synthèse Texte-Image

Méthodes précoces: Conditional GAN a d'abord proposé des GAN avec conditions, effectuant une fusion grossière en concaténant les caractéristiques textuelles et les vecteurs de bruit
Méthodes de fusion avancées: CIN a proposé une méthode de fusion plus avancée, utilisant le contrôle adaptatif de la moyenne et de la variance pour contrôler le style d'image
Mécanismes d'attention: AttnGAN exploite les mécanismes d'attention pour réaliser une synthèse plus granulaire
Intégration CLIP: LAFITE et GALIP exploitent CLIP pour l'apprentissage contrastif texte-image

Application des Mécanismes d'Attention dans la Synthèse Texte-Image

AttnGAN a obtenu des résultats impressionnants dans la génération d'images haute résolution
Les mécanismes d'attention croisée empilés sont utilisés pour identifier l'alignement complet
L'attention spatiale garantit la cohérence sémantique entre l'image et le texte

Conclusion et Discussion

Conclusions Principales

RATLIP résout efficacement le problème des méthodes CAT traditionnelles où chaque couche manque d'accès aux informations textuelles globales grâce aux transformations affines récurrentes
Le mécanisme d'attention par mélange supprime avec succès les caractéristiques d'oubli du LSTM, améliorant la capacité de mémoire à long terme des informations textuelles
L'intégration profonde avec CLIP améliore significativement la cohérence texte-image et la qualité de génération
Les résultats expérimentaux démontrent que RATLIP obtient des améliorations significatives par rapport aux méthodes SOTA sur plusieurs ensembles de données

Limitations

Complexité computationnelle: Les mécanismes LSTM et d'attention augmentent les frais de calcul du modèle
Sensibilité aux paramètres: La taille de la couche cachée LSTM nécessite un ajustement minutieux
Échelle de l'ensemble de données: Les expériences sont principalement menées sur des ensembles de données relativement petits, les performances sur les ensembles de données à grande échelle restent à vérifier
Vitesse d'inférence: Bien que plus rapide que les modèles de diffusion, il y a encore des frais supplémentaires par rapport aux GAN simples

Directions Futures

Explorer des mécanismes récurrents plus efficaces pour remplacer le LSTM
Étudier les mécanismes d'attention plus avancés
Étendre à des ensembles de données plus grands et plus complexes
Étudier les applications du modèle dans d'autres tâches multimodales

Évaluation Approfondie

Points Forts

Innovation forte: L'introduction de réseaux de neurones récurrents dans les transformations affines conditionnelles est une idée nouvelle qui résout efficacement le problème central des méthodes existantes
Fondations théoriques solides: La modélisation LSTM de l'accès aux informations globales est théoriquement raisonnable et élégante dans sa mise en œuvre
Expériences complètes: Incluant des expériences de comparaison détaillées, des expériences d'ablation et des analyses paramétriques, avec une conception expérimentale scientifique
Analyse de visualisation approfondie: Fournissant une compréhension intuitive de la méthode grâce à l'analyse Grad-CAM et de l'espace latent
Valeur pratique élevée: Améliore la qualité de génération tout en maintenant une vitesse d'inférence relativement rapide

Insuffisances

Qualité de rédaction: L'article contient certaines erreurs grammaticales et des expressions manquant de clarté
Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi le LSTM peut résoudre le problème d'accès aux informations globales
Limitations de l'échelle expérimentale: La vérification est principalement effectuée sur des ensembles de données relativement simples, manquant d'expériences sur des ensembles de données de scènes complexes
Comparaisons incomplètes: Manque de comparaison directe avec les modèles de diffusion les plus récents
Analyse d'efficacité computationnelle manquante: Pas d'analyse détaillée du temps de calcul et de l'utilisation de la mémoire

Impact

Contribution académique: Fournit une nouvelle voie technique pour le domaine de la synthèse texte-image, particulièrement dans la fusion d'informations conditionnelles
Valeur pratique: La méthode est relativement simple à mettre en œuvre et devrait être adoptée dans les applications pratiques
Signification inspirante: L'introduction de mécanismes récurrents dans les modèles génératifs fournit de nouvelles idées pour les recherches futures

Scénarios Applicables

Édition d'images pilotée par texte: Applications nécessitant un contrôle précis du processus de génération d'images
Création de contenu virtuel: Conception conceptuelle dans les domaines des jeux et du cinéma
Éducation et formation: Génération de matériel pédagogique basé sur des descriptions textuelles
Génération de contenu personnalisé: Génération d'images personnalisées basées sur les descriptions des utilisateurs

Références

L'article cite 42 références connexes, incluant principalement:

Travaux connexes sur les modèles de diffusion (BoxDiff, Raphael, etc.)
Travaux classiques en synthèse texte-image GAN (AttnGAN, DF-GAN, GALIP, etc.)
Recherches connexes sur les mécanismes d'attention (CBAM, attention croisée, etc.)
Applications connexes à CLIP (StyleCLIP, LAFITE, etc.)

Évaluation Globale: Ceci est un travail innovant dans le domaine de la synthèse texte-image qui propose une méthode de transformation affine récurrente résolvant efficacement les problèmes clés des méthodes existantes. Bien qu'il existe certaines insuffisances en termes de qualité de rédaction et d'échelle expérimentale, les contributions techniques et les résultats expérimentaux démontrent l'efficacité et la valeur pratique de la méthode. Ce travail fournit une nouvelle direction de recherche pour le domaine de la synthèse texte-image, méritant une exploration et une amélioration supplémentaires.