2025-11-12T05:04:10.017076

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations

Lin, Lu, Chen
Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
academic

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations

基本信息

  • 论文ID: 2405.08114
  • 标题: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
  • 作者: Chengde Lin, Xijun Lu, Guangxi Chen
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2024年5月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2405.08114
  • 代码链接: https://github.com/OxygenLu/RATLIP

摘要

本文提出了RATLIP,一种基于循环仿射变换的生成对抗CLIP文本到图像合成方法。针对现有条件仿射变换(CAT)方法中各层独立预测、缺乏全局文本信息访问的问题,作者提出使用循环神经网络建模循环仿射变换(RAT),确保不同层能够访问全局信息。同时引入shuffle attention机制缓解RNN的信息遗忘特性。该方法在生成器和判别器中都利用预训练的CLIP模型,在CUB、Oxford和CelebA-tiny数据集上的实验表明了方法的优越性。

研究背景与动机

问题定义

文本到图像合成是一个极具挑战性的跨模态生成任务,需要根据文本描述生成高质量的逼真图像。这项任务在文本驱动图像编辑、虚拟图像合成、人脸重建等领域有广泛应用前景。

现有方法的局限性

  1. 传统GAN方法的问题:生成对抗网络在文本到图像合成中经常遭受图像与文本描述一致性低、合成图像丰富性不足的问题
  2. 条件仿射变换的缺陷:现有的CAT方法(如条件批归一化CBN和条件实例归一化CIN)是多层感知机,基于相邻层间的批统计独立预测数据,其他层无法访问全局文本信息
  3. 扩散模型的问题:虽然扩散模型取得了令人印象深刻的结果,但推理时间长、计算开销高

研究动机

作者认为孤立的特征融合块使得条件实例归一化在不同层独立发生,忽略了跨层融合文本信息的语义关系以及全局文本信息内的语义关系。这些孤立的融合块难以优化,因为模型中它们被认为彼此不交互。

核心贡献

  1. 提出循环仿射变换模块:基于LSTM跳跃连接特征层的循环仿射变换模块,使不同层的融合文本信息在全局文本信息中具有语义关系,提升融合效果
  2. 引入shuffle attention机制:在每两个循环仿射变换模块之间引入shuffle attention,模拟生物行为学习过程中的"学习-复习"模式,抑制文本信息遗忘,保持知识的稳定传递
  3. CLIP集成框架:生成器和判别器都利用强大的预训练CLIP模型,判别器利用CLIP理解复杂场景的能力准确评估生成图像质量
  4. 实验验证:在CUB、Oxford和CelebA-tiny数据集上进行广泛实验,证明了所提方法相比当前最先进模型的优越性

方法详解

任务定义

给定文本描述T,生成与其语义一致的高质量图像。输入为文本描述T和噪声向量Z,输出为合成图像。

模型架构

整体框架

RATLIP基于GALIP框架改进,包含三个主要组件:

  1. 预训练CLIP文本编码器:将输入文本描述编码为句子向量T
  2. 生成器G:包含RAT Bridge、CLIP-BLK和Image-G模块
  3. 判别器D:基于冻结的CLIP-ViT,包含配对判别器

RAT Block设计

循环仿射变换的核心创新在于用LSTM替代传统的多层感知机:

传统CAT公式

Affine(c|hi) = γi · c + βi
γ = MLP1(hi), β = MLP2(hi)

RAT Block的LSTM建模

h0 = MLP3(z), c0 = MLP4(z)
[it, ft, ot, ut] = [σ, σ, σ, tanh](T(s[ht-1]))
ct = ft ⊙ ct-1 + it ⊙ ut
ht = ot ⊙ tanh(ct)
γt, βt = MLP1^t(ht), MLP2^t(ht)

其中it、ft、ot分别为输入门、遗忘门和输出门。

Shuffle Attention机制

为解决LSTM在长时间学习中容易遗忘信息的问题,作者在每两个RAT Block之间引入shuffle attention:

  • 将输入参数按规则分组
  • 分别处理空间和通道信息
  • 重新融合得到丰富的信息表示
  • 模拟"学习-复习"的生物学习模式

技术创新点

  1. 全局信息访问:通过LSTM的跳跃连接和权重共享,确保不同层的融合块之间保持文本信息一致性
  2. 记忆增强:shuffle attention机制有效缓解LSTM的遗忘特性,保持长期稳定的知识传递
  3. CLIP集成:充分利用CLIP的多模态表示学习能力,提升文本-图像关联性

实验设置

数据集

  1. CUB数据集:包含200个不同类别的11,788张鸟类图像
  2. Oxford数据集:包含102个不同类别的8,189张花卉图像
  3. CelebA-tiny数据集:基于CelebAMask-HQ随机选择10,000张照片,训练集8,000张,测试集2,000张

每个数据集的每张图像都包含10个描述句子。

评价指标

  • FID (Fréchet Inception Distance):评估生成图像质量,数值越低越好
  • CLIP-Score (CS):评估文本-图像一致性,数值越高越好

实现细节

  • 使用ViT-B/32作为CLIP模型
  • 生成器学习率:0.0001,判别器学习率:0.0004
  • 优化器:Adam
  • 硬件:3×3090 GPU

对比方法

  • AttnGAN
  • LAFITE
  • DF-GAN
  • GALIP (baseline)

实验结果

主要结果

方法FID↓ (CUB/CelebA-tiny)CS↑ (CUB/Oxford/CelebA-tiny)
AttnGAN23.98/125.98-/-/21.15
LAFITE14.58/-31.25/-/-
DF-GAN14.81/137.629.20/26.67/24.41
GALIP10.0/94.4531.60/31.77/27.95
RATLIP13.28/81.4832.03/31.94/28.91

关键发现

  • 在CelebA-tiny数据集上FID达到SOTA性能
  • 在所有三个数据集的CS指标上都取得了0.78-0.96的提升
  • 在CUB数据集FID上排名第二

消融实验

方法CS↑ (CUB/Oxford/CelebA-tiny)
Baseline31.60/31.77/27.95
RAT31.62/31.83/27.63
RAT+ATT32.03/31.94/28.91

分析

  • 单独的RAT Block在CUB和Oxford上有小幅提升,但在CelebA-tiny上性能下降
  • 添加shuffle attention后在所有数据集上都取得显著提升,验证了注意力机制对抑制LSTM遗忘的有效性

参数分析

作者对LSTM隐藏层大小h进行了参数分析(h = 0,4,8,16,32,64,128),通过Grad-CAM可视化发现h=64时红色区域完全覆盖目标,效果最佳。

案例分析

语义空间特征分析:通过对比"He is young, receding hairline"和"He is old, receding hairline"两个描述的生成结果,发现:

  • Baseline中"young"被"receding hairline"覆盖,导致面部出现皱纹
  • RATLIP能够生成语义更合适的图像,不同年龄描述产生相应的视觉特征
  • 在潜在空间中,RATLIP的特征向量融合更加清晰,避免了混乱的特征融合

相关工作

文本到图像合成

  • 早期方法:Conditional GAN首次提出带条件的GAN,通过连接文本特征和噪声向量进行粗糙融合
  • 高级融合方法:CIN提出了更先进的融合方法,使用自适应均值和方差控制图像风格
  • 注意力机制:AttnGAN利用注意力机制实现更细粒度的合成
  • CLIP集成:LAFITE和GALIP利用CLIP进行文本-图像对比学习

注意力机制在文本到图像中的应用

  • AttnGAN在生成高分辨率图像方面取得了令人印象深刻的结果
  • 堆叠交叉注意力机制用于识别全面对齐
  • 空间注意力确保图像和文本之间的语义一致性

结论与讨论

主要结论

  1. RATLIP通过循环仿射变换有效解决了传统CAT方法中各层缺乏全局文本信息访问的问题
  2. Shuffle attention机制成功缓解了LSTM的信息遗忘特性,提升了文本信息的长期记忆能力
  3. 与CLIP的深度集成显著提高了文本-图像一致性和生成质量
  4. 实验结果表明RATLIP在多个数据集上相比SOTA方法取得了显著提升

局限性

  1. 计算复杂度:LSTM和attention机制增加了模型的计算开销
  2. 参数敏感性:LSTM隐藏层大小需要仔细调优
  3. 数据集规模:实验主要在相对较小的数据集上进行,大规模数据集的表现有待验证
  4. 推理速度:虽然比扩散模型快,但相比简单GAN仍有额外开销

未来方向

  1. 探索更高效的循环机制替代LSTM
  2. 研究更先进的注意力机制
  3. 扩展到更大规模和更复杂的数据集
  4. 研究模型在其他跨模态任务中的应用

深度评价

优点

  1. 创新性强:将循环神经网络引入条件仿射变换是一个新颖的想法,有效解决了现有方法的核心问题
  2. 理论基础扎实:通过LSTM建模全局信息访问,理论上合理且实现优雅
  3. 实验充分:包含详细的对比实验、消融实验和参数分析,实验设计科学
  4. 可视化分析深入:通过Grad-CAM和潜在空间分析提供了直观的方法理解
  5. 实用价值高:在保持较快推理速度的同时提升了生成质量

不足

  1. 写作质量:论文中存在一些语法错误和表达不够清晰的地方
  2. 理论分析不足:缺乏对为什么LSTM能够解决全局信息访问问题的深入理论分析
  3. 实验规模限制:主要在相对简单的数据集上验证,缺乏在复杂场景数据集上的实验
  4. 对比不够全面:缺乏与最新扩散模型的直接对比
  5. 计算效率分析缺失:没有提供详细的计算时间和内存使用分析

影响力

  1. 学术贡献:为文本到图像合成领域提供了新的技术路径,特别是在条件信息融合方面
  2. 实用价值:方法相对简单易实现,有望在实际应用中得到采用
  3. 启发意义:将循环机制引入生成模型为后续研究提供了新思路

适用场景

  1. 文本驱动图像编辑:需要精确控制图像生成过程的应用
  2. 虚拟内容创作:游戏、影视等领域的概念设计
  3. 教育和培训:基于文本描述生成教学素材
  4. 个性化内容生成:根据用户描述生成定制化图像内容

参考文献

论文引用了42篇相关文献,主要包括:

  • 扩散模型相关工作(BoxDiff, Raphael等)
  • GAN文本到图像合成经典工作(AttnGAN, DF-GAN, GALIP等)
  • 注意力机制相关研究(CBAM, 交叉注意力等)
  • CLIP相关应用(StyleCLIP, LAFITE等)

总体评价:这是一篇在文本到图像合成领域具有创新性的工作,提出的循环仿射变换方法有效解决了现有方法的关键问题。尽管在写作质量和实验规模方面存在一些不足,但其技术贡献和实验结果表明了方法的有效性和实用价值。该工作为文本到图像合成领域提供了新的研究方向,值得进一步探索和改进。