RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
Lin, Lu, Chen
Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
본 논문은 순환 어파인 변환을 기반으로 하는 생성 대적 CLIP 텍스트-이미지 합성 방법인 RATLIP을 제안한다. 기존 조건부 어파인 변환(CAT) 방법에서 각 층이 독립적으로 예측되고 전역 텍스트 정보에 접근할 수 없는 문제를 해결하기 위해, 저자들은 순환 신경망을 사용하여 순환 어파인 변환(RAT)을 모델링하여 서로 다른 층이 전역 정보에 접근할 수 있도록 보장한다. 동시에 셔플 어텐션 메커니즘을 도입하여 RNN의 정보 망각 특성을 완화한다. 본 방법은 생성기와 판별기 모두에서 사전 학습된 CLIP 모델을 활용하며, CUB, Oxford 및 CelebA-tiny 데이터셋에 대한 실험은 방법의 우수성을 입증한다.
저자들은 고립된 특징 융합 블록으로 인해 조건부 인스턴스 정규화가 서로 다른 층에서 독립적으로 발생하며, 계층 간 텍스트 정보 융합의 의미론적 관계와 전역 텍스트 정보 내의 의미론적 관계를 무시한다고 생각한다. 이러한 고립된 융합 블록은 모델에서 서로 상호작용하지 않는 것으로 간주되기 때문에 최적화하기 어렵다.
종합 평가: 이것은 텍스트-이미지 합성 분야에서 혁신적인 작업이며, 제안된 순환 어파인 변환 방법은 기존 방법의 핵심 문제를 효과적으로 해결한다. 작문 품질과 실험 규모 측면에서 일부 부족함이 있지만, 기술적 기여와 실험 결과는 방법의 효과성과 실용 가치를 입증한다. 이 작업은 텍스트-이미지 합성 분야에 새로운 연구 방향을 제공하며, 추가 탐색과 개선의 가치가 있다.