RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
Lin, Lu, Chen
Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
academic
RATLIP: पुनरावर्ती सजीन रूपांतरण के आधार पर जनरेटिव विरोधी CLIP पाठ-से-छवि संश्लेषण
यह पेपर RATLIP प्रस्तावित करता है, जो पुनरावर्ती सजीन रूपांतरण (RAT) के आधार पर एक जनरेटिव विरोधी CLIP पाठ-से-छवि संश्लेषण विधि है। मौजूदा सशर्त सजीन रूपांतरण (CAT) विधियों में प्रत्येक परत द्वारा स्वतंत्र रूप से भविष्यवाणी और वैश्विक पाठ जानकारी तक पहुंच की कमी की समस्या को संबोधित करते हुए, लेखक पुनरावर्ती सजीन रूपांतरण को मॉडल करने के लिए पुनरावर्ती तंत्रिका नेटवर्क का उपयोग करने का प्रस्ताव देते हैं, जो विभिन्न परतों को वैश्विक जानकारी तक पहुंचने में सक्षम बनाता है। साथ ही, यह RNN की जानकारी विस्मृति विशेषता को कम करने के लिए shuffle attention तंत्र को शामिल करता है। यह विधि जनरेटर और विभेदक दोनों में पूर्व-प्रशिक्षित CLIP मॉडल का उपयोग करती है, और CUB, Oxford और CelebA-tiny डेटासेट पर प्रयोग विधि की श्रेष्ठता प्रदर्शित करते हैं।
पाठ-से-छवि संश्लेषण एक अत्यंत चुनौतीपूर्ण क्रॉस-मोडल जनरेटिव कार्य है, जिसमें पाठ विवरण के आधार पर उच्च गुणवत्ता की यथार्थवादी छवियां उत्पन्न करने की आवश्यकता होती है। यह कार्य पाठ-संचालित छवि संपादन, आभासी छवि संश्लेषण, चेहरे पुनर्निर्माण और अन्य क्षेत्रों में व्यापक अनुप्रयोग संभावनाएं रखता है।
पारंपरिक GAN विधि की समस्याएं: जनरेटिव विरोधी नेटवर्क पाठ-से-छवि संश्लेषण में अक्सर छवि और पाठ विवरण के बीच कम संगति और संश्लेषित छवि की समृद्धि की कमी से ग्रस्त होते हैं
सशर्त सजीन रूपांतरण की खामियां: मौजूदा CAT विधियां (जैसे सशर्त बैच सामान्यीकरण CBN और सशर्त उदाहरण सामान्यीकरण CIN) बहु-परत परसेप्ट्रॉन हैं, जो आसन्न परतों के बीच बैच आंकड़ों के आधार पर स्वतंत्र रूप से भविष्यवाणी करते हैं, अन्य परतें वैश्विक पाठ जानकारी तक नहीं पहुंच सकती हैं
विसरण मॉडल की समस्याएं: हालांकि विसरण मॉडल प्रभावशाली परिणाम प्राप्त करते हैं, लेकिन अनुमान समय लंबा है और कम्प्यूटेशनल ओवरहेड अधिक है
लेखक का मानना है कि अलग-थलग विशेषता संलयन ब्लॉक सशर्त उदाहरण सामान्यीकरण को विभिन्न परतों में स्वतंत्र रूप से घटित होने का कारण बनते हैं, जो परतों के बीच पाठ जानकारी के क्रॉस-लेयर संलयन के शब्दार्थ संबंधों और वैश्विक पाठ जानकारी के भीतर शब्दार्थ संबंधों को नजरअंदाज करते हैं। ये अलग-थलग संलयन ब्लॉक अनुकूलन में कठिन हैं क्योंकि मॉडल में उन्हें एक दूसरे के साथ गैर-इंटरैक्टिव माना जाता है।
पुनरावर्ती सजीन रूपांतरण मॉड्यूल प्रस्तावित करना: LSTM स्किप कनेक्शन विशेषता परतों के आधार पर पुनरावर्ती सजीन रूपांतरण मॉड्यूल, जो विभिन्न परतों की संलयित पाठ जानकारी को वैश्विक पाठ जानकारी में शब्दार्थ संबंध प्रदान करता है, संलयन प्रभाव में सुधार करता है
Shuffle attention तंत्र का परिचय: प्रत्येक दो पुनरावर्ती सजीन रूपांतरण मॉड्यूल के बीच shuffle attention को शामिल करना, जो जैविक व्यवहार सीखने की प्रक्रिया में "सीखना-समीक्षा" पैटर्न का अनुकरण करता है, पाठ जानकारी विस्मृति को दबाता है, ज्ञान के स्थिर हस्तांतरण को बनाए रखता है
CLIP एकीकरण ढांचा: जनरेटर और विभेदक दोनों शक्तिशाली पूर्व-प्रशिक्षित CLIP मॉडल का उपयोग करते हैं, विभेदक जटिल दृश्यों को समझने की CLIP की क्षमता का उपयोग करके उत्पन्न छवि गुणवत्ता का सटीक मूल्यांकन करता है
प्रायोगिक सत्यापन: CUB, Oxford और CelebA-tiny डेटासेट पर व्यापक प्रयोग, वर्तमान अत्याधुनिक मॉडल की तुलना में प्रस्तावित विधि की श्रेष्ठता साबित करते हैं
अकेले RAT Block CUB और Oxford पर छोटा सुधार दिखाता है, लेकिन CelebA-tiny पर प्रदर्शन में गिरावट आती है
Shuffle attention जोड़ने के बाद सभी डेटासेट पर महत्वपूर्ण सुधार प्राप्त होता है, LSTM विस्मृति को दबाने में ध्यान तंत्र की प्रभावशीलता को सत्यापित करता है
लेखक LSTM छिपी परत आकार h के लिए पैरामीटर विश्लेषण करते हैं (h = 0,4,8,16,32,64,128), Grad-CAM दृश्य के माध्यम से पाया जाता है कि h=64 पर लाल क्षेत्र पूरी तरह से लक्ष्य को कवर करता है, प्रभाव सर्वोत्तम है।
शब्दार्थ स्थान विशेषता विश्लेषण: "He is young, receding hairline" और "He is old, receding hairline" दोनों विवरणों के उत्पन्न परिणामों की तुलना करके, पाया जाता है:
Baseline में "young" को "receding hairline" द्वारा कवर किया जाता है, जिससे चेहरे पर झुर्रियां दिखाई देती हैं
RATLIP शब्दार्थ रूप से अधिक उपयुक्त छवियां उत्पन्न कर सकता है, विभिन्न आयु विवरण संबंधित दृश्य विशेषताएं उत्पन्न करते हैं
अव्यक्त स्थान में, RATLIP की विशेषता वेक्टर संलयन अधिक स्पष्ट है, भ्रमित विशेषता संलयन से बचता है
RATLIP पुनरावर्ती सजीन रूपांतरण के माध्यम से प्रभावी रूप से पारंपरिक CAT विधियों में प्रत्येक परत की वैश्विक पाठ जानकारी तक पहुंच की कमी की समस्या को हल करता है
Shuffle attention तंत्र सफलतापूर्वक LSTM की जानकारी विस्मृति विशेषता को कम करता है, पाठ जानकारी की दीर्घकालीन स्मृति क्षमता में सुधार करता है
CLIP के साथ गहन एकीकरण पाठ-छवि संगति और उत्पन्न गुणवत्ता में महत्वपूर्ण सुधार करता है
प्रायोगिक परिणाम दर्शाते हैं कि RATLIP कई डेटासेट पर SOTA विधि की तुलना में महत्वपूर्ण सुधार प्राप्त करता है
मजबूत नवाचार: पुनरावर्ती तंत्रिका नेटवर्क को सशर्त सजीन रूपांतरण में शामिल करना एक नया विचार है, जो मौजूदा विधियों की मुख्य समस्या को प्रभावी रूप से हल करता है
ठोस सैद्धांतिक आधार: LSTM के माध्यम से वैश्विक जानकारी तक पहुंच को मॉडल करना, सैद्धांतिक रूप से उचित और कार्यान्वयन में सुरुचिपूर्ण है
व्यापक प्रयोग: विस्तृत तुलना प्रयोग, विलोपन प्रयोग और पैरामीटर विश्लेषण शामिल हैं, प्रायोगिक डिजाइन वैज्ञानिक है
गहन दृश्य विश्लेषण: Grad-CAM और अव्यक्त स्थान विश्लेषण के माध्यम से विधि की सहज समझ प्रदान करता है
उच्च व्यावहारिक मूल्य: तेज़ अनुमान गति बनाए रखते हुए उत्पन्न गुणवत्ता में सुधार करता है
पेपर 42 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
विसरण मॉडल संबंधित कार्य (BoxDiff, Raphael आदि)
GAN पाठ-से-छवि संश्लेषण शास्त्रीय कार्य (AttnGAN, DF-GAN, GALIP आदि)
ध्यान तंत्र संबंधित अनुसंधान (CBAM, क्रॉस-ध्यान आदि)
CLIP संबंधित अनुप्रयोग (StyleCLIP, LAFITE आदि)
समग्र मूल्यांकन: यह पाठ-से-छवि संश्लेषण क्षेत्र में नवाचार के साथ एक कार्य है, जो प्रस्तावित पुनरावर्ती सजीन रूपांतरण विधि मौजूदा विधियों की मुख्य समस्या को प्रभावी रूप से हल करती है। हालांकि लेखन गुणवत्ता और प्रायोगिक स्केल में कुछ कमियां हैं, लेकिन इसकी तकनीकी योगदान और प्रायोगिक परिणाम विधि की प्रभावशीलता और व्यावहारिक मूल्य को दर्शाते हैं। यह कार्य पाठ-से-छवि संश्लेषण क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है, आगे की खोज और सुधार के योग्य है।