2025-11-12T05:04:10.017076

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations

Lin, Lu, Chen

Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.

academic

RATLIP: पुनरावर्ती सजीन रूपांतरण के आधार पर जनरेटिव विरोधी CLIP पाठ-से-छवि संश्लेषण

बुनियादी जानकारी

पेपर ID: 2405.08114
शीर्षक: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
लेखक: Chengde Lin, Xijun Lu, Guangxi Chen
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन समय: मई 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2405.08114
कोड लिंक: https://github.com/OxygenLu/RATLIP

सारांश

यह पेपर RATLIP प्रस्तावित करता है, जो पुनरावर्ती सजीन रूपांतरण (RAT) के आधार पर एक जनरेटिव विरोधी CLIP पाठ-से-छवि संश्लेषण विधि है। मौजूदा सशर्त सजीन रूपांतरण (CAT) विधियों में प्रत्येक परत द्वारा स्वतंत्र रूप से भविष्यवाणी और वैश्विक पाठ जानकारी तक पहुंच की कमी की समस्या को संबोधित करते हुए, लेखक पुनरावर्ती सजीन रूपांतरण को मॉडल करने के लिए पुनरावर्ती तंत्रिका नेटवर्क का उपयोग करने का प्रस्ताव देते हैं, जो विभिन्न परतों को वैश्विक जानकारी तक पहुंचने में सक्षम बनाता है। साथ ही, यह RNN की जानकारी विस्मृति विशेषता को कम करने के लिए shuffle attention तंत्र को शामिल करता है। यह विधि जनरेटर और विभेदक दोनों में पूर्व-प्रशिक्षित CLIP मॉडल का उपयोग करती है, और CUB, Oxford और CelebA-tiny डेटासेट पर प्रयोग विधि की श्रेष्ठता प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पाठ-से-छवि संश्लेषण एक अत्यंत चुनौतीपूर्ण क्रॉस-मोडल जनरेटिव कार्य है, जिसमें पाठ विवरण के आधार पर उच्च गुणवत्ता की यथार्थवादी छवियां उत्पन्न करने की आवश्यकता होती है। यह कार्य पाठ-संचालित छवि संपादन, आभासी छवि संश्लेषण, चेहरे पुनर्निर्माण और अन्य क्षेत्रों में व्यापक अनुप्रयोग संभावनाएं रखता है।

मौजूदा विधियों की सीमाएं

पारंपरिक GAN विधि की समस्याएं: जनरेटिव विरोधी नेटवर्क पाठ-से-छवि संश्लेषण में अक्सर छवि और पाठ विवरण के बीच कम संगति और संश्लेषित छवि की समृद्धि की कमी से ग्रस्त होते हैं
सशर्त सजीन रूपांतरण की खामियां: मौजूदा CAT विधियां (जैसे सशर्त बैच सामान्यीकरण CBN और सशर्त उदाहरण सामान्यीकरण CIN) बहु-परत परसेप्ट्रॉन हैं, जो आसन्न परतों के बीच बैच आंकड़ों के आधार पर स्वतंत्र रूप से भविष्यवाणी करते हैं, अन्य परतें वैश्विक पाठ जानकारी तक नहीं पहुंच सकती हैं
विसरण मॉडल की समस्याएं: हालांकि विसरण मॉडल प्रभावशाली परिणाम प्राप्त करते हैं, लेकिन अनुमान समय लंबा है और कम्प्यूटेशनल ओवरहेड अधिक है

अनुसंधान प्रेरणा

लेखक का मानना है कि अलग-थलग विशेषता संलयन ब्लॉक सशर्त उदाहरण सामान्यीकरण को विभिन्न परतों में स्वतंत्र रूप से घटित होने का कारण बनते हैं, जो परतों के बीच पाठ जानकारी के क्रॉस-लेयर संलयन के शब्दार्थ संबंधों और वैश्विक पाठ जानकारी के भीतर शब्दार्थ संबंधों को नजरअंदाज करते हैं। ये अलग-थलग संलयन ब्लॉक अनुकूलन में कठिन हैं क्योंकि मॉडल में उन्हें एक दूसरे के साथ गैर-इंटरैक्टिव माना जाता है।

मुख्य योगदान

पुनरावर्ती सजीन रूपांतरण मॉड्यूल प्रस्तावित करना: LSTM स्किप कनेक्शन विशेषता परतों के आधार पर पुनरावर्ती सजीन रूपांतरण मॉड्यूल, जो विभिन्न परतों की संलयित पाठ जानकारी को वैश्विक पाठ जानकारी में शब्दार्थ संबंध प्रदान करता है, संलयन प्रभाव में सुधार करता है
Shuffle attention तंत्र का परिचय: प्रत्येक दो पुनरावर्ती सजीन रूपांतरण मॉड्यूल के बीच shuffle attention को शामिल करना, जो जैविक व्यवहार सीखने की प्रक्रिया में "सीखना-समीक्षा" पैटर्न का अनुकरण करता है, पाठ जानकारी विस्मृति को दबाता है, ज्ञान के स्थिर हस्तांतरण को बनाए रखता है
CLIP एकीकरण ढांचा: जनरेटर और विभेदक दोनों शक्तिशाली पूर्व-प्रशिक्षित CLIP मॉडल का उपयोग करते हैं, विभेदक जटिल दृश्यों को समझने की CLIP की क्षमता का उपयोग करके उत्पन्न छवि गुणवत्ता का सटीक मूल्यांकन करता है
प्रायोगिक सत्यापन: CUB, Oxford और CelebA-tiny डेटासेट पर व्यापक प्रयोग, वर्तमान अत्याधुनिक मॉडल की तुलना में प्रस्तावित विधि की श्रेष्ठता साबित करते हैं

विधि विवरण

कार्य परिभाषा

पाठ विवरण T दिया गया है, इसके शब्दार्थ के अनुरूप उच्च गुणवत्ता की छवि उत्पन्न करें। इनपुट पाठ विवरण T और शोर वेक्टर Z है, आउटपुट संश्लेषित छवि है।

मॉडल आर्किटेक्चर

समग्र ढांचा

RATLIP GALIP ढांचे पर आधारित सुधार है, जिसमें तीन मुख्य घटक शामिल हैं:

पूर्व-प्रशिक्षित CLIP पाठ एनकोडर: इनपुट पाठ विवरण को वाक्य वेक्टर T में एनकोड करता है
जनरेटर G: RAT Bridge, CLIP-BLK और Image-G मॉड्यूल शामिल हैं
विभेदक D: फ्रोजन CLIP-ViT पर आधारित, युग्मित विभेदक शामिल है

RAT Block डिजाइन

पुनरावर्ती सजीन रूपांतरण का मुख्य नवाचार पारंपरिक बहु-परत परसेप्ट्रॉन को LSTM से बदलना है:

पारंपरिक CAT सूत्र:

Affine(c|hi) = γi · c + βi
γ = MLP1(hi), β = MLP2(hi)

RAT Block का LSTM मॉडलिंग:

h0 = MLP3(z), c0 = MLP4(z)
[it, ft, ot, ut] = [σ, σ, σ, tanh](T(s[ht-1]))
ct = ft ⊙ ct-1 + it ⊙ ut
ht = ot ⊙ tanh(ct)
γt, βt = MLP1^t(ht), MLP2^t(ht)

जहां it, ft, ot क्रमशः इनपुट गेट, विस्मृति गेट और आउटपुट गेट हैं।

Shuffle Attention तंत्र

LSTM में लंबे समय तक सीखने में जानकारी विस्मृति की समस्या को हल करने के लिए, लेखक प्रत्येक दो RAT Block के बीच shuffle attention को शामिल करते हैं:

इनपुट पैरामीटर को नियमों के अनुसार समूहित करना
क्रमशः स्थानिक और चैनल जानकारी को संसाधित करना
समृद्ध जानकारी प्रतिनिधित्व प्राप्त करने के लिए पुनः संलयन करना
जैविक सीखने के पैटर्न "सीखना-समीक्षा" का अनुकरण करना

तकनीकी नवाचार बिंदु

वैश्विक जानकारी तक पहुंच: LSTM के स्किप कनेक्शन और वजन साझाकरण के माध्यम से, विभिन्न परतों के संलयन ब्लॉक के बीच पाठ जानकारी संगति सुनिश्चित करना
स्मृति वृद्धि: shuffle attention तंत्र प्रभावी रूप से LSTM की विस्मृति विशेषता को कम करता है, दीर्घकालीन स्थिर ज्ञान हस्तांतरण बनाए रखता है
CLIP एकीकरण: CLIP की बहु-मोडल प्रतिनिधित्व सीखने की क्षमता का पूर्ण उपयोग, पाठ-छवि संबंधितता में सुधार

प्रायोगिक सेटअप

डेटासेट

CUB डेटासेट: 200 विभिन्न श्रेणियों के 11,788 पक्षी छवियां शामिल हैं
Oxford डेटासेट: 102 विभिन्न श्रेणियों के 8,189 फूल छवियां शामिल हैं
CelebA-tiny डेटासेट: CelebAMask-HQ से यादृच्छिक रूप से 10,000 फोटो चुने गए, प्रशिक्षण सेट 8,000, परीक्षण सेट 2,000

प्रत्येक डेटासेट की प्रत्येक छवि में 10 विवरण वाक्य हैं।

मूल्यांकन मेट्रिक्स

FID (Fréchet Inception Distance): उत्पन्न छवि गुणवत्ता का मूल्यांकन, कम मान बेहतर है
CLIP-Score (CS): पाठ-छवि संगति का मूल्यांकन, उच्च मान बेहतर है

कार्यान्वयन विवरण

ViT-B/32 को CLIP मॉडल के रूप में उपयोग करना
जनरेटर सीखने की दर: 0.0001, विभेदक सीखने की दर: 0.0004
अनुकूलक: Adam
हार्डवेयर: 3×3090 GPU

तुलना विधियां

AttnGAN
LAFITE
DF-GAN
GALIP (baseline)

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	FID↓ (CUB/CelebA-tiny)	CS↑ (CUB/Oxford/CelebA-tiny)
AttnGAN	23.98/125.98	-/-/21.15
LAFITE	14.58/-	31.25/-/-
DF-GAN	14.81/137.6	29.20/26.67/24.41
GALIP	10.0/94.45	31.60/31.77/27.95
RATLIP	13.28/81.48	32.03/31.94/28.91

मुख्य निष्कर्ष:

CelebA-tiny डेटासेट पर FID SOTA प्रदर्शन तक पहुंचता है
सभी तीन डेटासेट पर CS मेट्रिक में 0.78-0.96 का सुधार प्राप्त किया
CUB डेटासेट FID पर दूसरे स्थान पर रैंक किया गया

विलोपन प्रयोग

विधि	CS↑ (CUB/Oxford/CelebA-tiny)
Baseline	31.60/31.77/27.95
RAT	31.62/31.83/27.63
RAT+ATT	32.03/31.94/28.91

विश्लेषण:

अकेले RAT Block CUB और Oxford पर छोटा सुधार दिखाता है, लेकिन CelebA-tiny पर प्रदर्शन में गिरावट आती है
Shuffle attention जोड़ने के बाद सभी डेटासेट पर महत्वपूर्ण सुधार प्राप्त होता है, LSTM विस्मृति को दबाने में ध्यान तंत्र की प्रभावशीलता को सत्यापित करता है

पैरामीटर विश्लेषण

लेखक LSTM छिपी परत आकार h के लिए पैरामीटर विश्लेषण करते हैं (h = 0,4,8,16,32,64,128), Grad-CAM दृश्य के माध्यम से पाया जाता है कि h=64 पर लाल क्षेत्र पूरी तरह से लक्ष्य को कवर करता है, प्रभाव सर्वोत्तम है।

केस विश्लेषण

शब्दार्थ स्थान विशेषता विश्लेषण: "He is young, receding hairline" और "He is old, receding hairline" दोनों विवरणों के उत्पन्न परिणामों की तुलना करके, पाया जाता है:

Baseline में "young" को "receding hairline" द्वारा कवर किया जाता है, जिससे चेहरे पर झुर्रियां दिखाई देती हैं
RATLIP शब्दार्थ रूप से अधिक उपयुक्त छवियां उत्पन्न कर सकता है, विभिन्न आयु विवरण संबंधित दृश्य विशेषताएं उत्पन्न करते हैं
अव्यक्त स्थान में, RATLIP की विशेषता वेक्टर संलयन अधिक स्पष्ट है, भ्रमित विशेषता संलयन से बचता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RATLIP पुनरावर्ती सजीन रूपांतरण के माध्यम से प्रभावी रूप से पारंपरिक CAT विधियों में प्रत्येक परत की वैश्विक पाठ जानकारी तक पहुंच की कमी की समस्या को हल करता है
Shuffle attention तंत्र सफलतापूर्वक LSTM की जानकारी विस्मृति विशेषता को कम करता है, पाठ जानकारी की दीर्घकालीन स्मृति क्षमता में सुधार करता है
CLIP के साथ गहन एकीकरण पाठ-छवि संगति और उत्पन्न गुणवत्ता में महत्वपूर्ण सुधार करता है
प्रायोगिक परिणाम दर्शाते हैं कि RATLIP कई डेटासेट पर SOTA विधि की तुलना में महत्वपूर्ण सुधार प्राप्त करता है

सीमाएं

कम्प्यूटेशनल जटिलता: LSTM और attention तंत्र मॉडल के कम्प्यूटेशनल ओवरहेड को बढ़ाते हैं
पैरामीटर संवेदनशीलता: LSTM छिपी परत आकार को सावधानीपूर्वक ट्यून करने की आवश्यकता है
डेटासेट स्केल: प्रयोग मुख्य रूप से अपेक्षाकृत छोटे डेटासेट पर किए गए हैं, बड़े पैमाने के डेटासेट पर प्रदर्शन सत्यापन की प्रतीक्षा में है
अनुमान गति: हालांकि विसरण मॉडल की तुलना में तेज़, सरल GAN की तुलना में अभी भी अतिरिक्त ओवरहेड है

भविष्य की दिशाएं

LSTM के लिए अधिक कुशल पुनरावर्ती तंत्र की खोज करना
अधिक उन्नत ध्यान तंत्र का अनुसंधान करना
बड़े पैमाने और अधिक जटिल डेटासेट तक विस्तार करना
अन्य क्रॉस-मोडल कार्यों में मॉडल के अनुप्रयोग का अनुसंधान करना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: पुनरावर्ती तंत्रिका नेटवर्क को सशर्त सजीन रूपांतरण में शामिल करना एक नया विचार है, जो मौजूदा विधियों की मुख्य समस्या को प्रभावी रूप से हल करता है
ठोस सैद्धांतिक आधार: LSTM के माध्यम से वैश्विक जानकारी तक पहुंच को मॉडल करना, सैद्धांतिक रूप से उचित और कार्यान्वयन में सुरुचिपूर्ण है
व्यापक प्रयोग: विस्तृत तुलना प्रयोग, विलोपन प्रयोग और पैरामीटर विश्लेषण शामिल हैं, प्रायोगिक डिजाइन वैज्ञानिक है
गहन दृश्य विश्लेषण: Grad-CAM और अव्यक्त स्थान विश्लेषण के माध्यम से विधि की सहज समझ प्रदान करता है
उच्च व्यावहारिक मूल्य: तेज़ अनुमान गति बनाए रखते हुए उत्पन्न गुणवत्ता में सुधार करता है

कमियां

लेखन गुणवत्ता: पेपर में कुछ व्याकरण त्रुटियां और अस्पष्ट अभिव्यक्तियां हैं
अपर्याप्त सैद्धांतिक विश्लेषण: LSTM वैश्विक जानकारी तक पहुंच की समस्या को क्यों हल कर सकता है, इसके गहन सैद्धांतिक विश्लेषण की कमी है
प्रायोगिक स्केल सीमा: मुख्य रूप से अपेक्षाकृत सरल डेटासेट पर सत्यापित, जटिल दृश्य डेटासेट पर प्रयोग की कमी है
अपूर्ण तुलना: नवीनतम विसरण मॉडल के साथ सीधी तुलना की कमी है
कम्प्यूटेशनल दक्षता विश्लेषण की कमी: विस्तृत कम्प्यूटेशनल समय और मेमोरी उपयोग विश्लेषण प्रदान नहीं किया गया है

प्रभाव

शैक्षणिक योगदान: पाठ-से-छवि संश्लेषण क्षेत्र के लिए नया तकनीकी मार्ग प्रदान करता है, विशेषकर सशर्त जानकारी संलयन में
व्यावहारिक मूल्य: विधि अपेक्षाकृत सरल और कार्यान्वयन में आसान है, व्यावहारिक अनुप्रयोगों में अपनाए जाने की संभावना है
प्रेरणा महत्व: पुनरावर्ती तंत्र को जनरेटिव मॉडल में शामिल करना बाद के अनुसंधान के लिए नई सोच प्रदान करता है

लागू दृश्य

पाठ-संचालित छवि संपादन: छवि उत्पन्न प्रक्रिया पर सटीक नियंत्रण की आवश्यकता वाले अनुप्रयोग
आभासी सामग्री निर्माण: गेम, फिल्म और अन्य क्षेत्रों में अवधारणा डिजाइन
शिक्षा और प्रशिक्षण: पाठ विवरण के आधार पर शिक्षण सामग्री उत्पन्न करना
व्यक्तिगतकृत सामग्री उत्पन्न करना: उपयोगकर्ता विवरण के अनुसार अनुकूलित छवि सामग्री उत्पन्न करना

संदर्भ

पेपर 42 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

विसरण मॉडल संबंधित कार्य (BoxDiff, Raphael आदि)
GAN पाठ-से-छवि संश्लेषण शास्त्रीय कार्य (AttnGAN, DF-GAN, GALIP आदि)
ध्यान तंत्र संबंधित अनुसंधान (CBAM, क्रॉस-ध्यान आदि)
CLIP संबंधित अनुप्रयोग (StyleCLIP, LAFITE आदि)

समग्र मूल्यांकन: यह पाठ-से-छवि संश्लेषण क्षेत्र में नवाचार के साथ एक कार्य है, जो प्रस्तावित पुनरावर्ती सजीन रूपांतरण विधि मौजूदा विधियों की मुख्य समस्या को प्रभावी रूप से हल करती है। हालांकि लेखन गुणवत्ता और प्रायोगिक स्केल में कुछ कमियां हैं, लेकिन इसकी तकनीकी योगदान और प्रायोगिक परिणाम विधि की प्रभावशीलता और व्यावहारिक मूल्य को दर्शाते हैं। यह कार्य पाठ-से-छवि संश्लेषण क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है, आगे की खोज और सुधार के योग्य है।