RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
Lin, Lu, Chen
Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
academic
RATLIP: تركيب نص إلى صورة باستخدام الشبكات العدائية التوليدية CLIP بناءً على التحويلات الأفينية المتكررة
تقترح هذه الورقة RATLIP، وهي طريقة تركيب نص إلى صورة باستخدام الشبكات العدائية التوليدية CLIP بناءً على التحويلات الأفينية المتكررة. لمعالجة مشكلة التنبؤ المستقل لكل طبقة في طرق التحويل الأفيني المشروط (CAT) الحالية والافتقار إلى الوصول إلى المعلومات النصية العامة، يقترح المؤلفون استخدام الشبكات العصبية المتكررة لنمذجة التحويلات الأفينية المتكررة (RAT)، مما يضمن أن الطبقات المختلفة يمكنها الوصول إلى المعلومات العامة. يتم أيضاً إدخال آلية الانتباه المختلطة لتخفيف خصائص نسيان الشبكات العصبية المتكررة. تستخدم الطريقة نموذج CLIP المدرب مسبقاً في كل من المولد والمميز، وتوضح التجارب على مجموعات بيانات CUB و Oxford و CelebA-tiny تفوق الطريقة.
يعتبر تركيب الصور من النصوص مهمة توليدية عابرة للأنماط بالغة التحدي، وتتطلب توليد صور عالية الجودة وواقعية بناءً على الأوصاف النصية. تتمتع هذه المهمة بآفاق تطبيقية واسعة في مجالات مثل تحرير الصور المدفوع بالنصوص وتركيب الصور الافتراضية وإعادة بناء الوجوه.
مشاكل طرق GAN التقليدية: تعاني الشبكات العدائية التوليدية في تركيب النصوص إلى صور من مشاكل الاتساق المنخفض بين الصور والأوصاف النصية وعدم كفاية تنوع الصور المركبة
عيوب التحويل الأفيني المشروط: تعتمد طرق CAT الموجودة (مثل التطبيع الدفعي المشروط CBN والتطبيع الحالة المشروط CIN) على الشبكات العصبية متعددة الطبقات، وتتنبأ بالبيانات بشكل مستقل بناءً على إحصائيات الدفعات بين الطبقات المتجاورة، مما يمنع الطبقات الأخرى من الوصول إلى المعلومات النصية العامة
مشاكل نماذج الانتشار: على الرغم من أن نماذج الانتشار حققت نتائج مثيرة للإعجاب، إلا أن وقت الاستدلال طويل والتكلفة الحسابية عالية
يعتقد المؤلفون أن كتل الدمج المعزولة تسبب حدوث التطبيع الحالة المشروط بشكل مستقل في طبقات مختلفة، مما يتجاهل العلاقات الدلالية لدمج المعلومات النصية عبر الطبقات والعلاقات الدلالية داخل المعلومات النصية العامة. يصعب تحسين هذه الكتل المعزولة لأنه يُعتبر أنها لا تتفاعل مع بعضها البعض في النموذج.
اقتراح وحدة التحويل الأفيني المتكرر: وحدة التحويل الأفيني المتكرر بناءً على اتصالات LSTM التخطي للطبقات المميزة، مما يضمن أن المعلومات النصية المدمجة في طبقات مختلفة لها علاقات دلالية في المعلومات النصية العامة، مما يحسن تأثير الدمج
إدخال آلية الانتباه المختلطة: إدخال الانتباه المختلط بين كل وحدتي تحويل أفيني متكررة، محاكاة نمط "التعلم والمراجعة" في عملية التعلم السلوكي البيولوجي، لقمع نسيان المعلومات النصية والحفاظ على نقل المعرفة المستقر
إطار عمل تكامل CLIP: يستخدم كل من المولد والمميز نموذج CLIP المدرب مسبقاً القوي، حيث يستفيد المميز من قدرة CLIP على فهم المشاهد المعقدة لتقييم جودة الصور المولدة بدقة
التحقق التجريبي: إجراء تجارب واسعة على مجموعات بيانات CUB و Oxford و CelebA-tiny، مما يثبت تفوق الطريقة المقترحة مقارنة بالنماذج الحديثة الأخرى
أجرى المؤلفون تحليل معاملات على حجم الطبقة المخفية في LSTM (h = 0,4,8,16,32,64,128)، وكشفت تصور Grad-CAM أن المنطقة الحمراء تغطي الهدف بالكامل عند h=64، مما يحقق أفضل تأثير.
التقييم الإجمالي: هذا عمل مبتكر في مجال تركيب النصوص إلى الصور، حيث تحل طريقة التحويل الأفيني المتكرر المقترحة المشكلة الأساسية للطرق الموجودة بشكل فعال. على الرغم من وجود بعض أوجه القصور في جودة الكتابة ونطاق التجارب، فإن المساهمة التقنية ونتائج التجارب تشير إلى فعالية الطريقة وقيمتها العملية. يوفر هذا العمل اتجاهاً بحثياً جديداً لمجال تركيب النصوص إلى الصور، ويستحق المزيد من الاستكشاف والتحسين.