2025-11-12T05:04:10.017076

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations

Lin, Lu, Chen

Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.

academic

RATLIP: تركيب نص إلى صورة باستخدام الشبكات العدائية التوليدية CLIP بناءً على التحويلات الأفينية المتكررة

المعلومات الأساسية

معرّف الورقة: 2405.08114
العنوان: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
المؤلفون: Chengde Lin, Xijun Lu, Guangxi Chen
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: مايو 2024 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2405.08114
رابط الكود: https://github.com/OxygenLu/RATLIP

الملخص

تقترح هذه الورقة RATLIP، وهي طريقة تركيب نص إلى صورة باستخدام الشبكات العدائية التوليدية CLIP بناءً على التحويلات الأفينية المتكررة. لمعالجة مشكلة التنبؤ المستقل لكل طبقة في طرق التحويل الأفيني المشروط (CAT) الحالية والافتقار إلى الوصول إلى المعلومات النصية العامة، يقترح المؤلفون استخدام الشبكات العصبية المتكررة لنمذجة التحويلات الأفينية المتكررة (RAT)، مما يضمن أن الطبقات المختلفة يمكنها الوصول إلى المعلومات العامة. يتم أيضاً إدخال آلية الانتباه المختلطة لتخفيف خصائص نسيان الشبكات العصبية المتكررة. تستخدم الطريقة نموذج CLIP المدرب مسبقاً في كل من المولد والمميز، وتوضح التجارب على مجموعات بيانات CUB و Oxford و CelebA-tiny تفوق الطريقة.

خلفية البحث والدافع

تعريف المشكلة

يعتبر تركيب الصور من النصوص مهمة توليدية عابرة للأنماط بالغة التحدي، وتتطلب توليد صور عالية الجودة وواقعية بناءً على الأوصاف النصية. تتمتع هذه المهمة بآفاق تطبيقية واسعة في مجالات مثل تحرير الصور المدفوع بالنصوص وتركيب الصور الافتراضية وإعادة بناء الوجوه.

قيود الطرق الموجودة

مشاكل طرق GAN التقليدية: تعاني الشبكات العدائية التوليدية في تركيب النصوص إلى صور من مشاكل الاتساق المنخفض بين الصور والأوصاف النصية وعدم كفاية تنوع الصور المركبة
عيوب التحويل الأفيني المشروط: تعتمد طرق CAT الموجودة (مثل التطبيع الدفعي المشروط CBN والتطبيع الحالة المشروط CIN) على الشبكات العصبية متعددة الطبقات، وتتنبأ بالبيانات بشكل مستقل بناءً على إحصائيات الدفعات بين الطبقات المتجاورة، مما يمنع الطبقات الأخرى من الوصول إلى المعلومات النصية العامة
مشاكل نماذج الانتشار: على الرغم من أن نماذج الانتشار حققت نتائج مثيرة للإعجاب، إلا أن وقت الاستدلال طويل والتكلفة الحسابية عالية

دافع البحث

يعتقد المؤلفون أن كتل الدمج المعزولة تسبب حدوث التطبيع الحالة المشروط بشكل مستقل في طبقات مختلفة، مما يتجاهل العلاقات الدلالية لدمج المعلومات النصية عبر الطبقات والعلاقات الدلالية داخل المعلومات النصية العامة. يصعب تحسين هذه الكتل المعزولة لأنه يُعتبر أنها لا تتفاعل مع بعضها البعض في النموذج.

المساهمات الأساسية

اقتراح وحدة التحويل الأفيني المتكرر: وحدة التحويل الأفيني المتكرر بناءً على اتصالات LSTM التخطي للطبقات المميزة، مما يضمن أن المعلومات النصية المدمجة في طبقات مختلفة لها علاقات دلالية في المعلومات النصية العامة، مما يحسن تأثير الدمج
إدخال آلية الانتباه المختلطة: إدخال الانتباه المختلط بين كل وحدتي تحويل أفيني متكررة، محاكاة نمط "التعلم والمراجعة" في عملية التعلم السلوكي البيولوجي، لقمع نسيان المعلومات النصية والحفاظ على نقل المعرفة المستقر
إطار عمل تكامل CLIP: يستخدم كل من المولد والمميز نموذج CLIP المدرب مسبقاً القوي، حيث يستفيد المميز من قدرة CLIP على فهم المشاهد المعقدة لتقييم جودة الصور المولدة بدقة
التحقق التجريبي: إجراء تجارب واسعة على مجموعات بيانات CUB و Oxford و CelebA-tiny، مما يثبت تفوق الطريقة المقترحة مقارنة بالنماذج الحديثة الأخرى

شرح الطريقة

تعريف المهمة

بالنظر إلى وصف نصي T، توليد صورة عالية الجودة متسقة دلالياً معه. الإدخال عبارة عن وصف نصي T ومتجه ضوضاء Z، والإخراج عبارة عن صورة مركبة.

معمارية النموذج

الإطار العام

يعتمد RATLIP على تحسين إطار عمل GALIP، ويتضمن ثلاثة مكونات رئيسية:

مشفر النصوص CLIP المدرب مسبقاً: يشفر وصف النص المدخل إلى متجه جملة T
المولد G: يتضمن وحدات RAT Bridge و CLIP-BLK و Image-G
المميز D: يعتمد على CLIP-ViT المجمد، يتضمن مميزات مقترنة

تصميم كتلة RAT

يكمن الابتكار الأساسي للتحويل الأفيني المتكرر في استبدال الشبكات العصبية متعددة الطبقات التقليدية بـ LSTM:

صيغة CAT التقليدية:

Affine(c|hi) = γi · c + βi
γ = MLP1(hi), β = MLP2(hi)

نمذجة LSTM لكتلة RAT:

h0 = MLP3(z), c0 = MLP4(z)
[it, ft, ot, ut] = [σ, σ, σ, tanh](T(s[ht-1]))
ct = ft ⊙ ct-1 + it ⊙ ut
ht = ot ⊙ tanh(ct)
γt, βt = MLP1^t(ht), MLP2^t(ht)

حيث it و ft و ot هي بوابات الإدخال والنسيان والإخراج على التوالي.

آلية الانتباه المختلط

لحل مشكلة نسيان المعلومات بسهولة في التعلم طويل الأجل في LSTM، يدخل المؤلفون الانتباه المختلط بين كل وحدتي RAT:

تقسيم معاملات الإدخال وفقاً لقواعد محددة
معالجة المعلومات المكانية والقنوية بشكل منفصل
إعادة دمج للحصول على تمثيل معلومات غني
محاكاة نمط التعلم البيولوجي "التعلم والمراجعة"

نقاط الابتكار التقني

الوصول إلى المعلومات العامة: من خلال اتصالات LSTM التخطي ومشاركة الأوزان، يضمن الاتساق في المعلومات النصية بين كتل الدمج في طبقات مختلفة
تعزيز الذاكرة: تخفف آلية الانتباه المختلط بشكل فعال من خصائص نسيان LSTM، مما يحافظ على نقل المعرفة المستقر طويل الأجل
تكامل CLIP: الاستفادة الكاملة من قدرة CLIP على تعلم التمثيلات متعددة الأنماط، مما يحسن الارتباط بين النصوص والصور

إعداد التجارب

مجموعات البيانات

مجموعة بيانات CUB: تحتوي على 11,788 صورة طائر من 200 فئة مختلفة
مجموعة بيانات Oxford: تحتوي على 8,189 صورة زهرة من 102 فئة مختلفة
مجموعة بيانات CelebA-tiny: تم اختيار 10,000 صورة عشوائياً من CelebAMask-HQ، مع 8,000 صورة للتدريب و 2,000 صورة للاختبار

تحتوي كل صورة في كل مجموعة بيانات على 10 جمل وصفية.

مقاييس التقييم

FID (مسافة Fréchet Inception): تقييم جودة الصور المولدة، كلما انخفضت القيمة كان أفضل
CLIP-Score (CS): تقييم الاتساق بين النصوص والصور، كلما ارتفعت القيمة كان أفضل

تفاصيل التنفيذ

استخدام ViT-B/32 كنموذج CLIP
معدل تعلم المولد: 0.0001، معدل تعلم المميز: 0.0004
محسّن: Adam
الأجهزة: 3×3090 GPU

طرق المقارنة

AttnGAN
LAFITE
DF-GAN
GALIP (الخط الأساسي)

نتائج التجارب

النتائج الرئيسية

الطريقة	FID↓ (CUB/CelebA-tiny)	CS↑ (CUB/Oxford/CelebA-tiny)
AttnGAN	23.98/125.98	-/-/21.15
LAFITE	14.58/-	31.25/-/-
DF-GAN	14.81/137.6	29.20/26.67/24.41
GALIP	10.0/94.45	31.60/31.77/27.95
RATLIP	13.28/81.48	32.03/31.94/28.91

النتائج الرئيسية:

حقق أداء SOTA على مجموعة بيانات CelebA-tiny بـ FID
حقق تحسناً بمقدار 0.78-0.96 في مقياس CS على جميع مجموعات البيانات الثلاث
احتل المرتبة الثانية في مقياس FID على مجموعة بيانات CUB

تجارب الاستئصال

الطريقة	CS↑ (CUB/Oxford/CelebA-tiny)
الخط الأساسي	31.60/31.77/27.95
RAT	31.62/31.83/27.63
RAT+ATT	32.03/31.94/28.91

التحليل:

وحدة RAT المستقلة حققت تحسناً طفيفاً على CUB و Oxford، لكن الأداء انخفضت على CelebA-tiny
بعد إضافة الانتباه المختلط، تم تحقيق تحسن كبير على جميع مجموعات البيانات، مما يتحقق من فعالية آلية الانتباه في قمع نسيان LSTM

تحليل المعاملات

أجرى المؤلفون تحليل معاملات على حجم الطبقة المخفية في LSTM (h = 0,4,8,16,32,64,128)، وكشفت تصور Grad-CAM أن المنطقة الحمراء تغطي الهدف بالكامل عند h=64، مما يحقق أفضل تأثير.

تحليل الحالات

تحليل ميزات الفضاء الدلالي: من خلال مقارنة نتائج التوليد للوصفين "He is young, receding hairline" و "He is old, receding hairline"، تم اكتشاف:

في الخط الأساسي، يتم تغطية "young" بـ "receding hairline"، مما يؤدي إلى ظهور تجاعيد على الوجه
يمكن لـ RATLIP توليد صور دلالية أكثر ملاءمة، حيث تنتج أوصاف الأعمار المختلفة ميزات بصرية مقابلة
في الفضاء الكامن، يكون دمج متجهات الميزات في RATLIP أكثر وضوحاً، مما يتجنب دمج الميزات المربك

الأعمال ذات الصلة

تركيب النصوص إلى الصور

الطرق المبكرة: قدم Conditional GAN لأول مرة GAN مع شروط، من خلال دمج ميزات النصوص ومتجهات الضوضاء بشكل تقريبي
طرق الدمج المتقدمة: اقترح CIN طرقاً أكثر تقدماً للدمج، باستخدام المتوسط والتباين التكيفي للتحكم في أسلوب الصورة
آليات الانتباه: استفاد AttnGAN من آليات الانتباه لتحقيق تركيب أكثر دقة
تكامل CLIP: استفادت LAFITE و GALIP من CLIP لتعلم التباين بين النصوص والصور

تطبيق آليات الانتباه في تركيب النصوص إلى الصور

حقق AttnGAN نتائج مثيرة للإعجاب في توليد صور عالية الدقة
تم استخدام آليات الانتباه المتقاطع المكدسة لتحديد المحاذاة الشاملة
يضمن الانتباه المكاني الاتساق الدلالي بين الصور والنصوص

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحل RATLIP بشكل فعال مشكلة الافتقار إلى الوصول إلى المعلومات النصية العامة في كل طبقة في طرق CAT التقليدية من خلال التحويلات الأفينية المتكررة
نجحت آلية الانتباه المختلط في تخفيف خصائص نسيان LSTM، مما حسّن القدرة على الذاكرة طويلة الأجل للمعلومات النصية
يحسّن التكامل العميق مع CLIP بشكل كبير من الاتساق بين النصوص والصور وجودة التوليد
تشير نتائج التجارب إلى أن RATLIP حقق تحسناً كبيراً مقارنة بطرق SOTA على مجموعات بيانات متعددة

القيود

التعقيد الحسابي: تزيد آليات LSTM والانتباه من التكلفة الحسابية للنموذج
حساسية المعاملات: يتطلب حجم الطبقة المخفية في LSTM ضبطاً دقيقاً
حجم مجموعة البيانات: تم إجراء التجارب بشكل أساسي على مجموعات بيانات صغيرة نسبياً، وتبقى الأداء على مجموعات بيانات كبيرة الحجم قيد التحقق
سرعة الاستدلال: على الرغم من أنها أسرع من نماذج الانتشار، إلا أنها لا تزال تتطلب تكاليف إضافية مقارنة بـ GAN البسيطة

الاتجاهات المستقبلية

استكشاف آليات متكررة أكثر كفاءة لاستبدال LSTM
البحث عن آليات انتباه أكثر تقدماً
التوسع إلى مجموعات بيانات أكبر وأكثر تعقيداً
البحث عن تطبيقات النموذج في مهام عابرة للأنماط الأخرى

التقييم المتعمق

المزايا

ابتكار قوي: إدخال الشبكات العصبية المتكررة في التحويل الأفيني المشروط فكرة جديدة، تحل بشكل فعال المشكلة الأساسية للطرق الموجودة
أساس نظري متين: نمذجة الوصول إلى المعلومات العامة من خلال LSTM معقول نظرياً وأنيق في التنفيذ
تجارب شاملة: تتضمن تجارب مقارنة مفصلة وتجارب استئصال وتحليل معاملات، مع تصميم تجريبي علمي
تحليل تصور عميق: توفير فهم حدسي للطريقة من خلال تصور Grad-CAM وتحليل الفضاء الكامن
قيمة عملية عالية: تحسين جودة التوليد مع الحفاظ على سرعة استدلال سريعة نسبياً

أوجه القصور

جودة الكتابة: تحتوي الورقة على بعض الأخطاء النحوية والتعبيرات غير الواضحة
نقص التحليل النظري: يفتقر إلى تحليل نظري عميق لسبب قدرة LSTM على حل مشكلة الوصول إلى المعلومات العامة
قيود نطاق التجارب: التحقق الأساسي على مجموعات بيانات نسبياً بسيطة، مع نقص التجارب على مجموعات بيانات معقدة
المقارنة غير الشاملة: نقص المقارنة المباشرة مع نماذج الانتشار الحديثة
نقص تحليل الكفاءة الحسابية: عدم توفير تحليل مفصل لوقت الحساب واستخدام الذاكرة

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لمجال تركيب النصوص إلى الصور، خاصة في جانب دمج المعلومات المشروطة
القيمة العملية: الطريقة نسبياً بسيطة وسهلة التنفيذ، من المتوقع أن يتم اعتمادها في التطبيقات العملية
الدلالة الإرشادية: إدخال الآليات المتكررة في النماذج التوليدية يوفر أفكاراً جديدة للبحث اللاحق

السيناريوهات المطبقة

تحرير الصور المدفوع بالنصوص: التطبيقات التي تتطلب التحكم الدقيق في عملية التوليد
إنشاء محتوى افتراضي: تصميم المفاهيم في مجالات الألعاب والأفلام وغيرها
التعليم والتدريب: توليد مواد تعليمية بناءً على الأوصاف النصية
توليد محتوى مخصص: توليد صور مخصصة بناءً على أوصاف المستخدم

المراجع

تستشهد الورقة بـ 42 مرجعاً ذا صلة، تتضمن بشكل أساسي:

أعمال متعلقة بنماذج الانتشار (BoxDiff, Raphael وغيرها)
أعمال كلاسيكية في تركيب النصوص إلى الصور باستخدام GAN (AttnGAN, DF-GAN, GALIP وغيرها)
أبحاث متعلقة بآليات الانتباه (CBAM، الانتباه المتقاطع وغيرها)
تطبيقات متعلقة بـ CLIP (StyleCLIP, LAFITE وغيرها)

التقييم الإجمالي: هذا عمل مبتكر في مجال تركيب النصوص إلى الصور، حيث تحل طريقة التحويل الأفيني المتكرر المقترحة المشكلة الأساسية للطرق الموجودة بشكل فعال. على الرغم من وجود بعض أوجه القصور في جودة الكتابة ونطاق التجارب، فإن المساهمة التقنية ونتائج التجارب تشير إلى فعالية الطريقة وقيمتها العملية. يوفر هذا العمل اتجاهاً بحثياً جديداً لمجال تركيب النصوص إلى الصور، ويستحق المزيد من الاستكشاف والتحسين.