2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

academic

DeHate: نهج متعدد الأنماط قائم على Stable Diffusion للتخفيف من خطاب الكراهية في الصور

المعلومات الأساسية

معرّف الورقة: 2509.21787
العنوان: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
المؤلفون: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
التصنيف: cs.CV cs.CL
المؤتمر المنشور: ورشة Defactify 3: الورشة الثالثة للتحقق من الحقائق متعددة الأنماط والكشف عن خطاب الكراهية، المرافقة لـ AAAI 2024
رابط الورقة: https://arxiv.org/abs/2509.21787

الملخص

مع تزايد المحتوى الضار على الإنترنت الذي لا يشوه الخطاب العام فحسب، بل يشكل أيضاً تحديات كبيرة للحفاظ على بيئة رقمية صحية، تقدم هذه الورقة مجموعة بيانات متعددة الأنماط متخصصة للكشف عن خطاب الكراهية في المحتوى الرقمي. يتمحور جوهر الطريقة حول التطبيق المبتكر لتقنية Stable Diffusion المحسّنة والمعززة بالعلامات المائية، مدمجة مع وحدة تحليل الانتباه الرقمي (DAAM). يمكّن هذا الدمج من تحديد موقع عناصر الكراهية في الصور بدقة، وإنشاء خرائط انتباه تفصيلية للكراهية لتمويه هذه المناطق، وبالتالي إزالة أجزاء الكراهية من الصور. نشر المؤلفون مجموعة البيانات هذه كجزء من مهمة DeHate المشتركة، وقدموا DeHater، وهو نموذج رؤية-لغة متخصص مصمم لمهام إزالة الكراهية متعددة الأنماط.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي يعالجها هذا البحث حول الكشف والتخفيف من خطاب الكراهية في البيئات متعددة الأنماط (خاصة الصور + النصوص). مع التطور السريع لتطبيقات الذكاء الاصطناعي، فإن محتوى الكراهية المتضمن في بيانات التدريب للنماذج اللغوية الكبيرة (LLMs) لا يضر فقط بفائدة النموذج، بل يثير أيضاً مشاكل أخلاقية خطيرة.

الأهمية

صحة البيئة الرقمية: يؤثر الانتشار المتزايد لمحتوى الكراهية على الإنترنت بشكل خطير على جودة الخطاب العام
أخلاقيات الذكاء الاصطناعي: يؤثر محتوى الكراهية في بيانات التدريب بشكل مباشر على مصداقية وسلامة الأنظمة الذكية
المسؤولية الاجتماعية: هناك حاجة لتطوير أنظمة ذكاء اصطناعي مسؤولة للتصدي لخطاب الكراهية في وسائل التواصل الاجتماعي

قيود الطرق الموجودة

نقص مجموعات بيانات عالية الجودة للكشف عن خطاب الكراهية متعدد الأنماط
تركز الطرق الموجودة بشكل أساسي على نمط واحد (نص أو صورة)، مع نقص الدمج الفعال متعدد الأنماط
نقص التقنيات المتخصصة لتحديد موقع وإزالة محتوى الكراهية

دافع البحث

بناءً على الحاجة إلى مجموعات بيانات عالية الجودة والتحديات التقنية في الكشف عن خطاب الكراهية متعدد الأنماط، تهدف هذه الورقة إلى بناء إطار عمل مبتكر لمجموعة البيانات والطريقة، مما يعزز تطوير الذكاء الاصطناعي المسؤول.

المساهمات الأساسية

طريقة مبتكرة لبناء مجموعة البيانات: تقديم طريقة لتوليد مجموعة بيانات خطاب الكراهية متعددة الأنماط بناءً على Stable Diffusion و DAAM
نموذج إزالة الكراهية متعدد الأنماط: تصميم نموذج DeHater الذي يمكنه إجراء إخفاء غير خاضع للإشراف لمحتوى الكراهية في الصور تحت إرشادات المطالبات النصية
تنظيم المهمة المشتركة: إطلاق مجموعة بيانات DeHate التي تحتوي على 2411 مثالاً، وتنظيم المهمة المشتركة ذات الصلة
ابتكار الطريقة التقنية: تصميم معماري مبتكر يجمع بين مشفر CLIP وعمارة U-Net وتقنية تعديل FiLM

شرح الطريقة

تعريف المهمة

تعرّف هذه الورقة المهمة بأنها إزالة الكراهية من الصور متعددة الأنماط: بالنظر إلى صورة تحتوي على محتوى كراهية ومطالبة نصية مقابلة، يجب على النموذج تحديد وإخفاء مناطق الكراهية في الصورة، وإنشاء نسخة خالية من الكراهية من الصورة.

طريقة بناء مجموعة البيانات

مصادر البيانات الأساسية

مجموعة بيانات Hatenorm: استخدام مجموعة متوازية من النصوص المعلّمة يدويّاً والنسخ المعيارية منها
توليد Stable Diffusion: استخدام نموذج stable-diffusion-2-base لتحويل نصوص الكراهية إلى تمثيلات بصرية

عملية التقنية الأساسية

توليد الصور: استخراج الكلمات الرئيسية من نصوص الكراهية لبناء مطالبات، واستخدام Stable Diffusion لتوليد الصور المقابلة
توليد خرائط الانتباه: تطبيق تقنية DAAM لتوليد خرائط حرارية تبرز الصلة بين البكسلات المحددة ومكونات المطالبة
التمويه الانتقائي:
- حساب قيم الخريطة الحرارية العامة وإنشاء قناع ثنائي بناءً على عتبة
- تعيين البكسلات ذات قيم الخريطة الحرارية العالية إلى اللون الأسود (0,0,0)
- حساب متوسط اللون في الحي المحلي للبكسلات المعلّمة وتطبيقه

معمارية نموذج DeHater

فلسفة التصميم الشاملة

يعتمد DeHater على طريقة إخفاء الصور غير الخاضعة للإشراف، حيث يتم توجيه تحديد وإخفاء المناطق الضارة في الصور من خلال المطالبات النصية.

المكونات الأساسية

مشفر CLIP:
- استخدام نموذج CLIP المجمد كمشفر
- الاستفادة من مزايا التدريب المسبق على أزواج صور-نصوص متنوعة
- استخراج تمثيلات ميزات غنية متعددة الأنماط
الاتصالات المستوحاة من U-Net:
- اعتماد تصميم الاتصالات المتخطية من معمارية U-Net
- نقل المعلومات المحلية من مشفر CLIP إلى فك التشفير
- الحفاظ على الإحكام في فك التشفير مع الاحتفاظ بالتفاصيل الحاسمة
آلية تكامل الميزات:
- دمج تنشيطات المشفر (بما في ذلك رمز CLS) في كل كتلة محول في فك التشفير
- إثراء فهم فك التشفير للسياق
تعديل FiLM:
- استخدام تقنية Feature-wise Linear Modulation
- تعديل تنشيطات إدخال فك التشفير من خلال متجه شرطي
- تعزيز قدرة فك التشفير على التركيز والفصل الدقيق لمحتوى الكراهية
شبكة الإسقاط القابلة للتعلم:
- دمج عمليات إدراج أجزاء الكراهية المتعددة في إسقاط واحد
- تحقيق ضغط دقيق وفعال لعناصر الكراهية المتنوعة

آلية الإخراج

يُخرج النموذج صورة ثنائية توضح بوضوح المناطق المعتبرة كراهية في المحتوى الأصلي وتخفيها.

نقاط الابتكار التقني

الدمج متعدد الأنماط: أول دمج بين Stable Diffusion و DAAM للكشف عن خطاب الكراهية
آليات الانتباه: استخدام مبتكر لخرائط الانتباه المتقاطعة لتحديد موقع محتوى الكراهية
تصميم المعمارية: تصميم معماري مدمج من CLIP + U-Net + FiLM
التعلم غير الخاضع للإشراف: تحقيق إخفاء صور غير خاضع للإشراف بناءً على المطالبات النصية

إعداد التجارب

مجموعة البيانات

مجموعة بيانات DeHate: إجمالي 2411 مثالاً
- مجموعة التدريب: 1687 مثالاً
- مجموعة الاختبار: 724 مثالاً
تكوين البيانات: يحتوي كل مثال على الصورة المولدة الأصلية والصورة بعد تمويه مكونات الكراهية

مقاييس التقييم

استخدام تقاطع على الاتحاد (IoU) كمقياس تقييم رئيسي، حساب درجة التداخل بين مكونات التمويه المتنبأ بها والمكونات الحقيقية.

إعداد المهمة المشتركة

فرق المشاركة: 20+ مسجلة، 5 تقديمات فعالة
طريقة التقييم: الترتيب بناءً على درجات IoU على مجموعة الاختبار

نتائج التجارب

النتائج الرئيسية

الترتيب	اسم الفريق	درجة IoU
1	UniteToModerate	0.55
2	PaulJane	0.51
3	الخط الأساسي (هذه الورقة)	0.49
4	Markans	0.48
5	Sanskarfc	0.47
6	rachitmodi	0.44

تحليل النتائج

أداء الخط الأساسي: حقق الخط الأساسي المقترح في هذه الورقة درجة IoU بقيمة 0.49
صعوبة المهمة: أفضل أداء بلغت 0.55 فقط، مما يشير إلى أن هذه المهمة تتمتع بتحديات كبيرة
فجوة الأداء: الفرق الصغير نسبياً بين أنظمة المشاركة يشير إلى وجود مجال كبير للتحسن

تحليل الطريقة الفائزة

استخدم فريق UniteToModerate مزيجاً من نماذج NExT-Chat و UniFusion:

NExT-Chat: توفير توليد قناع أولي من خلال طريقة pix2emb
UniFusion: تعزيز الدقة من خلال الدمج الهرمي لميزات الرؤية والمرجعية

الأعمال ذات الصلة

أبحاث الكشف عن خطاب الكراهية

الأبحاث أحادية الأنماط: تغطي الكشف عن خطاب الكراهية النصي باللغة الإنجليزية واللغات الأخرى
الأبحاث متعددة الأنماط: التوسع في السنوات الأخيرة إلى الكشف عن خطاب الكراهية عبر الأنماط
مساهمات مجموعات البيانات: مجموعات البيانات memotion و Multioff و OLID و MMHS150K وغيرها

قابلية تفسير التعلم العميق

آليات الانتباه: تطبيق خرائط الانتباه المتقاطعة في النماذج البصرية
نماذج الانتشار: أبحاث قابلية التفسير لنماذج الانتشار الكامنة
تقنية DAAM: طريقة تجميع خرائط الانتباه المتقاطعة في وحدات إزالة الضوضاء

الأساس التقني

Stable Diffusion: نموذج توليد صور فعال
CLIP: تقنية التدريب المسبق للغة والصور المتناقضة
U-Net: التطبيق الناجح في مهام تقسيم الصور

الخلاصة والنقاش

الاستنتاجات الرئيسية

بناء بنجاح أول مجموعة بيانات متعددة الأنماط لخطاب الكراهية بناءً على Stable Diffusion
يوفر نموذج DeHater المقترح طريقة خط أساسي فعالة لمهام إزالة الكراهية متعددة الأنماط
يعزز تنظيم المهمة المشتركة تطوير البحث في هذا المجال

القيود

قيود الأداء: أفضل درجة IoU بلغت 0.55 فقط، مما يشير إلى أن الطريقة لا تزال بحاجة إلى تحسين
حجم البيانات: حجم مجموعة البيانات نسبياً صغير (2411 مثالاً)
قيود اللغة: التركيز بشكل أساسي على المحتوى الإنجليزي، مع نقص الدعم متعدد اللغات
التقييم الفردي: استخدام IoU فقط كمقياس تقييم قد لا يكون شاملاً بما يكفي

الاتجاهات المستقبلية

تكامل LLM: استخدام نماذج لغوية كبيرة لتفسير مخرجات خط أنابيب التخفيف من خطاب الكراهية
التوسع متعدد اللغات: توسيع العمل ليشمل لغات وأنماط أخرى
تحسين الطريقة: تطوير تقنيات أكثر دقة لتحديد موقع وإزالة محتوى الكراهية

التقييم المتعمق

المزايا

أهمية المشكلة: معالجة مشكلة مهمة في أخلاقيات الذكاء الاصطناعي والمسؤولية الاجتماعية
ابتكار الطريقة: أول دمج بين Stable Diffusion و DAAM لمعالجة خطاب الكراهية
مساهمة البيانات: توفير مجموعة بيانات قيمة لخطاب الكراهية متعدد الأنماط
الانفتاح: تعزيز تطوير المجال من خلال المهام المشتركة
تكامل التقنية: دمج ذكي لتقنيات متقدمة متعددة (CLIP و U-Net و FiLM)

أوجه القصور

الأداء المحدودة: مستوى الأداء الإجمالي ليس مرتفعاً، مع أفضل طريقة بـ IoU بقيمة 0.55 فقط
نقص التقييم: غياب التقييم البشري والتحليل النوعي
قابلية التفسير: عدم كفاية شرح عملية اتخاذ القرار في النموذج
القدرة على التعميم: عدم التحقق الكافي من قدرة الطريقة على التعميم على أنواع مختلفة من محتوى الكراهية
الاعتبارات الأخلاقية: نقاش غير كافٍ حول التأثيرات السلبية المحتملة لتوليد صور الكراهية

التأثير

مساهمة المجال: توفير اتجاه بحثي جديد للكشف عن خطاب الكراهية متعدد الأنماط
القيمة العملية: توفير أساس تقني لمراجعة محتوى وسائل التواصل الاجتماعي الآلية
قابلية التكرار: توفير وصف تفصيلي للطريقة ومجموعة البيانات
الأهمية الاجتماعية: تعزيز تطوير الذكاء الاصطناعي المسؤول

السيناريوهات القابلة للتطبيق

وسائل التواصل الاجتماعي: المراجعة والتصفية التلقائية للمحتوى على المنصات
التعليم الإلكتروني: ضمان سلامة المحتوى على منصات التعليم
تدريب الذكاء الاصطناعي: تنظيف بيانات التدريب الضارة في نماذج الذكاء الاصطناعي
أداة البحث: توفير مجموعة بيانات معيارية وطرق للبحث ذي الصلة

المراجع

تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

مجموعات البيانات والطرق الكلاسيكية للكشف عن خطاب الكراهية
التقنيات الأساسية مثل Stable Diffusion و CLIP
الأبحاث ذات الصلة بقابلية تفسير التعلم العميق
أبحاث التعلم متعدد الأنماط وآليات الانتباه

التقييم الشامل: هذه ورقة ذات أهمية اجتماعية كبيرة وابتكار تقني، وعلى الرغم من وجود مجال للتحسن في الأداء، فإنها توفر موارد بيانات وأساس طريقة قيمة لمجال الكشف عن خطاب الكراهية متعدد الأنماط، مما يساهم بشكل إيجابي في تعزيز تطوير الذكاء الاصطناعي المسؤول.