The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- معرّف الورقة: 2509.21787
- العنوان: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- المؤلفون: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- التصنيف: cs.CV cs.CL
- المؤتمر المنشور: ورشة Defactify 3: الورشة الثالثة للتحقق من الحقائق متعددة الأنماط والكشف عن خطاب الكراهية، المرافقة لـ AAAI 2024
- رابط الورقة: https://arxiv.org/abs/2509.21787
مع تزايد المحتوى الضار على الإنترنت الذي لا يشوه الخطاب العام فحسب، بل يشكل أيضاً تحديات كبيرة للحفاظ على بيئة رقمية صحية، تقدم هذه الورقة مجموعة بيانات متعددة الأنماط متخصصة للكشف عن خطاب الكراهية في المحتوى الرقمي. يتمحور جوهر الطريقة حول التطبيق المبتكر لتقنية Stable Diffusion المحسّنة والمعززة بالعلامات المائية، مدمجة مع وحدة تحليل الانتباه الرقمي (DAAM). يمكّن هذا الدمج من تحديد موقع عناصر الكراهية في الصور بدقة، وإنشاء خرائط انتباه تفصيلية للكراهية لتمويه هذه المناطق، وبالتالي إزالة أجزاء الكراهية من الصور. نشر المؤلفون مجموعة البيانات هذه كجزء من مهمة DeHate المشتركة، وقدموا DeHater، وهو نموذج رؤية-لغة متخصص مصمم لمهام إزالة الكراهية متعددة الأنماط.
تتمحور المشكلة الأساسية التي يعالجها هذا البحث حول الكشف والتخفيف من خطاب الكراهية في البيئات متعددة الأنماط (خاصة الصور + النصوص). مع التطور السريع لتطبيقات الذكاء الاصطناعي، فإن محتوى الكراهية المتضمن في بيانات التدريب للنماذج اللغوية الكبيرة (LLMs) لا يضر فقط بفائدة النموذج، بل يثير أيضاً مشاكل أخلاقية خطيرة.
- صحة البيئة الرقمية: يؤثر الانتشار المتزايد لمحتوى الكراهية على الإنترنت بشكل خطير على جودة الخطاب العام
- أخلاقيات الذكاء الاصطناعي: يؤثر محتوى الكراهية في بيانات التدريب بشكل مباشر على مصداقية وسلامة الأنظمة الذكية
- المسؤولية الاجتماعية: هناك حاجة لتطوير أنظمة ذكاء اصطناعي مسؤولة للتصدي لخطاب الكراهية في وسائل التواصل الاجتماعي
- نقص مجموعات بيانات عالية الجودة للكشف عن خطاب الكراهية متعدد الأنماط
- تركز الطرق الموجودة بشكل أساسي على نمط واحد (نص أو صورة)، مع نقص الدمج الفعال متعدد الأنماط
- نقص التقنيات المتخصصة لتحديد موقع وإزالة محتوى الكراهية
بناءً على الحاجة إلى مجموعات بيانات عالية الجودة والتحديات التقنية في الكشف عن خطاب الكراهية متعدد الأنماط، تهدف هذه الورقة إلى بناء إطار عمل مبتكر لمجموعة البيانات والطريقة، مما يعزز تطوير الذكاء الاصطناعي المسؤول.
- طريقة مبتكرة لبناء مجموعة البيانات: تقديم طريقة لتوليد مجموعة بيانات خطاب الكراهية متعددة الأنماط بناءً على Stable Diffusion و DAAM
- نموذج إزالة الكراهية متعدد الأنماط: تصميم نموذج DeHater الذي يمكنه إجراء إخفاء غير خاضع للإشراف لمحتوى الكراهية في الصور تحت إرشادات المطالبات النصية
- تنظيم المهمة المشتركة: إطلاق مجموعة بيانات DeHate التي تحتوي على 2411 مثالاً، وتنظيم المهمة المشتركة ذات الصلة
- ابتكار الطريقة التقنية: تصميم معماري مبتكر يجمع بين مشفر CLIP وعمارة U-Net وتقنية تعديل FiLM
تعرّف هذه الورقة المهمة بأنها إزالة الكراهية من الصور متعددة الأنماط: بالنظر إلى صورة تحتوي على محتوى كراهية ومطالبة نصية مقابلة، يجب على النموذج تحديد وإخفاء مناطق الكراهية في الصورة، وإنشاء نسخة خالية من الكراهية من الصورة.
- مجموعة بيانات Hatenorm: استخدام مجموعة متوازية من النصوص المعلّمة يدويّاً والنسخ المعيارية منها
- توليد Stable Diffusion: استخدام نموذج stable-diffusion-2-base لتحويل نصوص الكراهية إلى تمثيلات بصرية
- توليد الصور: استخراج الكلمات الرئيسية من نصوص الكراهية لبناء مطالبات، واستخدام Stable Diffusion لتوليد الصور المقابلة
- توليد خرائط الانتباه: تطبيق تقنية DAAM لتوليد خرائط حرارية تبرز الصلة بين البكسلات المحددة ومكونات المطالبة
- التمويه الانتقائي:
- حساب قيم الخريطة الحرارية العامة وإنشاء قناع ثنائي بناءً على عتبة
- تعيين البكسلات ذات قيم الخريطة الحرارية العالية إلى اللون الأسود (0,0,0)
- حساب متوسط اللون في الحي المحلي للبكسلات المعلّمة وتطبيقه
يعتمد DeHater على طريقة إخفاء الصور غير الخاضعة للإشراف، حيث يتم توجيه تحديد وإخفاء المناطق الضارة في الصور من خلال المطالبات النصية.
- مشفر CLIP:
- استخدام نموذج CLIP المجمد كمشفر
- الاستفادة من مزايا التدريب المسبق على أزواج صور-نصوص متنوعة
- استخراج تمثيلات ميزات غنية متعددة الأنماط
- الاتصالات المستوحاة من U-Net:
- اعتماد تصميم الاتصالات المتخطية من معمارية U-Net
- نقل المعلومات المحلية من مشفر CLIP إلى فك التشفير
- الحفاظ على الإحكام في فك التشفير مع الاحتفاظ بالتفاصيل الحاسمة
- آلية تكامل الميزات:
- دمج تنشيطات المشفر (بما في ذلك رمز CLS) في كل كتلة محول في فك التشفير
- إثراء فهم فك التشفير للسياق
- تعديل FiLM:
- استخدام تقنية Feature-wise Linear Modulation
- تعديل تنشيطات إدخال فك التشفير من خلال متجه شرطي
- تعزيز قدرة فك التشفير على التركيز والفصل الدقيق لمحتوى الكراهية
- شبكة الإسقاط القابلة للتعلم:
- دمج عمليات إدراج أجزاء الكراهية المتعددة في إسقاط واحد
- تحقيق ضغط دقيق وفعال لعناصر الكراهية المتنوعة
يُخرج النموذج صورة ثنائية توضح بوضوح المناطق المعتبرة كراهية في المحتوى الأصلي وتخفيها.
- الدمج متعدد الأنماط: أول دمج بين Stable Diffusion و DAAM للكشف عن خطاب الكراهية
- آليات الانتباه: استخدام مبتكر لخرائط الانتباه المتقاطعة لتحديد موقع محتوى الكراهية
- تصميم المعمارية: تصميم معماري مدمج من CLIP + U-Net + FiLM
- التعلم غير الخاضع للإشراف: تحقيق إخفاء صور غير خاضع للإشراف بناءً على المطالبات النصية
- مجموعة بيانات DeHate: إجمالي 2411 مثالاً
- مجموعة التدريب: 1687 مثالاً
- مجموعة الاختبار: 724 مثالاً
- تكوين البيانات: يحتوي كل مثال على الصورة المولدة الأصلية والصورة بعد تمويه مكونات الكراهية
استخدام تقاطع على الاتحاد (IoU) كمقياس تقييم رئيسي، حساب درجة التداخل بين مكونات التمويه المتنبأ بها والمكونات الحقيقية.
- فرق المشاركة: 20+ مسجلة، 5 تقديمات فعالة
- طريقة التقييم: الترتيب بناءً على درجات IoU على مجموعة الاختبار
| الترتيب | اسم الفريق | درجة IoU |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | الخط الأساسي (هذه الورقة) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- أداء الخط الأساسي: حقق الخط الأساسي المقترح في هذه الورقة درجة IoU بقيمة 0.49
- صعوبة المهمة: أفضل أداء بلغت 0.55 فقط، مما يشير إلى أن هذه المهمة تتمتع بتحديات كبيرة
- فجوة الأداء: الفرق الصغير نسبياً بين أنظمة المشاركة يشير إلى وجود مجال كبير للتحسن
استخدم فريق UniteToModerate مزيجاً من نماذج NExT-Chat و UniFusion:
- NExT-Chat: توفير توليد قناع أولي من خلال طريقة pix2emb
- UniFusion: تعزيز الدقة من خلال الدمج الهرمي لميزات الرؤية والمرجعية
- الأبحاث أحادية الأنماط: تغطي الكشف عن خطاب الكراهية النصي باللغة الإنجليزية واللغات الأخرى
- الأبحاث متعددة الأنماط: التوسع في السنوات الأخيرة إلى الكشف عن خطاب الكراهية عبر الأنماط
- مساهمات مجموعات البيانات: مجموعات البيانات memotion و Multioff و OLID و MMHS150K وغيرها
- آليات الانتباه: تطبيق خرائط الانتباه المتقاطعة في النماذج البصرية
- نماذج الانتشار: أبحاث قابلية التفسير لنماذج الانتشار الكامنة
- تقنية DAAM: طريقة تجميع خرائط الانتباه المتقاطعة في وحدات إزالة الضوضاء
- Stable Diffusion: نموذج توليد صور فعال
- CLIP: تقنية التدريب المسبق للغة والصور المتناقضة
- U-Net: التطبيق الناجح في مهام تقسيم الصور
- بناء بنجاح أول مجموعة بيانات متعددة الأنماط لخطاب الكراهية بناءً على Stable Diffusion
- يوفر نموذج DeHater المقترح طريقة خط أساسي فعالة لمهام إزالة الكراهية متعددة الأنماط
- يعزز تنظيم المهمة المشتركة تطوير البحث في هذا المجال
- قيود الأداء: أفضل درجة IoU بلغت 0.55 فقط، مما يشير إلى أن الطريقة لا تزال بحاجة إلى تحسين
- حجم البيانات: حجم مجموعة البيانات نسبياً صغير (2411 مثالاً)
- قيود اللغة: التركيز بشكل أساسي على المحتوى الإنجليزي، مع نقص الدعم متعدد اللغات
- التقييم الفردي: استخدام IoU فقط كمقياس تقييم قد لا يكون شاملاً بما يكفي
- تكامل LLM: استخدام نماذج لغوية كبيرة لتفسير مخرجات خط أنابيب التخفيف من خطاب الكراهية
- التوسع متعدد اللغات: توسيع العمل ليشمل لغات وأنماط أخرى
- تحسين الطريقة: تطوير تقنيات أكثر دقة لتحديد موقع وإزالة محتوى الكراهية
- أهمية المشكلة: معالجة مشكلة مهمة في أخلاقيات الذكاء الاصطناعي والمسؤولية الاجتماعية
- ابتكار الطريقة: أول دمج بين Stable Diffusion و DAAM لمعالجة خطاب الكراهية
- مساهمة البيانات: توفير مجموعة بيانات قيمة لخطاب الكراهية متعدد الأنماط
- الانفتاح: تعزيز تطوير المجال من خلال المهام المشتركة
- تكامل التقنية: دمج ذكي لتقنيات متقدمة متعددة (CLIP و U-Net و FiLM)
- الأداء المحدودة: مستوى الأداء الإجمالي ليس مرتفعاً، مع أفضل طريقة بـ IoU بقيمة 0.55 فقط
- نقص التقييم: غياب التقييم البشري والتحليل النوعي
- قابلية التفسير: عدم كفاية شرح عملية اتخاذ القرار في النموذج
- القدرة على التعميم: عدم التحقق الكافي من قدرة الطريقة على التعميم على أنواع مختلفة من محتوى الكراهية
- الاعتبارات الأخلاقية: نقاش غير كافٍ حول التأثيرات السلبية المحتملة لتوليد صور الكراهية
- مساهمة المجال: توفير اتجاه بحثي جديد للكشف عن خطاب الكراهية متعدد الأنماط
- القيمة العملية: توفير أساس تقني لمراجعة محتوى وسائل التواصل الاجتماعي الآلية
- قابلية التكرار: توفير وصف تفصيلي للطريقة ومجموعة البيانات
- الأهمية الاجتماعية: تعزيز تطوير الذكاء الاصطناعي المسؤول
- وسائل التواصل الاجتماعي: المراجعة والتصفية التلقائية للمحتوى على المنصات
- التعليم الإلكتروني: ضمان سلامة المحتوى على منصات التعليم
- تدريب الذكاء الاصطناعي: تنظيف بيانات التدريب الضارة في نماذج الذكاء الاصطناعي
- أداة البحث: توفير مجموعة بيانات معيارية وطرق للبحث ذي الصلة
تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
- مجموعات البيانات والطرق الكلاسيكية للكشف عن خطاب الكراهية
- التقنيات الأساسية مثل Stable Diffusion و CLIP
- الأبحاث ذات الصلة بقابلية تفسير التعلم العميق
- أبحاث التعلم متعدد الأنماط وآليات الانتباه
التقييم الشامل: هذه ورقة ذات أهمية اجتماعية كبيرة وابتكار تقني، وعلى الرغم من وجود مجال للتحسن في الأداء، فإنها توفر موارد بيانات وأساس طريقة قيمة لمجال الكشف عن خطاب الكراهية متعدد الأنماط، مما يساهم بشكل إيجابي في تعزيز تطوير الذكاء الاصطناعي المسؤول.