The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- पेपर ID: 2509.21787
- शीर्षक: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- लेखक: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- वर्गीकरण: cs.CV cs.CL
- प्रकाशन सम्मेलन: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, AAAI 2024 के साथ सह-स्थित
- पेपर लिंक: https://arxiv.org/abs/2509.21787
डिजिटल हानिकारक सामग्री में वृद्धि न केवल सार्वजनिक प्रवचन को विकृत करती है, बल्कि स्वस्थ डिजिटल वातावरण को बनाए रखने के लिए एक महत्वपूर्ण चुनौती भी प्रस्तुत करती है। इसके लिए, यह पेपर डिजिटल सामग्री में घृणा भाषण की पहचान के लिए विशेष रूप से डिज़ाइन किया गया एक बहुविध डेटासेट प्रस्तुत करता है। इस पद्धति का मूल डिजिटल ध्यान विश्लेषण मॉड्यूल (DAAM) के साथ संयुक्त जलचिह्न, स्थिरता-वर्धित स्थिर प्रसार तकनीक का नवीन अनुप्रयोग है। यह संयोजन छवियों में घृणा तत्वों को सटीक रूप से स्थानीयकृत करने, विस्तृत घृणा ध्यान मानचित्र उत्पन्न करने, इन क्षेत्रों को धुंधला करने और छवियों से घृणा भाग को हटाने में सक्षम है। लेखकों ने इस डेटासेट को dehate साझा कार्य के भाग के रूप में जारी किया है और DeHater प्रस्तुत किया है, जो बहुविध विघृणा कार्य के लिए डिज़ाइन किया गया एक दृश्य-भाषा मॉडल है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या बहुविध वातावरण (विशेष रूप से छवि + पाठ) में घृणा भाषण का पता लगाना और कम करना है। कृत्रिम बुद्धिमत्ता अनुप्रयोगों के तीव्र विकास के साथ, बड़े भाषा मॉडल (LLMs) प्रशिक्षण डेटा में शामिल घृणा सामग्री न केवल मॉडल की व्यावहारिकता को नुकसान पहुंचाती है, बल्कि गंभीर नैतिक समस्याएं भी उत्पन्न करती है।
- डिजिटल वातावरण स्वास्थ्य: ऑनलाइन घृणा सामग्री में वृद्धि सार्वजनिक प्रवचन की गुणवत्ता को गंभीर रूप से प्रभावित करती है
- AI नैतिकता: प्रशिक्षण डेटा में घृणा सामग्री सीधे AI प्रणालियों की विश्वसनीयता और नैतिक अखंडता को प्रभावित करती है
- सामाजिक जिम्मेदारी: सोशल मीडिया में घृणा भाषण का सामना करने के लिए जिम्मेदार AI प्रणालियों को विकसित करने की आवश्यकता है
- उच्च-गुणवत्ता वाले बहुविध घृणा भाषण पहचान डेटासेट की कमी
- मौजूदा पद्धतियां मुख्य रूप से पाठ या छवि एकल मोडेलिटी पर ध्यान केंद्रित करती हैं, प्रभावी बहुविध संलयन की कमी है
- घृणा सामग्री स्थानीयकरण और हटाने की तकनीकों की कमी
उच्च-गुणवत्ता वाले डेटासेट की आवश्यकता और बहुविध घृणा भाषण पहचान की तकनीकी चुनौतियों के आधार पर, यह पेपर एक नवीन डेटासेट और पद्धति ढांचा बनाने का लक्ष्य रखता है, जो जिम्मेदार AI के विकास को आगे बढ़ाता है।
- नवीन डेटासेट निर्माण पद्धति: स्थिर प्रसार और DAAM पर आधारित बहुविध घृणा भाषण डेटासेट निर्माण पद्धति प्रस्तावित की
- बहुविध विघृणा मॉडल: DeHater मॉडल डिज़ाइन किया, जो पाठ संकेत मार्गदर्शन के तहत छवि घृणा सामग्री की बिना निरीक्षण के मास्किंग कर सकता है
- साझा कार्य संगठन: 2411 उदाहरणों वाला DeHate डेटासेट जारी किया और संबंधित साझा कार्य का आयोजन किया
- तकनीकी पद्धति नवाचार: CLIP एन्कोडर, U-Net आर्किटेक्चर और FiLM मॉड्यूलेशन तकनीक के नवीन आर्किटेक्चर डिज़ाइन को जोड़ा
इस पेपर द्वारा परिभाषित कार्य बहुविध छवि विघृणा है: घृणा सामग्री युक्त एक छवि और संबंधित पाठ संकेत दिए गए, मॉडल को छवि में घृणा क्षेत्रों की पहचान करनी चाहिए और मास्क करना चाहिए, विघृणा छवि संस्करण उत्पन्न करना चाहिए।
- Hatenorm डेटासेट: हाथ से टिप्पणी की गई घृणा पाठ और उनके सामान्यीकृत संस्करणों का समानांतर कॉर्पस उपयोग करना
- स्थिर प्रसार निर्माण: stable-diffusion-2-base मॉडल का उपयोग करके घृणा पाठ को दृश्य प्रतिनिधित्व में परिवर्तित करना
- छवि निर्माण: घृणा पाठ से मुख्य शब्दों को निकालकर संकेत बनाना, स्थिर प्रसार का उपयोग करके संबंधित छवि उत्पन्न करना
- ध्यान मानचित्र निर्माण: DAAM तकनीक लागू करके हीटमैप उत्पन्न करना, विशिष्ट पिक्सल और संकेत घटकों के बीच प्रासंगिकता को उजागर करना
- चयनात्मक धुंधलापन:
- वैश्विक हीटमैप मान की गणना करना और द्विआधारी मास्क उत्पन्न करने के लिए सीमा स्थापित करना
- उच्च हीटमैप मान पिक्सल को काले रंग (0,0,0) में सेट करना
- चिह्नित पिक्सल के लिए स्थानीय पड़ोस औसत रंग की गणना करना और लागू करना
DeHater बिना निरीक्षण के छवि मास्किंग पद्धति अपनाता है, पाठ संकेत के माध्यम से छवि में हानिकारक क्षेत्रों की पहचान और अस्पष्टता को निर्देशित करता है।
- CLIP एन्कोडर:
- एन्कोडर के रूप में फ्रीज किए गए CLIP मॉडल का उपयोग करना
- विविध छवि-पाठ जोड़ी पर इसके पूर्व-प्रशिक्षण लाभ का उपयोग करना
- समृद्ध बहुविध विशेषता प्रतिनिधित्व निकालना
- U-Net-प्रेरित कनेक्शन:
- U-Net आर्किटेक्चर के स्किप कनेक्शन डिज़ाइन को अपनाना
- CLIP एन्कोडर की स्थानीय जानकारी को डिकोडर को स्थानांतरित करना
- डिकोडर कॉम्पैक्टनेस को बनाए रखते हुए महत्वपूर्ण विवरण संरक्षित करना
- विशेषता एकीकरण तंत्र:
- एन्कोडर सक्रियण (CLS टोकन सहित) को डिकोडर के प्रत्येक ट्रांसफॉर्मर ब्लॉक में एकीकृत करना
- संदर्भ की समझ को समृद्ध करना
- FiLM मॉड्यूलेशन:
- Feature-wise Linear Modulation तकनीक का उपयोग करना
- सशर्त वेक्टर के माध्यम से डिकोडर इनपुट सक्रियण को मॉड्यूलेट करना
- डिकोडर को घृणा सामग्री पर ध्यान केंद्रित करने और सटीक विभाजन की क्षमता बढ़ाना
- सीखने योग्य प्रक्षेपण नेटवर्क:
- कई घृणा खंड एम्बेडिंग को एकल प्रक्षेपण में संयोजित करना
- विविध घृणा तत्वों का सूक्ष्म प्रभावी संपीड़न प्राप्त करना
मॉडल द्विआधारी छवि आउटपुट करता है, मूल सामग्री में घृणा के रूप में पहचाने गए क्षेत्रों को स्पष्ट रूप से चिह्नित करता है और मास्क करता है।
- बहुविध संलयन: पहली बार स्थिर प्रसार को DAAM के साथ घृणा भाषण पहचान के लिए जोड़ा
- ध्यान तंत्र: घृणा सामग्री स्थानीयकरण के लिए क्रॉस-ध्यान मानचित्र का नवीन उपयोग
- आर्किटेक्चर डिज़ाइन: CLIP+U-Net+FiLM संयोजन आर्किटेक्चर डिज़ाइन
- बिना निरीक्षण के सीखना: पाठ संकेत के आधार पर बिना निरीक्षण के छवि मास्किंग को लागू करना
- DeHate डेटासेट: कुल 2411 उदाहरण
- प्रशिक्षण सेट: 1687 उदाहरण
- परीक्षण सेट: 724 उदाहरण
- डेटा संरचना: प्रत्येक उदाहरण में मूल उत्पन्न छवि और घृणा घटकों को धुंधला करने के बाद की छवि शामिल है
मुख्य मूल्यांकन मेट्रिक के रूप में Intersection over Union (IoU) का उपयोग करना, पूर्वानुमानित धुंधले घटकों और वास्तविक धुंधले घटकों के बीच ओवरलैप की गणना करना।
- भाग लेने वाली टीमें: 20+ पंजीकृत, 5 वैध प्रस्तुतियां
- मूल्यांकन विधि: परीक्षण सेट पर IoU स्कोर रैंकिंग के आधार पर
| रैंक | टीम का नाम | IoU स्कोर |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | Baseline (यह पेपर) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- बेसलाइन प्रदर्शन: इस पेपर द्वारा प्रस्तावित बेसलाइन विधि 0.49 का IoU स्कोर प्राप्त करती है
- कार्य कठिनाई: सर्वोत्तम प्रदर्शन केवल 0.55 है, जो इस कार्य की काफी चुनौतीपूर्ण प्रकृति को दर्शाता है
- प्रदर्शन अंतर: भाग लेने वाली प्रणालियों के बीच प्रदर्शन में बड़ा अंतर नहीं है, जो अभी भी सुधार के लिए पर्याप्त गुंजाइश दर्शाता है
UniteToModerate टीम ने NExT-Chat और UniFusion मॉडल के संयोजन का उपयोग किया:
- NExT-Chat: pix2emb विधि के माध्यम से प्रारंभिक मास्क निर्माण प्रदान करना
- UniFusion: दृश्य और संदर्भ विशेषताओं के पदानुक्रमित संलयन के माध्यम से सटीकता बढ़ाना
- एकल-मोडेलिटी अनुसंधान: अंग्रेजी और अन्य भाषाओं में पाठ घृणा भाषण पहचान को शामिल करना
- बहुविध अनुसंधान: हाल के वर्षों में क्रॉस-मोडेलिटी घृणा पहचान तक विस्तारित
- डेटासेट योगदान: memotion, Multioff, OLID, MMHS150K आदि डेटासेट
- ध्यान तंत्र: दृश्य मॉडल में क्रॉस-ध्यान मानचित्र का अनुप्रयोग
- प्रसार मॉडल: Latent Diffusion Models की व्याख्या क्षमता अनुसंधान
- DAAM तकनीक: विघटन मॉड्यूल में क्रॉस-ध्यान मानचित्र एकत्रित करने की विधि
- स्थिर प्रसार: कुशल छवि निर्माण मॉडल
- CLIP: विपरीत भाषा-छवि पूर्व-प्रशिक्षण तकनीक
- U-Net: छवि विभाजन कार्य में सफल अनुप्रयोग
- स्थिर प्रसार पर आधारित पहला बहुविध घृणा भाषण डेटासेट सफलतापूर्वक बनाया
- प्रस्तावित DeHater मॉडल बहुविध विघृणा कार्य के लिए प्रभावी बेसलाइन विधि प्रदान करता है
- साझा कार्य का संगठन इस क्षेत्र में अनुसंधान विकास को आगे बढ़ाता है
- प्रदर्शन सीमा: सर्वोत्तम IoU स्कोर केवल 0.55 है, जो विधि में सुधार की गुंजाइश दर्शाता है
- डेटा आकार: डेटासेट आकार अपेक्षाकृत छोटा है (2411 उदाहरण)
- भाषा सीमा: मुख्य रूप से अंग्रेजी सामग्री पर ध्यान केंद्रित, बहुभाषी समर्थन की कमी
- एकल मूल्यांकन: केवल IoU को मूल्यांकन मेट्रिक के रूप में उपयोग करना, पूर्ण नहीं हो सकता
- LLM एकीकरण: बड़े भाषा मॉडल का उपयोग करके घृणा भाषण कमी पाइपलाइन के आउटपुट की व्याख्या करना
- बहुभाषी विस्तार: कार्य को अन्य भाषाओं और मोडेलिटी तक विस्तारित करना
- विधि सुधार: अधिक सटीक घृणा सामग्री स्थानीयकरण और हटाने की तकनीकें विकसित करना
- समस्या महत्व: AI नैतिकता और सामाजिक जिम्मेदारी की महत्वपूर्ण समस्या को समाधान करना
- विधि नवाचार: पहली बार स्थिर प्रसार को DAAM के साथ घृणा भाषण प्रसंस्करण के लिए जोड़ना
- डेटा योगदान: मूल्यवान बहुविध घृणा भाषण डेटासेट प्रदान करना
- खुलापन: साझा कार्य के माध्यम से क्षेत्र विकास को बढ़ावा देना
- तकनीकी एकीकरण: कई अत्याधुनिक तकनीकों (CLIP, U-Net, FiLM) को कुशलतापूर्वक संयोजित करना
- सीमित प्रदर्शन: समग्र प्रदर्शन स्तर अधिक नहीं है, सर्वोत्तम विधि IoU केवल 0.55 है
- अपर्याप्त मूल्यांकन: मानव मूल्यांकन और गुणात्मक विश्लेषण की कमी
- व्याख्या क्षमता: मॉडल निर्णय प्रक्रिया की व्याख्या पर्याप्त नहीं है
- सामान्यीकरण क्षमता: विभिन्न प्रकार की घृणा सामग्री पर विधि की सामान्यीकरण क्षमता को पूरी तरह से सत्यापित नहीं किया गया
- नैतिक विचार: घृणा छवियों के निर्माण से संभावित नकारात्मक प्रभाव पर चर्चा अपर्याप्त है
- क्षेत्र योगदान: बहुविध घृणा भाषण पहचान के लिए नई अनुसंधान दिशा प्रदान करना
- व्यावहारिक मूल्य: सोशल मीडिया सामग्री संयम के लिए तकनीकी आधार प्रदान करना
- पुनरुत्पादनशीलता: विस्तृत विधि विवरण और डेटासेट प्रदान करना
- सामाजिक महत्व: जिम्मेदार AI के विकास को आगे बढ़ाना
- सोशल मीडिया: प्लेटफॉर्म सामग्री स्वचालित संयम और फ़िल्टरिंग
- ऑनलाइन शिक्षा: शिक्षा प्लेटफॉर्म की सामग्री सुरक्षा सुनिश्चित करना
- AI प्रशिक्षण: AI मॉडल प्रशिक्षण डेटा में हानिकारक सामग्री को साफ करना
- अनुसंधान उपकरण: संबंधित अनुसंधान के लिए बेंचमार्क डेटासेट और विधि प्रदान करना
यह पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- घृणा भाषण पहचान की शास्त्रीय डेटासेट और विधियां
- स्थिर प्रसार और CLIP जैसी मूल तकनीकें
- गहन शिक्षा व्याख्या संबंधी अनुसंधान
- बहुविध शिक्षा और ध्यान तंत्र अनुसंधान
समग्र मूल्यांकन: यह महत्वपूर्ण सामाजिक महत्व और तकनीकी नवाचार वाला एक पेपर है। हालांकि प्रदर्शन में सुधार की गुंजाइश है, लेकिन यह बहुविध घृणा भाषण पहचान क्षेत्र के लिए मूल्यवान डेटा संसाधन और विधि आधार प्रदान करता है, जो जिम्मेदार AI के विकास को आगे बढ़ाने में सकारात्मक भूमिका निभाता है।