The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- Papier-ID: 2509.21787
- Titel: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- Autoren: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- Klassifizierung: cs.CV cs.CL
- Veröffentlichungskonferenz: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2024
- Papierlink: https://arxiv.org/abs/2509.21787
Mit der Zunahme schädlicher Online-Inhalte, die nicht nur den öffentlichen Diskurs verzerren, sondern auch eine erhebliche Herausforderung für die Aufrechterhaltung einer gesunden digitalen Umgebung darstellen, wird in diesem Papier ein spezialisierter multimodaler Datensatz zur Identifizierung von Hassreden in digitalen Inhalten vorgestellt. Der Kern des Ansatzes liegt in der innovativen Anwendung von Watermarking und stabilitätsverbesserter Stable Diffusion-Technologie in Kombination mit dem Digital Attention Analysis Module (DAAM). Diese Kombination ermöglicht es, Hasselemente in Bildern präzise zu lokalisieren, detaillierte Hass-Aufmerksamkeitskarten zu generieren und diese Bereiche zu verwischen, um Hassinhalte aus Bildern zu entfernen. Die Autoren veröffentlichen den Datensatz als Teil der DeHate Shared Task und stellen DeHater vor, ein speziell für multimodale Enthassung entwickeltes Vision-Language-Modell.
Das Kernproblem dieser Forschung ist die Erkennung und Abschwächung von Hassreden in multimodalen Umgebungen (insbesondere Bild + Text). Mit der rasanten Entwicklung von KI-Anwendungen enthalten große Sprachmodelle (LLMs) in ihren Trainingsdaten Hassinhalte, die nicht nur die Praktikabilität der Modelle beeinträchtigen, sondern auch schwerwiegende ethische Fragen aufwerfen.
- Gesundheit der digitalen Umgebung: Die Zunahme von Online-Hassreden beeinträchtigt erheblich die Qualität des öffentlichen Diskurses
- KI-Ethik: Hassinhalte in Trainingsdaten beeinflussen direkt die Glaubwürdigkeit und ethische Integrität von KI-Systemen
- Gesellschaftliche Verantwortung: Es ist notwendig, verantwortungsvolle KI-Systeme zur Bekämpfung von Hassreden in sozialen Medien zu entwickeln
- Mangel an hochwertigen multimodalen Datensätzen zur Erkennung von Hassreden
- Bestehende Methoden konzentrieren sich hauptsächlich auf einzelne Modalitäten (Text oder Bild) und ermangeln einer effektiven multimodalen Fusion
- Mangel an gezielten Techniken zur Lokalisierung und Entfernung von Hassinhalten
Basierend auf dem Bedarf an hochwertigen Datensätzen und den technischen Herausforderungen der multimodalen Hassredenerkennung zielt dieses Papier darauf ab, einen innovativen Datensatz und ein Methodengerüst zu konstruieren, um die Entwicklung verantwortungsvoller KI voranzutreiben.
- Innovative Datensatzkonstruktionsmethode: Präsentation einer multimodalen Hassreden-Datensatzerzeugungsmethode basierend auf Stable Diffusion und DAAM
- Multimodales Enthassung-Modell: Entwurf des DeHater-Modells, das unter Anleitung von Textaufforderungen unüberwachte Maskierung von Hassinhalten in Bildern durchführen kann
- Organisation einer Shared Task: Veröffentlichung des DeHate-Datensatzes mit 2411 Instanzen und Organisation einer zugehörigen Shared Task
- Technische Methodische Innovation: Innovatives Architekturdesign, das CLIP-Encoder, U-Net-Architektur und FiLM-Modulation kombiniert
Die in diesem Papier definierte Aufgabe ist die multimodale Bildenthassungs-Aufgabe: Gegeben ein Bild mit Hassinhalten und eine entsprechende Textaufforderung, muss das Modell Hassbereiche im Bild identifizieren und maskieren, um eine enthasste Version des Bildes zu generieren.
- Hatenorm-Datensatz: Verwendung eines handannotierten parallelen Korpus von Hasstexten und deren normalisierten Versionen
- Stable Diffusion-Generierung: Nutzung des Modells stable-diffusion-2-base zur Umwandlung von Hasstexten in visuelle Darstellungen
- Bildgenerierung: Extraktion von Schlüsselwörtern aus Hasstexten zur Konstruktion von Aufforderungen, Verwendung von Stable Diffusion zur Generierung entsprechender Bilder
- Aufmerksamkeitskartengenerierung: Anwendung der DAAM-Technologie zur Generierung von Wärmekarten, die die Relevanz spezifischer Pixel für Aufforderungskomponenten hervorheben
- Selektive Unschärfe:
- Berechnung globaler Wärmekartenwerte und Schwellenwertfestlegung zur Generierung binärer Masken
- Setzen hochgradig relevanter Pixel auf Schwarz (0,0,0)
- Berechnung durchschnittlicher Farben der lokalen Nachbarschaft für markierte Pixel und Anwendung
DeHater verfolgt einen unüberwachten Bildmaskierungsansatz, der durch Textaufforderungen geleitet wird, um schädliche Bereiche in Bildern zu identifizieren und zu verbergen.
- CLIP-Encoder:
- Verwendung eines eingefrorenen CLIP-Modells als Encoder
- Nutzung seiner Vortrainingsvorteil auf vielfältigen Bild-Text-Paaren
- Extraktion reicher multimodaler Merkmalsdarstellungen
- U-Net-inspirierte Verbindungen:
- Übernahme des Skip-Connection-Designs der U-Net-Architektur
- Weitergabe lokaler Informationen vom CLIP-Encoder an den Decoder
- Beibehaltung der Decoder-Kompaktheit bei Bewahrung kritischer Details
- Merkmalintegrationsmechanismus:
- Integration von Encoder-Aktivierungen (einschließlich CLS-Token) in jeden Transformer-Block des Decoders
- Bereicherung des Decoder-Verständnisses des Kontexts
- FiLM-Modulation:
- Verwendung der Feature-wise Linear Modulation-Technik
- Modulation von Decoder-Eingabeaktivierungen durch Konditionsvektoren
- Verbesserung der Fähigkeit des Decoders, sich auf Hassinhalte zu konzentrieren und diese präzise zu segmentieren
- Lernbares Projektionsnetzwerk:
- Kombination mehrerer Hassausschnitt-Einbettungen zu einer einzelnen Projektion
- Erreichung feiner und effizienter Kompression vielfältiger Hasselemente
Das Modell gibt ein binärisiertes Bild aus, das klar die im ursprünglichen Inhalt als hasserfüllt identifizierten Bereiche markiert und maskiert.
- Multimodale Fusion: Erstmalige Kombination von Stable Diffusion mit DAAM für die Hassredenerkennung
- Aufmerksamkeitsmechanismus: Innovative Verwendung von Cross-Attention-Karten zur Lokalisierung von Hassinhalten
- Architekturdesign: Kombiniertes Architekturdesign von CLIP + U-Net + FiLM
- Unüberwachtes Lernen: Realisierung unüberwachter Bildmaskierung basierend auf Textaufforderungen
- DeHate-Datensatz: Insgesamt 2411 Instanzen
- Trainingssatz: 1687 Instanzen
- Testsatz: 724 Instanzen
- Datenzusammensetzung: Jede Instanz enthält das ursprüngliche generierte Bild und das Bild mit unscharfen Hassinhalten
Verwendung des Intersection over Union (IoU) als primäre Bewertungsmetrik, Berechnung der Überlappung zwischen vorhergesagten und echten unscharfen Komponenten.
- Teilnehmende Teams: 20+ registriert, 5 gültige Einreichungen
- Bewertungsmethode: Rangfolge basierend auf IoU-Scores des Testsatzes
| Rang | Teamname | IoU-Score |
|---|
| 1 | UniteToModerate | 0,55 |
| 2 | PaulJane | 0,51 |
| 3 | Baseline (dieses Papier) | 0,49 |
| 4 | Markans | 0,48 |
| 5 | Sanskarfc | 0,47 |
| 6 | rachitmodi | 0,44 |
- Baseline-Leistung: Die vorgeschlagene Baseline-Methode erreicht einen IoU-Score von 0,49
- Aufgabenschwierigkeit: Die beste Leistung von nur 0,55 zeigt, dass diese Aufgabe erhebliche Herausforderungen darstellt
- Leistungslücke: Geringe Leistungsunterschiede zwischen teilnehmenden Systemen deuten auf erhebliches Verbesserungspotenzial hin
Das UniteToModerate-Team verwendete eine Kombination der Modelle NExT-Chat und UniFusion:
- NExT-Chat: Bereitstellung der anfänglichen Maskengenerierung durch die pix2emb-Methode
- UniFusion: Verbesserung der Genauigkeit durch hierarchische Fusion visueller und Referenzmerkmale
- Unimodale Forschung: Umfasst Texthasserkennung in Englisch und anderen Sprachen
- Multimodale Forschung: Erweiterung auf modalübergreifende Hasserkennung in den letzten Jahren
- Datensatzbeiträge: Datensätze wie memotion, Multioff, OLID, MMHS150K
- Aufmerksamkeitsmechanismen: Anwendung von Cross-Attention-Karten in visuellen Modellen
- Diffusionsmodelle: Interpretierbarkeitsforschung zu Latent Diffusion Models
- DAAM-Technologie: Methode zur Aggregation von Cross-Attention-Karten in Denoisingmodulen
- Stable Diffusion: Effizientes Bildgenerierungsmodell
- CLIP: Contrastive Language-Image Pre-training-Technologie
- U-Net: Erfolgreiche Anwendung in Bildsegmentierungsaufgaben
- Erfolgreiche Konstruktion des ersten auf Stable Diffusion basierenden multimodalen Hassreden-Datensatzes
- Das vorgeschlagene DeHater-Modell bietet eine effektive Baseline-Methode für multimodale Enthassung-Aufgaben
- Die Organisation der Shared Task fördert die Forschungsentwicklung in diesem Bereich
- Leistungsbegrenzungen: Der beste IoU-Score von nur 0,55 zeigt, dass die Methode noch Verbesserungspotenzial hat
- Datensatzgröße: Die Datensatzgröße ist relativ klein (2411 Instanzen)
- Sprachbegrenzung: Konzentriert sich hauptsächlich auf englische Inhalte, mangelnde mehrsprachige Unterstützung
- Einzelne Bewertung: Verwendung nur von IoU als Bewertungsmetrik könnte nicht umfassend genug sein
- LLM-Integration: Verwendung großer Sprachmodelle zur Interpretation der Ausgaben der Hassredenmilderungspipeline
- Mehrsprachige Erweiterung: Erweiterung der Arbeit auf andere Sprachen und Modalitäten
- Methodenverbesserung: Entwicklung präziserer Techniken zur Lokalisierung und Entfernung von Hassinhalten
- Problemrelevanz: Behandlung wichtiger Fragen der KI-Ethik und gesellschaftlichen Verantwortung
- Methodische Innovation: Erstmalige Kombination von Stable Diffusion mit DAAM für die Hassredenverarbeitung
- Datensatzbeitrag: Bereitstellung eines wertvollen multimodalen Hassreden-Datensatzes
- Offenheit: Förderung der Feldentwicklung durch Shared Tasks
- Technische Integration: Geschickte Kombination mehrerer fortschrittlicher Technologien (CLIP, U-Net, FiLM)
- Begrenzte Leistung: Insgesamt niedriges Leistungsniveau, beste Methode mit IoU von nur 0,55
- Unzureichende Bewertung: Mangel an manueller Bewertung und qualitativer Analyse
- Interpretierbarkeit: Unzureichende Erklärung des Modellentscheidungsprozesses
- Generalisierungsfähigkeit: Unzureichende Validierung der Methodengeneralisierung über verschiedene Arten von Hassinhalten
- Ethische Überlegungen: Unzureichende Diskussion möglicher negativer Auswirkungen der Generierung von Hassbildern
- Feldbeitrag: Bereitstellung neuer Forschungsrichtungen für multimodale Hassredenerkennung
- Praktischer Wert: Bereitstellung technischer Grundlagen für automatische Inhaltsmoderation in sozialen Medien
- Reproduzierbarkeit: Bereitstellung detaillierter Methodenbeschreibungen und Datensätze
- Gesellschaftliche Bedeutung: Förderung der Entwicklung verantwortungsvoller KI
- Soziale Medien: Automatische Inhaltsmoderation und -filterung von Plattformen
- Online-Bildung: Inhaltsicherheit für Bildungsplattformen
- KI-Training: Bereinigung schädlicher Inhalte in KI-Modell-Trainingsdaten
- Forschungswerkzeuge: Bereitstellung von Benchmark-Datensätzen und Methoden für verwandte Forschung
Dieses Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:
- Klassische Datensätze und Methoden zur Hassredenerkennung
- Grundlagentechnologien wie Stable Diffusion und CLIP
- Forschung zur Interpretierbarkeit des Deep Learning
- Forschung zu multimodalem Lernen und Aufmerksamkeitsmechanismen
Gesamtbewertung: Dies ist ein Papier mit wichtiger gesellschaftlicher Bedeutung und technischer Innovation. Obwohl es noch Verbesserungspotenzial bei der Leistung gibt, bietet es wertvolle Datenressourcen und methodische Grundlagen für das Feld der multimodalen Hassredenerkennung und trägt positiv zur Förderung der Entwicklung verantwortungsvoller KI bei.