2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

academic

DeHate: Une Approche Multimodale Basée sur Stable Diffusion pour Atténuer les Discours de Haine dans les Images

Informations Fondamentales

ID de l'article: 2509.21787
Titre: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
Auteurs: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
Classification: cs.CV cs.CL
Conférence de Publication: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-localisé avec AAAI 2024
Lien de l'article: https://arxiv.org/abs/2509.21787

Résumé

L'augmentation des contenus nuisibles en ligne non seulement déforme le discours public, mais pose également des défis majeurs pour le maintien d'un environnement numérique sain. À cette fin, cet article introduit un ensemble de données multimodal spécialisé pour l'identification des discours de haine dans le contenu numérique. Le cœur de la méthode réside dans l'application innovante de la technologie Stable Diffusion améliorée et filigranée, combinée avec le module d'analyse d'attention numérique (DAAM). Cette combinaison permet de localiser précisément les éléments de haine dans les images, générant des cartes d'attention de haine détaillées pour flouter ces régions, éliminant ainsi les parties haineuses des images. Les auteurs publient cet ensemble de données dans le cadre de la tâche partagée DeHate et proposent DeHater, un modèle vision-langage conçu spécifiquement pour la tâche multimodale de dé-hainisation.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est la détection et l'atténuation des discours de haine dans un environnement multimodal (en particulier image + texte). Avec le développement rapide des applications d'IA, les grands modèles de langage (LLMs) contenant des contenus haineux dans leurs données d'entraînement non seulement compromettent l'utilité des modèles, mais soulèvent également des préoccupations éthiques graves.

Importance

Santé de l'environnement numérique: L'augmentation exponentielle du contenu haineux en ligne affecte gravement la qualité du discours public
Éthique de l'IA: Le contenu haineux dans les données d'entraînement affecte directement la fiabilité et l'intégrité éthique des systèmes d'IA
Responsabilité Sociale: Nécessité de développer des systèmes d'IA responsables pour contrer les discours de haine sur les réseaux sociaux

Limitations des Approches Existantes

Absence d'ensembles de données multimodaux de haute qualité pour la détection des discours de haine
Les méthodes existantes se concentrent principalement sur des modalités uniques (texte ou image), manquant d'une fusion multimodale efficace
Manque de techniques ciblées pour la localisation et la suppression du contenu haineux

Motivation de la Recherche

Basée sur le besoin d'ensembles de données de haute qualité et les défis techniques de la détection multimodale des discours de haine, cet article vise à construire un cadre innovant de données et de méthodes pour promouvoir le développement d'une IA responsable.

Contributions Principales

Méthode Innovante de Construction d'Ensemble de Données: Propose une méthode de génération d'ensemble de données multimodal sur les discours de haine basée sur Stable Diffusion et DAAM
Modèle Multimodal de Dé-hainisation: Conçoit le modèle DeHater, capable de masquage non supervisé du contenu haineux dans les images sous la direction de messages textuels
Organisation de Tâche Partagée: Publie l'ensemble de données DeHate contenant 2411 instances et organise la tâche partagée associée
Innovation Méthodologique: Conception architecturale innovante combinant l'encodeur CLIP, l'architecture U-Net et la technique de modulation FiLM

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche définie dans cet article est la dé-hainisation d'images multimodales: étant donné une image contenant du contenu haineux et un message textuel correspondant, le modèle doit identifier et masquer les régions haineuses de l'image, générant une version dé-hainie de l'image.

Méthode de Construction de l'Ensemble de Données

Sources de Données de Base

Ensemble de données Hatenorm: Utilise un corpus parallèle annoté manuellement de textes haineux et leurs versions normalisées
Génération Stable Diffusion: Utilise le modèle stable-diffusion-2-base pour convertir les textes haineux en représentations visuelles

Flux Technique Principal

Génération d'Images: Extraction de mots-clés à partir de textes haineux pour construire des messages, utilisation de Stable Diffusion pour générer les images correspondantes
Génération de Cartes d'Attention: Application de la technologie DAAM pour générer des cartes thermiques, mettant en évidence la pertinence des pixels spécifiques par rapport aux composants du message
Floutage Sélectif:
- Calcul des valeurs de cartes thermiques globales et établissement d'un seuil pour générer un masque binaire
- Définition des pixels à valeurs de cartes thermiques élevées en noir (0,0,0)
- Calcul de la couleur moyenne du voisinage local pour les pixels marqués et application

Architecture du Modèle DeHater

Philosophie de Conception Globale

DeHater adopte une approche de masquage d'image non supervisée, utilisant des messages textuels pour guider l'identification et l'occultation des régions nuisibles dans les images.

Composants Principaux

Encodeur CLIP:
- Utilise un modèle CLIP gelé comme encodeur
- Exploite les avantages de la préformation sur des paires image-texte diversifiées
- Extrait des représentations de caractéristiques multimodales riches
Connexions Inspirées par U-Net:
- Adopte la conception de connexions de saut de l'architecture U-Net
- Transmet les informations locales de l'encodeur CLIP au décodeur
- Préserve les détails clés tout en maintenant la compacité du décodeur
Mécanisme d'Intégration de Caractéristiques:
- Intègre les activations de l'encodeur (y compris le jeton CLS) dans chaque bloc transformer du décodeur
- Enrichit la compréhension contextuelle du décodeur
Modulation FiLM:
- Utilise la technique de Feature-wise Linear Modulation
- Module les activations d'entrée du décodeur via des vecteurs conditionnels
- Améliore la capacité du décodeur à se concentrer et segmenter précisément le contenu haineux
Réseau de Projection Apprenable:
- Combine plusieurs plongements de fragments haineux en une seule projection
- Réalise une compression fine et efficace des éléments haineux diversifiés

Mécanisme de Sortie

Le modèle produit une image binaire, identifiant clairement les régions considérées comme haineuses dans le contenu original et les masquant.

Points d'Innovation Technique

Fusion Multimodale: Première combinaison de Stable Diffusion avec DAAM pour la détection des discours de haine
Mécanisme d'Attention: Utilisation innovante des cartes d'attention croisée pour la localisation du contenu haineux
Conception Architecturale: Conception architecturale combinée CLIP+U-Net+FiLM
Apprentissage Non Supervisé: Réalisation du masquage d'image non supervisé basé sur des messages textuels

Configuration Expérimentale

Ensemble de Données

Ensemble de Données DeHate: Total de 2411 instances
- Ensemble d'entraînement: 1687 instances
- Ensemble de test: 724 instances
Composition des Données: Chaque instance contient l'image générée originale et l'image avec les composants haineux floutés

Métriques d'Évaluation

Utilise l'Intersection sur Union (IoU) comme métrique d'évaluation principale, calculant le chevauchement entre les composants floutés prédits et les composants floutés réels.

Configuration de la Tâche Partagée

Équipes Participantes: 20+ inscrites, 5 soumissions valides
Méthode d'Évaluation: Classement basé sur les scores IoU sur l'ensemble de test

Résultats Expérimentaux

Résultats Principaux

Classement	Nom de l'Équipe	Score IoU
1	UniteToModerate	0.55
2	PaulJane	0.51
3	Baseline (cet article)	0.49
4	Markans	0.48
5	Sanskarfc	0.47
6	rachitmodi	0.44

Analyse des Résultats

Performance de Base: La méthode de base proposée dans cet article atteint un score IoU de 0.49
Difficulté de la Tâche: La meilleure performance de seulement 0.55 indique que cette tâche présente des défis considérables
Écart de Performance: Les petites différences de performance entre les systèmes participants suggèrent un espace d'amélioration significatif

Analyse de la Méthode Gagnante

L'équipe UniteToModerate a utilisé une combinaison des modèles NExT-Chat et UniFusion:

NExT-Chat: Fournit la génération de masque initiale via la méthode pix2emb
UniFusion: Améliore la précision par la fusion hiérarchique des caractéristiques visuelles et de référence

Travaux Connexes

Recherche sur la Détection des Discours de Haine

Recherche Unimodale: Couvre la détection des discours de haine textuels en anglais et autres langues
Recherche Multimodale: Extension récente à la détection transmodale des discours de haine
Contributions d'Ensembles de Données: Ensembles de données tels que memotion, Multioff, OLID, MMHS150K

Interprétabilité de l'Apprentissage Profond

Mécanismes d'Attention: Application des cartes d'attention croisée dans les modèles visuels
Modèles de Diffusion: Recherche sur l'interprétabilité des Modèles de Diffusion Latente
Technologie DAAM: Méthode d'agrégation des cartes d'attention croisée dans les modules de débruitage

Fondations Techniques

Stable Diffusion: Modèle de génération d'images efficace
CLIP: Technique de préformation contrastive image-langage
U-Net: Application réussie dans les tâches de segmentation d'images

Conclusions et Discussion

Conclusions Principales

Construction réussie du premier ensemble de données multimodal sur les discours de haine basé sur Stable Diffusion
Le modèle DeHater proposé fournit une méthode de base efficace pour la tâche multimodale de dé-hainisation
L'organisation de la tâche partagée a promu le développement de la recherche dans ce domaine

Limitations

Limitation de Performance: Le meilleur score IoU de seulement 0.55 indique que la méthode a encore besoin d'améliorations
Taille de l'Ensemble de Données: L'ensemble de données est relativement petit (2411 instances)
Limitation Linguistique: Se concentre principalement sur le contenu en anglais, manquant de support multilingue
Évaluation Unique: Utilise uniquement l'IoU comme métrique d'évaluation, ce qui peut ne pas être suffisamment complet

Directions Futures

Intégration LLM: Utilisation de grands modèles de langage pour interpréter les sorties du pipeline d'atténuation des discours de haine
Extension Multilingue: Extension du travail à d'autres langues et modalités
Amélioration Méthodologique: Développement de techniques plus précises pour la localisation et la suppression du contenu haineux

Évaluation Approfondie

Points Forts

Importance du Problème: Aborde un problème important d'éthique de l'IA et de responsabilité sociale
Innovation Méthodologique: Première combinaison de Stable Diffusion avec DAAM pour le traitement des discours de haine
Contribution de Données: Fournit un ensemble de données multimodal précieux sur les discours de haine
Ouverture: Promeut le développement du domaine par le biais de tâches partagées
Intégration Technique: Combine habilement plusieurs technologies de pointe (CLIP, U-Net, FiLM)

Insuffisances

Performance Limitée: Le niveau de performance global est modéré, avec un IoU de seulement 0.55 pour la meilleure méthode
Évaluation Insuffisante: Manque d'évaluation humaine et d'analyse qualitative
Interprétabilité: Explication insuffisante du processus décisionnel du modèle
Capacité de Généralisation: Vérification insuffisante de la capacité de généralisation de la méthode sur différents types de contenu haineux
Considérations Éthiques: Discussion insuffisante sur les impacts négatifs potentiels de la génération d'images haineuses

Impact

Contribution au Domaine: Fournit une nouvelle direction de recherche pour la détection multimodale des discours de haine
Valeur Pratique: Fournit une base technique pour la modération automatique du contenu sur les réseaux sociaux
Reproductibilité: Fournit une description détaillée de la méthode et de l'ensemble de données
Signification Sociale: Promeut le développement d'une IA responsable

Scénarios d'Application

Réseaux Sociaux: Modération et filtrage automatiques du contenu des plateformes
Éducation en Ligne: Garantie de la sécurité du contenu des plateformes éducatives
Entraînement d'IA: Nettoyage du contenu nuisible dans les données d'entraînement des modèles d'IA
Outil de Recherche: Fournit un ensemble de données de référence et une méthode pour la recherche connexe

Références

Cet article cite de nombreux travaux connexes, notamment:

Ensembles de données classiques et méthodes de détection des discours de haine
Technologies de base telles que Stable Diffusion et CLIP
Recherche connexe sur l'interprétabilité de l'apprentissage profond
Recherche sur l'apprentissage multimodal et les mécanismes d'attention

Évaluation Globale: Cet article est une contribution d'importance sociale significative et d'innovation technique. Bien qu'il y ait de la place pour l'amélioration des performances, il fournit des ressources de données précieuses et une base méthodologique pour le domaine de la détection multimodale des discours de haine, ayant une signification positive pour la promotion du développement d'une IA responsable.