2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.
The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
academic

DeHate: Une Approche Multimodale Basée sur Stable Diffusion pour Atténuer les Discours de Haine dans les Images

Informations Fondamentales

  • ID de l'article: 2509.21787
  • Titre: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
  • Auteurs: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
  • Classification: cs.CV cs.CL
  • Conférence de Publication: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-localisé avec AAAI 2024
  • Lien de l'article: https://arxiv.org/abs/2509.21787

Résumé

L'augmentation des contenus nuisibles en ligne non seulement déforme le discours public, mais pose également des défis majeurs pour le maintien d'un environnement numérique sain. À cette fin, cet article introduit un ensemble de données multimodal spécialisé pour l'identification des discours de haine dans le contenu numérique. Le cœur de la méthode réside dans l'application innovante de la technologie Stable Diffusion améliorée et filigranée, combinée avec le module d'analyse d'attention numérique (DAAM). Cette combinaison permet de localiser précisément les éléments de haine dans les images, générant des cartes d'attention de haine détaillées pour flouter ces régions, éliminant ainsi les parties haineuses des images. Les auteurs publient cet ensemble de données dans le cadre de la tâche partagée DeHate et proposent DeHater, un modèle vision-langage conçu spécifiquement pour la tâche multimodale de dé-hainisation.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est la détection et l'atténuation des discours de haine dans un environnement multimodal (en particulier image + texte). Avec le développement rapide des applications d'IA, les grands modèles de langage (LLMs) contenant des contenus haineux dans leurs données d'entraînement non seulement compromettent l'utilité des modèles, mais soulèvent également des préoccupations éthiques graves.

Importance

  1. Santé de l'environnement numérique: L'augmentation exponentielle du contenu haineux en ligne affecte gravement la qualité du discours public
  2. Éthique de l'IA: Le contenu haineux dans les données d'entraînement affecte directement la fiabilité et l'intégrité éthique des systèmes d'IA
  3. Responsabilité Sociale: Nécessité de développer des systèmes d'IA responsables pour contrer les discours de haine sur les réseaux sociaux

Limitations des Approches Existantes

  1. Absence d'ensembles de données multimodaux de haute qualité pour la détection des discours de haine
  2. Les méthodes existantes se concentrent principalement sur des modalités uniques (texte ou image), manquant d'une fusion multimodale efficace
  3. Manque de techniques ciblées pour la localisation et la suppression du contenu haineux

Motivation de la Recherche

Basée sur le besoin d'ensembles de données de haute qualité et les défis techniques de la détection multimodale des discours de haine, cet article vise à construire un cadre innovant de données et de méthodes pour promouvoir le développement d'une IA responsable.

Contributions Principales

  1. Méthode Innovante de Construction d'Ensemble de Données: Propose une méthode de génération d'ensemble de données multimodal sur les discours de haine basée sur Stable Diffusion et DAAM
  2. Modèle Multimodal de Dé-hainisation: Conçoit le modèle DeHater, capable de masquage non supervisé du contenu haineux dans les images sous la direction de messages textuels
  3. Organisation de Tâche Partagée: Publie l'ensemble de données DeHate contenant 2411 instances et organise la tâche partagée associée
  4. Innovation Méthodologique: Conception architecturale innovante combinant l'encodeur CLIP, l'architecture U-Net et la technique de modulation FiLM

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche définie dans cet article est la dé-hainisation d'images multimodales: étant donné une image contenant du contenu haineux et un message textuel correspondant, le modèle doit identifier et masquer les régions haineuses de l'image, générant une version dé-hainie de l'image.

Méthode de Construction de l'Ensemble de Données

Sources de Données de Base

  • Ensemble de données Hatenorm: Utilise un corpus parallèle annoté manuellement de textes haineux et leurs versions normalisées
  • Génération Stable Diffusion: Utilise le modèle stable-diffusion-2-base pour convertir les textes haineux en représentations visuelles

Flux Technique Principal

  1. Génération d'Images: Extraction de mots-clés à partir de textes haineux pour construire des messages, utilisation de Stable Diffusion pour générer les images correspondantes
  2. Génération de Cartes d'Attention: Application de la technologie DAAM pour générer des cartes thermiques, mettant en évidence la pertinence des pixels spécifiques par rapport aux composants du message
  3. Floutage Sélectif:
    • Calcul des valeurs de cartes thermiques globales et établissement d'un seuil pour générer un masque binaire
    • Définition des pixels à valeurs de cartes thermiques élevées en noir (0,0,0)
    • Calcul de la couleur moyenne du voisinage local pour les pixels marqués et application

Architecture du Modèle DeHater

Philosophie de Conception Globale

DeHater adopte une approche de masquage d'image non supervisée, utilisant des messages textuels pour guider l'identification et l'occultation des régions nuisibles dans les images.

Composants Principaux

  1. Encodeur CLIP:
    • Utilise un modèle CLIP gelé comme encodeur
    • Exploite les avantages de la préformation sur des paires image-texte diversifiées
    • Extrait des représentations de caractéristiques multimodales riches
  2. Connexions Inspirées par U-Net:
    • Adopte la conception de connexions de saut de l'architecture U-Net
    • Transmet les informations locales de l'encodeur CLIP au décodeur
    • Préserve les détails clés tout en maintenant la compacité du décodeur
  3. Mécanisme d'Intégration de Caractéristiques:
    • Intègre les activations de l'encodeur (y compris le jeton CLS) dans chaque bloc transformer du décodeur
    • Enrichit la compréhension contextuelle du décodeur
  4. Modulation FiLM:
    • Utilise la technique de Feature-wise Linear Modulation
    • Module les activations d'entrée du décodeur via des vecteurs conditionnels
    • Améliore la capacité du décodeur à se concentrer et segmenter précisément le contenu haineux
  5. Réseau de Projection Apprenable:
    • Combine plusieurs plongements de fragments haineux en une seule projection
    • Réalise une compression fine et efficace des éléments haineux diversifiés

Mécanisme de Sortie

Le modèle produit une image binaire, identifiant clairement les régions considérées comme haineuses dans le contenu original et les masquant.

Points d'Innovation Technique

  1. Fusion Multimodale: Première combinaison de Stable Diffusion avec DAAM pour la détection des discours de haine
  2. Mécanisme d'Attention: Utilisation innovante des cartes d'attention croisée pour la localisation du contenu haineux
  3. Conception Architecturale: Conception architecturale combinée CLIP+U-Net+FiLM
  4. Apprentissage Non Supervisé: Réalisation du masquage d'image non supervisé basé sur des messages textuels

Configuration Expérimentale

Ensemble de Données

  • Ensemble de Données DeHate: Total de 2411 instances
    • Ensemble d'entraînement: 1687 instances
    • Ensemble de test: 724 instances
  • Composition des Données: Chaque instance contient l'image générée originale et l'image avec les composants haineux floutés

Métriques d'Évaluation

Utilise l'Intersection sur Union (IoU) comme métrique d'évaluation principale, calculant le chevauchement entre les composants floutés prédits et les composants floutés réels.

Configuration de la Tâche Partagée

  • Équipes Participantes: 20+ inscrites, 5 soumissions valides
  • Méthode d'Évaluation: Classement basé sur les scores IoU sur l'ensemble de test

Résultats Expérimentaux

Résultats Principaux

ClassementNom de l'ÉquipeScore IoU
1UniteToModerate0.55
2PaulJane0.51
3Baseline (cet article)0.49
4Markans0.48
5Sanskarfc0.47
6rachitmodi0.44

Analyse des Résultats

  1. Performance de Base: La méthode de base proposée dans cet article atteint un score IoU de 0.49
  2. Difficulté de la Tâche: La meilleure performance de seulement 0.55 indique que cette tâche présente des défis considérables
  3. Écart de Performance: Les petites différences de performance entre les systèmes participants suggèrent un espace d'amélioration significatif

Analyse de la Méthode Gagnante

L'équipe UniteToModerate a utilisé une combinaison des modèles NExT-Chat et UniFusion:

  • NExT-Chat: Fournit la génération de masque initiale via la méthode pix2emb
  • UniFusion: Améliore la précision par la fusion hiérarchique des caractéristiques visuelles et de référence

Travaux Connexes

Recherche sur la Détection des Discours de Haine

  1. Recherche Unimodale: Couvre la détection des discours de haine textuels en anglais et autres langues
  2. Recherche Multimodale: Extension récente à la détection transmodale des discours de haine
  3. Contributions d'Ensembles de Données: Ensembles de données tels que memotion, Multioff, OLID, MMHS150K

Interprétabilité de l'Apprentissage Profond

  1. Mécanismes d'Attention: Application des cartes d'attention croisée dans les modèles visuels
  2. Modèles de Diffusion: Recherche sur l'interprétabilité des Modèles de Diffusion Latente
  3. Technologie DAAM: Méthode d'agrégation des cartes d'attention croisée dans les modules de débruitage

Fondations Techniques

  • Stable Diffusion: Modèle de génération d'images efficace
  • CLIP: Technique de préformation contrastive image-langage
  • U-Net: Application réussie dans les tâches de segmentation d'images

Conclusions et Discussion

Conclusions Principales

  1. Construction réussie du premier ensemble de données multimodal sur les discours de haine basé sur Stable Diffusion
  2. Le modèle DeHater proposé fournit une méthode de base efficace pour la tâche multimodale de dé-hainisation
  3. L'organisation de la tâche partagée a promu le développement de la recherche dans ce domaine

Limitations

  1. Limitation de Performance: Le meilleur score IoU de seulement 0.55 indique que la méthode a encore besoin d'améliorations
  2. Taille de l'Ensemble de Données: L'ensemble de données est relativement petit (2411 instances)
  3. Limitation Linguistique: Se concentre principalement sur le contenu en anglais, manquant de support multilingue
  4. Évaluation Unique: Utilise uniquement l'IoU comme métrique d'évaluation, ce qui peut ne pas être suffisamment complet

Directions Futures

  1. Intégration LLM: Utilisation de grands modèles de langage pour interpréter les sorties du pipeline d'atténuation des discours de haine
  2. Extension Multilingue: Extension du travail à d'autres langues et modalités
  3. Amélioration Méthodologique: Développement de techniques plus précises pour la localisation et la suppression du contenu haineux

Évaluation Approfondie

Points Forts

  1. Importance du Problème: Aborde un problème important d'éthique de l'IA et de responsabilité sociale
  2. Innovation Méthodologique: Première combinaison de Stable Diffusion avec DAAM pour le traitement des discours de haine
  3. Contribution de Données: Fournit un ensemble de données multimodal précieux sur les discours de haine
  4. Ouverture: Promeut le développement du domaine par le biais de tâches partagées
  5. Intégration Technique: Combine habilement plusieurs technologies de pointe (CLIP, U-Net, FiLM)

Insuffisances

  1. Performance Limitée: Le niveau de performance global est modéré, avec un IoU de seulement 0.55 pour la meilleure méthode
  2. Évaluation Insuffisante: Manque d'évaluation humaine et d'analyse qualitative
  3. Interprétabilité: Explication insuffisante du processus décisionnel du modèle
  4. Capacité de Généralisation: Vérification insuffisante de la capacité de généralisation de la méthode sur différents types de contenu haineux
  5. Considérations Éthiques: Discussion insuffisante sur les impacts négatifs potentiels de la génération d'images haineuses

Impact

  1. Contribution au Domaine: Fournit une nouvelle direction de recherche pour la détection multimodale des discours de haine
  2. Valeur Pratique: Fournit une base technique pour la modération automatique du contenu sur les réseaux sociaux
  3. Reproductibilité: Fournit une description détaillée de la méthode et de l'ensemble de données
  4. Signification Sociale: Promeut le développement d'une IA responsable

Scénarios d'Application

  1. Réseaux Sociaux: Modération et filtrage automatiques du contenu des plateformes
  2. Éducation en Ligne: Garantie de la sécurité du contenu des plateformes éducatives
  3. Entraînement d'IA: Nettoyage du contenu nuisible dans les données d'entraînement des modèles d'IA
  4. Outil de Recherche: Fournit un ensemble de données de référence et une méthode pour la recherche connexe

Références

Cet article cite de nombreux travaux connexes, notamment:

  • Ensembles de données classiques et méthodes de détection des discours de haine
  • Technologies de base telles que Stable Diffusion et CLIP
  • Recherche connexe sur l'interprétabilité de l'apprentissage profond
  • Recherche sur l'apprentissage multimodal et les mécanismes d'attention

Évaluation Globale: Cet article est une contribution d'importance sociale significative et d'innovation technique. Bien qu'il y ait de la place pour l'amélioration des performances, il fournit des ressources de données précieuses et une base méthodologique pour le domaine de la détection multimodale des discours de haine, ayant une signification positive pour la promotion du développement d'une IA responsable.