2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

academic

DeHate: Un Enfoque Multimodal Basado en Stable Diffusion para Mitigar el Discurso de Odio en Imágenes

Información Básica

ID del Artículo: 2509.21787
Título: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
Autores: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
Clasificación: cs.CV cs.CL
Conferencia de Publicación: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, coubicado con AAAI 2024
Enlace del Artículo: https://arxiv.org/abs/2509.21787

Resumen

Con el aumento del contenido dañino en línea que no solo distorsiona el discurso público sino que también presenta desafíos significativos para mantener un entorno digital saludable, este artículo introduce un conjunto de datos multimodal especializado para identificar el discurso de odio en contenido digital. El núcleo del enfoque es la aplicación innovadora de técnicas de Stable Diffusion mejoradas con marcas de agua y estabilidad, combinadas con el módulo de análisis de atención digital (DAAM). Esta combinación permite localizar con precisión elementos de odio en imágenes, generando mapas de atención de odio detallados para desenfocar estas áreas y eliminar partes de odio de las imágenes. Los autores publican el conjunto de datos como parte de la tarea compartida DeHate y proponen DeHater, un modelo de visión-lenguaje diseñado específicamente para tareas multimodales de desodio.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la detección y mitigación del discurso de odio en entornos multimodales (particularmente imagen + texto). Con el rápido desarrollo de aplicaciones de IA, los modelos de lenguaje grande (LLMs) que contienen contenido de odio en datos de entrenamiento no solo dañan la utilidad del modelo, sino que también plantean serios problemas éticos.

Importancia

Salud del Entorno Digital: El aumento exponencial del contenido de odio en línea afecta gravemente la calidad del discurso público
Ética de la IA: El contenido de odio en datos de entrenamiento afecta directamente la confiabilidad e integridad ética de los sistemas de IA
Responsabilidad Social: Existe la necesidad de desarrollar sistemas de IA responsables para abordar el discurso de odio en redes sociales

Limitaciones de Métodos Existentes

Falta de conjuntos de datos multimodales de alta calidad para detección de discurso de odio
Los métodos existentes se centran principalmente en modalidades únicas (texto o imagen), careciendo de fusión multimodal efectiva
Falta de técnicas específicas para localización y eliminación de contenido de odio

Motivación de la Investigación

Basándose en la necesidad de conjuntos de datos de alta calidad y los desafíos técnicos de la detección multimodal de discurso de odio, este artículo tiene como objetivo construir un marco innovador de conjunto de datos y métodos para impulsar el desarrollo de IA responsable.

Contribuciones Principales

Método Innovador de Construcción de Conjuntos de Datos: Propone un método de generación de conjuntos de datos multimodales de discurso de odio basado en Stable Diffusion y DAAM
Modelo Multimodal de Desodio: Diseña el modelo DeHater, capaz de enmascaramiento no supervisado de contenido de odio en imágenes bajo la guía de indicaciones de texto
Organización de Tarea Compartida: Publica el conjunto de datos DeHate que contiene 2411 instancias y organiza la tarea compartida relacionada
Innovación en Métodos Técnicos: Diseño de arquitectura innovadora que combina codificador CLIP, arquitectura U-Net y técnica de modulación FiLM

Explicación Detallada del Método

Definición de la Tarea

La tarea definida en este artículo es desodio de imágenes multimodales: dado una imagen que contiene contenido de odio y una indicación de texto correspondiente, el modelo necesita identificar y enmascarar las regiones de odio en la imagen, generando una versión desodio de la imagen.

Método de Construcción del Conjunto de Datos

Fuentes de Datos Base

Conjunto de Datos Hatenorm: Utiliza un corpus paralelo de texto de odio anotado manualmente y sus versiones normalizadas
Generación con Stable Diffusion: Aprovecha el modelo stable-diffusion-2-base para convertir texto de odio en representaciones visuales

Flujo de Proceso Técnico Principal

Generación de Imágenes: Extrae palabras clave del texto de odio para construir indicaciones, utilizando Stable Diffusion para generar imágenes correspondientes
Generación de Mapas de Atención: Aplica la técnica DAAM para generar mapas de calor que resalten la relevancia de píxeles específicos con componentes de indicaciones
Desenfoque Selectivo:
- Calcula valores globales de mapas de calor y establece umbrales para generar máscaras binarias
- Establece píxeles con valores altos de mapas de calor en negro (0,0,0)
- Calcula el color promedio de la vecindad local para píxeles marcados y aplica

Arquitectura del Modelo DeHater

Filosofía de Diseño General

DeHater adopta un enfoque de enmascaramiento de imágenes no supervisado, identificando y ocultando áreas dañinas en imágenes bajo la guía de indicaciones de texto.

Componentes Principales

Codificador CLIP:
- Utiliza el modelo CLIP congelado como codificador
- Aprovecha las ventajas del preentrenamiento en pares imagen-texto diversos
- Extrae representaciones de características multimodales ricas
Conexiones Inspiradas en U-Net:
- Adopta el diseño de conexiones de salto de la arquitectura U-Net
- Transmite información local del codificador CLIP al decodificador
- Mantiene la compacidad del decodificador mientras preserva detalles clave
Mecanismo de Integración de Características:
- Integra activaciones del codificador (incluyendo token CLS) en cada bloque transformer del decodificador
- Enriquece la comprensión contextual del decodificador
Modulación FiLM:
- Utiliza la técnica Feature-wise Linear Modulation
- Modula activaciones de entrada del decodificador a través de vectores condicionales
- Mejora la capacidad del decodificador para enfocarse y segmentar con precisión contenido de odio
Red de Proyección Aprendible:
- Combina múltiples incrustaciones de fragmentos de odio en una proyección única
- Logra compresión fina y efectiva de elementos de odio diversos

Mecanismo de Salida

El modelo genera imágenes binarizadas que identifican claramente y enmascarán las regiones consideradas como contenido de odio en el contenido original.

Puntos de Innovación Técnica

Fusión Multimodal: Primera combinación de Stable Diffusion con DAAM para detección de discurso de odio
Mecanismo de Atención: Uso innovador de mapas de atención cruzada para localización de contenido de odio
Diseño de Arquitectura: Diseño de arquitectura combinada CLIP+U-Net+FiLM
Aprendizaje No Supervisado: Implementa enmascaramiento de imágenes no supervisado basado en indicaciones de texto

Configuración Experimental

Conjunto de Datos

Conjunto de Datos DeHate: Total de 2411 instancias
- Conjunto de Entrenamiento: 1687 instancias
- Conjunto de Prueba: 724 instancias
Composición de Datos: Cada instancia contiene la imagen generada original y la imagen con componentes de odio desenfocados

Métricas de Evaluación

Utiliza Intersección sobre Unión (IoU) como métrica de evaluación principal, calculando el grado de superposición entre componentes desenfocados predichos y componentes desenfocados reales.

Configuración de Tarea Compartida

Equipos Participantes: 20+ registrados, 5 envíos válidos
Método de Evaluación: Clasificación basada en puntuaciones IoU en el conjunto de prueba

Resultados Experimentales

Resultados Principales

Clasificación	Nombre del Equipo	Puntuación IoU
1	UniteToModerate	0.55
2	PaulJane	0.51
3	Línea Base (Este Artículo)	0.49
4	Markans	0.48
5	Sanskarfc	0.47
6	rachitmodi	0.44

Análisis de Resultados

Rendimiento de Línea Base: El método de línea base propuesto en este artículo alcanza una puntuación IoU de 0.49
Dificultad de la Tarea: El mejor rendimiento es solo 0.55, indicando que la tarea tiene una dificultad considerable
Brecha de Rendimiento: La pequeña diferencia de rendimiento entre sistemas participantes sugiere que aún hay amplio espacio para mejora

Análisis del Método Ganador

El equipo UniteToModerate utilizó una combinación de modelos NExT-Chat y UniFusion:

NExT-Chat: Proporciona generación de máscaras iniciales a través del método pix2emb
UniFusion: Mejora la precisión a través de fusión jerárquica de características visuales y de referencia

Trabajo Relacionado

Investigación en Detección de Discurso de Odio

Investigación Unimodal: Abarca detección de discurso de odio textual en inglés y otros idiomas
Investigación Multimodal: Extensión reciente a detección de odio entre modalidades
Contribuciones de Conjuntos de Datos: Conjuntos de datos como memotion, Multioff, OLID, MMHS150K

Interpretabilidad del Aprendizaje Profundo

Mecanismos de Atención: Aplicación de mapas de atención cruzada en modelos visuales
Modelos de Difusión: Investigación de interpretabilidad de Latent Diffusion Models
Técnica DAAM: Método de agregación de mapas de atención cruzada en módulos de desruido

Fundamentos Técnicos

Stable Diffusion: Modelo eficiente de generación de imágenes
CLIP: Técnica de preentrenamiento contrastivo de lenguaje-imagen
U-Net: Aplicación exitosa en tareas de segmentación de imágenes

Conclusiones y Discusión

Conclusiones Principales

Construcción exitosa del primer conjunto de datos multimodal de discurso de odio basado en Stable Diffusion
El modelo DeHater propuesto proporciona un método de línea base efectivo para tareas multimodales de desodio
La organización de la tarea compartida impulsa el desarrollo de investigación en este campo

Limitaciones

Limitación de Rendimiento: La mejor puntuación IoU es solo 0.55, indicando que el método aún tiene espacio para mejora
Escala de Datos: El tamaño del conjunto de datos es relativamente pequeño (2411 instancias)
Limitación de Idioma: Se enfoca principalmente en contenido en inglés, careciendo de soporte multilingüe
Evaluación Única: Utiliza solo IoU como métrica de evaluación, lo que puede no ser suficientemente completo

Direcciones Futuras

Integración de LLM: Utilizar modelos de lenguaje grande para interpretar salidas del pipeline de mitigación de discurso de odio
Extensión Multilingüe: Extender el trabajo a otros idiomas y modalidades
Mejora de Métodos: Desarrollar técnicas más precisas para localización y eliminación de contenido de odio

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda un problema importante de ética de IA y responsabilidad social
Innovación Metodológica: Primera combinación de Stable Diffusion con DAAM para procesamiento de discurso de odio
Contribución de Datos: Proporciona un conjunto de datos multimodal valioso de discurso de odio
Apertura: Promueve el desarrollo del campo a través de tareas compartidas
Integración Técnica: Combina ingeniosamente múltiples tecnologías de vanguardia (CLIP, U-Net, FiLM)

Deficiencias

Rendimiento Limitado: El nivel general de rendimiento es bajo, con el mejor método IoU de solo 0.55
Evaluación Insuficiente: Carece de evaluación humana y análisis cualitativo
Interpretabilidad: La explicación del proceso de decisión del modelo es insuficiente
Capacidad de Generalización: No valida suficientemente la capacidad de generalización del método en diferentes tipos de contenido de odio
Consideraciones Éticas: Discusión insuficiente sobre posibles impactos negativos de generar imágenes de odio

Impacto

Contribución al Campo: Proporciona una nueva dirección de investigación para detección multimodal de discurso de odio
Valor Práctico: Proporciona base técnica para moderación automática de contenido en redes sociales
Reproducibilidad: Proporciona descripción detallada del método y conjunto de datos
Significado Social: Impulsa el desarrollo de IA responsable

Escenarios Aplicables

Redes Sociales: Moderación y filtrado automático de contenido de plataformas
Educación en Línea: Garantía de seguridad de contenido en plataformas educativas
Entrenamiento de IA: Limpieza de contenido dañino en datos de entrenamiento de modelos de IA
Herramienta de Investigación: Proporciona conjunto de datos de referencia y métodos para investigación relacionada

Referencias

Este artículo cita ampliamente trabajos relacionados, incluyendo:

Conjuntos de datos clásicos y métodos de detección de discurso de odio
Tecnologías fundamentales como Stable Diffusion y CLIP
Investigación relacionada con interpretabilidad del aprendizaje profundo
Investigación en aprendizaje multimodal y mecanismos de atención

Evaluación General: Este es un artículo con importante significado social e innovación técnica que, aunque tiene espacio para mejora en rendimiento, proporciona recursos de datos valiosos y base metodológica para el campo de detección multimodal de discurso de odio, con significado positivo para impulsar el desarrollo de IA responsable.