The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- ID del Artículo: 2509.21787
- Título: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- Autores: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- Clasificación: cs.CV cs.CL
- Conferencia de Publicación: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, coubicado con AAAI 2024
- Enlace del Artículo: https://arxiv.org/abs/2509.21787
Con el aumento del contenido dañino en línea que no solo distorsiona el discurso público sino que también presenta desafíos significativos para mantener un entorno digital saludable, este artículo introduce un conjunto de datos multimodal especializado para identificar el discurso de odio en contenido digital. El núcleo del enfoque es la aplicación innovadora de técnicas de Stable Diffusion mejoradas con marcas de agua y estabilidad, combinadas con el módulo de análisis de atención digital (DAAM). Esta combinación permite localizar con precisión elementos de odio en imágenes, generando mapas de atención de odio detallados para desenfocar estas áreas y eliminar partes de odio de las imágenes. Los autores publican el conjunto de datos como parte de la tarea compartida DeHate y proponen DeHater, un modelo de visión-lenguaje diseñado específicamente para tareas multimodales de desodio.
El problema central que aborda esta investigación es la detección y mitigación del discurso de odio en entornos multimodales (particularmente imagen + texto). Con el rápido desarrollo de aplicaciones de IA, los modelos de lenguaje grande (LLMs) que contienen contenido de odio en datos de entrenamiento no solo dañan la utilidad del modelo, sino que también plantean serios problemas éticos.
- Salud del Entorno Digital: El aumento exponencial del contenido de odio en línea afecta gravemente la calidad del discurso público
- Ética de la IA: El contenido de odio en datos de entrenamiento afecta directamente la confiabilidad e integridad ética de los sistemas de IA
- Responsabilidad Social: Existe la necesidad de desarrollar sistemas de IA responsables para abordar el discurso de odio en redes sociales
- Falta de conjuntos de datos multimodales de alta calidad para detección de discurso de odio
- Los métodos existentes se centran principalmente en modalidades únicas (texto o imagen), careciendo de fusión multimodal efectiva
- Falta de técnicas específicas para localización y eliminación de contenido de odio
Basándose en la necesidad de conjuntos de datos de alta calidad y los desafíos técnicos de la detección multimodal de discurso de odio, este artículo tiene como objetivo construir un marco innovador de conjunto de datos y métodos para impulsar el desarrollo de IA responsable.
- Método Innovador de Construcción de Conjuntos de Datos: Propone un método de generación de conjuntos de datos multimodales de discurso de odio basado en Stable Diffusion y DAAM
- Modelo Multimodal de Desodio: Diseña el modelo DeHater, capaz de enmascaramiento no supervisado de contenido de odio en imágenes bajo la guía de indicaciones de texto
- Organización de Tarea Compartida: Publica el conjunto de datos DeHate que contiene 2411 instancias y organiza la tarea compartida relacionada
- Innovación en Métodos Técnicos: Diseño de arquitectura innovadora que combina codificador CLIP, arquitectura U-Net y técnica de modulación FiLM
La tarea definida en este artículo es desodio de imágenes multimodales: dado una imagen que contiene contenido de odio y una indicación de texto correspondiente, el modelo necesita identificar y enmascarar las regiones de odio en la imagen, generando una versión desodio de la imagen.
- Conjunto de Datos Hatenorm: Utiliza un corpus paralelo de texto de odio anotado manualmente y sus versiones normalizadas
- Generación con Stable Diffusion: Aprovecha el modelo stable-diffusion-2-base para convertir texto de odio en representaciones visuales
- Generación de Imágenes: Extrae palabras clave del texto de odio para construir indicaciones, utilizando Stable Diffusion para generar imágenes correspondientes
- Generación de Mapas de Atención: Aplica la técnica DAAM para generar mapas de calor que resalten la relevancia de píxeles específicos con componentes de indicaciones
- Desenfoque Selectivo:
- Calcula valores globales de mapas de calor y establece umbrales para generar máscaras binarias
- Establece píxeles con valores altos de mapas de calor en negro (0,0,0)
- Calcula el color promedio de la vecindad local para píxeles marcados y aplica
DeHater adopta un enfoque de enmascaramiento de imágenes no supervisado, identificando y ocultando áreas dañinas en imágenes bajo la guía de indicaciones de texto.
- Codificador CLIP:
- Utiliza el modelo CLIP congelado como codificador
- Aprovecha las ventajas del preentrenamiento en pares imagen-texto diversos
- Extrae representaciones de características multimodales ricas
- Conexiones Inspiradas en U-Net:
- Adopta el diseño de conexiones de salto de la arquitectura U-Net
- Transmite información local del codificador CLIP al decodificador
- Mantiene la compacidad del decodificador mientras preserva detalles clave
- Mecanismo de Integración de Características:
- Integra activaciones del codificador (incluyendo token CLS) en cada bloque transformer del decodificador
- Enriquece la comprensión contextual del decodificador
- Modulación FiLM:
- Utiliza la técnica Feature-wise Linear Modulation
- Modula activaciones de entrada del decodificador a través de vectores condicionales
- Mejora la capacidad del decodificador para enfocarse y segmentar con precisión contenido de odio
- Red de Proyección Aprendible:
- Combina múltiples incrustaciones de fragmentos de odio en una proyección única
- Logra compresión fina y efectiva de elementos de odio diversos
El modelo genera imágenes binarizadas que identifican claramente y enmascarán las regiones consideradas como contenido de odio en el contenido original.
- Fusión Multimodal: Primera combinación de Stable Diffusion con DAAM para detección de discurso de odio
- Mecanismo de Atención: Uso innovador de mapas de atención cruzada para localización de contenido de odio
- Diseño de Arquitectura: Diseño de arquitectura combinada CLIP+U-Net+FiLM
- Aprendizaje No Supervisado: Implementa enmascaramiento de imágenes no supervisado basado en indicaciones de texto
- Conjunto de Datos DeHate: Total de 2411 instancias
- Conjunto de Entrenamiento: 1687 instancias
- Conjunto de Prueba: 724 instancias
- Composición de Datos: Cada instancia contiene la imagen generada original y la imagen con componentes de odio desenfocados
Utiliza Intersección sobre Unión (IoU) como métrica de evaluación principal, calculando el grado de superposición entre componentes desenfocados predichos y componentes desenfocados reales.
- Equipos Participantes: 20+ registrados, 5 envíos válidos
- Método de Evaluación: Clasificación basada en puntuaciones IoU en el conjunto de prueba
| Clasificación | Nombre del Equipo | Puntuación IoU |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | Línea Base (Este Artículo) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- Rendimiento de Línea Base: El método de línea base propuesto en este artículo alcanza una puntuación IoU de 0.49
- Dificultad de la Tarea: El mejor rendimiento es solo 0.55, indicando que la tarea tiene una dificultad considerable
- Brecha de Rendimiento: La pequeña diferencia de rendimiento entre sistemas participantes sugiere que aún hay amplio espacio para mejora
El equipo UniteToModerate utilizó una combinación de modelos NExT-Chat y UniFusion:
- NExT-Chat: Proporciona generación de máscaras iniciales a través del método pix2emb
- UniFusion: Mejora la precisión a través de fusión jerárquica de características visuales y de referencia
- Investigación Unimodal: Abarca detección de discurso de odio textual en inglés y otros idiomas
- Investigación Multimodal: Extensión reciente a detección de odio entre modalidades
- Contribuciones de Conjuntos de Datos: Conjuntos de datos como memotion, Multioff, OLID, MMHS150K
- Mecanismos de Atención: Aplicación de mapas de atención cruzada en modelos visuales
- Modelos de Difusión: Investigación de interpretabilidad de Latent Diffusion Models
- Técnica DAAM: Método de agregación de mapas de atención cruzada en módulos de desruido
- Stable Diffusion: Modelo eficiente de generación de imágenes
- CLIP: Técnica de preentrenamiento contrastivo de lenguaje-imagen
- U-Net: Aplicación exitosa en tareas de segmentación de imágenes
- Construcción exitosa del primer conjunto de datos multimodal de discurso de odio basado en Stable Diffusion
- El modelo DeHater propuesto proporciona un método de línea base efectivo para tareas multimodales de desodio
- La organización de la tarea compartida impulsa el desarrollo de investigación en este campo
- Limitación de Rendimiento: La mejor puntuación IoU es solo 0.55, indicando que el método aún tiene espacio para mejora
- Escala de Datos: El tamaño del conjunto de datos es relativamente pequeño (2411 instancias)
- Limitación de Idioma: Se enfoca principalmente en contenido en inglés, careciendo de soporte multilingüe
- Evaluación Única: Utiliza solo IoU como métrica de evaluación, lo que puede no ser suficientemente completo
- Integración de LLM: Utilizar modelos de lenguaje grande para interpretar salidas del pipeline de mitigación de discurso de odio
- Extensión Multilingüe: Extender el trabajo a otros idiomas y modalidades
- Mejora de Métodos: Desarrollar técnicas más precisas para localización y eliminación de contenido de odio
- Importancia del Problema: Aborda un problema importante de ética de IA y responsabilidad social
- Innovación Metodológica: Primera combinación de Stable Diffusion con DAAM para procesamiento de discurso de odio
- Contribución de Datos: Proporciona un conjunto de datos multimodal valioso de discurso de odio
- Apertura: Promueve el desarrollo del campo a través de tareas compartidas
- Integración Técnica: Combina ingeniosamente múltiples tecnologías de vanguardia (CLIP, U-Net, FiLM)
- Rendimiento Limitado: El nivel general de rendimiento es bajo, con el mejor método IoU de solo 0.55
- Evaluación Insuficiente: Carece de evaluación humana y análisis cualitativo
- Interpretabilidad: La explicación del proceso de decisión del modelo es insuficiente
- Capacidad de Generalización: No valida suficientemente la capacidad de generalización del método en diferentes tipos de contenido de odio
- Consideraciones Éticas: Discusión insuficiente sobre posibles impactos negativos de generar imágenes de odio
- Contribución al Campo: Proporciona una nueva dirección de investigación para detección multimodal de discurso de odio
- Valor Práctico: Proporciona base técnica para moderación automática de contenido en redes sociales
- Reproducibilidad: Proporciona descripción detallada del método y conjunto de datos
- Significado Social: Impulsa el desarrollo de IA responsable
- Redes Sociales: Moderación y filtrado automático de contenido de plataformas
- Educación en Línea: Garantía de seguridad de contenido en plataformas educativas
- Entrenamiento de IA: Limpieza de contenido dañino en datos de entrenamiento de modelos de IA
- Herramienta de Investigación: Proporciona conjunto de datos de referencia y métodos para investigación relacionada
Este artículo cita ampliamente trabajos relacionados, incluyendo:
- Conjuntos de datos clásicos y métodos de detección de discurso de odio
- Tecnologías fundamentales como Stable Diffusion y CLIP
- Investigación relacionada con interpretabilidad del aprendizaje profundo
- Investigación en aprendizaje multimodal y mecanismos de atención
Evaluación General: Este es un artículo con importante significado social e innovación técnica que, aunque tiene espacio para mejora en rendimiento, proporciona recursos de datos valiosos y base metodológica para el campo de detección multimodal de discurso de odio, con significado positivo para impulsar el desarrollo de IA responsable.