2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.
The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
academic

DeHate: Un Enfoque Multimodal Basado en Stable Diffusion para Mitigar el Discurso de Odio en Imágenes

Información Básica

  • ID del Artículo: 2509.21787
  • Título: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
  • Autores: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
  • Clasificación: cs.CV cs.CL
  • Conferencia de Publicación: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, coubicado con AAAI 2024
  • Enlace del Artículo: https://arxiv.org/abs/2509.21787

Resumen

Con el aumento del contenido dañino en línea que no solo distorsiona el discurso público sino que también presenta desafíos significativos para mantener un entorno digital saludable, este artículo introduce un conjunto de datos multimodal especializado para identificar el discurso de odio en contenido digital. El núcleo del enfoque es la aplicación innovadora de técnicas de Stable Diffusion mejoradas con marcas de agua y estabilidad, combinadas con el módulo de análisis de atención digital (DAAM). Esta combinación permite localizar con precisión elementos de odio en imágenes, generando mapas de atención de odio detallados para desenfocar estas áreas y eliminar partes de odio de las imágenes. Los autores publican el conjunto de datos como parte de la tarea compartida DeHate y proponen DeHater, un modelo de visión-lenguaje diseñado específicamente para tareas multimodales de desodio.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la detección y mitigación del discurso de odio en entornos multimodales (particularmente imagen + texto). Con el rápido desarrollo de aplicaciones de IA, los modelos de lenguaje grande (LLMs) que contienen contenido de odio en datos de entrenamiento no solo dañan la utilidad del modelo, sino que también plantean serios problemas éticos.

Importancia

  1. Salud del Entorno Digital: El aumento exponencial del contenido de odio en línea afecta gravemente la calidad del discurso público
  2. Ética de la IA: El contenido de odio en datos de entrenamiento afecta directamente la confiabilidad e integridad ética de los sistemas de IA
  3. Responsabilidad Social: Existe la necesidad de desarrollar sistemas de IA responsables para abordar el discurso de odio en redes sociales

Limitaciones de Métodos Existentes

  1. Falta de conjuntos de datos multimodales de alta calidad para detección de discurso de odio
  2. Los métodos existentes se centran principalmente en modalidades únicas (texto o imagen), careciendo de fusión multimodal efectiva
  3. Falta de técnicas específicas para localización y eliminación de contenido de odio

Motivación de la Investigación

Basándose en la necesidad de conjuntos de datos de alta calidad y los desafíos técnicos de la detección multimodal de discurso de odio, este artículo tiene como objetivo construir un marco innovador de conjunto de datos y métodos para impulsar el desarrollo de IA responsable.

Contribuciones Principales

  1. Método Innovador de Construcción de Conjuntos de Datos: Propone un método de generación de conjuntos de datos multimodales de discurso de odio basado en Stable Diffusion y DAAM
  2. Modelo Multimodal de Desodio: Diseña el modelo DeHater, capaz de enmascaramiento no supervisado de contenido de odio en imágenes bajo la guía de indicaciones de texto
  3. Organización de Tarea Compartida: Publica el conjunto de datos DeHate que contiene 2411 instancias y organiza la tarea compartida relacionada
  4. Innovación en Métodos Técnicos: Diseño de arquitectura innovadora que combina codificador CLIP, arquitectura U-Net y técnica de modulación FiLM

Explicación Detallada del Método

Definición de la Tarea

La tarea definida en este artículo es desodio de imágenes multimodales: dado una imagen que contiene contenido de odio y una indicación de texto correspondiente, el modelo necesita identificar y enmascarar las regiones de odio en la imagen, generando una versión desodio de la imagen.

Método de Construcción del Conjunto de Datos

Fuentes de Datos Base

  • Conjunto de Datos Hatenorm: Utiliza un corpus paralelo de texto de odio anotado manualmente y sus versiones normalizadas
  • Generación con Stable Diffusion: Aprovecha el modelo stable-diffusion-2-base para convertir texto de odio en representaciones visuales

Flujo de Proceso Técnico Principal

  1. Generación de Imágenes: Extrae palabras clave del texto de odio para construir indicaciones, utilizando Stable Diffusion para generar imágenes correspondientes
  2. Generación de Mapas de Atención: Aplica la técnica DAAM para generar mapas de calor que resalten la relevancia de píxeles específicos con componentes de indicaciones
  3. Desenfoque Selectivo:
    • Calcula valores globales de mapas de calor y establece umbrales para generar máscaras binarias
    • Establece píxeles con valores altos de mapas de calor en negro (0,0,0)
    • Calcula el color promedio de la vecindad local para píxeles marcados y aplica

Arquitectura del Modelo DeHater

Filosofía de Diseño General

DeHater adopta un enfoque de enmascaramiento de imágenes no supervisado, identificando y ocultando áreas dañinas en imágenes bajo la guía de indicaciones de texto.

Componentes Principales

  1. Codificador CLIP:
    • Utiliza el modelo CLIP congelado como codificador
    • Aprovecha las ventajas del preentrenamiento en pares imagen-texto diversos
    • Extrae representaciones de características multimodales ricas
  2. Conexiones Inspiradas en U-Net:
    • Adopta el diseño de conexiones de salto de la arquitectura U-Net
    • Transmite información local del codificador CLIP al decodificador
    • Mantiene la compacidad del decodificador mientras preserva detalles clave
  3. Mecanismo de Integración de Características:
    • Integra activaciones del codificador (incluyendo token CLS) en cada bloque transformer del decodificador
    • Enriquece la comprensión contextual del decodificador
  4. Modulación FiLM:
    • Utiliza la técnica Feature-wise Linear Modulation
    • Modula activaciones de entrada del decodificador a través de vectores condicionales
    • Mejora la capacidad del decodificador para enfocarse y segmentar con precisión contenido de odio
  5. Red de Proyección Aprendible:
    • Combina múltiples incrustaciones de fragmentos de odio en una proyección única
    • Logra compresión fina y efectiva de elementos de odio diversos

Mecanismo de Salida

El modelo genera imágenes binarizadas que identifican claramente y enmascarán las regiones consideradas como contenido de odio en el contenido original.

Puntos de Innovación Técnica

  1. Fusión Multimodal: Primera combinación de Stable Diffusion con DAAM para detección de discurso de odio
  2. Mecanismo de Atención: Uso innovador de mapas de atención cruzada para localización de contenido de odio
  3. Diseño de Arquitectura: Diseño de arquitectura combinada CLIP+U-Net+FiLM
  4. Aprendizaje No Supervisado: Implementa enmascaramiento de imágenes no supervisado basado en indicaciones de texto

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos DeHate: Total de 2411 instancias
    • Conjunto de Entrenamiento: 1687 instancias
    • Conjunto de Prueba: 724 instancias
  • Composición de Datos: Cada instancia contiene la imagen generada original y la imagen con componentes de odio desenfocados

Métricas de Evaluación

Utiliza Intersección sobre Unión (IoU) como métrica de evaluación principal, calculando el grado de superposición entre componentes desenfocados predichos y componentes desenfocados reales.

Configuración de Tarea Compartida

  • Equipos Participantes: 20+ registrados, 5 envíos válidos
  • Método de Evaluación: Clasificación basada en puntuaciones IoU en el conjunto de prueba

Resultados Experimentales

Resultados Principales

ClasificaciónNombre del EquipoPuntuación IoU
1UniteToModerate0.55
2PaulJane0.51
3Línea Base (Este Artículo)0.49
4Markans0.48
5Sanskarfc0.47
6rachitmodi0.44

Análisis de Resultados

  1. Rendimiento de Línea Base: El método de línea base propuesto en este artículo alcanza una puntuación IoU de 0.49
  2. Dificultad de la Tarea: El mejor rendimiento es solo 0.55, indicando que la tarea tiene una dificultad considerable
  3. Brecha de Rendimiento: La pequeña diferencia de rendimiento entre sistemas participantes sugiere que aún hay amplio espacio para mejora

Análisis del Método Ganador

El equipo UniteToModerate utilizó una combinación de modelos NExT-Chat y UniFusion:

  • NExT-Chat: Proporciona generación de máscaras iniciales a través del método pix2emb
  • UniFusion: Mejora la precisión a través de fusión jerárquica de características visuales y de referencia

Trabajo Relacionado

Investigación en Detección de Discurso de Odio

  1. Investigación Unimodal: Abarca detección de discurso de odio textual en inglés y otros idiomas
  2. Investigación Multimodal: Extensión reciente a detección de odio entre modalidades
  3. Contribuciones de Conjuntos de Datos: Conjuntos de datos como memotion, Multioff, OLID, MMHS150K

Interpretabilidad del Aprendizaje Profundo

  1. Mecanismos de Atención: Aplicación de mapas de atención cruzada en modelos visuales
  2. Modelos de Difusión: Investigación de interpretabilidad de Latent Diffusion Models
  3. Técnica DAAM: Método de agregación de mapas de atención cruzada en módulos de desruido

Fundamentos Técnicos

  • Stable Diffusion: Modelo eficiente de generación de imágenes
  • CLIP: Técnica de preentrenamiento contrastivo de lenguaje-imagen
  • U-Net: Aplicación exitosa en tareas de segmentación de imágenes

Conclusiones y Discusión

Conclusiones Principales

  1. Construcción exitosa del primer conjunto de datos multimodal de discurso de odio basado en Stable Diffusion
  2. El modelo DeHater propuesto proporciona un método de línea base efectivo para tareas multimodales de desodio
  3. La organización de la tarea compartida impulsa el desarrollo de investigación en este campo

Limitaciones

  1. Limitación de Rendimiento: La mejor puntuación IoU es solo 0.55, indicando que el método aún tiene espacio para mejora
  2. Escala de Datos: El tamaño del conjunto de datos es relativamente pequeño (2411 instancias)
  3. Limitación de Idioma: Se enfoca principalmente en contenido en inglés, careciendo de soporte multilingüe
  4. Evaluación Única: Utiliza solo IoU como métrica de evaluación, lo que puede no ser suficientemente completo

Direcciones Futuras

  1. Integración de LLM: Utilizar modelos de lenguaje grande para interpretar salidas del pipeline de mitigación de discurso de odio
  2. Extensión Multilingüe: Extender el trabajo a otros idiomas y modalidades
  3. Mejora de Métodos: Desarrollar técnicas más precisas para localización y eliminación de contenido de odio

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda un problema importante de ética de IA y responsabilidad social
  2. Innovación Metodológica: Primera combinación de Stable Diffusion con DAAM para procesamiento de discurso de odio
  3. Contribución de Datos: Proporciona un conjunto de datos multimodal valioso de discurso de odio
  4. Apertura: Promueve el desarrollo del campo a través de tareas compartidas
  5. Integración Técnica: Combina ingeniosamente múltiples tecnologías de vanguardia (CLIP, U-Net, FiLM)

Deficiencias

  1. Rendimiento Limitado: El nivel general de rendimiento es bajo, con el mejor método IoU de solo 0.55
  2. Evaluación Insuficiente: Carece de evaluación humana y análisis cualitativo
  3. Interpretabilidad: La explicación del proceso de decisión del modelo es insuficiente
  4. Capacidad de Generalización: No valida suficientemente la capacidad de generalización del método en diferentes tipos de contenido de odio
  5. Consideraciones Éticas: Discusión insuficiente sobre posibles impactos negativos de generar imágenes de odio

Impacto

  1. Contribución al Campo: Proporciona una nueva dirección de investigación para detección multimodal de discurso de odio
  2. Valor Práctico: Proporciona base técnica para moderación automática de contenido en redes sociales
  3. Reproducibilidad: Proporciona descripción detallada del método y conjunto de datos
  4. Significado Social: Impulsa el desarrollo de IA responsable

Escenarios Aplicables

  1. Redes Sociales: Moderación y filtrado automático de contenido de plataformas
  2. Educación en Línea: Garantía de seguridad de contenido en plataformas educativas
  3. Entrenamiento de IA: Limpieza de contenido dañino en datos de entrenamiento de modelos de IA
  4. Herramienta de Investigación: Proporciona conjunto de datos de referencia y métodos para investigación relacionada

Referencias

Este artículo cita ampliamente trabajos relacionados, incluyendo:

  • Conjuntos de datos clásicos y métodos de detección de discurso de odio
  • Tecnologías fundamentales como Stable Diffusion y CLIP
  • Investigación relacionada con interpretabilidad del aprendizaje profundo
  • Investigación en aprendizaje multimodal y mecanismos de atención

Evaluación General: Este es un artículo con importante significado social e innovación técnica que, aunque tiene espacio para mejora en rendimiento, proporciona recursos de datos valiosos y base metodológica para el campo de detección multimodal de discurso de odio, con significado positivo para impulsar el desarrollo de IA responsable.