2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.
The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
academic

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

基本信息

  • 论文ID: 2509.21787
  • 标题: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
  • 作者: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
  • 分类: cs.CV cs.CL
  • 发表会议: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2024
  • 论文链接: https://arxiv.org/abs/2509.21787

摘要

随着网络有害内容的增加不仅扭曲了公共话语,还对维护健康的数字环境构成了重大挑战。为此,本文引入了一个专门用于识别数字内容中仇恨言论的多模态数据集。该方法的核心是创新性地应用了水印化、稳定性增强的稳定扩散技术,结合数字注意力分析模块(DAAM)。这种组合能够精确定位图像中的仇恨元素,生成详细的仇恨注意力图,用于模糊这些区域,从而去除图像中的仇恨部分。作者将该数据集作为dehate共享任务的一部分发布,并提出了DeHater,一个专为多模态去仇恨化任务设计的视觉-语言模型。

研究背景与动机

问题定义

本研究要解决的核心问题是在多模态环境下(特别是图像+文本)检测和缓解仇恨言论的问题。随着AI应用的快速发展,大语言模型(LLMs)在训练数据中包含的仇恨内容不仅损害了模型的实用性,还引发了严重的伦理问题。

重要性

  1. 数字环境健康: 网络仇恨内容的激增严重影响公共话语质量
  2. AI伦理: 训练数据中的仇恨内容直接影响AI系统的可信度和伦理完整性
  3. 社会责任: 需要开发负责任的AI系统来应对社交媒体中的仇恨言论

现有方法局限性

  1. 缺乏高质量的多模态仇恨言论检测数据集
  2. 现有方法主要关注文本或图像单一模态,缺乏有效的多模态融合
  3. 缺乏针对性的仇恨内容定位和去除技术

研究动机

基于对高质量数据集的需求和多模态仇恨言论检测的技术挑战,本文旨在构建一个创新的数据集和方法框架,推动负责任AI的发展。

核心贡献

  1. 创新的数据集构建方法: 提出了基于Stable Diffusion和DAAM的多模态仇恨言论数据集生成方法
  2. 多模态去仇恨化模型: 设计了DeHater模型,能够在文本提示指导下进行图像仇恨内容的无监督掩码
  3. 共享任务组织: 发布了包含2411个实例的DeHate数据集,并组织了相关的共享任务
  4. 技术方法创新: 结合了CLIP编码器、U-Net架构和FiLM调制技术的创新架构设计

方法详解

任务定义

本文定义的任务是多模态图像去仇恨化:给定一个包含仇恨内容的图像和相应的文本提示,模型需要识别并掩码图像中的仇恨区域,生成去仇恨化的图像版本。

数据集构建方法

基础数据源

  • Hatenorm数据集: 使用手工标注的仇恨文本及其规范化版本的平行语料库
  • Stable Diffusion生成: 利用stable-diffusion-2-base模型将仇恨文本转换为视觉表示

核心技术流程

  1. 图像生成: 从仇恨文本提取关键词构建提示,使用Stable Diffusion生成对应图像
  2. 注意力图生成: 应用DAAM技术生成热力图,突出显示特定像素与提示组件的相关性
  3. 选择性模糊:
    • 计算全局热力图值并建立阈值生成二值掩码
    • 对高热力图值像素设置为黑色(0,0,0)
    • 对标记像素计算局部邻域平均颜色并应用

DeHater模型架构

整体设计理念

DeHater采用无监督图像掩码方法,通过文本提示指导识别和遮蔽图像中的有害区域。

核心组件

  1. CLIP编码器:
    • 使用冻结的CLIP模型作为编码器
    • 利用其在多样化图像-文本对上的预训练优势
    • 提取丰富的多模态特征表示
  2. U-Net启发的连接:
    • 采用U-Net架构的跳跃连接设计
    • 将CLIP编码器的局部信息传递给解码器
    • 保持解码器紧凑性的同时保留关键细节
  3. 特征整合机制:
    • 将编码器激活(包括CLS token)整合到解码器的每个transformer块
    • 丰富解码器对上下文的理解
  4. FiLM调制:
    • 使用Feature-wise Linear Modulation技术
    • 通过条件向量调制解码器输入激活
    • 增强解码器聚焦和准确分割仇恨内容的能力
  5. 可学习投影网络:
    • 将多个仇恨片段嵌入组合成单一投影
    • 实现多样化仇恨元素的细致有效压缩

输出机制

模型输出二值化图像,清晰标识原始内容中被认定为仇恨的区域并进行掩码处理。

技术创新点

  1. 多模态融合: 首次将Stable Diffusion与DAAM结合用于仇恨言论检测
  2. 注意力机制: 创新性地使用交叉注意力图进行仇恨内容定位
  3. 架构设计: CLIP+U-Net+FiLM的组合架构设计
  4. 无监督学习: 实现了基于文本提示的无监督图像掩码

实验设置

数据集

  • DeHate数据集: 总计2411个实例
    • 训练集: 1687个实例
    • 测试集: 724个实例
  • 数据组成: 每个实例包含原始生成图像和模糊化仇恨组件后的图像

评价指标

使用**交并比(IoU)**作为主要评价指标,计算预测模糊组件与真实模糊组件之间的重叠度。

共享任务设置

  • 参与队伍: 20+注册,5个有效提交
  • 评估方式: 基于测试集的IoU分数排名

实验结果

主要结果

排名队伍名称IoU分数
1UniteToModerate0.55
2PaulJane0.51
3Baseline (本文)0.49
4Markans0.48
5Sanskarfc0.47
6rachitmodi0.44

结果分析

  1. 基线性能: 本文提出的基线方法达到0.49的IoU分数
  2. 任务难度: 最佳性能仅为0.55,表明该任务具有相当的挑战性
  3. 性能差距: 参与系统间性能差异不大,说明仍有较大改进空间

获胜方法分析

UniteToModerate队伍使用了NExT-Chat和UniFusion模型的组合:

  • NExT-Chat: 通过pix2emb方法提供初始掩码生成
  • UniFusion: 通过视觉和参考特征的层次融合增强精度

相关工作

仇恨言论检测研究

  1. 单模态研究: 涵盖英语和其他语言的文本仇恨言论检测
  2. 多模态研究: 近年来扩展到跨模态的仇恨检测
  3. 数据集贡献: memotion、Multioff、OLID、MMHS150K等数据集

深度学习可解释性

  1. 注意力机制: 交叉注意力图在视觉模型中的应用
  2. 扩散模型: Latent Diffusion Models的可解释性研究
  3. DAAM技术: 在去噪模块中聚合交叉注意力图的方法

技术基础

  • Stable Diffusion: 高效的图像生成模型
  • CLIP: 对比语言-图像预训练技术
  • U-Net: 在图像分割任务中的成功应用

结论与讨论

主要结论

  1. 成功构建了首个基于Stable Diffusion的多模态仇恨言论数据集
  2. 提出的DeHater模型为多模态去仇恨化任务提供了有效的基线方法
  3. 共享任务的组织推动了该领域的研究发展

局限性

  1. 性能限制: 最佳IoU分数仅为0.55,表明方法仍有改进空间
  2. 数据规模: 数据集规模相对较小(2411个实例)
  3. 语言限制: 主要关注英语内容,缺乏多语言支持
  4. 评估单一: 仅使用IoU作为评价指标,可能不够全面

未来方向

  1. LLM集成: 使用大语言模型解释仇恨言论缓解管道的输出
  2. 多语言扩展: 将工作扩展到其他语言和模态
  3. 方法改进: 开发更精确的仇恨内容定位和去除技术

深度评价

优点

  1. 问题重要性: 解决了AI伦理和社会责任的重要问题
  2. 方法创新: 首次将Stable Diffusion与DAAM结合用于仇恨言论处理
  3. 数据贡献: 提供了宝贵的多模态仇恨言论数据集
  4. 开放性: 通过共享任务促进了领域发展
  5. 技术整合: 巧妙结合了多种前沿技术(CLIP、U-Net、FiLM)

不足

  1. 性能有限: 整体性能水平不高,最佳方法IoU仅0.55
  2. 评估不足: 缺乏人工评估和定性分析
  3. 可解释性: 对模型决策过程的解释不够充分
  4. 泛化能力: 未充分验证方法在不同类型仇恨内容上的泛化能力
  5. 伦理考虑: 对生成仇恨图像可能带来的负面影响讨论不足

影响力

  1. 领域贡献: 为多模态仇恨言论检测提供了新的研究方向
  2. 实用价值: 为社交媒体内容审核提供了技术基础
  3. 可复现性: 提供了详细的方法描述和数据集
  4. 社会意义: 推动了负责任AI的发展

适用场景

  1. 社交媒体: 平台内容自动审核和过滤
  2. 在线教育: 教育平台的内容安全保障
  3. AI训练: 清理AI模型训练数据中的有害内容
  4. 研究工具: 为相关研究提供基准数据集和方法

参考文献

本文引用了大量相关工作,包括:

  • 仇恨言论检测的经典数据集和方法
  • Stable Diffusion和CLIP等基础技术
  • 深度学习可解释性相关研究
  • 多模态学习和注意力机制研究

总体评价: 这是一篇具有重要社会意义和技术创新的论文,虽然在性能上还有改进空间,但为多模态仇恨言论检测领域提供了宝贵的数据资源和方法基础,对推动负责任AI的发展具有积极意义。