2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

academic

DeHate: 이미지의 혐오 표현 완화를 위한 Stable Diffusion 기반 다중모달 접근법

기본 정보

논문 ID: 2509.21787
제목: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
저자: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
분류: cs.CV cs.CL
발표 학술대회: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2024
논문 링크: https://arxiv.org/abs/2509.21787

초록

온라인 유해 콘텐츠의 증가는 공공 담론을 왜곡할 뿐만 아니라 건강한 디지털 환경 유지에 심각한 도전을 초래하고 있습니다. 이를 해결하기 위해 본 논문은 디지털 콘텐츠에서 혐오 표현을 식별하기 위한 전문화된 다중모달 데이터셋을 제시합니다. 본 방법의 핵심은 워터마킹된 안정화 Stable Diffusion 기술을 디지털 주의력 분석 모듈(DAAM)과 결합하여 혁신적으로 적용하는 것입니다. 이러한 조합은 이미지에서 혐오 요소를 정확히 위치시키고, 이러한 영역을 흐리게 처리하기 위한 상세한 혐오 주의력 맵을 생성하여 이미지에서 혐오 부분을 제거할 수 있습니다. 저자들은 이 데이터셋을 DeHate 공유 과제의 일부로 공개하고, 다중모달 혐오 표현 제거 작업을 위해 특별히 설계된 시각-언어 모델인 DeHater를 제안합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다중모달 환경(특히 이미지+텍스트)에서 혐오 표현을 감지하고 완화하는 것입니다. AI 응용 프로그램의 빠른 발전에 따라 대규모 언어 모델(LLMs)의 훈련 데이터에 포함된 혐오 콘텐츠는 모델의 실용성을 손상시킬 뿐만 아니라 심각한 윤리 문제를 야기합니다.

중요성

디지털 환경 건강성: 온라인 혐오 콘텐츠의 급증은 공공 담론의 질에 심각한 영향을 미침
AI 윤리: 훈련 데이터의 혐오 콘텐츠는 AI 시스템의 신뢰성과 윤리적 완전성에 직접적인 영향을 미침
사회적 책임: 소셜 미디어의 혐오 표현에 대응하기 위한 책임감 있는 AI 시스템 개발의 필요성

기존 방법의 한계

고품질의 다중모달 혐오 표현 감지 데이터셋 부족
기존 방법은 주로 텍스트 또는 이미지 단일 모달에 초점을 맞추고 있으며, 효과적인 다중모달 융합 부족
혐오 콘텐츠 위치 파악 및 제거 기술의 부재

연구 동기

고품질 데이터셋의 필요성과 다중모달 혐오 표현 감지의 기술적 과제를 바탕으로, 본 논문은 책임감 있는 AI 발전을 추진하기 위한 혁신적인 데이터셋과 방법론 프레임워크를 구축하는 것을 목표로 합니다.

핵심 기여

혁신적인 데이터셋 구축 방법: Stable Diffusion과 DAAM 기반의 다중모달 혐오 표현 데이터셋 생성 방법 제시
다중모달 혐오 표현 제거 모델: 텍스트 프롬프트 지도 하에 이미지 혐오 콘텐츠의 비지도 마스킹을 수행할 수 있는 DeHater 모델 설계
공유 과제 조직: 2,411개 인스턴스를 포함하는 DeHate 데이터셋 공개 및 관련 공유 과제 조직
기술 방법 혁신: CLIP 인코더, U-Net 아키텍처 및 FiLM 변조 기술을 결합한 혁신적인 아키텍처 설계

방법론 상세 설명

작업 정의

본 논문에서 정의하는 작업은 다중모달 이미지 혐오 표현 제거입니다: 혐오 콘텐츠를 포함하는 이미지와 해당 텍스트 프롬프트가 주어졌을 때, 모델은 이미지의 혐오 영역을 식별하고 마스킹하여 혐오 표현이 제거된 이미지 버전을 생성해야 합니다.

데이터셋 구축 방법

기초 데이터 소스

Hatenorm 데이터셋: 수작업으로 주석 처리된 혐오 텍스트 및 정규화된 버전의 병렬 코퍼스 사용
Stable Diffusion 생성: stable-diffusion-2-base 모델을 활용하여 혐오 텍스트를 시각적 표현으로 변환

핵심 기술 프로세스

이미지 생성: 혐오 텍스트에서 핵심 키워드를 추출하여 프롬프트를 구성하고, Stable Diffusion을 사용하여 해당 이미지 생성
주의력 맵 생성: DAAM 기술을 적용하여 특정 픽셀과 프롬프트 구성 요소의 관련성을 강조하는 히트맵 생성
선택적 흐림 처리:
- 전역 히트맵 값을 계산하고 임계값을 설정하여 이진 마스크 생성
- 높은 히트맵 값 픽셀을 검은색(0,0,0)으로 설정
- 표시된 픽셀에 대해 로컬 이웃의 평균 색상을 계산하여 적용

DeHater 모델 아키텍처

전체 설계 개념

DeHater는 비지도 이미지 마스킹 방법을 채택하여 텍스트 프롬프트를 통해 이미지의 유해 영역을 식별하고 가리도록 지도합니다.

핵심 구성 요소

CLIP 인코더:
- 동결된 CLIP 모델을 인코더로 사용
- 다양한 이미지-텍스트 쌍에 대한 사전 훈련의 이점 활용
- 풍부한 다중모달 특성 표현 추출
U-Net 영감의 연결:
- U-Net 아키텍처의 스킵 연결 설계 채택
- CLIP 인코더의 로컬 정보를 디코더로 전달
- 디코더의 간결성을 유지하면서 핵심 세부 사항 보존
특성 통합 메커니즘:
- 인코더 활성화(CLS 토큰 포함)를 디코더의 각 트랜스포머 블록에 통합
- 컨텍스트에 대한 디코더의 이해 강화
FiLM 변조:
- Feature-wise Linear Modulation 기술 사용
- 조건 벡터를 통해 디코더 입력 활성화 변조
- 디코더가 혐오 콘텐츠에 초점을 맞추고 정확하게 분할하는 능력 강화
학습 가능한 프로젝션 네트워크:
- 여러 혐오 조각 임베딩을 단일 프로젝션으로 결합
- 다양한 혐오 요소의 정교하고 효율적인 압축 실현