The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- 논문 ID: 2509.21787
- 제목: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- 저자: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- 분류: cs.CV cs.CL
- 발표 학술대회: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2024
- 논문 링크: https://arxiv.org/abs/2509.21787
온라인 유해 콘텐츠의 증가는 공공 담론을 왜곡할 뿐만 아니라 건강한 디지털 환경 유지에 심각한 도전을 초래하고 있습니다. 이를 해결하기 위해 본 논문은 디지털 콘텐츠에서 혐오 표현을 식별하기 위한 전문화된 다중모달 데이터셋을 제시합니다. 본 방법의 핵심은 워터마킹된 안정화 Stable Diffusion 기술을 디지털 주의력 분석 모듈(DAAM)과 결합하여 혁신적으로 적용하는 것입니다. 이러한 조합은 이미지에서 혐오 요소를 정확히 위치시키고, 이러한 영역을 흐리게 처리하기 위한 상세한 혐오 주의력 맵을 생성하여 이미지에서 혐오 부분을 제거할 수 있습니다. 저자들은 이 데이터셋을 DeHate 공유 과제의 일부로 공개하고, 다중모달 혐오 표현 제거 작업을 위해 특별히 설계된 시각-언어 모델인 DeHater를 제안합니다.
본 연구가 해결하고자 하는 핵심 문제는 다중모달 환경(특히 이미지+텍스트)에서 혐오 표현을 감지하고 완화하는 것입니다. AI 응용 프로그램의 빠른 발전에 따라 대규모 언어 모델(LLMs)의 훈련 데이터에 포함된 혐오 콘텐츠는 모델의 실용성을 손상시킬 뿐만 아니라 심각한 윤리 문제를 야기합니다.
- 디지털 환경 건강성: 온라인 혐오 콘텐츠의 급증은 공공 담론의 질에 심각한 영향을 미침
- AI 윤리: 훈련 데이터의 혐오 콘텐츠는 AI 시스템의 신뢰성과 윤리적 완전성에 직접적인 영향을 미침
- 사회적 책임: 소셜 미디어의 혐오 표현에 대응하기 위한 책임감 있는 AI 시스템 개발의 필요성
- 고품질의 다중모달 혐오 표현 감지 데이터셋 부족
- 기존 방법은 주로 텍스트 또는 이미지 단일 모달에 초점을 맞추고 있으며, 효과적인 다중모달 융합 부족
- 혐오 콘텐츠 위치 파악 및 제거 기술의 부재
고품질 데이터셋의 필요성과 다중모달 혐오 표현 감지의 기술적 과제를 바탕으로, 본 논문은 책임감 있는 AI 발전을 추진하기 위한 혁신적인 데이터셋과 방법론 프레임워크를 구축하는 것을 목표로 합니다.
- 혁신적인 데이터셋 구축 방법: Stable Diffusion과 DAAM 기반의 다중모달 혐오 표현 데이터셋 생성 방법 제시
- 다중모달 혐오 표현 제거 모델: 텍스트 프롬프트 지도 하에 이미지 혐오 콘텐츠의 비지도 마스킹을 수행할 수 있는 DeHater 모델 설계
- 공유 과제 조직: 2,411개 인스턴스를 포함하는 DeHate 데이터셋 공개 및 관련 공유 과제 조직
- 기술 방법 혁신: CLIP 인코더, U-Net 아키텍처 및 FiLM 변조 기술을 결합한 혁신적인 아키텍처 설계
본 논문에서 정의하는 작업은 다중모달 이미지 혐오 표현 제거입니다: 혐오 콘텐츠를 포함하는 이미지와 해당 텍스트 프롬프트가 주어졌을 때, 모델은 이미지의 혐오 영역을 식별하고 마스킹하여 혐오 표현이 제거된 이미지 버전을 생성해야 합니다.
- Hatenorm 데이터셋: 수작업으로 주석 처리된 혐오 텍스트 및 정규화된 버전의 병렬 코퍼스 사용
- Stable Diffusion 생성: stable-diffusion-2-base 모델을 활용하여 혐오 텍스트를 시각적 표현으로 변환
- 이미지 생성: 혐오 텍스트에서 핵심 키워드를 추출하여 프롬프트를 구성하고, Stable Diffusion을 사용하여 해당 이미지 생성
- 주의력 맵 생성: DAAM 기술을 적용하여 특정 픽셀과 프롬프트 구성 요소의 관련성을 강조하는 히트맵 생성
- 선택적 흐림 처리:
- 전역 히트맵 값을 계산하고 임계값을 설정하여 이진 마스크 생성
- 높은 히트맵 값 픽셀을 검은색(0,0,0)으로 설정
- 표시된 픽셀에 대해 로컬 이웃의 평균 색상을 계산하여 적용
DeHater는 비지도 이미지 마스킹 방법을 채택하여 텍스트 프롬프트를 통해 이미지의 유해 영역을 식별하고 가리도록 지도합니다.
- CLIP 인코더:
- 동결된 CLIP 모델을 인코더로 사용
- 다양한 이미지-텍스트 쌍에 대한 사전 훈련의 이점 활용
- 풍부한 다중모달 특성 표현 추출
- U-Net 영감의 연결:
- U-Net 아키텍처의 스킵 연결 설계 채택
- CLIP 인코더의 로컬 정보를 디코더로 전달
- 디코더의 간결성을 유지하면서 핵심 세부 사항 보존
- 특성 통합 메커니즘:
- 인코더 활성화(CLS 토큰 포함)를 디코더의 각 트랜스포머 블록에 통합
- 컨텍스트에 대한 디코더의 이해 강화
- FiLM 변조:
- Feature-wise Linear Modulation 기술 사용
- 조건 벡터를 통해 디코더 입력 활성화 변조
- 디코더가 혐오 콘텐츠에 초점을 맞추고 정확하게 분할하는 능력 강화
- 학습 가능한 프로젝션 네트워크:
- 여러 혐오 조각 임베딩을 단일 프로젝션으로 결합
- 다양한 혐오 요소의 정교하고 효율적인 압축 실현
모델은 이진 이미지를 출력하여 원본 콘텐츠에서 혐오로 간주되는 영역을 명확하게 식별하고 마스킹합니다.
- 다중모달 융합: Stable Diffusion과 DAAM을 혐오 표현 감지에 처음으로 결합
- 주의력 메커니즘: 교차 주의력 맵을 혐오 콘텐츠 위치 파악에 혁신적으로 사용
- 아키텍처 설계: CLIP+U-Net+FiLM의 조합 아키텍처 설계
- 비지도 학습: 텍스트 프롬프트 기반의 비지도 이미지 마스킹 실현
- DeHate 데이터셋: 총 2,411개 인스턴스
- 훈련 세트: 1,687개 인스턴스
- 테스트 세트: 724개 인스턴스
- 데이터 구성: 각 인스턴스는 원본 생성 이미지와 혐오 구성 요소 흐림 처리 후 이미지를 포함
**교집합 대 합집합(IoU)**을 주요 평가 지표로 사용하여 예측된 흐림 처리 구성 요소와 실제 흐림 처리 구성 요소 간의 중복도를 계산합니다.
- 참여 팀: 20개 이상 등록, 5개 유효 제출
- 평가 방식: 테스트 세트의 IoU 점수 기반 순위
| 순위 | 팀 이름 | IoU 점수 |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | Baseline (본 논문) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- 기준선 성능: 본 논문에서 제시한 기준선 방법은 0.49의 IoU 점수 달성
- 작업 난이도: 최고 성능이 0.55에 불과하여 이 작업이 상당한 도전성을 가짐을 나타냄
- 성능 격차: 참여 시스템 간 성능 차이가 크지 않아 여전히 큰 개선 여지가 있음을 시사
UniteToModerate 팀은 NExT-Chat과 UniFusion 모델의 조합을 사용했습니다:
- NExT-Chat: pix2emb 방법을 통해 초기 마스크 생성 제공
- UniFusion: 시각 및 참조 특성의 계층적 융합을 통해 정확도 향상
- 단일 모달 연구: 영어 및 기타 언어의 텍스트 혐오 표현 감지 포함
- 다중모달 연구: 최근 교차 모달 혐오 감지로 확장
- 데이터셋 기여: memotion, Multioff, OLID, MMHS150K 등 데이터셋
- 주의력 메커니즘: 시각 모델에서 교차 주의력 맵의 응용
- 확산 모델: Latent Diffusion Models의 해석 가능성 연구
- DAAM 기술: 노이즈 제거 모듈에서 교차 주의력 맵 집계 방법
- Stable Diffusion: 효율적인 이미지 생성 모델
- CLIP: 대조 언어-이미지 사전 훈련 기술
- U-Net: 이미지 분할 작업에서의 성공적인 응용
- Stable Diffusion 기반의 첫 번째 다중모달 혐오 표현 데이터셋 성공적으로 구축
- 제시된 DeHater 모델은 다중모달 혐오 표현 제거 작업을 위한 효과적인 기준선 방법 제공
- 공유 과제의 조직은 해당 분야의 연구 발전을 추진
- 성능 제한: 최고 IoU 점수가 0.55에 불과하여 방법이 여전히 개선 여지가 있음을 나타냄
- 데이터 규모: 데이터셋 규모가 상대적으로 작음(2,411개 인스턴스)
- 언어 제한: 주로 영어 콘텐츠에 초점을 맞추고 있으며 다국어 지원 부족
- 평가 단일성: IoU만을 평가 지표로 사용하여 충분히 포괄적이지 않을 수 있음
- LLM 통합: 대규모 언어 모델을 사용하여 혐오 표현 완화 파이프라인의 출력 해석
- 다국어 확장: 작업을 다른 언어 및 모달로 확장
- 방법 개선: 더 정확한 혐오 콘텐츠 위치 파악 및 제거 기술 개발
- 문제의 중요성: AI 윤리 및 사회적 책임의 중요한 문제 해결
- 방법 혁신: Stable Diffusion과 DAAM을 혐오 표현 처리에 처음으로 결합
- 데이터 기여: 귀중한 다중모달 혐오 표현 데이터셋 제공
- 개방성: 공유 과제를 통해 분야 발전 촉진
- 기술 통합: 최신 기술(CLIP, U-Net, FiLM)을 능숙하게 결합
- 성능 제한: 전반적인 성능 수준이 낮으며, 최고 방법의 IoU가 0.55에 불과함
- 평가 부족: 인간 평가 및 정성적 분석 부재
- 해석 가능성: 모델 의사 결정 프로세스에 대한 설명이 충분하지 않음
- 일반화 능력: 다양한 유형의 혐오 콘텐츠에 대한 방법의 일반화 능력을 충분히 검증하지 못함
- 윤리적 고려: 혐오 이미지 생성이 초래할 수 있는 부정적 영향에 대한 논의 부족
- 분야 기여: 다중모달 혐오 표현 감지를 위한 새로운 연구 방향 제공
- 실용적 가치: 소셜 미디어 콘텐츠 조정을 위한 기술 기초 제공
- 재현성: 상세한 방법 설명 및 데이터셋 제공
- 사회적 의의: 책임감 있는 AI 발전 추진
- 소셜 미디어: 플랫폼 콘텐츠 자동 조정 및 필터링
- 온라인 교육: 교육 플랫폼의 콘텐츠 안전 보장
- AI 훈련: AI 모델 훈련 데이터에서 유해 콘텐츠 정제
- 연구 도구: 관련 연구를 위한 벤치마크 데이터셋 및 방법 제공
본 논문은 다음을 포함한 대량의 관련 연구를 인용합니다:
- 혐오 표현 감지의 고전적 데이터셋 및 방법
- Stable Diffusion 및 CLIP 등 기초 기술
- 심층 학습 해석 가능성 관련 연구
- 다중모달 학습 및 주의력 메커니즘 연구
전체 평가: 이는 중요한 사회적 의의와 기술적 혁신을 갖춘 논문으로, 성능 측면에서는 개선 여지가 있지만 다중모달 혐오 표현 감지 분야에 귀중한 데이터 자원과 방법론적 기초를 제공하며, 책임감 있는 AI 발전 추진에 긍정적인 의의를 갖습니다.