The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- 論文ID: 2509.21787
- タイトル: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- 著者: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- 分類: cs.CV cs.CL
- 発表会議: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2024
- 論文リンク: https://arxiv.org/abs/2509.21787
オンライン上の有害コンテンツの増加は、公共の言論を歪めるだけでなく、健全なデジタル環境の維持に対する重大な課題を構成しています。本論文では、デジタルコンテンツ内のヘイトスピーチを識別するための専用マルチモーダルデータセットを導入しています。本手法の中核は、ウォーターマーク化された安定性強化型安定拡散技術と、デジタル注意力分析モジュール(DAAM)の革新的な応用にあります。この組み合わせにより、画像内のヘイト要素を正確に特定し、詳細なヘイト注意力マップを生成し、これらの領域をぼかして画像からヘイト部分を除去することができます。著者らはこのデータセットをdeHate共有タスクの一部として公開し、マルチモーダルヘイト除去タスク専用に設計されたビジュアル言語モデルであるDeHaterを提案しています。
本研究が解決する中核的な問題は、マルチモーダル環境(特に画像+テキスト)におけるヘイトスピーチの検出と軽減です。AI応用の急速な発展に伴い、大規模言語モデル(LLMs)の訓練データに含まれるヘイトコンテンツは、モデルの実用性を損なうだけでなく、深刻な倫理的問題を引き起こしています。
- デジタル環境の健全性: オンラインヘイトコンテンツの急増は公共言論の質に深刻な影響を与えています
- AI倫理: 訓練データ内のヘイトコンテンツはAIシステムの信頼性と倫理的完全性に直接影響します
- 社会的責任: ソーシャルメディア内のヘイトスピーチに対処するための責任あるAIシステムの開発が必要です
- 高品質なマルチモーダルヘイトスピーチ検出データセットの不足
- 既存手法は主にテキストまたは画像の単一モダリティに焦点を当てており、効果的なマルチモーダル融合が不足しています
- ヘイトコンテンツの特定と除去に対する標的化された技術の不足
高品質データセットの必要性とマルチモーダルヘイトスピーチ検出の技術的課題に基づき、本論文は革新的なデータセットと方法フレームワークを構築し、責任あるAIの発展を推進することを目指しています。
- 革新的なデータセット構築方法: Stable DiffusionとDAAMに基づくマルチモーダルヘイトスピーチデータセット生成方法を提案
- マルチモーダルヘイト除去モデル: テキストプロンプトの指導下で画像ヘイトコンテンツの教師なしマスキングを実行できるDeHaterモデルを設計
- 共有タスクの組織: 2,411インスタンスを含むDeHateデータセットを公開し、関連する共有タスクを組織
- 技術手法の革新: CLIPエンコーダ、U-Netアーキテクチャ、FiLM変調技術を組み合わせた革新的なアーキテクチャ設計
本論文で定義されるタスクはマルチモーダル画像ヘイト除去です。ヘイトコンテンツを含む画像と対応するテキストプロンプトが与えられた場合、モデルは画像内のヘイト領域を識別してマスキングし、ヘイト除去された画像バージョンを生成する必要があります。
- Hatenormデータセット: 手動でアノテーションされたヘイトテキストとその正規化版の並列コーパスを使用
- Stable Diffusion生成: stable-diffusion-2-baseモデルを利用してヘイトテキストを視覚的表現に変換
- 画像生成: ヘイトテキストから主要キーワードを抽出してプロンプトを構築し、Stable Diffusionを使用して対応する画像を生成
- 注意力マップ生成: DAAM技術を適用して、特定のピクセルとプロンプト成分の関連性を強調するヒートマップを生成
- 選択的ぼかし:
- グローバルヒートマップ値を計算し、閾値を確立してバイナリマスクを生成
- 高ヒートマップ値ピクセルを黒色(0,0,0)に設定
- マークされたピクセルについてローカル近傍の平均色を計算して適用
DeHaterは教師なし画像マスキングアプローチを採用し、テキストプロンプトを通じて画像内の有害領域の識別と遮蔽を指導します。
- CLIPエンコーダ:
- 凍結されたCLIPモデルをエンコーダとして使用
- 多様な画像テキストペアでの事前訓練の利点を活用
- 豊富なマルチモーダル特徴表現を抽出
- U-Netにインスパイアされた接続:
- U-Netアーキテクチャのスキップ接続設計を採用
- CLIPエンコーダのローカル情報をデコーダに伝達
- デコーダのコンパクト性を維持しながら重要な詳細を保持
- 特徴統合メカニズム:
- エンコーダ活性化(CLSトークンを含む)をデコーダの各transformerブロックに統合
- コンテキスト理解を豊かにするデコーダ
- FiLM変調:
- Feature-wise Linear Modulation技術を使用
- 条件ベクトルを通じてデコーダ入力活性化を変調
- デコーダがヘイトコンテンツに焦点を当て、正確に分割する能力を強化
- 学習可能な投影ネットワーク:
- 複数のヘイトフラグメント埋め込みを単一投影に結合
- 多様なヘイト要素の細致で効果的な圧縮を実現
モデルはバイナリ画像を出力し、元のコンテンツ内でヘイトと認識される領域を明確に識別してマスキング処理します。
- マルチモーダル融合: Stable DiffusionとDAAMをヘイトスピーチ検出に組み合わせた初の試み
- 注意力メカニズム: クロス注意力マップを使用したヘイトコンテンツ特定の革新的な使用
- アーキテクチャ設計: CLIP+U-Net+FiLMの組み合わせアーキテクチャ設計
- 教師なし学習: テキストプロンプトに基づく教師なし画像マスキングの実現
- DeHateデータセット: 合計2,411インスタンス
- 訓練セット: 1,687インスタンス
- テストセット: 724インスタンス
- データ構成: 各インスタンスは元の生成画像とぼかされたヘイトコンポーネント後の画像を含む
**交差和集合比(IoU)**を主要評価指標として使用し、予測ぼかしコンポーネントと真のぼかしコンポーネント間の重複度を計算します。
- 参加チーム: 20以上登録、5つの有効な提出
- 評価方法: テストセットのIoUスコアに基づくランキング
| 順位 | チーム名 | IoUスコア |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | ベースライン(本論文) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- ベースラインパフォーマンス: 本論文で提案されたベースライン方法は0.49のIoUスコアを達成
- タスク難度: 最高パフォーマンスが0.55に過ぎず、このタスクが相当な課題を持つことを示唆
- パフォーマンスギャップ: 参加システム間のパフォーマンス差異が小さく、さらなる改善の余地があることを示唆
UniteToModerateチームはNExT-ChatとUniFusionモデルの組み合わせを使用:
- NExT-Chat: pix2emb方法を通じた初期マスク生成を提供
- UniFusion: ビジュアルおよび参照特徴の階層的融合を通じた精度強化
- 単一モダリティ研究: 英語および他言語のテキストヘイトスピーチ検出を網羅
- マルチモーダル研究: 近年、クロスモーダルヘイト検出に拡張
- データセット貢献: memotion、Multioff、OLID、MMHS150Kなどのデータセット
- 注意力メカニズム: ビジュアルモデルにおけるクロス注意力マップの応用
- 拡散モデル: 潜在拡散モデルの解釈可能性研究
- DAAM技術: デノイジングモジュール内のクロス注意力マップ集約方法
- Stable Diffusion: 効率的な画像生成モデル
- CLIP: 対比言語画像事前訓練技術
- U-Net: 画像分割タスクにおける成功した応用
- Stable Diffusionに基づく初のマルチモーダルヘイトスピーチデータセットの構築に成功
- 提案されたDeHaterモデルはマルチモーダルヘイト除去タスクに対する効果的なベースライン方法を提供
- 共有タスクの組織はこの分野の研究発展を推進
- パフォーマンス限界: 最高IoUスコアが0.55に過ぎず、方法にはさらなる改善の余地があることを示唆
- データスケール: データセットスケールが比較的小さい(2,411インスタンス)
- 言語限界: 主に英語コンテンツに焦点を当てており、多言語サポートが不足
- 評価の単一性: IoUのみを評価指標として使用しており、十分に包括的でない可能性
- LLM統合: 大規模言語モデルを使用してヘイトスピーチ軽減パイプラインの出力を解釈
- 多言語拡張: 他言語およびモダリティへの作業の拡張
- 方法改善: より正確なヘイトコンテンツ特定と除去技術の開発
- 問題の重要性: AI倫理と社会的責任の重要な問題を解決
- 方法の革新: Stable DiffusionとDAAMをヘイトスピーチ処理に組み合わせた初の試み
- データ貢献: 貴重なマルチモーダルヘイトスピーチデータセットを提供
- 開放性: 共有タスクを通じて分野の発展を促進
- 技術統合: 複数の最先端技術(CLIP、U-Net、FiLM)を巧みに組み合わせ
- パフォーマンス限界: 全体的なパフォーマンスレベルが低く、最高方法のIoUが0.55のみ
- 評価不足: 人的評価と定性的分析が不足
- 解釈可能性: モデル決定プロセスの説明が十分でない
- 汎化能力: 異なるタイプのヘイトコンテンツ間での方法の汎化能力を十分に検証していない
- 倫理的考慮: ヘイト画像生成が及ぼす可能性のある悪影響についての議論が不足
- 分野への貢献: マルチモーダルヘイトスピーチ検出に新しい研究方向を提供
- 実用的価値: ソーシャルメディアコンテンツ審査に技術基盤を提供
- 再現性: 詳細な方法説明とデータセットを提供
- 社会的意義: 責任あるAIの発展を推進
- ソーシャルメディア: プラットフォームコンテンツの自動審査とフィルタリング
- オンライン教育: 教育プラットフォームのコンテンツセキュリティ保証
- AI訓練: AIモデル訓練データ内の有害コンテンツのクリーニング
- 研究ツール: 関連研究にベンチマークデータセットと方法を提供
本論文は多くの関連研究を引用しており、以下を含みます:
- ヘイトスピーチ検出の古典的なデータセットと方法
- Stable DiffusionおよびCLIPなどの基礎技術
- 深層学習解釈可能性に関する研究
- マルチモーダル学習と注意力メカニズム研究
総合評価: これは重要な社会的意義と技術的革新を持つ論文です。パフォーマンスにはさらなる改善の余地がありますが、マルチモーダルヘイトスピーチ検出分野に貴重なデータリソースと方法基盤を提供し、責任あるAIの発展推進に積極的な意義を持ちます。