2025-11-12T11:16:10.224319

DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images

Dalal, Vashishtha, Rani et al.

The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.

academic

DeHate: Многомодальный подход на основе Stable Diffusion для смягчения ненавистнических высказываний в изображениях

Основная информация

ID статьи: 2509.21787
Название: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
Авторы: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
Классификация: cs.CV cs.CL
Конференция: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, совместно с AAAI 2024
Ссылка на статью: https://arxiv.org/abs/2509.21787

Аннотация

Рост вредоносного контента в интернете не только искажает общественный дискурс, но и создает серьезные проблемы для поддержания здоровой цифровой среды. В связи с этим в статье представлен специализированный многомодальный набор данных для выявления ненавистнических высказываний в цифровом контенте. Основу методологии составляет инновационное применение водяных знаков и стабилизированной технологии Stable Diffusion в сочетании с модулем анализа цифрового внимания (DAAM). Такая комбинация позволяет точно локализовать элементы ненависти в изображениях, генерировать детальные карты внимания к ненависти для размытия этих областей и удаления ненавистнических компонентов из изображений. Авторы выпустили этот набор данных как часть общей задачи DeHate и предложили DeHater — модель визуально-языкового взаимодействия, специально разработанную для многомодальной задачи удаления ненавистнических высказываний.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, — это выявление и смягчение ненавистнических высказываний в многомодальной среде (в частности, изображение + текст). С быстрым развитием приложений искусственного интеллекта большие языковые модели (LLM) содержат ненавистнический контент в своих обучающих данных, что не только снижает практическую применимость моделей, но и вызывает серьезные этические проблемы.

Значимость

Здоровье цифровой среды: Резкий рост ненавистнического контента в интернете серьезно влияет на качество общественного дискурса
Этика ИИ: Ненавистнический контент в обучающих данных напрямую влияет на надежность и этическую целостность систем ИИ
Социальная ответственность: Необходимо разработать ответственные системы ИИ для борьбы с ненавистническими высказываниями в социальных сетях

Ограничения существующих методов

Отсутствие высококачественных многомодальных наборов данных для выявления ненавистнических высказываний
Существующие методы сосредоточены в основном на одной модальности (текст или изображение), отсутствует эффективное многомодальное слияние
Отсутствие специализированных методов локализации и удаления ненавистнического контента

Исследовательская мотивация

На основе потребности в высококачественных наборах данных и технических проблем многомодального выявления ненавистнических высказываний данная работа направлена на создание инновационного набора данных и методологической базы для развития ответственного ИИ.

Основные вклады

Инновационный метод построения набора данных: Предложен метод генерации многомодального набора данных о ненавистнических высказываниях на основе Stable Diffusion и DAAM
Многомодальная модель удаления ненавистнических высказываний: Разработана модель DeHater, способная выполнять неконтролируемое маскирование ненавистнического контента в изображениях под руководством текстовых подсказок
Организация общей задачи: Выпущен набор данных DeHate, содержащий 2411 экземпляров, и организована соответствующая общая задача
Инновация в технических методах: Инновационный дизайн архитектуры, объединяющий кодировщик CLIP, архитектуру U-Net и модуляцию FiLM

Подробное описание методологии

Определение задачи

В статье определена задача многомодального удаления ненавистнических высказываний из изображений: дано изображение, содержащее ненавистнический контент, и соответствующая текстовая подсказка, модель должна идентифицировать и замаскировать области ненависти в изображении, создав версию изображения без ненавистнических высказываний.

Метод построения набора данных

Основные источники данных

Набор данных Hatenorm: Использование параллельного корпуса вручную аннотированных ненавистнических текстов и их нормализованных версий
Генерация Stable Diffusion: Использование модели stable-diffusion-2-base для преобразования ненавистнических текстов в визуальные представления

Основной технический процесс

Генерация изображений: Извлечение ключевых слов из ненавистнических текстов для построения подсказок, использование Stable Diffusion для генерации соответствующих изображений
Генерация карт внимания: Применение технологии DAAM для создания тепловых карт, выделяющих релевантность конкретных пикселей компонентам подсказки
Выборочное размытие:
- Вычисление глобальных значений тепловой карты и установление порога для создания бинарной маски
- Установка пикселей с высокими значениями тепловой карты в черный цвет (0,0,0)
- Вычисление среднего цвета локальной окрестности для отмеченных пикселей и его применение

Архитектура модели DeHater

Общая концепция проектирования

DeHater использует подход неконтролируемого маскирования изображений, направляя идентификацию и маскирование вредоносных областей в изображениях через текстовые подсказки.

Основные компоненты

Кодировщик CLIP:
- Использование замороженной модели CLIP в качестве кодировщика
- Использование преимуществ предварительного обучения на разнообразных парах изображение-текст
- Извлечение богатых многомодальных представлений признаков
Соединения, вдохновленные U-Net:
- Применение конструкции пропускных соединений архитектуры U-Net
- Передача локальной информации от кодировщика CLIP декодеру
- Сохранение компактности декодера при сохранении ключевых деталей
Механизм интеграции признаков:
- Интеграция активаций кодировщика (включая токен CLS) в каждый блок трансформера декодера
- Обогащение понимания контекста декодером
Модуляция FiLM:
- Использование технологии Feature-wise Linear Modulation
- Модуляция активаций входа декодера через вектор условия
- Повышение способности декодера сосредоточиться и точно сегментировать ненавистнический контент
Сеть обучаемых проекций:
- Объединение нескольких встраиваний ненавистнических фрагментов в единую проекцию
- Достижение тонкого и эффективного сжатия разнообразных элементов ненависти

Механизм вывода

Модель выводит бинаризованное изображение, четко идентифицирующее и маскирующее области исходного контента, которые считаются ненавистническими.

Технические инновации

Многомодальное слияние: Первое объединение Stable Diffusion и DAAM для выявления ненавистнических высказываний
Механизм внимания: Инновационное использование карт перекрестного внимания для локализации ненавистнического контента
Дизайн архитектуры: Комбинированный дизайн архитектуры CLIP + U-Net + FiLM
Неконтролируемое обучение: Реализация неконтролируемого маскирования изображений на основе текстовых подсказок

Экспериментальная установка

Набор данных

Набор данных DeHate: Всего 2411 экземпляров
- Обучающий набор: 1687 экземпляров
- Тестовый набор: 724 экземпляра
Состав данных: Каждый экземпляр содержит исходное сгенерированное изображение и изображение с размытыми ненавистническими компонентами

Метрики оценки

Использование пересечения над объединением (IoU) в качестве основной метрики оценки, вычисляющей перекрытие между предсказанными размытыми компонентами и истинными размытыми компонентами.

Установка общей задачи

Участвующие команды: 20+ зарегистрированных, 5 действительных представлений
Метод оценки: Ранжирование на основе оценок IoU на тестовом наборе

Результаты экспериментов

Основные результаты

Место	Название команды	Оценка IoU
1	UniteToModerate	0.55
2	PaulJane	0.51
3	Baseline (данная работа)	0.49
4	Markans	0.48
5	Sanskarfc	0.47
6	rachitmodi	0.44

Анализ результатов

Производительность базовой модели: Предложенный в статье базовый метод достигает оценки IoU 0.49
Сложность задачи: Лучшая производительность всего 0.55 указывает на значительную сложность задачи
Разрыв в производительности: Небольшие различия в производительности между участвующими системами указывают на значительное пространство для улучшения

Анализ победившего метода

Команда UniteToModerate использовала комбинацию моделей NExT-Chat и UniFusion:

NExT-Chat: Обеспечивает начальное генерирование маски через метод pix2emb
UniFusion: Повышает точность благодаря иерархическому слиянию визуальных и справочных признаков

Связанные работы

Исследования выявления ненавистнических высказываний

Одномодальные исследования: Охватывают выявление текстовых ненавистнических высказываний на английском и других языках
Многомодальные исследования: В последние годы расширились на кросс-модальное выявление ненависти
Вклады в наборы данных: Наборы данных memotion, Multioff, OLID, MMHS150K и другие

Интерпретируемость глубокого обучения

Механизмы внимания: Применение карт перекрестного внимания в визуальных моделях
Модели диффузии: Исследования интерпретируемости моделей Latent Diffusion Models
Технология DAAM: Методы агрегирования карт перекрестного внимания в модулях денойзинга

Технологическая база

Stable Diffusion: Эффективная модель генерации изображений
CLIP: Технология контрастивного предварительного обучения язык-изображение
U-Net: Успешное применение в задачах сегментации изображений

Выводы и обсуждение

Основные выводы

Успешно построен первый многомодальный набор данных о ненавистнических высказываниях на основе Stable Diffusion
Предложенная модель DeHater обеспечивает эффективный базовый метод для многомодальной задачи удаления ненавистнических высказываний
Организация общей задачи способствовала развитию исследований в этой области

Ограничения

Ограничения производительности: Лучшая оценка IoU всего 0.55 указывает на необходимость дальнейшего совершенствования методов
Размер набора данных: Относительно небольшой размер набора данных (2411 экземпляров)
Языковые ограничения: Основное внимание уделяется контенту на английском языке, отсутствует поддержка многоязычности
Единственная метрика оценки: Использование только IoU в качестве метрики оценки может быть недостаточно полным

Направления будущих исследований

Интеграция LLM: Использование больших языковых моделей для интерпретации выходных данных конвейера смягчения ненавистнических высказываний
Многоязычное расширение: Расширение работы на другие языки и модальности
Улучшение методов: Разработка более точных методов локализации и удаления ненавистнического контента

Глубокая оценка

Преимущества

Важность проблемы: Решение важных проблем этики ИИ и социальной ответственности
Методологическая инновация: Первое объединение Stable Diffusion и DAAM для обработки ненавистнических высказываний
Вклад в наборы данных: Предоставление ценного многомодального набора данных о ненавистнических высказываниях
Открытость: Содействие развитию области через организацию общей задачи
Интеграция технологий: Умелое объединение передовых технологий (CLIP, U-Net, FiLM)

Недостатки

Ограниченная производительность: Общий уровень производительности невысок, лучший метод достигает IoU всего 0.55
Недостаточная оценка: Отсутствие человеческой оценки и качественного анализа
Интерпретируемость: Недостаточное объяснение процесса принятия решений моделью
Способность к обобщению: Недостаточная проверка способности метода обобщаться на различные типы ненавистнического контента
Этические соображения: Недостаточное обсуждение потенциальных негативных последствий генерации ненавистнических изображений

Влияние

Вклад в область: Предоставление нового направления исследований для многомодального выявления ненавистнических высказываний
Практическая ценность: Предоставление технологической базы для автоматической модерации контента в социальных сетях
Воспроизводимость: Предоставление подробного описания методологии и набора данных
Социальное значение: Содействие развитию ответственного ИИ

Применимые сценарии

Социальные сети: Автоматическая модерация и фильтрация контента платформ
Онлайн-образование: Обеспечение безопасности контента на образовательных платформах
Обучение ИИ: Очистка вредоносного контента в обучающих данных моделей ИИ
Исследовательские инструменты: Предоставление эталонного набора данных и методов для соответствующих исследований

Библиография

Статья цитирует большое количество связанных работ, включая:

Классические наборы данных и методы выявления ненавистнических высказываний
Базовые технологии, такие как Stable Diffusion и CLIP
Исследования интерпретируемости глубокого обучения
Исследования многомодального обучения и механизмов внимания

Общая оценка: Это статья с важным социальным значением и технологическими инновациями. Хотя в производительности есть место для улучшения, она предоставляет ценные ресурсы данных и методологическую базу для области многомодального выявления ненавистнических высказываний, имея позитивное значение для развития ответственного ИИ.