The rise in harmful online content not only distorts public discourse but also poses significant challenges to maintaining a healthy digital environment. In response to this, we introduce a multimodal dataset uniquely crafted for identifying hate in digital content. Central to our methodology is the innovative application of watermarked, stability-enhanced, stable diffusion techniques combined with the Digital Attention Analysis Module (DAAM). This combination is instrumental in pinpointing the hateful elements within images, thereby generating detailed hate attention maps, which are used to blur these regions from the image, thereby removing the hateful sections of the image. We release this data set as a part of the dehate shared task. This paper also describes the details of the shared task. Furthermore, we present DeHater, a vision-language model designed for multimodal dehatification tasks. Our approach sets a new standard in AI-driven image hate detection given textual prompts, contributing to the development of more ethical AI applications in social media.
- ID статьи: 2509.21787
- Название: DeHate: A Stable Diffusion-based Multimodal Approach to Mitigate Hate Speech in Images
- Авторы: Dwip Dalal, Gautam Vashishtha, Anku Rani, Aishwarya Reganti, Parth Patwa, Mohd Sarique, Chandan Gupta, Keshav Nath, Viswanatha Reddy, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal
- Классификация: cs.CV cs.CL
- Конференция: Defactify 3: Third Workshop on Multimodal Fact Checking and Hate Speech Detection, совместно с AAAI 2024
- Ссылка на статью: https://arxiv.org/abs/2509.21787
Рост вредоносного контента в интернете не только искажает общественный дискурс, но и создает серьезные проблемы для поддержания здоровой цифровой среды. В связи с этим в статье представлен специализированный многомодальный набор данных для выявления ненавистнических высказываний в цифровом контенте. Основу методологии составляет инновационное применение водяных знаков и стабилизированной технологии Stable Diffusion в сочетании с модулем анализа цифрового внимания (DAAM). Такая комбинация позволяет точно локализовать элементы ненависти в изображениях, генерировать детальные карты внимания к ненависти для размытия этих областей и удаления ненавистнических компонентов из изображений. Авторы выпустили этот набор данных как часть общей задачи DeHate и предложили DeHater — модель визуально-языкового взаимодействия, специально разработанную для многомодальной задачи удаления ненавистнических высказываний.
Основная проблема, которую решает данное исследование, — это выявление и смягчение ненавистнических высказываний в многомодальной среде (в частности, изображение + текст). С быстрым развитием приложений искусственного интеллекта большие языковые модели (LLM) содержат ненавистнический контент в своих обучающих данных, что не только снижает практическую применимость моделей, но и вызывает серьезные этические проблемы.
- Здоровье цифровой среды: Резкий рост ненавистнического контента в интернете серьезно влияет на качество общественного дискурса
- Этика ИИ: Ненавистнический контент в обучающих данных напрямую влияет на надежность и этическую целостность систем ИИ
- Социальная ответственность: Необходимо разработать ответственные системы ИИ для борьбы с ненавистническими высказываниями в социальных сетях
- Отсутствие высококачественных многомодальных наборов данных для выявления ненавистнических высказываний
- Существующие методы сосредоточены в основном на одной модальности (текст или изображение), отсутствует эффективное многомодальное слияние
- Отсутствие специализированных методов локализации и удаления ненавистнического контента
На основе потребности в высококачественных наборах данных и технических проблем многомодального выявления ненавистнических высказываний данная работа направлена на создание инновационного набора данных и методологической базы для развития ответственного ИИ.
- Инновационный метод построения набора данных: Предложен метод генерации многомодального набора данных о ненавистнических высказываниях на основе Stable Diffusion и DAAM
- Многомодальная модель удаления ненавистнических высказываний: Разработана модель DeHater, способная выполнять неконтролируемое маскирование ненавистнического контента в изображениях под руководством текстовых подсказок
- Организация общей задачи: Выпущен набор данных DeHate, содержащий 2411 экземпляров, и организована соответствующая общая задача
- Инновация в технических методах: Инновационный дизайн архитектуры, объединяющий кодировщик CLIP, архитектуру U-Net и модуляцию FiLM
В статье определена задача многомодального удаления ненавистнических высказываний из изображений: дано изображение, содержащее ненавистнический контент, и соответствующая текстовая подсказка, модель должна идентифицировать и замаскировать области ненависти в изображении, создав версию изображения без ненавистнических высказываний.
- Набор данных Hatenorm: Использование параллельного корпуса вручную аннотированных ненавистнических текстов и их нормализованных версий
- Генерация Stable Diffusion: Использование модели stable-diffusion-2-base для преобразования ненавистнических текстов в визуальные представления
- Генерация изображений: Извлечение ключевых слов из ненавистнических текстов для построения подсказок, использование Stable Diffusion для генерации соответствующих изображений
- Генерация карт внимания: Применение технологии DAAM для создания тепловых карт, выделяющих релевантность конкретных пикселей компонентам подсказки
- Выборочное размытие:
- Вычисление глобальных значений тепловой карты и установление порога для создания бинарной маски
- Установка пикселей с высокими значениями тепловой карты в черный цвет (0,0,0)
- Вычисление среднего цвета локальной окрестности для отмеченных пикселей и его применение
DeHater использует подход неконтролируемого маскирования изображений, направляя идентификацию и маскирование вредоносных областей в изображениях через текстовые подсказки.
- Кодировщик CLIP:
- Использование замороженной модели CLIP в качестве кодировщика
- Использование преимуществ предварительного обучения на разнообразных парах изображение-текст
- Извлечение богатых многомодальных представлений признаков
- Соединения, вдохновленные U-Net:
- Применение конструкции пропускных соединений архитектуры U-Net
- Передача локальной информации от кодировщика CLIP декодеру
- Сохранение компактности декодера при сохранении ключевых деталей
- Механизм интеграции признаков:
- Интеграция активаций кодировщика (включая токен CLS) в каждый блок трансформера декодера
- Обогащение понимания контекста декодером
- Модуляция FiLM:
- Использование технологии Feature-wise Linear Modulation
- Модуляция активаций входа декодера через вектор условия
- Повышение способности декодера сосредоточиться и точно сегментировать ненавистнический контент
- Сеть обучаемых проекций:
- Объединение нескольких встраиваний ненавистнических фрагментов в единую проекцию
- Достижение тонкого и эффективного сжатия разнообразных элементов ненависти
Модель выводит бинаризованное изображение, четко идентифицирующее и маскирующее области исходного контента, которые считаются ненавистническими.
- Многомодальное слияние: Первое объединение Stable Diffusion и DAAM для выявления ненавистнических высказываний
- Механизм внимания: Инновационное использование карт перекрестного внимания для локализации ненавистнического контента
- Дизайн архитектуры: Комбинированный дизайн архитектуры CLIP + U-Net + FiLM
- Неконтролируемое обучение: Реализация неконтролируемого маскирования изображений на основе текстовых подсказок
- Набор данных DeHate: Всего 2411 экземпляров
- Обучающий набор: 1687 экземпляров
- Тестовый набор: 724 экземпляра
- Состав данных: Каждый экземпляр содержит исходное сгенерированное изображение и изображение с размытыми ненавистническими компонентами
Использование пересечения над объединением (IoU) в качестве основной метрики оценки, вычисляющей перекрытие между предсказанными размытыми компонентами и истинными размытыми компонентами.
- Участвующие команды: 20+ зарегистрированных, 5 действительных представлений
- Метод оценки: Ранжирование на основе оценок IoU на тестовом наборе
| Место | Название команды | Оценка IoU |
|---|
| 1 | UniteToModerate | 0.55 |
| 2 | PaulJane | 0.51 |
| 3 | Baseline (данная работа) | 0.49 |
| 4 | Markans | 0.48 |
| 5 | Sanskarfc | 0.47 |
| 6 | rachitmodi | 0.44 |
- Производительность базовой модели: Предложенный в статье базовый метод достигает оценки IoU 0.49
- Сложность задачи: Лучшая производительность всего 0.55 указывает на значительную сложность задачи
- Разрыв в производительности: Небольшие различия в производительности между участвующими системами указывают на значительное пространство для улучшения
Команда UniteToModerate использовала комбинацию моделей NExT-Chat и UniFusion:
- NExT-Chat: Обеспечивает начальное генерирование маски через метод pix2emb
- UniFusion: Повышает точность благодаря иерархическому слиянию визуальных и справочных признаков
- Одномодальные исследования: Охватывают выявление текстовых ненавистнических высказываний на английском и других языках
- Многомодальные исследования: В последние годы расширились на кросс-модальное выявление ненависти
- Вклады в наборы данных: Наборы данных memotion, Multioff, OLID, MMHS150K и другие
- Механизмы внимания: Применение карт перекрестного внимания в визуальных моделях
- Модели диффузии: Исследования интерпретируемости моделей Latent Diffusion Models
- Технология DAAM: Методы агрегирования карт перекрестного внимания в модулях денойзинга
- Stable Diffusion: Эффективная модель генерации изображений
- CLIP: Технология контрастивного предварительного обучения язык-изображение
- U-Net: Успешное применение в задачах сегментации изображений
- Успешно построен первый многомодальный набор данных о ненавистнических высказываниях на основе Stable Diffusion
- Предложенная модель DeHater обеспечивает эффективный базовый метод для многомодальной задачи удаления ненавистнических высказываний
- Организация общей задачи способствовала развитию исследований в этой области
- Ограничения производительности: Лучшая оценка IoU всего 0.55 указывает на необходимость дальнейшего совершенствования методов
- Размер набора данных: Относительно небольшой размер набора данных (2411 экземпляров)
- Языковые ограничения: Основное внимание уделяется контенту на английском языке, отсутствует поддержка многоязычности
- Единственная метрика оценки: Использование только IoU в качестве метрики оценки может быть недостаточно полным
- Интеграция LLM: Использование больших языковых моделей для интерпретации выходных данных конвейера смягчения ненавистнических высказываний
- Многоязычное расширение: Расширение работы на другие языки и модальности
- Улучшение методов: Разработка более точных методов локализации и удаления ненавистнического контента
- Важность проблемы: Решение важных проблем этики ИИ и социальной ответственности
- Методологическая инновация: Первое объединение Stable Diffusion и DAAM для обработки ненавистнических высказываний
- Вклад в наборы данных: Предоставление ценного многомодального набора данных о ненавистнических высказываниях
- Открытость: Содействие развитию области через организацию общей задачи
- Интеграция технологий: Умелое объединение передовых технологий (CLIP, U-Net, FiLM)
- Ограниченная производительность: Общий уровень производительности невысок, лучший метод достигает IoU всего 0.55
- Недостаточная оценка: Отсутствие человеческой оценки и качественного анализа
- Интерпретируемость: Недостаточное объяснение процесса принятия решений моделью
- Способность к обобщению: Недостаточная проверка способности метода обобщаться на различные типы ненавистнического контента
- Этические соображения: Недостаточное обсуждение потенциальных негативных последствий генерации ненавистнических изображений
- Вклад в область: Предоставление нового направления исследований для многомодального выявления ненавистнических высказываний
- Практическая ценность: Предоставление технологической базы для автоматической модерации контента в социальных сетях
- Воспроизводимость: Предоставление подробного описания методологии и набора данных
- Социальное значение: Содействие развитию ответственного ИИ
- Социальные сети: Автоматическая модерация и фильтрация контента платформ
- Онлайн-образование: Обеспечение безопасности контента на образовательных платформах
- Обучение ИИ: Очистка вредоносного контента в обучающих данных моделей ИИ
- Исследовательские инструменты: Предоставление эталонного набора данных и методов для соответствующих исследований
Статья цитирует большое количество связанных работ, включая:
- Классические наборы данных и методы выявления ненавистнических высказываний
- Базовые технологии, такие как Stable Diffusion и CLIP
- Исследования интерпретируемости глубокого обучения
- Исследования многомодального обучения и механизмов внимания
Общая оценка: Это статья с важным социальным значением и технологическими инновациями. Хотя в производительности есть место для улучшения, она предоставляет ценные ресурсы данных и методологическую базу для области многомодального выявления ненавистнических высказываний, имея позитивное значение для развития ответственного ИИ.