2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

Кто говорит, имеет значение: анализ влияния этнической принадлежности говорящего на классификацию ненавистнических высказываний

Основная информация

ID статьи: 2410.20490
Название: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Авторы: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
Классификация: cs.CL cs.AI
Дата публикации: 12 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2410.20490

Аннотация

Большие языковые модели (LLMs) обладают огромным потенциалом применения в модерации контента и обнаружении ненавистнических высказываний. Однако эти модели демонстрируют уязвимость и предвзятость в отношении маргинализированных сообществ и диалектов. В данном исследовании изучается робастность LLMs при классификации ненавистнических высказываний путём внедрения явных и неявных маркеров этнической принадлежности говорящего во входные данные. Исследование показывает, что неявные диалектные маркеры приводят к изменению выходных данных модели чаще, чем явные маркеры, процент изменений варьируется в зависимости от этнической принадлежности, и более крупные модели демонстрируют большую робастность.

Исследовательский контекст и мотивация

Основная проблема

Центральный вопрос, который решает данное исследование: Какова робастность больших языковых моделей при обнаружении ненавистнических высказываний, когда входной текст содержит информацию об этнической принадлежности говорящего?

Значимость

Практические потребности: Языковые технологии всё чаще используются для задач модерации контента, включая обнаружение ненавистнических высказываний, благодаря их способности обрабатывать большие объёмы данных
Высокорисковые задачи: Обнаружение ненавистнических высказываний является высокорисковой задачей, требующей осторожного развёртывания LLMs
Глобальные вызовы: С расширением глобального внедрения LLMs необходимо обеспечить инклюзивность для людей всех национальностей

Ограничения существующих подходов

Проблемы предвзятости: Известно, что LLMs демонстрируют предвзятость в отношении маргинализированных сообществ и диалектов, приводя к несправедливому обращению и вреду в представлении
Уязвимость: LLMs показывают уязвимость, предвзятость и неопределённость при наличии дополнительной информации, не связанной с самой задачей
Предпочтение диалектов: Существующие исследования показывают, что эти модели отдают предпочтение американскому английскому, несмотря на использование различных английских диалектов в разных географических регионах

Исследовательская мотивация

На основе вышеупомянутых проблем данная работа направлена на систематический анализ влияния идентичности говорящего на классификацию ненавистнических высказываний LLMs, заполняя пробел в существующих исследованиях, касающихся влияния идентичности пользователя.

Основные вклады

Первое систематическое исследование: Новое исследование влияния идентичности говорящего на обнаружение ненавистнических высказываний LLMs
Двойной метод маркирования: Предложен систематический подход использования явных и неявных маркеров для информирования модели об идентичности говорящего
Комплексная экспериментальная оценка: Проведена комплексная оценка на 4 языковых моделях и 2 наборах данных, выявляющая уязвимость моделей в различных условиях
Важные выводы: Обнаружено, что неявные диалектные маркеры приводят к изменению выходных данных чаще, чем явные маркеры, и процент изменений варьируется в зависимости от этнической принадлежности

Подробное описание методологии

Определение задачи

Входные данные: Английское предложение + маркер этнической принадлежности говорящего (явный или неявный) Выходные данные: Классификация ненавистнических высказываний (Hateful/Non-Hateful) Цель: Анализ степени влияния маркеров идентичности на результаты классификации

Дизайн эксперимента

1. Выбор языковой идентичности

Выбраны 5 национальностей/групп с различными английскими диалектами:

Indian (индийский)
Singaporean (сингапурский)
British (британский)
Jamaican (ямайский)
African-American (афроамериканский)

2. Методы внедрения маркеров

Явные маркеры (Explicit Marker): Прямое упоминание языковой идентичности в подсказке

Пример: The [ethnicity] person said, "[input]"

Неявные маркеры (Implicit Marker): Неявное указание идентичности говорящего путём внедрения диалектных особенностей, включая:

Специфичные сленговые слова (например, сингапурское "mah", британское "mate")
Культурные темы и фразы
Смешивание кодов
Региональные орфографические варианты

3. Генерация диалектных данных

Использование Llama-3-70B для генерации диалектных данных с помощью обучения на нескольких примерах:

Температура установлена на 0 для обеспечения детерминированного выхода
Включены инструкции по избеганию фильтров контента
Проведена ручная проверка для обеспечения качества

Проверка качества

Многомерная оценка сгенерированных диалектных данных:

Точность диалекта: Точно ли словарь отражает диалект данной языковой идентичности
Сохранение контекста: Сохраняется ли исходная семантика и диалект
Беглость и грамматика: Является ли сгенерированный текст беглым и грамматически правильным
Использование латинского письма: Использует ли сгенерированное предложение английский алфавит

Результаты ручной оценки показывают среднюю точность диалекта 4/5 баллов с низкой дисперсией, что указывает на высокое качество генерации.

Экспериментальная установка

Наборы данных

MPBHSD: Из Twitter, 4Chan и Reddit, содержит 600 ненавистнических высказываний и 2400 нененавистнических высказываний
HateXplain: Из Twitter и Gab, выборка 3000 предложений, включая 2094 ненавистнических высказывания и 906 нененавистнических высказываний

Модели

LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
Традиционные модели: Модель BERT, дообученная на наборе данных HateXplain
Стратегии подсказок: Классификация с нулевым примером и обучение в контексте (ICL)

Метрики оценки

Основная метрика: Процент изменения выходных данных модели
Типы изменений:
- NH→H: Преобразование нененавистнического в ненавистническое (ложноположительный результат)
- H→NH: Преобразование ненавистнического в нененавистническое (ложноотрицательный результат)

Результаты экспериментов

Базовая производительность

При отсутствии маркеров идентичности модели показывают хорошую производительность:

Набор данных MPBHSD: точность до 90%
Набор данных HateXplain: точность до 80%

Основные выводы

1. Влияние типа маркера

Неявные маркеры приводят к изменению выходных данных модели чаще, чем явные маркеры
За исключением Llama-3-8B, все модели показывают значительно более высокий процент изменений при неявных маркерах (p < 0,05)

2. Эффект размера модели

Более крупные и новые модели (такие как Llama-3-70B и GPT-4o) демонстрируют большую робастность
Процент изменений ниже, производительность более стабильна

3. Влияние техники подсказок

Обучение в контексте (ICL) обычно приводит к более низкому проценту изменений, чем классификация с нулевым примером
Предоставление примеров обеспечивает более стабильный и последовательный выход модели

4. Различия по этнической принадлежности

Существуют значительные различия в проценте изменений для различных этнических идентичностей:

На более крупных моделях данные британского и афроамериканского диалектов показывают более высокий процент изменений H→NH
Тест McNemar показывает, что идентичность говорящего оказывает значительное влияние на результаты классификации во всех моделях (p < 0,05)

5. Влияние исходного ярлыка

Предсказания нененавистнических высказываний (NH) обычно остаются нененавистническими при различных моделях и идентичностях говорящего
Предсказания ненавистнических высказываний (H) чаще преобразуются в нененавистнические, увеличивая ложноотрицательный результат

6. Анализ целевых групп

HateXplain-BERT показывает больше изменений на некоторых диалектах при нацеливании на религиозные группы
GPT-4o показывает изменения на всех диалектах при целевых группах, связанных с сексуальной ориентацией

Особый случай: Llama-3-8B

Эта модель демонстрирует аномально высокий процент изменений:

Вариант ICL набора данных MPBHSD показывает примерно 40% изменений
Часто не может обнаружить иронию в явных и неявных подсказках
Чрезмерно реагирует на негативное фреймирование
Чаще неправильно классифицирует более короткие входные данные

Абляционные эксперименты

Точность идентификации языковой идентичности

Использование оценивателя GPT-4o для проверки способности модели распознавать диалекты:

Афроамериканский: 96,3%
Британский: 99,8%
Индийский: 100%
Сингапурский: 99,8%
Ямайский: 100%

Высокая точность идентификации подтверждает эффективность диалектных особенностей.

Сравнение с другими синтетическими модификациями

Тестирование влияния других синтетических модификаций (перефразирование, изменение залога, ограничение длины) на процент изменений:

Перефразирование: H→NH 0,17%, NH→H 0,0%
Изменение залога: H→NH 0,08%, NH→H 0,02%
Ограничение длины: H→NH 0,16%, NH→H 0,01%

Процент изменений при этих модификациях значительно ниже, чем при внедрении диалекта, что подтверждает особое влияние маркеров идентичности.

Связанные работы

Основные направления исследований

Исследования предвзятости LLM: Обширная литература документирует предвзятость в отношении маргинализированных сообществ и диалектов
Обнаружение ненавистнических высказываний: Традиционные методы в основном сосредоточены на самом контенте, меньше внимания уделяется идентичности говорящего
Кросс-культурная обработка естественного языка: Исследование различий в обработке языка в зависимости от культурного происхождения
Обработка диалектов: Внимание к производительности различных английских диалектов в задачах НЛП

Инновации данной работы

Первое систематическое исследование влияния идентичности говорящего на классификацию ненавистнических высказываний
Предложен двойной подход с явными и неявными маркерами
Комплексная оценка на нескольких моделях и наборах данных

Заключение и обсуждение

Основные выводы

Уязвимость распространена: Все протестированные LLMs демонстрируют различную степень уязвимости при внедрении маркеров этнической принадлежности говорящего
Неявное влияние больше: Диалектные особенности оказывают большее влияние на модель, чем явное упоминание идентичности
Размер повышает робастность: Более крупные модели демонстрируют большую робастность, но предвзятость всё ещё присутствует
Значительные различия по этнической принадлежности: Различные этнические идентичности приводят к значительным различиям в проценте изменений
Риск ложноотрицательных результатов: Модели склонны неправильно классифицировать ненавистнические высказывания как нененавистнические, что может привести к необнаружению вредоносного контента

Ограничения

Ограничения диалектных данных: Отсутствие ручной аннотации ненавистнических высказываний на различных диалектах
Ограниченный диапазон моделей: Из-за ограничений вычислительных ресурсов не удалось протестировать больше "безопасных" моделей, таких как Claude
Ограничения наборов данных: Ограничение английскими смешанными диалектными наборами данных
Предвзятость синтетических данных: Сгенерированные диалектные данные могут содержать неизвестные предубеждения автора

Направления будущих исследований

Многоязычное расширение: Расширение на многоязычные наборы данных и другие наборы данных ненавистнических высказываний
Исследования интерпретируемости: Проведение дополнительных исследований интерпретируемости для оценки точного влияния конкретных фраз на закономерности предсказания модели
Стратегии смягчения: Разработка методов и техник для снижения предвзятости, связанной с идентичностью
Оценка в большем масштабе: Оценка на большем количестве моделей и больших наборах данных

Глубокая оценка

Преимущества

Важность проблемы: Исследование важной проблемы в области этики ИИ и справедливости
Методологическая инновация: Предложен систематический подход с явными и неявными маркерами
Комплексные эксперименты: Комплексная оценка на нескольких моделях, наборах данных и этнических идентичностях
Надёжные результаты: Результаты проверены статистическими тестами на значимость
Практическая ценность: Предоставляет важное предупреждение для развёртывания LLMs в высокорисковых задачах

Недостатки

Причинно-следственные связи: Хотя наблюдаются явления изменений, отсутствует глубокий анализ конкретных механизмов причин
Решения по смягчению: В основном указывает на проблемы, но не предоставляет конкретные решения
Ограничения оценки: Относительно небольшой размер выборки ручной оценки (50 образцов на диалект)
Репрезентативность диалектов: Выбранные диалекты могут не полностью представлять микродиалекты и сообщества в каждом регионе

Влияние

Академический вклад: Предоставляет новую перспективу и методологию для исследований справедливости LLM
Практическое значение: Имеет важное руководящее значение для проектирования и развёртывания систем модерации контента
Политическое влияние: Может повлиять на регулирование и стандартизацию систем ИИ
Последующие исследования: Закладывает основу для последующих исследований в смежных областях

Применимые сценарии

Системы модерации контента: Системы обнаружения ненавистнических высказываний на платформах социальных сетей
Оценка этики ИИ: Оценка справедливости и предвзятости LLM
Многокультурные системы ИИ: Приложения ИИ, ориентированные на глобальных пользователей
Соответствие нормативным требованиям: Аудит справедливости и проверка соответствия систем ИИ

Библиография

Статья цитирует несколько важных исследований, включая:

Sap et al. (2019): Риск расовой предвзятости при обнаружении ненавистнических высказываний
Field et al. (2021, 2023): Исследование расизма в НЛП
Harris et al. (2022): Предвзятость афроамериканского английского при классификации ненавистнических высказываний
Ribeiro et al. (2020): Фреймворк поведенческого тестирования моделей НЛП CheckList

Общая оценка: Это исследовательская работа, имеющая важное значение в области этики ИИ и справедливости. Благодаря систематическому дизайну экспериментов и комплексной оценке, она выявляет проблемы предвзятости, связанной с идентичностью, в LLMs при выполнении задач обнаружения ненавистнических высказываний. Хотя в отношении решений требуется дальнейшее усиление, работа предоставляет ценные идеи и предупреждения для исследований и практики в этой области.