Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
Кто говорит, имеет значение: анализ влияния этнической принадлежности говорящего на классификацию ненавистнических высказываний
Большие языковые модели (LLMs) обладают огромным потенциалом применения в модерации контента и обнаружении ненавистнических высказываний. Однако эти модели демонстрируют уязвимость и предвзятость в отношении маргинализированных сообществ и диалектов. В данном исследовании изучается робастность LLMs при классификации ненавистнических высказываний путём внедрения явных и неявных маркеров этнической принадлежности говорящего во входные данные. Исследование показывает, что неявные диалектные маркеры приводят к изменению выходных данных модели чаще, чем явные маркеры, процент изменений варьируется в зависимости от этнической принадлежности, и более крупные модели демонстрируют большую робастность.
Центральный вопрос, который решает данное исследование: Какова робастность больших языковых моделей при обнаружении ненавистнических высказываний, когда входной текст содержит информацию об этнической принадлежности говорящего?
Практические потребности: Языковые технологии всё чаще используются для задач модерации контента, включая обнаружение ненавистнических высказываний, благодаря их способности обрабатывать большие объёмы данных
Проблемы предвзятости: Известно, что LLMs демонстрируют предвзятость в отношении маргинализированных сообществ и диалектов, приводя к несправедливому обращению и вреду в представлении
Уязвимость: LLMs показывают уязвимость, предвзятость и неопределённость при наличии дополнительной информации, не связанной с самой задачей
Предпочтение диалектов: Существующие исследования показывают, что эти модели отдают предпочтение американскому английскому, несмотря на использование различных английских диалектов в разных географических регионах
На основе вышеупомянутых проблем данная работа направлена на систематический анализ влияния идентичности говорящего на классификацию ненавистнических высказываний LLMs, заполняя пробел в существующих исследованиях, касающихся влияния идентичности пользователя.
Первое систематическое исследование: Новое исследование влияния идентичности говорящего на обнаружение ненавистнических высказываний LLMs
Двойной метод маркирования: Предложен систематический подход использования явных и неявных маркеров для информирования модели об идентичности говорящего
Комплексная экспериментальная оценка: Проведена комплексная оценка на 4 языковых моделях и 2 наборах данных, выявляющая уязвимость моделей в различных условиях
Важные выводы: Обнаружено, что неявные диалектные маркеры приводят к изменению выходных данных чаще, чем явные маркеры, и процент изменений варьируется в зависимости от этнической принадлежности
Входные данные: Английское предложение + маркер этнической принадлежности говорящего (явный или неявный)
Выходные данные: Классификация ненавистнических высказываний (Hateful/Non-Hateful)
Цель: Анализ степени влияния маркеров идентичности на результаты классификации
Исследования предвзятости LLM: Обширная литература документирует предвзятость в отношении маргинализированных сообществ и диалектов
Обнаружение ненавистнических высказываний: Традиционные методы в основном сосредоточены на самом контенте, меньше внимания уделяется идентичности говорящего
Кросс-культурная обработка естественного языка: Исследование различий в обработке языка в зависимости от культурного происхождения
Обработка диалектов: Внимание к производительности различных английских диалектов в задачах НЛП
Уязвимость распространена: Все протестированные LLMs демонстрируют различную степень уязвимости при внедрении маркеров этнической принадлежности говорящего
Неявное влияние больше: Диалектные особенности оказывают большее влияние на модель, чем явное упоминание идентичности
Размер повышает робастность: Более крупные модели демонстрируют большую робастность, но предвзятость всё ещё присутствует
Значительные различия по этнической принадлежности: Различные этнические идентичности приводят к значительным различиям в проценте изменений
Риск ложноотрицательных результатов: Модели склонны неправильно классифицировать ненавистнические высказывания как нененавистнические, что может привести к необнаружению вредоносного контента
Многоязычное расширение: Расширение на многоязычные наборы данных и другие наборы данных ненавистнических высказываний
Исследования интерпретируемости: Проведение дополнительных исследований интерпретируемости для оценки точного влияния конкретных фраз на закономерности предсказания модели
Стратегии смягчения: Разработка методов и техник для снижения предвзятости, связанной с идентичностью
Оценка в большем масштабе: Оценка на большем количестве моделей и больших наборах данных
Статья цитирует несколько важных исследований, включая:
Sap et al. (2019): Риск расовой предвзятости при обнаружении ненавистнических высказываний
Field et al. (2021, 2023): Исследование расизма в НЛП
Harris et al. (2022): Предвзятость афроамериканского английского при классификации ненавистнических высказываний
Ribeiro et al. (2020): Фреймворк поведенческого тестирования моделей НЛП CheckList
Общая оценка: Это исследовательская работа, имеющая важное значение в области этики ИИ и справедливости. Благодаря систематическому дизайну экспериментов и комплексной оценке, она выявляет проблемы предвзятости, связанной с идентичностью, в LLMs при выполнении задач обнаружения ненавистнических высказываний. Хотя в отношении решений требуется дальнейшее усиление, работа предоставляет ценные идеи и предупреждения для исследований и практики в этой области.