Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
대규모 언어 모델(LLMs)은 콘텐츠 중재 및 혐오 언론 탐지에 막대한 응용 잠재력을 가지고 있습니다. 그러나 이러한 모델은 소수 집단과 방언에 대한 취약성과 편견을 보입니다. 본 연구는 입력에 화자의 민족성에 대한 명시적 및 암묵적 표시를 주입하여 혐오 언론 분류에서 LLMs의 견고성을 조사합니다. 연구 결과 암묵적 방언 표시가 명시적 표시보다 모델 출력 반전을 더 쉽게 유발하며, 반전 비율은 민족성에 따라 다르고, 더 큰 모델이 더 견고한 성능을 보입니다.
Ribeiro et al. (2020): NLP 모델의 행동 테스트 프레임워크 CheckList
전체 평가: 이것은 AI 윤리 및 공정성 분야에서 중요한 의미를 가진 연구 논문입니다. 체계적인 실험 설계와 포괄적인 평가를 통해 혐오 언론 탐지 작업에서 LLMs의 신원 편견 문제를 공개합니다. 해결책 측면에서 강화할 여지가 있지만, 이 분야의 연구 및 실무에 귀중한 통찰력과 경고를 제공합니다.