2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

基本信息

论文ID: 2410.20490
标题: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
作者: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
分类: cs.CL cs.AI
发表时间: 2025年10月12日 (arXiv v2)
论文链接: https://arxiv.org/abs/2410.20490

摘要

大型语言模型(LLMs)在内容审核和仇恨言论检测方面具有巨大的应用潜力。然而，这些模型对边缘化社区和方言存在脆弱性和偏见。本研究通过在输入中注入说话者种族的显式和隐式标记，调查LLMs在仇恨言论分类中的鲁棒性。研究发现隐式方言标记比显式标记更容易导致模型输出翻转，翻转百分比因种族而异，且更大的模型表现更加鲁棒。

研究背景与动机

核心问题

该研究要解决的核心问题是：当输入文本中包含说话者种族身份信息时，大型语言模型在仇恨言论检测任务中的鲁棒性如何？

重要性

实际应用需求：语言技术越来越多地用于内容审核任务，包括仇恨言论检测，因为它们能够处理大量数据
高风险任务：仇恨言论检测是高风险任务，需要谨慎部署LLMs
全球化挑战：随着LLMs在全球范围内的采用，需要对所有国籍的人群保持包容性

现有方法局限性

偏见问题：LLMs已知对边缘化社区和方言存在偏见，导致不公平的待遇和表征伤害
脆弱性：LLMs在存在与任务本身无关的额外信息时表现脆弱、有偏见且不确定
方言偏好：现有研究显示这些模型偏向美式英语，尽管不同地理位置使用不同的英语方言

研究动机

基于上述问题，本文旨在系统性地分析说话者身份对LLMs仇恨言论分类的影响，填补现有研究在用户身份影响方面的空白。

核心贡献

首次系统研究：对说话者身份对LLMs仇恨言论检测影响进行了新颖的研究
双重标记方法：提出了使用显式和隐式标记来告知模型说话者身份的系统性方法
全面实验评估：在4个语言模型和2个数据集上进行了全面实验，揭示了不同设置下模型的脆弱性
重要发现：发现隐式方言标记比显式标记更容易导致输出翻转，且翻转率因种族而异

方法详解

任务定义

输入：英语句子 + 说话者种族身份标记（显式或隐式）输出：仇恨言论分类（Hateful/Non-Hateful）目标：分析身份标记对分类结果的影响程度

实验设计

1. 语言身份选择

选择5个具有不同英语方言的国籍/群体：

Indian（印度）
Singaporean（新加坡）
British（英国）
Jamaican（牙买加）
African-American（非裔美国人）

2. 标记注入方法

显式标记（Explicit Marker）：直接在提示中提及语言身份

示例：The [ethnicity] person said, "[input]"

隐式标记（Implicit Marker）：通过注入方言特征来隐式指示说话者身份，包括：

特定俗语词汇（如新加坡的"mah"，英国的"mate"）
文化主题和短语
代码混合语言
地区特定拼写

3. 方言数据生成

使用Llama-3-70B进行少样本学习生成方言数据：

温度设置为0确保确定性输出
包含避免内容过滤的指令
进行人工验证确保质量

质量验证

对生成的方言数据进行多维度评估：

方言准确性：词汇是否准确反映给定语言身份的方言
语境保持：原始语义和方言是否保持
流畅性和语法：生成文本是否流畅且语法正确
拉丁文字使用：生成句子是否使用英文文字

人工评估结果显示平均方言准确性为4/5分，方差较低，表明生成质量较高。

实验设置

数据集

MPBHSD：来自Twitter、4Chan和Reddit，包含600条仇恨言论和2400条非仇恨言论
HateXplain：来自Twitter和Gab，采样3000条句子，包括2094条仇恨言论和906条非仇恨言论

模型

LLMs：Llama-3-8B、Llama-3-70B、GPT-4o
传统模型：在HateXplain数据集上微调的BERT模型
提示策略：零样本分类和上下文学习(ICL)

评价指标

主要指标：模型输出翻转百分比
翻转类型：
- NH→H：非仇恨转为仇恨（假阳性率）
- H→NH：仇恨转为非仇恨（假阴性率）

实验结果

基础性能

在无身份标记的情况下，模型表现良好：

MPBHSD数据集：准确率高达90%
HateXplain数据集：准确率达到80%

主要发现

1. 标记类型影响

隐式标记比显式标记更容易导致模型输出翻转
除Llama-3-8B外，所有模型在隐式标记下的翻转率显著更高（p < 0.05）

2. 模型规模效应

更大更新的模型（如Llama-3-70B和GPT-4o）表现更鲁棒
翻转百分比更低，性能更稳定

3. 提示技术影响

**上下文学习(ICL)**通常比零样本学习产生更低的翻转率
提供示例能够带来更稳定和一致的模型输出

4. 种族差异

不同种族身份的翻转率存在显著差异：

在较大模型中，英国和非裔美国人方言数据显示更高的H→NH翻转率
McNemar测试显示所有模型中说话者身份对分类结果有显著影响（p < 0.05）

5. 原始标签影响

非仇恨(NH)预测在不同模型和说话者身份下通常保持非仇恨
仇恨(H)预测更容易转为非仇恨，增加假阴性率

6. 目标群体分析

HateXplain-BERT在宗教群体目标上某些方言翻转更多
GPT-4o在性取向相关目标上跨所有方言都有翻转

特殊案例：Llama-3-8B

该模型表现出异常高的翻转率：

MPBHSD数据集ICL变体约40%翻转率
经常无法检测讽刺的显式和隐式线索
对负面框架过度反应
在较短输入上误分类更频繁

消融实验

语言身份识别准确性

使用GPT-4o评估器测试模型识别方言的能力：

非裔美国人：96.3%
英国：99.8%
印度：100%
新加坡：99.8%
牙买加：100%

高识别准确率证实了方言特征的有效性。

合成修改对比

测试其他合成修改（释义、语态变化、长度限制）对翻转率的影响：

释义：H→NH 0.17%，NH→H 0.0%
语态变化：H→NH 0.08%，NH→H 0.02%
长度限制：H→NH 0.16%，NH→H 0.01%

这些修改的翻转率远低于方言注入，证实了身份标记的特殊影响。

结论与讨论

主要结论

脆弱性普遍存在：所有测试的LLMs在注入说话者身份标记后都表现出不同程度的脆弱性
隐式影响更大：方言特征比显式身份提及对模型影响更大
规模提升鲁棒性：更大的模型表现更鲁棒，但仍存在偏见
种族差异显著：不同种族身份导致的翻转率存在显著差异
假阴性风险：模型倾向于将仇恨言论误分类为非仇恨，可能导致有害内容未被检测

局限性

方言数据限制：缺乏人工标注的不同方言仇恨言论数据
模型范围有限：由于计算资源限制，未能测试更多"安全"模型如Claude
数据集局限：仅限于英语混合方言数据集
合成数据偏见：生成的方言数据可能包含未知的作者偏见

未来方向

多语言扩展：扩展到多语言数据集和其他仇恨言论数据集
可解释性研究：进行更多可解释性研究，评估特定短语对模型预测模式的精确影响
缓解策略：开发减少身份偏见的方法和技术
更大规模评估：在更多模型和更大数据集上进行评估

深度评价

优点

问题重要性：研究了AI伦理和公平性领域的重要问题
方法创新：提出了显式和隐式标记的系统性方法
实验全面：跨多个模型、数据集和种族身份的全面评估
结果可信：通过统计测试验证结果的显著性
实用价值：为LLMs在高风险任务中的部署提供重要警示

不足

因果关系：虽然观察到翻转现象，但缺乏对具体原因机制的深入分析
缓解方案：主要指出了问题，但没有提供具体的解决方案
评估局限：人工评估样本相对较小（每种方言50个样本）
方言代表性：选择的方言可能无法完全代表各地区的微方言和社区

影响力

学术贡献：为LLM公平性研究提供了新的视角和方法
实践意义：对内容审核系统的设计和部署具有重要指导意义
政策影响：可能影响AI系统的监管和标准制定
后续研究：为相关领域的后续研究奠定了基础

适用场景

内容审核系统：社交媒体平台的仇恨言论检测系统
AI伦理评估：LLM公平性和偏见评估
多文化AI系统：面向全球用户的AI应用
监管合规：AI系统的公平性审计和合规检查

参考文献

论文引用了多个重要研究，包括：

Sap et al. (2019): 仇恨言论检测中的种族偏见风险
Field et al. (2021, 2023): NLP中的种族主义调查
Harris et al. (2022): 非裔美国英语在仇恨言论分类中的偏见
Ribeiro et al. (2020): NLP模型的行为测试框架CheckList

总体评价：这是一篇在AI伦理和公平性领域具有重要意义的研究论文。通过系统性的实验设计和全面的评估，揭示了LLMs在仇恨言论检测任务中存在的身份偏见问题。虽然在解决方案方面还有待加强，但为该领域的研究和实践提供了有价值的洞察和警示。