2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

누가 말하는지가 중요합니다: 화자의 민족성이 혐오 분류에 미치는 영향 분석

기본 정보

  • 논문 ID: 2410.20490
  • 제목: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • 저자: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 12일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2410.20490

초록

대규모 언어 모델(LLMs)은 콘텐츠 중재 및 혐오 언론 탐지에 막대한 응용 잠재력을 가지고 있습니다. 그러나 이러한 모델은 소수 집단과 방언에 대한 취약성과 편견을 보입니다. 본 연구는 입력에 화자의 민족성에 대한 명시적 및 암묵적 표시를 주입하여 혐오 언론 분류에서 LLMs의 견고성을 조사합니다. 연구 결과 암묵적 방언 표시가 명시적 표시보다 모델 출력 반전을 더 쉽게 유발하며, 반전 비율은 민족성에 따라 다르고, 더 큰 모델이 더 견고한 성능을 보입니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는: 입력 텍스트에 화자의 민족성 정보가 포함될 때, 대규모 언어 모델이 혐오 언론 탐지 작업에서 어느 정도의 견고성을 보이는가?

중요성

  1. 실제 응용 필요성: 언어 기술이 대량의 데이터를 처리할 수 있기 때문에 혐오 언론 탐지를 포함한 콘텐츠 중재 작업에 점점 더 많이 사용되고 있습니다
  2. 고위험 작업: 혐오 언론 탐지는 고위험 작업이므로 LLMs의 신중한 배포가 필요합니다
  3. 글로벌 과제: LLMs의 전 세계적 채택에 따라 모든 국적의 사람들에 대한 포용성이 필요합니다

기존 방법의 한계

  1. 편견 문제: LLMs는 소수 집단과 방언에 대한 편견이 있는 것으로 알려져 있으며, 이는 불공정한 대우와 표현상 해를 초래합니다
  2. 취약성: LLMs는 작업 자체와 무관한 추가 정보가 있을 때 취약하고 편향되며 불확실한 성능을 보입니다
  3. 방언 선호도: 기존 연구는 이러한 모델이 미국 영어에 편향되어 있음을 보여주며, 비록 다양한 지역에서 다른 영어 방언을 사용합니다

연구 동기

위의 문제를 바탕으로, 본 논문은 화자의 신원이 LLMs의 혐오 언론 분류에 미치는 영향을 체계적으로 분석하여 사용자 신원 영향에 관한 기존 연구의 공백을 메우는 것을 목표로 합니다.

핵심 기여

  1. 최초 체계적 연구: 화자의 신원이 LLMs의 혐오 언론 탐지에 미치는 영향에 대한 새로운 연구
  2. 이중 표시 방법: 명시적 및 암묵적 표시를 사용하여 모델에 화자의 신원을 알리는 체계적 방법 제안
  3. 포괄적 실험 평가: 4개의 언어 모델과 2개의 데이터셋에 대한 포괄적 실험으로 다양한 설정에서 모델의 취약성 공개
  4. 중요한 발견: 암묵적 방언 표시가 명시적 표시보다 출력 반전을 더 쉽게 유발하며, 반전율이 민족성에 따라 다름을 발견

방법론 상세 설명

작업 정의

입력: 영어 문장 + 화자의 민족성 신원 표시(명시적 또는 암묵적) 출력: 혐오 언론 분류(혐오/비혐오) 목표: 신원 표시가 분류 결과에 미치는 영향 정도 분석

실험 설계

1. 언어 신원 선택

다양한 영어 방언을 가진 5개의 국적/집단 선택:

  • Indian(인도)
  • Singaporean(싱가포르)
  • British(영국)
  • Jamaican(자메이카)
  • African-American(아프리카계 미국인)

2. 표시 주입 방법

명시적 표시(Explicit Marker): 프롬프트에서 언어 신원을 직접 언급

예시: The [ethnicity] person said, "[input]"

암묵적 표시(Implicit Marker): 방언 특징을 주입하여 화자의 신원을 암묵적으로 표시:

  • 특정 속어 어휘(예: 싱가포르의 "mah", 영국의 "mate")
  • 문화적 주제 및 표현
  • 코드 혼합 언어
  • 지역 특정 철자법

3. 방언 데이터 생성

Llama-3-70B를 사용한 소수 샷 학습으로 방언 데이터 생성:

  • 온도 설정을 0으로 설정하여 결정론적 출력 보장
  • 콘텐츠 필터링 회피 지침 포함
  • 품질 보장을 위한 인간 검증 수행

품질 검증

생성된 방언 데이터를 다차원적으로 평가:

  1. 방언 정확성: 어휘가 주어진 언어 신원의 방언을 정확히 반영하는지 여부
  2. 문맥 유지: 원본 의미와 방언이 유지되는지 여부
  3. 유창성 및 문법: 생성된 텍스트가 유창하고 문법적으로 정확한지 여부
  4. 라틴 문자 사용: 생성된 문장이 영문 문자를 사용하는지 여부

인간 평가 결과 평균 방언 정확성은 5점 만점에 4점이며 분산이 낮아 생성 품질이 높음을 나타냅니다.

실험 설정

데이터셋

  1. MPBHSD: Twitter, 4Chan 및 Reddit에서 수집, 600개의 혐오 언론과 2,400개의 비혐오 언론 포함
  2. HateXplain: Twitter 및 Gab에서 3,000개 문장 샘플링, 2,094개의 혐오 언론과 906개의 비혐오 언론 포함

모델

  • LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
  • 전통 모델: HateXplain 데이터셋에서 미세 조정된 BERT 모델
  • 프롬프트 전략: 영점 샷 분류 및 문맥 내 학습(ICL)

평가 지표

  • 주요 지표: 모델 출력 반전 비율
  • 반전 유형:
    • NH→H: 비혐오에서 혐오로 변환(거짓 양성율)
    • H→NH: 혐오에서 비혐오로 변환(거짓 음성율)

실험 결과

기본 성능

신원 표시가 없는 경우 모델 성능:

  • MPBHSD 데이터셋: 최대 90%의 정확도
  • HateXplain 데이터셋: 80%의 정확도

주요 발견

1. 표시 유형의 영향

  • 암묵적 표시가 명시적 표시보다 모델 출력 반전을 더 쉽게 유발
  • Llama-3-8B를 제외한 모든 모델에서 암묵적 표시 하의 반전율이 유의하게 더 높음(p < 0.05)

2. 모델 규모 효과

  • 더 크고 최신의 모델(예: Llama-3-70B 및 GPT-4o)이 더 견고한 성능 보임
  • 반전 비율이 더 낮고 성능이 더 안정적

3. 프롬프트 기법의 영향

  • **문맥 내 학습(ICL)**은 일반적으로 영점 샷 학습보다 낮은 반전율 생성
  • 예시 제공이 더 안정적이고 일관된 모델 출력을 가져옴

4. 민족성 차이

다양한 민족성 신원의 반전율에 유의한 차이 존재:

  • 더 큰 모델에서 영국 및 아프리카계 미국인 방언 데이터는 더 높은 H→NH 반전율 표시
  • McNemar 검정은 모든 모델에서 화자 신원이 분류 결과에 유의한 영향을 미침을 보여줌(p < 0.05)

5. 원본 레이블의 영향

  • 비혐오(NH) 예측은 다양한 모델과 화자 신원에서 일반적으로 비혐오 유지
  • 혐오(H) 예측은 비혐오로 변환되기 더 쉬우며, 거짓 음성율 증가

6. 목표 집단 분석

  • HateXplain-BERT는 종교 집단 목표에서 특정 방언의 반전이 더 많음
  • GPT-4o는 성적 지향 관련 목표에서 모든 방언에 걸쳐 반전 표시

특수 사례: Llama-3-8B

이 모델은 비정상적으로 높은 반전율을 보임:

  • MPBHSD 데이터셋 ICL 변형에서 약 40%의 반전율
  • 풍자의 명시적 및 암묵적 단서를 자주 감지하지 못함
  • 부정적 프레이밍에 과도하게 반응
  • 더 짧은 입력에서 오분류 더 빈번

제거 실험

언어 신원 식별 정확도

GPT-4o 평가기를 사용하여 모델의 방언 식별 능력 테스트:

  • 아프리카계 미국인: 96.3%
  • 영국: 99.8%
  • 인도: 100%
  • 싱가포르: 99.8%
  • 자메이카: 100%

높은 식별 정확도는 방언 특징의 효과성을 입증합니다.

합성 수정 비교

다른 합성 수정(패러프레이징, 음성 변화, 길이 제한)이 반전율에 미치는 영향 테스트:

  • 패러프레이징: H→NH 0.17%, NH→H 0.0%
  • 음성 변화: H→NH 0.08%, NH→H 0.02%
  • 길이 제한: H→NH 0.16%, NH→H 0.01%

이러한 수정의 반전율은 방언 주입보다 훨씬 낮아 신원 표시의 특별한 영향을 입증합니다.

관련 연구

주요 연구 방향

  1. LLM 편견 연구: 소수 집단과 방언에 대한 편견을 광범위하게 기록한 문헌
  2. 혐오 언론 탐지: 전통적 방법은 주로 콘텐츠 자체에 초점을 맞추고 화자 신원을 덜 고려
  3. 교차 문화 NLP: 다양한 문화 배경에서의 언어 처리 차이 연구
  4. 방언 처리: NLP 작업에서 다양한 영어 방언의 성능에 초점

본 논문의 혁신

  • 화자 신원이 혐오 언론 분류에 미치는 영향을 최초로 체계적으로 연구
  • 명시적 및 암묵적 표시의 이중 방법 제안
  • 여러 모델과 데이터셋에 걸친 포괄적 평가

결론 및 논의

주요 결론

  1. 취약성의 보편성: 테스트된 모든 LLMs는 화자 신원 표시 주입 후 다양한 정도의 취약성을 보임
  2. 암묵적 영향이 더 큼: 방언 특징이 명시적 신원 언급보다 모델에 더 큰 영향을 미침
  3. 규모가 견고성 향상: 더 큰 모델이 더 견고한 성능을 보이지만 편견이 여전히 존재
  4. 민족성 차이가 유의함: 다양한 민족성 신원이 유의한 반전율 차이를 야기
  5. 거짓 음성 위험: 모델은 혐오 언론을 비혐오로 오분류하는 경향이 있어 유해 콘텐츠 미탐지 가능성

한계

  1. 방언 데이터 제한: 다양한 방언의 혐오 언론에 대한 인간 주석 데이터 부족
  2. 모델 범위 제한: 계산 자원 제한으로 Claude와 같은 더 많은 "안전" 모델 테스트 불가
  3. 데이터셋 제한: 영어 혼합 방언 데이터셋으로만 제한
  4. 합성 데이터 편견: 생성된 방언 데이터가 미지의 저자 편견을 포함할 수 있음

향후 방향

  1. 다국어 확장: 다국어 데이터셋 및 기타 혐오 언론 데이터셋으로 확장
  2. 해석 가능성 연구: 특정 표현이 모델 예측 패턴에 미치는 정확한 영향을 평가하는 더 많은 해석 가능성 연구 수행
  3. 완화 전략: 신원 편견을 줄이는 방법 및 기술 개발
  4. 대규모 평가: 더 많은 모델과 더 큰 데이터셋에 대한 평가

심층 평가

장점

  1. 문제의 중요성: AI 윤리 및 공정성 분야의 중요한 문제 연구
  2. 방법론 혁신: 명시적 및 암묵적 표시의 체계적 방법 제안
  3. 실험의 포괄성: 여러 모델, 데이터셋 및 민족성에 걸친 포괄적 평가
  4. 결과의 신뢰성: 통계 검정으로 결과의 유의성 검증
  5. 실용적 가치: 고위험 작업에서 LLMs 배포에 대한 중요한 경고 제공

부족한 점

  1. 인과관계: 반전 현상을 관찰했지만 구체적인 원인 메커니즘에 대한 심층 분석 부족
  2. 완화 방안: 주로 문제를 지적하지만 구체적인 해결책 제시 부족
  3. 평가 제한: 인간 평가 샘플 상대적으로 작음(각 방언당 50개 샘플)
  4. 방언 대표성: 선택된 방언이 각 지역의 미세 방언과 커뮤니티를 완전히 대표하지 못할 수 있음

영향력

  1. 학술적 기여: LLM 공정성 연구에 새로운 관점과 방법 제공
  2. 실무적 의의: 콘텐츠 중재 시스템의 설계 및 배포에 중요한 지도 제공
  3. 정책 영향: AI 시스템의 규제 및 표준 제정에 영향 가능
  4. 후속 연구: 관련 분야의 후속 연구 기초 마련

적용 시나리오

  1. 콘텐츠 중재 시스템: 소셜 미디어 플랫폼의 혐오 언론 탐지 시스템
  2. AI 윤리 평가: LLM 공정성 및 편견 평가
  3. 다문화 AI 시스템: 전 세계 사용자를 대상으로 하는 AI 응용
  4. 규제 준수: AI 시스템의 공정성 감사 및 준수 검사

참고 문헌

논문은 다음을 포함한 여러 중요 연구를 인용합니다:

  • Sap et al. (2019): 혐오 언론 탐지에서의 인종 편견 위험
  • Field et al. (2021, 2023): NLP에서의 인종주의 조사
  • Harris et al. (2022): 혐오 언론 분류에서 아프리카계 미국인 영어의 편견
  • Ribeiro et al. (2020): NLP 모델의 행동 테스트 프레임워크 CheckList

전체 평가: 이것은 AI 윤리 및 공정성 분야에서 중요한 의미를 가진 연구 논문입니다. 체계적인 실험 설계와 포괄적인 평가를 통해 혐오 언론 탐지 작업에서 LLMs의 신원 편견 문제를 공개합니다. 해결책 측면에서 강화할 여지가 있지만, 이 분야의 연구 및 실무에 귀중한 통찰력과 경고를 제공합니다.