2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

Quién Habla Importa: Análisis de la Influencia de la Etnicidad del Hablante en la Clasificación de Discurso de Odio

Información Básica

  • ID del Artículo: 2410.20490
  • Título: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • Autores: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 12 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2410.20490

Resumen

Los modelos de lenguaje grandes (LLMs) poseen un enorme potencial de aplicación en moderación de contenidos y detección de discurso de odio. Sin embargo, estos modelos presentan vulnerabilidades y sesgos hacia comunidades marginalizadas y dialectos. Este estudio investiga la robustez de los LLMs en la clasificación de discurso de odio mediante la inyección de marcadores explícitos e implícitos de la etnicidad del hablante en la entrada. El estudio revela que los marcadores de dialecto implícitos causan más fácilmente inversiones en la salida del modelo que los marcadores explícitos, el porcentaje de inversión varía según la etnicidad, y los modelos más grandes demuestran mayor robustez.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es: ¿Cuál es la robustez de los modelos de lenguaje grandes en la tarea de detección de discurso de odio cuando la entrada de texto contiene información de identidad étnica del hablante?

Importancia

  1. Necesidad de Aplicación Práctica: Las tecnologías de lenguaje se utilizan cada vez más en tareas de moderación de contenidos, incluida la detección de discurso de odio, debido a su capacidad para procesar grandes volúmenes de datos
  2. Tarea de Alto Riesgo: La detección de discurso de odio es una tarea de alto riesgo que requiere un despliegue cuidadoso de LLMs
  3. Desafío Global: Con la adopción global de LLMs, es necesario mantener la inclusividad para poblaciones de todas las nacionalidades

Limitaciones de Métodos Existentes

  1. Problema de Sesgo: Se sabe que los LLMs presentan sesgos hacia comunidades marginalizadas y dialectos, lo que resulta en trato injusto y daño representacional
  2. Vulnerabilidad: Los LLMs demuestran fragilidad, sesgo e incertidumbre cuando se presenta información adicional no relacionada con la tarea en sí
  3. Preferencia Dialectal: Investigaciones previas muestran que estos modelos favorecen el inglés estadounidense, a pesar de que diferentes ubicaciones geográficas utilizan dialectos ingleses distintos

Motivación de la Investigación

Basándose en los problemas anteriores, este artículo tiene como objetivo analizar sistemáticamente el impacto de la identidad del hablante en la clasificación de discurso de odio de los LLMs, cerrando la brecha en la investigación existente respecto al impacto de la identidad del usuario.

Contribuciones Principales

  1. Primer Estudio Sistemático: Realiza un estudio novedoso sobre el impacto de la identidad del hablante en la detección de discurso de odio de los LLMs
  2. Método de Marcación Dual: Propone un enfoque sistemático utilizando marcadores explícitos e implícitos para informar al modelo sobre la identidad del hablante
  3. Evaluación Experimental Integral: Realiza experimentos exhaustivos en 4 modelos de lenguaje y 2 conjuntos de datos, revelando vulnerabilidades del modelo en diferentes configuraciones
  4. Hallazgos Importantes: Descubre que los marcadores de dialecto implícitos causan más fácilmente inversiones de salida que los marcadores explícitos, y la tasa de inversión varía según la etnicidad

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Oración en inglés + marcador de identidad étnica del hablante (explícito o implícito) Salida: Clasificación de discurso de odio (Hateful/Non-Hateful) Objetivo: Analizar el grado de impacto de los marcadores de identidad en los resultados de clasificación

Diseño Experimental

1. Selección de Identidad Lingüística

Se seleccionaron 5 nacionalidades/grupos con dialectos ingleses distintos:

  • Indian (Indio)
  • Singaporean (Singapurense)
  • British (Británico)
  • Jamaican (Jamaicano)
  • African-American (Afroamericano)

2. Métodos de Inyección de Marcadores

Marcador Explícito (Explicit Marker): Menciona directamente la identidad lingüística en el indicador

Ejemplo: The [ethnicity] person said, "[input]"

Marcador Implícito (Implicit Marker): Indica implícitamente la identidad del hablante mediante la inyección de características dialectales, incluyendo:

  • Vocabulario de jerga específica (como "mah" en singapurense, "mate" en británico)
  • Temas y frases culturales
  • Código mixto de lenguaje
  • Ortografía específica de la región

3. Generación de Datos Dialectales

Se utiliza Llama-3-70B para generar datos dialectales mediante aprendizaje de pocos ejemplos:

  • Configuración de temperatura en 0 para garantizar salida determinista
  • Inclusión de instrucciones para evitar filtros de contenido
  • Verificación manual para garantizar calidad

Verificación de Calidad

Se evalúan los datos dialectales generados en múltiples dimensiones:

  1. Precisión Dialectal: ¿El vocabulario refleja con precisión el dialecto de la identidad lingüística dada?
  2. Preservación de Contexto: ¿Se mantienen la semántica original y el dialecto?
  3. Fluidez y Gramática: ¿Es el texto generado fluido y gramaticalmente correcto?
  4. Uso de Caracteres Latinos: ¿Utiliza la oración generada caracteres ingleses?

Los resultados de evaluación manual muestran una precisión dialectal promedio de 4/5 puntos, con varianza baja, indicando alta calidad de generación.

Configuración Experimental

Conjuntos de Datos

  1. MPBHSD: Proveniente de Twitter, 4Chan y Reddit, contiene 600 discursos de odio y 2400 discursos no odiosos
  2. HateXplain: Proveniente de Twitter y Gab, muestreo de 3000 oraciones, incluyendo 2094 discursos de odio y 906 discursos no odiosos

Modelos

  • LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
  • Modelo Tradicional: Modelo BERT ajustado en el conjunto de datos HateXplain
  • Estrategia de Indicador: Clasificación de cero ejemplos y aprendizaje en contexto (ICL)

Métricas de Evaluación

  • Métrica Principal: Porcentaje de inversión de salida del modelo
  • Tipos de Inversión:
    • NH→H: No odioso convertido a odioso (tasa de falsos positivos)
    • H→NH: Odioso convertido a no odioso (tasa de falsos negativos)

Resultados Experimentales

Rendimiento Base

Sin marcadores de identidad, los modelos funcionan bien:

  • Conjunto de datos MPBHSD: Precisión hasta 90%
  • Conjunto de datos HateXplain: Precisión de 80%

Hallazgos Principales

1. Impacto del Tipo de Marcador

  • Los marcadores implícitos causan más fácilmente inversiones de salida del modelo que los marcadores explícitos
  • Excepto para Llama-3-8B, todos los modelos muestran tasas de inversión significativamente más altas bajo marcadores implícitos (p < 0.05)

2. Efecto del Tamaño del Modelo

  • Los modelos más grandes y actualizados (como Llama-3-70B y GPT-4o) demuestran mayor robustez
  • Porcentajes de inversión más bajos y rendimiento más estable

3. Impacto de la Técnica de Indicador

  • El aprendizaje en contexto (ICL) generalmente produce tasas de inversión más bajas que el aprendizaje de cero ejemplos
  • Proporcionar ejemplos conduce a salidas de modelo más estables y consistentes

4. Variación por Etnicidad

Existen diferencias significativas en las tasas de inversión para diferentes identidades étnicas:

  • En modelos más grandes, los datos de dialecto británico y afroamericano muestran tasas de inversión H→NH más altas
  • La prueba de McNemar muestra que la identidad del hablante tiene un impacto significativo en los resultados de clasificación en todos los modelos (p < 0.05)

5. Impacto de la Etiqueta Original

  • Las predicciones no odiosas (NH) generalmente se mantienen como no odiosas en diferentes modelos e identidades de hablantes
  • Las predicciones odiosas (H) tienden más a convertirse en no odiosas, aumentando la tasa de falsos negativos

6. Análisis de Grupos Objetivo

  • HateXplain-BERT muestra más inversiones dialectales en objetivos de grupos religiosos
  • GPT-4o muestra inversiones en todos los dialectos en objetivos relacionados con orientación sexual

Caso Especial: Llama-3-8B

Este modelo muestra una tasa de inversión anormalmente alta:

  • Variante ICL del conjunto de datos MPBHSD aproximadamente 40% de tasa de inversión
  • Frecuentemente incapaz de detectar pistas de ironía explícitas e implícitas
  • Reacción excesiva a marcos negativos
  • Clasificación errónea más frecuente en entradas más cortas

Experimentos de Ablación

Precisión de Identificación de Identidad Lingüística

Se utiliza el evaluador GPT-4o para probar la capacidad del modelo de identificar dialectos:

  • Afroamericano: 96.3%
  • Británico: 99.8%
  • Indio: 100%
  • Singapurense: 99.8%
  • Jamaicano: 100%

La alta precisión de identificación confirma la efectividad de las características dialectales.

Comparación de Modificaciones Sintéticas

Se prueba el impacto de otras modificaciones sintéticas (paráfrasis, cambio de voz, limitación de longitud) en la tasa de inversión:

  • Paráfrasis: H→NH 0.17%, NH→H 0.0%
  • Cambio de voz: H→NH 0.08%, NH→H 0.02%
  • Limitación de longitud: H→NH 0.16%, NH→H 0.01%

Las tasas de inversión de estas modificaciones son mucho más bajas que la inyección de dialecto, confirmando el impacto especial de los marcadores de identidad.

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Investigación de Sesgo en LLM: Literatura amplia que documenta sesgos hacia comunidades marginalizadas y dialectos
  2. Detección de Discurso de Odio: Los métodos tradicionales se enfocaban principalmente en el contenido en sí, considerando menos la identidad del hablante
  3. PNL Transcultural: Investigación de diferencias en el procesamiento del lenguaje en diferentes contextos culturales
  4. Procesamiento de Dialectos: Enfoque en el rendimiento de diferentes dialectos ingleses en tareas de PNL

Innovación de Este Artículo

  • Primer estudio sistemático del impacto de la identidad del hablante en la clasificación de discurso de odio
  • Propone un enfoque dual de marcadores explícitos e implícitos
  • Evaluación integral en múltiples modelos y conjuntos de datos

Conclusiones y Discusión

Conclusiones Principales

  1. Vulnerabilidad Generalizada: Todos los LLMs probados demuestran diferentes grados de vulnerabilidad después de la inyección de marcadores de identidad del hablante
  2. Impacto Implícito Mayor: Las características dialectales tienen mayor impacto en el modelo que la mención explícita de identidad
  3. Robustez Mejorada por Tamaño: Los modelos más grandes demuestran mayor robustez, pero aún presentan sesgos
  4. Variación Étnica Significativa: Diferentes identidades étnicas resultan en tasas de inversión significativamente diferentes
  5. Riesgo de Falsos Negativos: Los modelos tienden a clasificar erróneamente el discurso de odio como no odioso, lo que puede resultar en contenido dañino no detectado

Limitaciones

  1. Limitación de Datos Dialectales: Falta de datos de discurso de odio en diferentes dialectos anotados manualmente
  2. Rango de Modelos Limitado: Debido a limitaciones de recursos computacionales, no se pudieron probar más modelos "seguros" como Claude
  3. Limitación de Conjunto de Datos: Limitado a conjuntos de datos de dialectos mixtos en inglés
  4. Sesgo de Datos Sintéticos: Los datos dialectales generados pueden contener sesgos de autor desconocidos

Direcciones Futuras

  1. Extensión Multilingüe: Extensión a conjuntos de datos multilingües y otros conjuntos de datos de discurso de odio
  2. Investigación de Interpretabilidad: Realizar más investigación de interpretabilidad, evaluando el impacto preciso de frases específicas en patrones de predicción del modelo
  3. Estrategias de Mitigación: Desarrollar métodos y técnicas para reducir el sesgo de identidad
  4. Evaluación a Mayor Escala: Evaluación en más modelos y conjuntos de datos más grandes

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Investiga un problema importante en el campo de la ética de la IA y la equidad
  2. Innovación Metodológica: Propone un enfoque sistemático de marcadores explícitos e implícitos
  3. Evaluación Experimental Integral: Evaluación exhaustiva en múltiples modelos, conjuntos de datos e identidades étnicas
  4. Resultados Confiables: Valida la significancia de los resultados mediante pruebas estadísticas
  5. Valor Práctico: Proporciona advertencias importantes para el despliegue de LLMs en tareas de alto riesgo

Deficiencias

  1. Relación Causal: Aunque se observan fenómenos de inversión, falta análisis profundo de los mecanismos causales específicos
  2. Soluciones de Mitigación: Se enfoca principalmente en señalar el problema sin proporcionar soluciones concretas
  3. Limitación de Evaluación: La evaluación manual es relativamente pequeña (50 muestras por dialecto)
  4. Representatividad Dialectal: Los dialectos seleccionados pueden no representar completamente los microdialectos y comunidades de cada región

Impacto

  1. Contribución Académica: Proporciona una nueva perspectiva y metodología para la investigación de equidad en LLM
  2. Significancia Práctica: Tiene implicaciones importantes para el diseño e implementación de sistemas de moderación de contenidos
  3. Impacto Político: Puede influir en la regulación y establecimiento de estándares de sistemas de IA
  4. Investigación Posterior: Sienta las bases para investigación posterior en campos relacionados

Escenarios Aplicables

  1. Sistemas de Moderación de Contenidos: Sistemas de detección de discurso de odio en plataformas de redes sociales
  2. Evaluación de Ética de IA: Evaluación de equidad y sesgo en LLM
  3. Sistemas de IA Multiculturales: Aplicaciones de IA dirigidas a usuarios globales
  4. Cumplimiento Regulatorio: Auditoría de equidad y verificación de cumplimiento de sistemas de IA

Referencias Bibliográficas

El artículo cita múltiples investigaciones importantes, incluyendo:

  • Sap et al. (2019): Riesgos de sesgo racial en la detección de discurso de odio
  • Field et al. (2021, 2023): Investigación del racismo en PNL
  • Harris et al. (2022): Sesgo del inglés afroamericano en la clasificación de discurso de odio
  • Ribeiro et al. (2020): Marco de prueba de comportamiento de modelos de PNL CheckList

Evaluación General: Este es un artículo de investigación de importancia significativa en los campos de ética de la IA y equidad. A través de un diseño experimental sistemático y evaluación integral, revela problemas de sesgo de identidad en los LLMs en la tarea de detección de discurso de odio. Aunque hay espacio para mejora en el aspecto de soluciones, proporciona información valiosa y advertencias para la investigación y práctica en este campo.