2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

Quién Habla Importa: Análisis de la Influencia de la Etnicidad del Hablante en la Clasificación de Discurso de Odio

Información Básica

ID del Artículo: 2410.20490
Título: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Autores: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 12 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2410.20490

Resumen

Los modelos de lenguaje grandes (LLMs) poseen un enorme potencial de aplicación en moderación de contenidos y detección de discurso de odio. Sin embargo, estos modelos presentan vulnerabilidades y sesgos hacia comunidades marginalizadas y dialectos. Este estudio investiga la robustez de los LLMs en la clasificación de discurso de odio mediante la inyección de marcadores explícitos e implícitos de la etnicidad del hablante en la entrada. El estudio revela que los marcadores de dialecto implícitos causan más fácilmente inversiones en la salida del modelo que los marcadores explícitos, el porcentaje de inversión varía según la etnicidad, y los modelos más grandes demuestran mayor robustez.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es: ¿Cuál es la robustez de los modelos de lenguaje grandes en la tarea de detección de discurso de odio cuando la entrada de texto contiene información de identidad étnica del hablante?

Importancia

Necesidad de Aplicación Práctica: Las tecnologías de lenguaje se utilizan cada vez más en tareas de moderación de contenidos, incluida la detección de discurso de odio, debido a su capacidad para procesar grandes volúmenes de datos
Tarea de Alto Riesgo: La detección de discurso de odio es una tarea de alto riesgo que requiere un despliegue cuidadoso de LLMs
Desafío Global: Con la adopción global de LLMs, es necesario mantener la inclusividad para poblaciones de todas las nacionalidades

Limitaciones de Métodos Existentes

Problema de Sesgo: Se sabe que los LLMs presentan sesgos hacia comunidades marginalizadas y dialectos, lo que resulta en trato injusto y daño representacional
Vulnerabilidad: Los LLMs demuestran fragilidad, sesgo e incertidumbre cuando se presenta información adicional no relacionada con la tarea en sí
Preferencia Dialectal: Investigaciones previas muestran que estos modelos favorecen el inglés estadounidense, a pesar de que diferentes ubicaciones geográficas utilizan dialectos ingleses distintos

Motivación de la Investigación

Basándose en los problemas anteriores, este artículo tiene como objetivo analizar sistemáticamente el impacto de la identidad del hablante en la clasificación de discurso de odio de los LLMs, cerrando la brecha en la investigación existente respecto al impacto de la identidad del usuario.

Contribuciones Principales

Primer Estudio Sistemático: Realiza un estudio novedoso sobre el impacto de la identidad del hablante en la detección de discurso de odio de los LLMs
Método de Marcación Dual: Propone un enfoque sistemático utilizando marcadores explícitos e implícitos para informar al modelo sobre la identidad del hablante
Evaluación Experimental Integral: Realiza experimentos exhaustivos en 4 modelos de lenguaje y 2 conjuntos de datos, revelando vulnerabilidades del modelo en diferentes configuraciones
Hallazgos Importantes: Descubre que los marcadores de dialecto implícitos causan más fácilmente inversiones de salida que los marcadores explícitos, y la tasa de inversión varía según la etnicidad

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Oración en inglés + marcador de identidad étnica del hablante (explícito o implícito) Salida: Clasificación de discurso de odio (Hateful/Non-Hateful) Objetivo: Analizar el grado de impacto de los marcadores de identidad en los resultados de clasificación

Diseño Experimental

1. Selección de Identidad Lingüística

Se seleccionaron 5 nacionalidades/grupos con dialectos ingleses distintos:

Indian (Indio)
Singaporean (Singapurense)
British (Británico)
Jamaican (Jamaicano)
African-American (Afroamericano)

2. Métodos de Inyección de Marcadores

Marcador Explícito (Explicit Marker): Menciona directamente la identidad lingüística en el indicador

Ejemplo: The [ethnicity] person said, "[input]"

Marcador Implícito (Implicit Marker): Indica implícitamente la identidad del hablante mediante la inyección de características dialectales, incluyendo:

Vocabulario de jerga específica (como "mah" en singapurense, "mate" en británico)
Temas y frases culturales
Código mixto de lenguaje
Ortografía específica de la región

3. Generación de Datos Dialectales

Se utiliza Llama-3-70B para generar datos dialectales mediante aprendizaje de pocos ejemplos:

Configuración de temperatura en 0 para garantizar salida determinista
Inclusión de instrucciones para evitar filtros de contenido
Verificación manual para garantizar calidad

Verificación de Calidad

Se evalúan los datos dialectales generados en múltiples dimensiones:

Precisión Dialectal: ¿El vocabulario refleja con precisión el dialecto de la identidad lingüística dada?
Preservación de Contexto: ¿Se mantienen la semántica original y el dialecto?
Fluidez y Gramática: ¿Es el texto generado fluido y gramaticalmente correcto?
Uso de Caracteres Latinos: ¿Utiliza la oración generada caracteres ingleses?

Los resultados de evaluación manual muestran una precisión dialectal promedio de 4/5 puntos, con varianza baja, indicando alta calidad de generación.

Configuración Experimental

Conjuntos de Datos

MPBHSD: Proveniente de Twitter, 4Chan y Reddit, contiene 600 discursos de odio y 2400 discursos no odiosos
HateXplain: Proveniente de Twitter y Gab, muestreo de 3000 oraciones, incluyendo 2094 discursos de odio y 906 discursos no odiosos

Modelos

LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
Modelo Tradicional: Modelo BERT ajustado en el conjunto de datos HateXplain
Estrategia de Indicador: Clasificación de cero ejemplos y aprendizaje en contexto (ICL)

Métricas de Evaluación

Métrica Principal: Porcentaje de inversión de salida del modelo
Tipos de Inversión:
- NH→H: No odioso convertido a odioso (tasa de falsos positivos)
- H→NH: Odioso convertido a no odioso (tasa de falsos negativos)

Resultados Experimentales

Rendimiento Base

Sin marcadores de identidad, los modelos funcionan bien:

Conjunto de datos MPBHSD: Precisión hasta 90%
Conjunto de datos HateXplain: Precisión de 80%

Hallazgos Principales

1. Impacto del Tipo de Marcador

Los marcadores implícitos causan más fácilmente inversiones de salida del modelo que los marcadores explícitos
Excepto para Llama-3-8B, todos los modelos muestran tasas de inversión significativamente más altas bajo marcadores implícitos (p < 0.05)

2. Efecto del Tamaño del Modelo

Los modelos más grandes y actualizados (como Llama-3-70B y GPT-4o) demuestran mayor robustez
Porcentajes de inversión más bajos y rendimiento más estable

3. Impacto de la Técnica de Indicador

El aprendizaje en contexto (ICL) generalmente produce tasas de inversión más bajas que el aprendizaje de cero ejemplos
Proporcionar ejemplos conduce a salidas de modelo más estables y consistentes

4. Variación por Etnicidad

Existen diferencias significativas en las tasas de inversión para diferentes identidades étnicas:

En modelos más grandes, los datos de dialecto británico y afroamericano muestran tasas de inversión H→NH más altas
La prueba de McNemar muestra que la identidad del hablante tiene un impacto significativo en los resultados de clasificación en todos los modelos (p < 0.05)

5. Impacto de la Etiqueta Original

Las predicciones no odiosas (NH) generalmente se mantienen como no odiosas en diferentes modelos e identidades de hablantes
Las predicciones odiosas (H) tienden más a convertirse en no odiosas, aumentando la tasa de falsos negativos

6. Análisis de Grupos Objetivo

HateXplain-BERT muestra más inversiones dialectales en objetivos de grupos religiosos
GPT-4o muestra inversiones en todos los dialectos en objetivos relacionados con orientación sexual

Caso Especial: Llama-3-8B

Este modelo muestra una tasa de inversión anormalmente alta:

Variante ICL del conjunto de datos MPBHSD aproximadamente 40% de tasa de inversión
Frecuentemente incapaz de detectar pistas de ironía explícitas e implícitas
Reacción excesiva a marcos negativos
Clasificación errónea más frecuente en entradas más cortas

Experimentos de Ablación

Precisión de Identificación de Identidad Lingüística

Se utiliza el evaluador GPT-4o para probar la capacidad del modelo de identificar dialectos:

Afroamericano: 96.3%
Británico: 99.8%
Indio: 100%
Singapurense: 99.8%
Jamaicano: 100%

La alta precisión de identificación confirma la efectividad de las características dialectales.

Comparación de Modificaciones Sintéticas

Se prueba el impacto de otras modificaciones sintéticas (paráfrasis, cambio de voz, limitación de longitud) en la tasa de inversión:

Paráfrasis: H→NH 0.17%, NH→H 0.0%
Cambio de voz: H→NH 0.08%, NH→H 0.02%
Limitación de longitud: H→NH 0.16%, NH→H 0.01%

Las tasas de inversión de estas modificaciones son mucho más bajas que la inyección de dialecto, confirmando el impacto especial de los marcadores de identidad.

Trabajo Relacionado

Direcciones de Investigación Principales

Investigación de Sesgo en LLM: Literatura amplia que documenta sesgos hacia comunidades marginalizadas y dialectos
Detección de Discurso de Odio: Los métodos tradicionales se enfocaban principalmente en el contenido en sí, considerando menos la identidad del hablante
PNL Transcultural: Investigación de diferencias en el procesamiento del lenguaje en diferentes contextos culturales
Procesamiento de Dialectos: Enfoque en el rendimiento de diferentes dialectos ingleses en tareas de PNL

Innovación de Este Artículo

Primer estudio sistemático del impacto de la identidad del hablante en la clasificación de discurso de odio
Propone un enfoque dual de marcadores explícitos e implícitos
Evaluación integral en múltiples modelos y conjuntos de datos

Conclusiones y Discusión

Conclusiones Principales

Vulnerabilidad Generalizada: Todos los LLMs probados demuestran diferentes grados de vulnerabilidad después de la inyección de marcadores de identidad del hablante
Impacto Implícito Mayor: Las características dialectales tienen mayor impacto en el modelo que la mención explícita de identidad
Robustez Mejorada por Tamaño: Los modelos más grandes demuestran mayor robustez, pero aún presentan sesgos
Variación Étnica Significativa: Diferentes identidades étnicas resultan en tasas de inversión significativamente diferentes
Riesgo de Falsos Negativos: Los modelos tienden a clasificar erróneamente el discurso de odio como no odioso, lo que puede resultar en contenido dañino no detectado

Limitaciones

Limitación de Datos Dialectales: Falta de datos de discurso de odio en diferentes dialectos anotados manualmente
Rango de Modelos Limitado: Debido a limitaciones de recursos computacionales, no se pudieron probar más modelos "seguros" como Claude
Limitación de Conjunto de Datos: Limitado a conjuntos de datos de dialectos mixtos en inglés
Sesgo de Datos Sintéticos: Los datos dialectales generados pueden contener sesgos de autor desconocidos

Direcciones Futuras

Extensión Multilingüe: Extensión a conjuntos de datos multilingües y otros conjuntos de datos de discurso de odio
Investigación de Interpretabilidad: Realizar más investigación de interpretabilidad, evaluando el impacto preciso de frases específicas en patrones de predicción del modelo
Estrategias de Mitigación: Desarrollar métodos y técnicas para reducir el sesgo de identidad
Evaluación a Mayor Escala: Evaluación en más modelos y conjuntos de datos más grandes

Evaluación Profunda

Fortalezas

Importancia del Problema: Investiga un problema importante en el campo de la ética de la IA y la equidad
Innovación Metodológica: Propone un enfoque sistemático de marcadores explícitos e implícitos
Evaluación Experimental Integral: Evaluación exhaustiva en múltiples modelos, conjuntos de datos e identidades étnicas
Resultados Confiables: Valida la significancia de los resultados mediante pruebas estadísticas
Valor Práctico: Proporciona advertencias importantes para el despliegue de LLMs en tareas de alto riesgo

Deficiencias

Relación Causal: Aunque se observan fenómenos de inversión, falta análisis profundo de los mecanismos causales específicos
Soluciones de Mitigación: Se enfoca principalmente en señalar el problema sin proporcionar soluciones concretas
Limitación de Evaluación: La evaluación manual es relativamente pequeña (50 muestras por dialecto)
Representatividad Dialectal: Los dialectos seleccionados pueden no representar completamente los microdialectos y comunidades de cada región

Impacto

Contribución Académica: Proporciona una nueva perspectiva y metodología para la investigación de equidad en LLM
Significancia Práctica: Tiene implicaciones importantes para el diseño e implementación de sistemas de moderación de contenidos
Impacto Político: Puede influir en la regulación y establecimiento de estándares de sistemas de IA
Investigación Posterior: Sienta las bases para investigación posterior en campos relacionados

Escenarios Aplicables

Sistemas de Moderación de Contenidos: Sistemas de detección de discurso de odio en plataformas de redes sociales
Evaluación de Ética de IA: Evaluación de equidad y sesgo en LLM
Sistemas de IA Multiculturales: Aplicaciones de IA dirigidas a usuarios globales
Cumplimiento Regulatorio: Auditoría de equidad y verificación de cumplimiento de sistemas de IA

Referencias Bibliográficas

El artículo cita múltiples investigaciones importantes, incluyendo:

Sap et al. (2019): Riesgos de sesgo racial en la detección de discurso de odio
Field et al. (2021, 2023): Investigación del racismo en PNL
Harris et al. (2022): Sesgo del inglés afroamericano en la clasificación de discurso de odio
Ribeiro et al. (2020): Marco de prueba de comportamiento de modelos de PNL CheckList

Evaluación General: Este es un artículo de investigación de importancia significativa en los campos de ética de la IA y equidad. A través de un diseño experimental sistemático y evaluación integral, revela problemas de sesgo de identidad en los LLMs en la tarea de detección de discurso de odio. Aunque hay espacio para mejora en el aspecto de soluciones, proporciona información valiosa y advertencias para la investigación y práctica en este campo.