Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
Quién Habla Importa: Análisis de la Influencia de la Etnicidad del Hablante en la Clasificación de Discurso de Odio
Los modelos de lenguaje grandes (LLMs) poseen un enorme potencial de aplicación en moderación de contenidos y detección de discurso de odio. Sin embargo, estos modelos presentan vulnerabilidades y sesgos hacia comunidades marginalizadas y dialectos. Este estudio investiga la robustez de los LLMs en la clasificación de discurso de odio mediante la inyección de marcadores explícitos e implícitos de la etnicidad del hablante en la entrada. El estudio revela que los marcadores de dialecto implícitos causan más fácilmente inversiones en la salida del modelo que los marcadores explícitos, el porcentaje de inversión varía según la etnicidad, y los modelos más grandes demuestran mayor robustez.
El problema central que aborda esta investigación es: ¿Cuál es la robustez de los modelos de lenguaje grandes en la tarea de detección de discurso de odio cuando la entrada de texto contiene información de identidad étnica del hablante?
Necesidad de Aplicación Práctica: Las tecnologías de lenguaje se utilizan cada vez más en tareas de moderación de contenidos, incluida la detección de discurso de odio, debido a su capacidad para procesar grandes volúmenes de datos
Tarea de Alto Riesgo: La detección de discurso de odio es una tarea de alto riesgo que requiere un despliegue cuidadoso de LLMs
Desafío Global: Con la adopción global de LLMs, es necesario mantener la inclusividad para poblaciones de todas las nacionalidades
Problema de Sesgo: Se sabe que los LLMs presentan sesgos hacia comunidades marginalizadas y dialectos, lo que resulta en trato injusto y daño representacional
Vulnerabilidad: Los LLMs demuestran fragilidad, sesgo e incertidumbre cuando se presenta información adicional no relacionada con la tarea en sí
Preferencia Dialectal: Investigaciones previas muestran que estos modelos favorecen el inglés estadounidense, a pesar de que diferentes ubicaciones geográficas utilizan dialectos ingleses distintos
Basándose en los problemas anteriores, este artículo tiene como objetivo analizar sistemáticamente el impacto de la identidad del hablante en la clasificación de discurso de odio de los LLMs, cerrando la brecha en la investigación existente respecto al impacto de la identidad del usuario.
Primer Estudio Sistemático: Realiza un estudio novedoso sobre el impacto de la identidad del hablante en la detección de discurso de odio de los LLMs
Método de Marcación Dual: Propone un enfoque sistemático utilizando marcadores explícitos e implícitos para informar al modelo sobre la identidad del hablante
Evaluación Experimental Integral: Realiza experimentos exhaustivos en 4 modelos de lenguaje y 2 conjuntos de datos, revelando vulnerabilidades del modelo en diferentes configuraciones
Hallazgos Importantes: Descubre que los marcadores de dialecto implícitos causan más fácilmente inversiones de salida que los marcadores explícitos, y la tasa de inversión varía según la etnicidad
Entrada: Oración en inglés + marcador de identidad étnica del hablante (explícito o implícito)
Salida: Clasificación de discurso de odio (Hateful/Non-Hateful)
Objetivo: Analizar el grado de impacto de los marcadores de identidad en los resultados de clasificación
Marcador Explícito (Explicit Marker):
Menciona directamente la identidad lingüística en el indicador
Ejemplo: The [ethnicity] person said, "[input]"
Marcador Implícito (Implicit Marker):
Indica implícitamente la identidad del hablante mediante la inyección de características dialectales, incluyendo:
Vocabulario de jerga específica (como "mah" en singapurense, "mate" en británico)
Existen diferencias significativas en las tasas de inversión para diferentes identidades étnicas:
En modelos más grandes, los datos de dialecto británico y afroamericano muestran tasas de inversión H→NH más altas
La prueba de McNemar muestra que la identidad del hablante tiene un impacto significativo en los resultados de clasificación en todos los modelos (p < 0.05)
Se prueba el impacto de otras modificaciones sintéticas (paráfrasis, cambio de voz, limitación de longitud) en la tasa de inversión:
Paráfrasis: H→NH 0.17%, NH→H 0.0%
Cambio de voz: H→NH 0.08%, NH→H 0.02%
Limitación de longitud: H→NH 0.16%, NH→H 0.01%
Las tasas de inversión de estas modificaciones son mucho más bajas que la inyección de dialecto, confirmando el impacto especial de los marcadores de identidad.
Investigación de Sesgo en LLM: Literatura amplia que documenta sesgos hacia comunidades marginalizadas y dialectos
Detección de Discurso de Odio: Los métodos tradicionales se enfocaban principalmente en el contenido en sí, considerando menos la identidad del hablante
PNL Transcultural: Investigación de diferencias en el procesamiento del lenguaje en diferentes contextos culturales
Procesamiento de Dialectos: Enfoque en el rendimiento de diferentes dialectos ingleses en tareas de PNL
Vulnerabilidad Generalizada: Todos los LLMs probados demuestran diferentes grados de vulnerabilidad después de la inyección de marcadores de identidad del hablante
Impacto Implícito Mayor: Las características dialectales tienen mayor impacto en el modelo que la mención explícita de identidad
Robustez Mejorada por Tamaño: Los modelos más grandes demuestran mayor robustez, pero aún presentan sesgos
Variación Étnica Significativa: Diferentes identidades étnicas resultan en tasas de inversión significativamente diferentes
Riesgo de Falsos Negativos: Los modelos tienden a clasificar erróneamente el discurso de odio como no odioso, lo que puede resultar en contenido dañino no detectado
Extensión Multilingüe: Extensión a conjuntos de datos multilingües y otros conjuntos de datos de discurso de odio
Investigación de Interpretabilidad: Realizar más investigación de interpretabilidad, evaluando el impacto preciso de frases específicas en patrones de predicción del modelo
Estrategias de Mitigación: Desarrollar métodos y técnicas para reducir el sesgo de identidad
Evaluación a Mayor Escala: Evaluación en más modelos y conjuntos de datos más grandes
El artículo cita múltiples investigaciones importantes, incluyendo:
Sap et al. (2019): Riesgos de sesgo racial en la detección de discurso de odio
Field et al. (2021, 2023): Investigación del racismo en PNL
Harris et al. (2022): Sesgo del inglés afroamericano en la clasificación de discurso de odio
Ribeiro et al. (2020): Marco de prueba de comportamiento de modelos de PNL CheckList
Evaluación General: Este es un artículo de investigación de importancia significativa en los campos de ética de la IA y equidad. A través de un diseño experimental sistemático y evaluación integral, revela problemas de sesgo de identidad en los LLMs en la tarea de detección de discurso de odio. Aunque hay espacio para mejora en el aspecto de soluciones, proporciona información valiosa y advertencias para la investigación y práctica en este campo.