2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee

Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.

academic

¿Sigue siendo justo? Investigación de la equidad de género en el reconocimiento de emociones en el habla entre corpus

Información Básica

ID del artículo: 2501.00995
Título: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
Autores: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (Universidad Nacional Tsing Hua, Taiwán)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de publicación: 2 de enero de 2025 (preimpresión en arXiv)
Enlace del artículo: https://arxiv.org/abs/2501.00995

Resumen

El reconocimiento de emociones en el habla (SER) es un componente importante en diversas aplicaciones cotidianas. Los modelos SER entre corpus son cada vez más reconocidos por su rendimiento de generalización. Sin embargo, las cuestiones de equidad relacionadas con características demográficas en diferentes corpus han suscitado preocupación. La investigación existente sobre equidad a menudo se centra únicamente en la equidad específica de un corpus, ignorando su generalización en escenarios entre corpus. Este estudio se enfoca en esta área poco explorada, examinando la capacidad de generalización de la equidad de género en escenarios de SER entre corpus. Destacamos que el rendimiento y la equidad de los modelos SER entre corpus son dos consideraciones distintas. Además, proponemos un mecanismo combinado de adaptación de equidad para mejorar la equidad de género en tareas de aprendizaje por transferencia de SER, abordando simultáneamente cuestiones de género en los dominios de origen y destino. Nuestros hallazgos proporcionan una de las primeras perspectivas sobre la generalización de la equidad de género en sistemas SER entre corpus.

Antecedentes de investigación y motivación

Definición del problema

El problema central que aborda esta investigación es: el problema de generalización de la equidad de género en modelos de reconocimiento de emociones en el habla entre corpus. Específicamente:

¿Los modelos SER que muestran equidad de género en el corpus de origen mantienen la equidad en el corpus de destino?
¿Las técnicas de equidad existentes se generalizan efectivamente en configuraciones entre corpus?

Análisis de importancia

Necesidades de aplicaciones prácticas: Los sistemas SER se aplican ampliamente en interacción humano-máquina y aplicaciones de percepción emocional, donde la equidad es crucial
Realidad del despliegue entre dominios: En aplicaciones prácticas, los modelos a menudo necesitan desplegarse en entornos diferentes a los datos de entrenamiento
Diferencias culturales y lingüísticas: La expresión emocional tiene especificidades culturales y lingüísticas, haciendo que los desafíos de equidad en escenarios entre corpus sean más complejos

Limitaciones de métodos existentes

Limitaciones de corpus único: La investigación existente sobre equidad se centra principalmente en escenarios de conjuntos de datos únicos
Falta de generalización: Carencia de investigación sobre la capacidad de generalización de la equidad en escenarios entre dominios
Aplicabilidad de métodos: Las técnicas de equidad existentes se diseñan principalmente para el dominio de origen, sin considerar las necesidades de equidad del dominio de destino

Contribuciones principales

Primer estudio sistemático: Investigación profunda del problema de generalización de la equidad de género en SER entre corpus
Hallazgos importantes: Revelación del fenómeno de separación entre rendimiento y equidad en escenarios entre dominios—los modelos pueden generalizar bien en rendimiento pero fallar en generalización de equidad
Método novedoso: Propuesta del mecanismo de adaptación combinada de equidad (CFA), optimizando simultáneamente la equidad de género en dominios de origen y destino
Verificación empírica: Validación de la efectividad del método en dos corpus de habla natural a gran escala

Explicación detallada del método

Definición de la tarea

Entrada: Características de señales de habla (características wav2vec2.0)
Salida: Predicción de categoría emocional (clasificación binaria de neutral, feliz, enojado, triste)
Restricción: Mantener la equidad de género simultáneamente en dominios de origen y destino

Arquitectura del modelo

Diseño general

El método CFA propuesto contiene dos módulos principales:

Bloque de clasificación emocional (EC): Arquitectura SER base, utilizando capas Transformer y completamente conectadas para clasificación emocional
Bloque de adaptación combinada de equidad (CFA): Incluye red adversarial para clasificación de género, implementando neutralidad de género a través de capas de gradiente inverso

Componentes técnicos clave

1. Mecanismo de entrenamiento adversarial

Uso de capas de gradiente inverso para hacer que las representaciones de características sean insensibles a la información de género
Objetivo del módulo EC: Generar características emocionales neutrales respecto al género
Objetivo del módulo GC: Predicción precisa de género (utilizado para entrenamiento adversarial)

2. Pérdida de similitud de género Introducción de pérdida contrastiva para alentar que muestras del mismo género se acerquen en el espacio de características:

$L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2$

donde D es la distancia euclidiana entre incrustaciones de muestras, y m es el parámetro de margen (establecido en 1).

3. Función de pérdida total $L_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}$

donde α y β se establecen en 0.5, y el signo negativo indica entrenamiento adversarial.

Puntos de innovación técnica

Diseño de equidad entre dominios: Primera propuesta que considera simultáneamente la equidad en dominios de origen y destino
Alineación de características de género: Implementación de alineación de características de género entre corpus a través de pérdida contrastiva
Estrategia de optimización conjunta: Uso de lotes mixtos de dominios de origen y destino durante el entrenamiento para entrenamiento adversarial neutral respecto al género

Configuración experimental

Conjuntos de datos

MSP-Podcast (MSP-P)

166 horas de habla emocional en inglés estadounidense
49,018 muestras (24,466 hombres, 24,552 mujeres)
Utilizado como corpus de origen

BIIC-Podcast (BIIC-P)

157 horas de habla emocional en mandarín taiwanés
18,706 muestras (9,654 hombres, 9,326 mujeres)
Utilizado como corpus de destino

Métricas de evaluación

Métricas de rendimiento:

UAR (Unweighted Average Recall): Tasa de recuperación promedio sin ponderación

Métricas de equidad:

Paridad estadística (ΔSP): Garantiza que diferentes grupos reciban la misma proporción de resultados positivos
Igualdad de oportunidades (ΔEO): Requiere que el modelo tenga tasas de verdaderos positivos y falsos positivos iguales para diferentes grupos
Ambas métricas oscilan entre -1,1, siendo más cercano a 0 mejor en términos de equidad

Métodos de comparación

Métodos de aprendizaje por transferencia:

Few-shot (FS): Utilización de conocimiento del corpus de origen para adaptación al dominio destino
GAN-based (GAN): Adopción de entrenamiento adversarial
Phonetically-anchored (PA): Aprendizaje en espacio de habla compartido

Métodos de equidad:

Fairway: Método de equidad específico del dominio de origen
Reweigh: Técnica de equidad con reponderación

Detalles de implementación

Optimizador: Adam, tasa de aprendizaje 0.0001, factor de decaimiento 0.001
Entrenamiento: Máximo 50 épocas, tamaño de lote 64, mecanismo de parada temprana
Función de pérdida: Pérdida de entropía cruzada binaria
Repeticiones experimentales: Cada experimento se repite 10 veces y se promedian los resultados

Resultados experimentales

Resultados principales

Fallo en la generalización de equidad entre corpus: Los experimentos revelan que incluso modelos que muestran buena equidad de género en el dominio de origen (MSP-P) presentan sesgos de género significativos en el dominio de destino (BIIC-P). Por ejemplo, en clasificación de emociones de enojo:

Modelo PA en BIIC-P: UAR masculino 58.01%, UAR femenino 71.79%
Valor ΔSP aumenta de 0.380 en MSP-P a 0.534 en BIIC-P

Limitaciones de métodos de equidad existentes: Aunque PA-FairW y PA-ReW muestran mejora en equidad del dominio de origen, la mejora en el dominio de destino es limitada:

PA-ReW en categoría enojo de MSP-P: ΔSP=0.159, ΔEO=0.168
Pero en BIIC-P: ΔSP=0.321, ΔEO=0.416 (prácticamente sin mejora)

Efectividad del método CFA

Mejora significativa de equidad: PA-CFA logra mejoras significativas en equidad del dominio de destino en comparación con PA-ReW:

Categoría enojo: ΔSP disminuye de 0.363 a 0.260
Categoría neutral: ΔSP disminuye de 0.391 a 0.205
Categoría feliz: ΔSP disminuye de 0.412 a 0.223

Verificación de significancia estadística: A través de pruebas estadísticas (marcas de asterisco en la Tabla II), el método CFA alcanza niveles de significancia en la mayoría de casos (p<0.05 o p<0.1).

Experimentos de ablación

Rol de la pérdida de similitud de género: Comparación entre PA-Adv (sin pérdida de similitud de género) y PA-CFA:

PA-Adv en categoría enojo de BIIC-P: ΔSP=0.322
PA-CFA: ΔSP=0.260 Validación de la importancia de L_GSim en la mejora de equidad entre dominios.

Análisis de visualización

Análisis del espacio de características t-SNE:

PA-ReW: Características masculinas y femeninas muestran agrupamiento claramente separado
PA-CFA: Características masculinas y femeninas distribuidas de manera mixta, indicando mejor neutralidad de género

Análisis de precisión de detección de género:

PA-ReW: Gran diferencia en precisión de detección de género entre MSP-P y BIIC-P
PA-CFA: Precisión de detección de género similar entre corpus (por ejemplo, enojo: MSP-P 36%, BIIC-P 35%)

Trabajo relacionado

Investigación de equidad en SER

La investigación existente se centra principalmente en escenarios de corpus único, utilizando redes adversariales, técnicas de reponderación y otros métodos para neutralizar el impacto de atributos sensibles como género y edad.

SER entre corpus

Se aborda principalmente a través de aprendizaje por transferencia, aprendizaje semisupervisado y otras técnicas para resolver problemas de desajuste de características y etiquetas entre dominios, pero con poca consideración de generalización de equidad.

Posicionamiento de la contribución de este artículo

Este artículo extiende por primera vez la investigación de equidad a escenarios entre corpus, llenando un vacío en este campo de investigación.

Conclusiones y discusión

Conclusiones principales

Separación entre rendimiento y equidad: El rendimiento de generalización y la generalización de equidad de modelos SER entre corpus son dos problemas independientes
Insuficiencia de métodos existentes: Las técnicas de equidad específicas del dominio de origen no pueden generalizarse efectivamente al dominio de destino
Efectividad de CFA: El método propuesto de adaptación combinada de equidad puede mejorar significativamente la equidad de género entre dominios

Limitaciones

Compensación de rendimiento: El método CFA sacrifica ligeramente el rendimiento general mientras mejora la equidad
Limitaciones de corpus: Los experimentos se realizan solo en dos corpus específicos, requiriendo verificación adicional de generalización
Rango de atributos: Se enfoca principalmente en equidad de género, sin considerar otros atributos sensibles (como edad, raza)

Direcciones futuras

Análisis a nivel de características: Identificación de fuentes específicas de problemas de equidad entre corpus a través de análisis a nivel de características
Equidad multiatributo: Extensión a optimización de equidad conjunta de múltiples atributos sensibles
Marco teórico: Establecimiento de marco de análisis teórico para equidad entre dominios

Evaluación profunda

Fortalezas

Importancia del problema: Primer estudio sistemático de generalización de equidad en SER entre corpus, con significancia práctica importante
Innovación del método: El método CFA propuesto está bien diseñado, implementando optimización de equidad entre dominios a través de entrenamiento adversarial y aprendizaje contrastivo
Experimentos suficientes: Diseño experimental completo, incluyendo múltiples métodos base, experimentos de ablación y análisis de visualización
Hallazgos valiosos: Revelación del fenómeno de separación entre generalización de rendimiento y generalización de equidad, proporcionando perspectivas importantes para el campo

Deficiencias

Fundamento teórico: Carencia de análisis teórico del problema de equidad entre dominios, basándose principalmente en observaciones empíricas
Limitaciones de datos: Validación en solo dos corpus, ambos datos de podcast, con diversidad limitada
Evaluación única: Enfoque principalmente en equidad de género, con consideración insuficiente de otros atributos sensibles
Practicidad: El método requiere etiquetas de género del dominio de destino para entrenamiento, potencialmente limitado en aplicaciones reales

Impacto

Valor académico: Apertura de nueva dirección en investigación de equidad en SER entre corpus, esperando generar más investigación relacionada
Valor práctico: Provisión de solución técnica de garantía de equidad para despliegue entre dominios de sistemas SER
Reproducibilidad: Configuración experimental detallada, con buena disponibilidad de código y datos

Escenarios aplicables

Sistemas SER multilingües: Particularmente aplicable a sistemas de reconocimiento emocional que necesitan desplegarse en diferentes entornos lingüísticos
Aplicaciones multidominios: Adecuado para aplicaciones SER que requieren mantener equidad en múltiples dominios de datos
Escenarios sensibles a equidad: Como evaluación en salud médica, educación y otros campos con altos requisitos de equidad

Referencias

El artículo cita 21 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo SER, equidad y aprendizaje por transferencia, proporcionando una base teórica sólida para la investigación.

Evaluación general: Este es un trabajo de significancia pionera en el campo de investigación de equidad en SER, siendo el primero en estudiar sistemáticamente el problema de generalización de equidad en escenarios entre corpus. El método CFA propuesto tiene cierta innovación técnica, con verificación experimental relativamente completa. Aunque presenta algunas limitaciones, proporciona base importante y orientación direccional para el desarrollo del campo.