Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
- ID del artículo: 2501.00995
- Título: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
- Autores: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (Universidad Nacional Tsing Hua, Taiwán)
- Clasificación: cs.LG (Aprendizaje Automático)
- Fecha de publicación: 2 de enero de 2025 (preimpresión en arXiv)
- Enlace del artículo: https://arxiv.org/abs/2501.00995
El reconocimiento de emociones en el habla (SER) es un componente importante en diversas aplicaciones cotidianas. Los modelos SER entre corpus son cada vez más reconocidos por su rendimiento de generalización. Sin embargo, las cuestiones de equidad relacionadas con características demográficas en diferentes corpus han suscitado preocupación. La investigación existente sobre equidad a menudo se centra únicamente en la equidad específica de un corpus, ignorando su generalización en escenarios entre corpus. Este estudio se enfoca en esta área poco explorada, examinando la capacidad de generalización de la equidad de género en escenarios de SER entre corpus. Destacamos que el rendimiento y la equidad de los modelos SER entre corpus son dos consideraciones distintas. Además, proponemos un mecanismo combinado de adaptación de equidad para mejorar la equidad de género en tareas de aprendizaje por transferencia de SER, abordando simultáneamente cuestiones de género en los dominios de origen y destino. Nuestros hallazgos proporcionan una de las primeras perspectivas sobre la generalización de la equidad de género en sistemas SER entre corpus.
El problema central que aborda esta investigación es: el problema de generalización de la equidad de género en modelos de reconocimiento de emociones en el habla entre corpus. Específicamente:
- ¿Los modelos SER que muestran equidad de género en el corpus de origen mantienen la equidad en el corpus de destino?
- ¿Las técnicas de equidad existentes se generalizan efectivamente en configuraciones entre corpus?
- Necesidades de aplicaciones prácticas: Los sistemas SER se aplican ampliamente en interacción humano-máquina y aplicaciones de percepción emocional, donde la equidad es crucial
- Realidad del despliegue entre dominios: En aplicaciones prácticas, los modelos a menudo necesitan desplegarse en entornos diferentes a los datos de entrenamiento
- Diferencias culturales y lingüísticas: La expresión emocional tiene especificidades culturales y lingüísticas, haciendo que los desafíos de equidad en escenarios entre corpus sean más complejos
- Limitaciones de corpus único: La investigación existente sobre equidad se centra principalmente en escenarios de conjuntos de datos únicos
- Falta de generalización: Carencia de investigación sobre la capacidad de generalización de la equidad en escenarios entre dominios
- Aplicabilidad de métodos: Las técnicas de equidad existentes se diseñan principalmente para el dominio de origen, sin considerar las necesidades de equidad del dominio de destino
- Primer estudio sistemático: Investigación profunda del problema de generalización de la equidad de género en SER entre corpus
- Hallazgos importantes: Revelación del fenómeno de separación entre rendimiento y equidad en escenarios entre dominios—los modelos pueden generalizar bien en rendimiento pero fallar en generalización de equidad
- Método novedoso: Propuesta del mecanismo de adaptación combinada de equidad (CFA), optimizando simultáneamente la equidad de género en dominios de origen y destino
- Verificación empírica: Validación de la efectividad del método en dos corpus de habla natural a gran escala
- Entrada: Características de señales de habla (características wav2vec2.0)
- Salida: Predicción de categoría emocional (clasificación binaria de neutral, feliz, enojado, triste)
- Restricción: Mantener la equidad de género simultáneamente en dominios de origen y destino
El método CFA propuesto contiene dos módulos principales:
- Bloque de clasificación emocional (EC): Arquitectura SER base, utilizando capas Transformer y completamente conectadas para clasificación emocional
- Bloque de adaptación combinada de equidad (CFA): Incluye red adversarial para clasificación de género, implementando neutralidad de género a través de capas de gradiente inverso
1. Mecanismo de entrenamiento adversarial
- Uso de capas de gradiente inverso para hacer que las representaciones de características sean insensibles a la información de género
- Objetivo del módulo EC: Generar características emocionales neutrales respecto al género
- Objetivo del módulo GC: Predicción precisa de género (utilizado para entrenamiento adversarial)
2. Pérdida de similitud de género
Introducción de pérdida contrastiva para alentar que muestras del mismo género se acerquen en el espacio de características:
LGSim(x1,x2,y)=(1−y)21D2+y21max(0,m−D)2
donde D es la distancia euclidiana entre incrustaciones de muestras, y m es el parámetro de margen (establecido en 1).
3. Función de pérdida totalLtotal=LEC+α⋅LGSim−β⋅LGC
donde α y β se establecen en 0.5, y el signo negativo indica entrenamiento adversarial.
- Diseño de equidad entre dominios: Primera propuesta que considera simultáneamente la equidad en dominios de origen y destino
- Alineación de características de género: Implementación de alineación de características de género entre corpus a través de pérdida contrastiva
- Estrategia de optimización conjunta: Uso de lotes mixtos de dominios de origen y destino durante el entrenamiento para entrenamiento adversarial neutral respecto al género
MSP-Podcast (MSP-P)
- 166 horas de habla emocional en inglés estadounidense
- 49,018 muestras (24,466 hombres, 24,552 mujeres)
- Utilizado como corpus de origen
BIIC-Podcast (BIIC-P)
- 157 horas de habla emocional en mandarín taiwanés
- 18,706 muestras (9,654 hombres, 9,326 mujeres)
- Utilizado como corpus de destino
Métricas de rendimiento:
- UAR (Unweighted Average Recall): Tasa de recuperación promedio sin ponderación
Métricas de equidad:
- Paridad estadística (ΔSP): Garantiza que diferentes grupos reciban la misma proporción de resultados positivos
- Igualdad de oportunidades (ΔEO): Requiere que el modelo tenga tasas de verdaderos positivos y falsos positivos iguales para diferentes grupos
- Ambas métricas oscilan entre -1,1, siendo más cercano a 0 mejor en términos de equidad
Métodos de aprendizaje por transferencia:
- Few-shot (FS): Utilización de conocimiento del corpus de origen para adaptación al dominio destino
- GAN-based (GAN): Adopción de entrenamiento adversarial
- Phonetically-anchored (PA): Aprendizaje en espacio de habla compartido
Métodos de equidad:
- Fairway: Método de equidad específico del dominio de origen
- Reweigh: Técnica de equidad con reponderación
- Optimizador: Adam, tasa de aprendizaje 0.0001, factor de decaimiento 0.001
- Entrenamiento: Máximo 50 épocas, tamaño de lote 64, mecanismo de parada temprana
- Función de pérdida: Pérdida de entropía cruzada binaria
- Repeticiones experimentales: Cada experimento se repite 10 veces y se promedian los resultados
Fallo en la generalización de equidad entre corpus:
Los experimentos revelan que incluso modelos que muestran buena equidad de género en el dominio de origen (MSP-P) presentan sesgos de género significativos en el dominio de destino (BIIC-P). Por ejemplo, en clasificación de emociones de enojo:
- Modelo PA en BIIC-P: UAR masculino 58.01%, UAR femenino 71.79%
- Valor ΔSP aumenta de 0.380 en MSP-P a 0.534 en BIIC-P
Limitaciones de métodos de equidad existentes:
Aunque PA-FairW y PA-ReW muestran mejora en equidad del dominio de origen, la mejora en el dominio de destino es limitada:
- PA-ReW en categoría enojo de MSP-P: ΔSP=0.159, ΔEO=0.168
- Pero en BIIC-P: ΔSP=0.321, ΔEO=0.416 (prácticamente sin mejora)
Mejora significativa de equidad:
PA-CFA logra mejoras significativas en equidad del dominio de destino en comparación con PA-ReW:
- Categoría enojo: ΔSP disminuye de 0.363 a 0.260
- Categoría neutral: ΔSP disminuye de 0.391 a 0.205
- Categoría feliz: ΔSP disminuye de 0.412 a 0.223
Verificación de significancia estadística:
A través de pruebas estadísticas (marcas de asterisco en la Tabla II), el método CFA alcanza niveles de significancia en la mayoría de casos (p<0.05 o p<0.1).
Rol de la pérdida de similitud de género:
Comparación entre PA-Adv (sin pérdida de similitud de género) y PA-CFA:
- PA-Adv en categoría enojo de BIIC-P: ΔSP=0.322
- PA-CFA: ΔSP=0.260
Validación de la importancia de L_GSim en la mejora de equidad entre dominios.
Análisis del espacio de características t-SNE:
- PA-ReW: Características masculinas y femeninas muestran agrupamiento claramente separado
- PA-CFA: Características masculinas y femeninas distribuidas de manera mixta, indicando mejor neutralidad de género
Análisis de precisión de detección de género:
- PA-ReW: Gran diferencia en precisión de detección de género entre MSP-P y BIIC-P
- PA-CFA: Precisión de detección de género similar entre corpus (por ejemplo, enojo: MSP-P 36%, BIIC-P 35%)
La investigación existente se centra principalmente en escenarios de corpus único, utilizando redes adversariales, técnicas de reponderación y otros métodos para neutralizar el impacto de atributos sensibles como género y edad.
Se aborda principalmente a través de aprendizaje por transferencia, aprendizaje semisupervisado y otras técnicas para resolver problemas de desajuste de características y etiquetas entre dominios, pero con poca consideración de generalización de equidad.
Este artículo extiende por primera vez la investigación de equidad a escenarios entre corpus, llenando un vacío en este campo de investigación.
- Separación entre rendimiento y equidad: El rendimiento de generalización y la generalización de equidad de modelos SER entre corpus son dos problemas independientes
- Insuficiencia de métodos existentes: Las técnicas de equidad específicas del dominio de origen no pueden generalizarse efectivamente al dominio de destino
- Efectividad de CFA: El método propuesto de adaptación combinada de equidad puede mejorar significativamente la equidad de género entre dominios
- Compensación de rendimiento: El método CFA sacrifica ligeramente el rendimiento general mientras mejora la equidad
- Limitaciones de corpus: Los experimentos se realizan solo en dos corpus específicos, requiriendo verificación adicional de generalización
- Rango de atributos: Se enfoca principalmente en equidad de género, sin considerar otros atributos sensibles (como edad, raza)
- Análisis a nivel de características: Identificación de fuentes específicas de problemas de equidad entre corpus a través de análisis a nivel de características
- Equidad multiatributo: Extensión a optimización de equidad conjunta de múltiples atributos sensibles
- Marco teórico: Establecimiento de marco de análisis teórico para equidad entre dominios
- Importancia del problema: Primer estudio sistemático de generalización de equidad en SER entre corpus, con significancia práctica importante
- Innovación del método: El método CFA propuesto está bien diseñado, implementando optimización de equidad entre dominios a través de entrenamiento adversarial y aprendizaje contrastivo
- Experimentos suficientes: Diseño experimental completo, incluyendo múltiples métodos base, experimentos de ablación y análisis de visualización
- Hallazgos valiosos: Revelación del fenómeno de separación entre generalización de rendimiento y generalización de equidad, proporcionando perspectivas importantes para el campo
- Fundamento teórico: Carencia de análisis teórico del problema de equidad entre dominios, basándose principalmente en observaciones empíricas
- Limitaciones de datos: Validación en solo dos corpus, ambos datos de podcast, con diversidad limitada
- Evaluación única: Enfoque principalmente en equidad de género, con consideración insuficiente de otros atributos sensibles
- Practicidad: El método requiere etiquetas de género del dominio de destino para entrenamiento, potencialmente limitado en aplicaciones reales
- Valor académico: Apertura de nueva dirección en investigación de equidad en SER entre corpus, esperando generar más investigación relacionada
- Valor práctico: Provisión de solución técnica de garantía de equidad para despliegue entre dominios de sistemas SER
- Reproducibilidad: Configuración experimental detallada, con buena disponibilidad de código y datos
- Sistemas SER multilingües: Particularmente aplicable a sistemas de reconocimiento emocional que necesitan desplegarse en diferentes entornos lingüísticos
- Aplicaciones multidominios: Adecuado para aplicaciones SER que requieren mantener equidad en múltiples dominios de datos
- Escenarios sensibles a equidad: Como evaluación en salud médica, educación y otros campos con altos requisitos de equidad
El artículo cita 21 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo SER, equidad y aprendizaje por transferencia, proporcionando una base teórica sólida para la investigación.
Evaluación general: Este es un trabajo de significancia pionera en el campo de investigación de equidad en SER, siendo el primero en estudiar sistemáticamente el problema de generalización de equidad en escenarios entre corpus. El método CFA propuesto tiene cierta innovación técnica, con verificación experimental relativamente completa. Aunque presenta algunas limitaciones, proporciona base importante y orientación direccional para el desarrollo del campo.