Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
- 논문 ID: 2501.00995
- 제목: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
- 저자: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (국립 칭화 대학교, 대만)
- 분류: cs.LG (머신러닝)
- 발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2501.00995
음성 감정 인식(SER)은 다양한 일상 응용 프로그램의 중요한 구성 요소이다. 크로스 코퍼스 SER 모델은 우수한 일반화 성능으로 인해 점점 더 인정받고 있다. 그러나 서로 다른 코퍼스에서 인구통계학적 특성과 관련된 공정성 문제가 주목받고 있다. 기존의 공정성 연구는 종종 특정 코퍼스의 공정성에만 초점을 맞추고 크로스 코퍼스 시나리오에서의 일반화를 간과했다. 본 연구는 이 미충분하게 탐색된 영역에 초점을 맞추어 크로스 코퍼스 SER 시나리오에서 성별 공정성의 일반화 능력을 조사한다. 우리는 크로스 코퍼스 SER 모델의 성능과 공정성이 두 가지 서로 다른 고려 사항임을 강조한다. 더욱이, 우리는 소스 도메인과 타겟 도메인의 성별 문제를 동시에 처리함으로써 SER 전이 학습 작업에서 성별 공정성을 강화하기 위한 결합 공정성 적응 메커니즘을 제안한다. 우리의 발견은 크로스 코퍼스 SER 시스템에서 성별 공정성의 일반화에 대한 최초의 통찰력 중 하나를 제공한다.
본 연구가 해결하고자 하는 핵심 문제는 크로스 코퍼스 음성 감정 인식 모델의 성별 공정성 일반화 문제이다. 구체적으로:
- 소스 코퍼스에서 성별 공정성을 보이는 SER 모델이 타겟 코퍼스에서도 공정성을 유지할 수 있는가?
- 기존의 공정성 기술이 크로스 코퍼스 설정에서 효과적으로 일반화될 수 있는가?
- 실제 응용 필요성: SER 시스템은 인간-컴퓨터 상호작용, 감정 인식 응용 프로그램 등 광범위하게 적용되며, 공정성이 매우 중요하다
- 크로스 도메인 배포 현실: 실제 응용에서 모델은 종종 훈련 데이터와 다른 환경에 배포되어야 한다
- 문화 및 언어 차이: 감정 표현은 문화 및 언어 특이성을 가지며, 크로스 코퍼스 시나리오에서의 공정성 문제는 더욱 복잡하다
- 단일 코퍼스 제한: 기존 공정성 연구는 주로 단일 데이터셋 시나리오에 초점을 맞춤
- 일반화 부재: 크로스 도메인 시나리오에서 공정성의 일반화 능력에 대한 연구 부족
- 방법 적용성: 기존 공정성 기술은 주로 소스 도메인을 위해 설계되었으며, 타겟 도메인의 공정성 요구를 고려하지 않음
- 최초의 체계적 연구: 크로스 코퍼스 SER에서 성별 공정성 일반화 문제에 대한 최초의 심층 조사
- 중요한 발견: 크로스 도메인 시나리오에서 성능과 공정성의 분리 현상 규명 — 모델이 성능에서는 잘 일반화되지만 공정성 일반화는 실패할 수 있음
- 새로운 방법: 소스 도메인과 타겟 도메인의 성별 공정성을 동시에 최적화하는 결합 공정성 적응(CFA) 메커니즘 제안
- 실증 검증: 두 개의 대규모 자연 음성 코퍼스에서 방법의 유효성 검증
- 입력: 음성 신호 특성(wav2vec2.0 특성)
- 출력: 감정 범주 예측(중립, 행복, 분노, 슬픔의 이진 분류)
- 제약: 소스 도메인과 타겟 도메인에서 동시에 성별 공정성 유지
제안된 CFA 방법은 두 개의 핵심 모듈을 포함한다:
- 감정 분류(EC) 블록: 기본 SER 아키텍처로, Transformer와 완전 연결 계층을 사용하여 감정 분류 수행
- 결합 공정성 적응(CFA) 블록: 성별 분류를 위한 대립 네트워크 포함, 역방향 그래디언트 계층을 통해 성별 중립성 구현
1. 대립 훈련 메커니즘
- 역방향 그래디언트 계층을 사용하여 특성 표현을 성별 정보에 민감하지 않게 함
- EC 모듈 목표: 성별 중립적인 감정 특성 생성
- GC 모듈 목표: 정확한 성별 예측(대립 훈련용)
2. 성별 유사성 손실
동일 성별 샘플이 특성 공간에서 가까워지도록 장려하는 대조 손실 도입:
LGSim(x1,x2,y)=(1−y)21D2+y21max(0,m−D)2
여기서 D는 샘플 임베딩 간의 유클리드 거리이고, m은 경계 매개변수(1로 설정)이다.
3. 전체 손실 함수Ltotal=LEC+α⋅LGSim−β⋅LGC
여기서 α와 β는 모두 0.5로 설정되며, 음수 기호는 대립 훈련을 나타낸다.
- 크로스 도메인 공정성 설계: 소스 도메인과 타겟 도메인의 공정성을 동시에 고려하는 최초의 방법
- 성별 특성 정렬: 대조 손실을 통해 크로스 코퍼스 성별 특성 정렬 구현
- 결합 최적화 전략: 훈련 과정에서 소스 도메인과 타겟 도메인의 혼합 배치를 사용하여 성별 중립적 대립 훈련 수행
MSP-Podcast (MSP-P)
- 166시간의 미국 영어 감정 음성
- 49,018개 샘플(24,466명 남성, 24,552명 여성)
- 소스 코퍼스로 사용
BIIC-Podcast (BIIC-P)
- 157시간의 대만 국어 감정 음성
- 18,706개 샘플(9,654명 남성, 9,326명 여성)
- 타겟 코퍼스로 사용
성능 지표:
- UAR (가중치 없는 평균 재현율): 무가중 평균 재현율
공정성 지표:
- 통계적 동등성(ΔSP): 서로 다른 그룹이 동일한 비율의 긍정적 결과를 얻도록 보장
- 기회 동등성(ΔEO): 모델이 서로 다른 그룹에 대해 동일한 참 양성률과 거짓 양성률을 가지도록 요구
- 두 지표의 범위는 -1,1이며, 0에 가까울수록 공정성이 더 좋다
전이 학습 방법:
- Few-shot (FS): 소스 코퍼스 지식을 활용하여 타겟 도메인에 적응
- GAN-기반 (GAN): 대립 훈련 채택
- 음성학적 앵커링 (PA): 공유 음성 공간에서 학습
공정성 방법:
- Fairway: 소스 도메인 특정 공정성 방법
- Reweigh: 재가중치 공정성 기술
- 최적화기: Adam, 학습률 0.0001, 감쇠 인자 0.001
- 훈련: 최대 50 에포크, 배치 크기 64, 조기 종료 메커니즘
- 손실 함수: 이진 교차 엔트로피 손실
- 실험 반복: 각 실험을 10회 반복하여 평균 계산
크로스 코퍼스 공정성 일반화 실패:
실험에서 소스 도메인(MSP-P)에서 양호한 공정성을 보이는 모델도 타겟 도메인(BIIC-P)에서 상당한 성별 편향이 존재함을 발견했다. 예를 들어, 분노 감정 분류에서:
- PA 모델 BIIC-P에서: 남성 UAR 58.01%, 여성 UAR 71.79%
- ΔSP 값이 MSP-P의 0.380에서 BIIC-P의 0.534로 증가
기존 공정성 방법의 한계:
PA-FairW와 PA-ReW는 소스 도메인 공정성에서 개선되었지만 타겟 도메인에서는 개선이 제한적이다:
- PA-ReW MSP-P 분노 범주: ΔSP=0.159, ΔEO=0.168
- 하지만 BIIC-P에서: ΔSP=0.321, ΔEO=0.416(거의 개선 없음)
현저한 공정성 개선:
PA-CFA는 PA-ReW에 비해 타겟 도메인 공정성에서 현저한 개선을 달성했다:
- 분노 범주: ΔSP 0.363에서 0.260으로 감소
- 중립 범주: ΔSP 0.391에서 0.205로 감소
- 행복 범주: ΔSP 0.412에서 0.223으로 감소
통계적 유의성 검증:
통계 검정(표 II의 별표 표시)을 통해 CFA 방법은 대부분의 경우 유의성 수준(p<0.05 또는 p<0.1)에 도달했다.
성별 유사성 손실의 역할:
PA-Adv(성별 유사성 손실 없음)와 PA-CFA 비교:
- PA-Adv BIIC-P 분노 범주: ΔSP=0.322
- PA-CFA: ΔSP=0.260
크로스 도메인 공정성 개선에서 L_GSim의 중요한 역할을 검증했다.
t-SNE 특성 공간 분석:
- PA-ReW: 남녀 특성이 명확한 클러스터 분리를 보임
- PA-CFA: 남녀 특성이 혼합 분포를 보이며, 더 나은 성별 중립성을 나타냄
성별 감지 정확도 분석:
- PA-ReW: MSP-P와 BIIC-P에서 성별 감지 정확도의 큰 차이
- PA-CFA: 두 코퍼스에서 성별 감지 정확도가 유사함(예: 분노: MSP-P 36%, BIIC-P 35%)
기존 연구는 주로 단일 코퍼스 시나리오의 공정성에 초점을 맞추며, 대립 네트워크, 재가중치 등의 기술을 사용하여 성별, 나이 등 민감한 속성의 영향을 중화한다.
주로 전이 학습, 반감독 학습 등의 기술을 통해 도메인 간 특성 및 레이블 불일치 문제를 해결하지만, 공정성 일반화를 거의 고려하지 않는다.
본 논문은 공정성 연구를 크로스 코퍼스 시나리오로 처음 확장하여 이 분야의 연구 공백을 채운다.
- 성능과 공정성의 분리: 크로스 코퍼스 SER 모델의 성능 일반화와 공정성 일반화는 두 가지 독립적인 문제이다
- 기존 방법의 부족: 소스 도메인 특정 공정성 기술은 타겟 도메인으로 효과적으로 일반화될 수 없다
- CFA의 유효성: 제안된 결합 공정성 적응 방법은 크로스 도메인 성별 공정성을 현저히 개선할 수 있다
- 성능 트레이드오프: CFA 방법은 공정성을 개선하면서 전체 성능을 약간 희생한다
- 코퍼스 제한: 실험은 두 개의 특정 코퍼스에서만 수행되었으며, 일반화 능력은 추가 검증이 필요하다
- 속성 범위: 주로 성별 공정성에 초점을 맞추며, 다른 민감한 속성(예: 나이, 인종)은 다루지 않는다
- 특성 수준 분석: 특성 수준 분석을 통해 크로스 코퍼스 공정성 문제의 구체적 원인 파악
- 다중 속성 공정성: 여러 민감한 속성의 결합 공정성 최적화로 확장
- 이론적 프레임워크: 크로스 도메인 공정성의 이론적 분석 프레임워크 구축
- 문제의 중요성: 크로스 코퍼스 SER에서 공정성 일반화 문제를 최초로 체계적으로 연구하였으며, 실제적 의미가 크다
- 방법 혁신: 제안된 CFA 방법은 설계가 합리적이며, 대립 훈련과 대조 학습을 통해 크로스 도메인 공정성 최적화를 구현한다
- 충분한 실험: 실험 설계가 포괄적이며, 다양한 기준선 방법, 제거 실험 및 시각화 분석을 포함한다
- 가치 있는 발견: 성능 일반화와 공정성 일반화의 분리 현상을 규명하여 분야에 중요한 통찰력을 제공한다
- 이론적 기초: 크로스 도메인 공정성 문제에 대한 이론적 분석이 부족하며, 주로 경험적 관찰에 기반한다
- 데이터 제한: 두 개의 코퍼스에서만 검증되었으며, 모두 팟캐스트 데이터로 다양성이 제한적이다
- 평가 단일성: 주로 성별 공정성에 초점을 맞추며, 다른 민감한 속성에 대한 고려가 부족하다
- 실용성: 방법은 훈련을 위해 타겟 도메인의 성별 레이블이 필요하며, 실제 응용에서 제약이 있을 수 있다
- 학술적 가치: 크로스 코퍼스 SER 공정성 연구의 새로운 방향을 개척하였으며, 더 많은 관련 연구를 유발할 것으로 예상된다
- 실용적 가치: SER 시스템의 크로스 도메인 배포에 공정성 보장을 위한 기술 방안을 제공한다
- 재현성: 실험 설정이 상세하며, 코드 및 데이터 가용성이 좋다
- 크로스 언어 SER 시스템: 특히 서로 다른 언어 환경에 배포해야 하는 감정 인식 시스템에 적합하다
- 다중 도메인 응용: 여러 데이터 도메인에서 공정성을 유지해야 하는 SER 응용에 적합하다
- 공정성 민감 시나리오: 의료 건강, 교육 평가 등 공정성 요구도가 높은 응용 분야
논문은 21개의 관련 문헌을 인용하였으며, SER, 공정성, 전이 학습 등 여러 관련 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 SER 공정성 연구 분야에서 개척적 의미를 가진 논문으로, 크로스 코퍼스 시나리오에서 공정성 일반화 문제를 최초로 체계적으로 연구하였으며, 제안된 CFA 방법은 기술적으로 일정한 혁신성을 가지고 있고 실험 검증이 충분하다. 일부 한계가 있지만, 이 분야의 발전을 위한 중요한 기초와 방향 지침을 제공한다.