2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

상호정보 정규화 생성 모델을 이용한 음성 감정 인식 개선

기본 정보

논문 ID: 2510.10078
제목: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
저자: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
분류: cs.SD (음성), cs.LG (머신러닝)
발표 시간: 2025년 (Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021 형식)
논문 링크: https://arxiv.org/abs/2510.10078

초록

심층 학습 방법이 음성 감정 인식(SER) 연구의 진전을 주도했음에도 불구하고, 이 분야는 여전히 고품질 주석 처리된 훈련 데이터 부족 문제에 직면해 있습니다. 이 문제를 완화하기 위해 연구자들은 데이터 증강 방법을 시도했으며, 생성 모델이 최근 우수한 성능을 보였습니다. 본 논문은 교차 모달 정보 전달과 상호정보 정규화를 기반으로 한 데이터 증강 프레임워크를 제안합니다. 상호정보 측정은 생성 데이터 품질의 지표로 작용할 수 있습니다. 또한 상호정보가 모달 간 의존성을 보장하는 특성 덕분에, 이 프레임워크는 다중 모달 입력으로 확장됩니다. 세 개의 벤치마크 데이터셋(IEMOCAP, MSP-IMPROV, MSP-Podcast)에 대한 테스트는 이 프레임워크가 감정 예측 성능에서 기존 작업을 능가하며, 교차 모달 정보 없이도 새로운 입력 특징을 생성할 수 있음을 보여줍니다.

연구 배경 및 동기

핵심 문제

음성 감정 인식 분야가 직면한 주요 과제는 고품질 주석 처리된 데이터의 부족입니다. 컴퓨터 비전 분야의 대규모 데이터셋(예: MNIST)과 비교할 때, SER 데이터셋의 규모가 더 작으며, 이는 심층 학습 모델의 일반화 능력에 심각한 영향을 미칩니다.

문제의 중요성

데이터 부족 문제는 SER 모델의 성능과 실용성에 직접적인 영향을 미치며, 특히 대량의 훈련 데이터가 필요한 심층 학습 시대에 더욱 그렇습니다. 효과적인 데이터 증강 방법은 모델 성능 향상에 필수적입니다.

기존 방법의 한계

전통적 데이터 증강: 단순한 신호 변환 및 노이즈 추가는 원본 데이터의 교란된 복사본일 뿐이며, 정보 함량이 제한적입니다.
조건부 생성 모델: 감정 레이블에서 생성 샘플로의 결정론적 매핑을 가정하는데, 이러한 가정은 비현실적이며 생성 샘플 품질을 보장할 수 없습니다.
교차 모달 방법: 기존 작업은 주로 누락된 모달을 보완하거나 복구하는 데 중점을 두며, 다중 모달 감정 인식을 명시적으로 개선하는 증강 프레임워크가 부족합니다.

연구 동기

본 논문은 조건부 생성 모델이 감정 레이블에서 생성 샘플로의 결정론적 매핑 가정이 부당하다고 가정하며, 생성 샘플과 클래스 레이블 간의 의존성을 정량화하여 데이터 증강 품질을 보장하는 상호정보 정규화를 대안으로 제안합니다.

핵심 기여

SER 및 다중 모달 SER에 적용 가능한 생성 모델 데이터 증강 프레임워크 제안, 교차 모달 정보 전달과 상호정보 정규화 결합
교차 모달 전달과 상호정보를 결합한 SER 데이터 증강 방법 도입, InfoGAN 아키텍처를 사용하여 구현
상호정보 정규화기가 생성 데이터와 감정 및 텍스트 정보 간의 의존성을 검증하기 위한 관측 가능한 측정을 제공할 수 있음을 발견
다중 모달 증강으로 확장, 음성 및 텍스트 특징의 모든 조합을 생성하여 데이터 규모를 4배 증가

방법 상세 설명

작업 정의

입력: 음성 신호 xa 및 해당 텍스트 전사 xt
출력: 감정 클래스 예측 ŷ
목표: 생성된 증강 데이터를 통해 감정 분류 성능 향상

모델 아키텍처

1단계: 기준 모델 준비

음성 특징 추출:
```
h = fa(xa)
```
사전 훈련된 음성 변환기(AST 또는 Wav2Vec2)를 사용하여 음성 특징 추출
텍스트 특징 추출:
```
t = ft(xt)
```
사전 훈련된 텍스트 변환기(BERT/RoBERTa)를 사용하여 텍스트 특징 추출
교차 모달 정렬:
- 대조 학습 손실: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE 손실: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

2단계: InfoGAN 훈련

생성기 목표:
```
min max V(D,G) - λI(c;G(z,c))
```
여기서 c는 감정 레이블과 텍스트 임베딩을 포함합니다.
상호정보 최대화:
- 감정 상호정보: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- 텍스트 상호정보: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

3단계: 데이터 증강 훈련

SER 시나리오: 원본 특징 h와 생성 특징 ĥ를 사용하여 분류기 훈련
다중 모달 SER: (h,t), (h,t'), (ĥ,t), (ĥ,t') 네 가지 조합을 사용하여 훈련

기술 혁신 포인트

상호정보 품질 지표: 상호정보 손실을 생성 샘플 품질의 관측 가능한 지표로 활용
교차 모달 정보 전달: 텍스트 정보를 통해 음성 특징 생성을 안내하여 생성 품질 향상
다중 모달 확장: 음성 및 텍스트 특징을 동시에 생성하여 진정한 다중 모달 데이터 증강 구현
특징 수준 생성: 원본 신호 공간이 아닌 특징 공간에서 생성하여 복잡도 감소

실험 설정

데이터셋

IEMOCAP: 12시간 녹음, 5쌍의 남녀 배우 대화, 4가지 감정(중립, 행복, 슬픔, 분노)
MSP-IMPROV: 9시간 녹음, 12명의 배우 상호작용, 4가지 기본 감정
MSP-Podcast: 팟캐스트에서 나온 "야생" 음성 데이터, 실제 응용 시나리오에 더 가깝습니다.

평가 지표

가중치 없는 평균 재현율(UAR): 불균형 데이터셋에 대한 더 공정한 평가 지표
Leave-one-speaker-out 교차 검증: 모델 일반화 성능 보장

비교 방법

Sahu et al., Bao et al., Latif et al., Malik et al. 등의 기존 데이터 증강 방법과 MMIN, CIF-MMIN 등의 다중 모달 방법 포함

구현 세부사항

음성 모델: AST(SER), Wav2Vec2(다중 모달 SER)
텍스트 모델: BERT, RoBERTa, Llama 3.0
InfoGAN 아키텍처: 생성기 및 판별기 구현을 위한 간단한 선형 계층
훈련 전략: 생성기 훈련 안정화를 위해 mix-up 전략 채택

방법	증강 없음	증강 있음	개선
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
본 논문 방법	60.81±4.83%	63.40±2.52%	2.59%

다중 모달 SER 실험

IEMOCAP 데이터셋에서 본 논문의 방법은 음성+텍스트 모달 조합에서 76.54%의 UAR을 달성하여 기존의 CIF-MMIN(75.65%) 등의 방법을 능가합니다.

제거 실험

구성	UAR
완전한 모델	63.40±2.52%
교차 모달 정렬 없음	62.31±3.65%
교차 모달 정렬 및 텍스트 임베딩 없음	61.07±2.45%
교차 모달 정렬 및 상호정보 최대화 없음	61.70±2.58%