2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

相互情報正則化生成モデルを用いた音声感情認識の改善

基本情報

論文ID: 2510.10078
タイトル: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
著者: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
分類: cs.SD（音声）、cs.LG（機械学習）
発表時期: 2025年（Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021形式）
論文リンク: https://arxiv.org/abs/2510.10078

要約

深層学習手法は音声感情認識（SER）研究の進展を推進してきたが、本分野は依然として高品質な注釈付き訓練データの不足という課題に直面している。この問題を緩和するため、研究者らはデータ拡張手法を試行してきており、生成モデルが最近優れた性能を示している。本論文は、クロスモーダル情報伝達と相互情報正則化に基づくデータ拡張フレームワークを提案する。相互情報指標は生成データの品質の指標として機能する。さらに、相互情報がモーダル間の依存性を保証するという特性により、本フレームワークはマルチモーダル入力に拡張される。3つのベンチマークデータセット（IEMOCAP、MSP-IMPROV、MSP-Podcast）での検証により、本フレームワークは感情予測性能において既存研究を上回り、クロスモーダル情報がない場合でも新しい入力特徴を生成できることが判明した。

研究背景と動機

核心的課題

音声感情認識分野が直面する主要な課題は、高品質な注釈付きデータの希少性である。コンピュータビジョン分野の大規模データセット（MNISTなど）と比較して、SERデータセットの規模は小さく、これが深層学習モデルの汎化能力に深刻な影響を与えている。

問題の重要性

データ希少性の問題はSERモデルの性能と実用性に直接影響し、特に大量の訓練データを必要とする深層学習の時代において顕著である。効果的なデータ拡張手法はモデル性能の向上に不可欠である。

既存手法の限界

従来的なデータ拡張：単純な信号変換とノイズ追加は元データの摂動複製に過ぎず、情報含有量が限定的である
条件付き生成モデル：感情ラベルから生成サンプルへの決定論的写像を仮定しており、この仮定は非現実的であり、生成サンプルの品質を保証できない
クロスモーダル手法：既存研究は主に欠落モーダルの補完または復元に焦点を当てており、マルチモーダル感情認識を明確に改善する拡張フレームワークが不足している

研究の動機

本論文は、条件付き生成モデルの感情ラベルから生成サンプルへの決定論的写像という仮定が不合理であると仮定し、相互情報正則化を代替案として使用することを提案する。これにより、生成サンプルとクラスラベル間の依存性を定量化することで、データ拡張の品質を確保する。

核心的貢献

SERおよびマルチモーダルSERに適用可能な生成モデルデータ拡張フレームワークを提案し、クロスモーダル情報伝達と相互情報正則化を組み合わせた
クロスモーダル伝達と相互情報を組み合わせたSERデータ拡張手法を導入し、InfoGANアーキテクチャで実装
相互情報正則化器が観測可能な量を提供できることを発見し、生成データと感情および文本情報との依存性を検証
マルチモーダル拡張に拡張し、音声および文本特徴のすべての組み合わせを生成することでデータ規模を4倍に増加

方法の詳細

タスク定義

入力：音声信号xa および対応するテキスト転写xt
出力：感情クラス予測ŷ
目標：生成拡張データを通じて感情分類性能を向上させる

モデルアーキテクチャ

第1段階：ベースラインモデルの準備

音声特徴抽出：
```
h = fa(xa)
```
事前学習済み音声トランスフォーマー（ASTまたはWav2Vec2）を使用して音声特徴を抽出
テキスト特徴抽出：
```
t = ft(xt)
```
事前学習済みテキストトランスフォーマー（BERT/RoBERTa）を使用してテキスト特徴を抽出
クロスモーダルアライメント：
- 対比学習損失： $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE損失： $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

第2段階：InfoGAN訓練

生成器の目的：
```
min max V(D,G) - λI(c;G(z,c))
```
ここでcは感情ラベルとテキスト埋め込みを含む
相互情報の最大化：
- 感情相互情報： $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- テキスト相互情報： $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

第3段階：データ拡張訓練

SERシナリオ：元の特徴hと生成特徴ĥを使用して分類器を訓練
マルチモーダルSER：(h,t)、(h,t')、(ĥ,t)、(ĥ,t')の4つの組み合わせを使用して訓練

技術的革新点

相互情報品質指標：相互情報損失を生成サンプル品質の観測可能な指標として利用
クロスモーダル情報伝達：テキスト情報を通じて音声特徴生成を指導し、生成品質を向上
マルチモーダル拡張：音声およびテキスト特徴を同時に生成し、真のマルチモーダルデータ拡張を実現
特徴レベル生成：原始信号空間ではなく特徴空間で生成を実行し、複雑性を低減

実験設定

データセット

IEMOCAP：12時間の録音、5対の男女俳優対話、4クラスの感情（中立、喜び、悲しみ、怒り）
MSP-IMPROV：9時間の録音、12名の俳優インタラクション、4つの基本感情
MSP-Podcast：ポッドキャストからの「野生」音声データ、実際のアプリケーションシナリオにより近い

評価指標

重み付けなし平均再現率（UAR）：不均衡データセットに対するより公平な評価指標
Leave-one-speaker-out交差検証：モデルの汎化性能を確保

比較手法

Sahu et al.、Bao et al.、Latif et al.、Malik et al.などの既存データ拡張手法、およびMMIN、CIF-MMINなどのマルチモーダル手法を含む。

実装の詳細

音声モデル：AST（SER）、Wav2Vec2（マルチモーダルSER）
テキストモデル：BERT、RoBERTa、Llama 3.0
InfoGANアーキテクチャ：シンプルな線形層で生成器と判別器を実装
訓練戦略：生成器訓練の安定化にmix-up戦略を採用

手法	拡張なし	拡張あり	改善
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
本手法	60.81±4.83%	63.40±2.52%	2.59%

マルチモーダルSER実験

IEMOCAPデータセットにおいて、本手法は音声+テキストモーダル組み合わせで76.54%のUARを達成し、CIF-MMIN（75.65%）などの既存手法を上回った。

アブレーション実験

構成	UAR
完全なモデル	63.40±2.52%
クロスモーダルアライメントなし	62.31±3.65%
クロスモーダルアライメントとテキスト埋め込みなし	61.07±2.45%
クロスモーダルアライメントと相互情報最大化なし	61.70±2.58%