Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
論文ID : 2510.10078タイトル : Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model著者 : Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse分類 : cs.SD(音声)、cs.LG(機械学習)発表時期 : 2025年(Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021形式)論文リンク : https://arxiv.org/abs/2510.10078 深層学習手法は音声感情認識(SER)研究の進展を推進してきたが、本分野は依然として高品質な注釈付き訓練データの不足という課題に直面している。この問題を緩和するため、研究者らはデータ拡張手法を試行してきており、生成モデルが最近優れた性能を示している。本論文は、クロスモーダル情報伝達と相互情報正則化に基づくデータ拡張フレームワークを提案する。相互情報指標は生成データの品質の指標として機能する。さらに、相互情報がモーダル間の依存性を保証するという特性により、本フレームワークはマルチモーダル入力に拡張される。3つのベンチマークデータセット(IEMOCAP、MSP-IMPROV、MSP-Podcast)での検証により、本フレームワークは感情予測性能において既存研究を上回り、クロスモーダル情報がない場合でも新しい入力特徴を生成できることが判明した。
音声感情認識分野が直面する主要な課題は、高品質な注釈付きデータの希少性である。コンピュータビジョン分野の大規模データセット(MNISTなど)と比較して、SERデータセットの規模は小さく、これが深層学習モデルの汎化能力に深刻な影響を与えている。
データ希少性の問題はSERモデルの性能と実用性に直接影響し、特に大量の訓練データを必要とする深層学習の時代において顕著である。効果的なデータ拡張手法はモデル性能の向上に不可欠である。
従来的なデータ拡張 :単純な信号変換とノイズ追加は元データの摂動複製に過ぎず、情報含有量が限定的である条件付き生成モデル :感情ラベルから生成サンプルへの決定論的写像を仮定しており、この仮定は非現実的であり、生成サンプルの品質を保証できないクロスモーダル手法 :既存研究は主に欠落モーダルの補完または復元に焦点を当てており、マルチモーダル感情認識を明確に改善する拡張フレームワークが不足している本論文は、条件付き生成モデルの感情ラベルから生成サンプルへの決定論的写像という仮定が不合理であると仮定し、相互情報正則化を代替案として使用することを提案する。これにより、生成サンプルとクラスラベル間の依存性を定量化することで、データ拡張の品質を確保する。
SERおよびマルチモーダルSERに適用可能な生成モデルデータ拡張フレームワークを提案 し、クロスモーダル情報伝達と相互情報正則化を組み合わせたクロスモーダル伝達と相互情報を組み合わせたSERデータ拡張手法を導入 し、InfoGANアーキテクチャで実装相互情報正則化器が観測可能な量を提供できることを発見 し、生成データと感情および文本情報との依存性を検証マルチモーダル拡張に拡張 し、音声および文本特徴のすべての組み合わせを生成することでデータ規模を4倍に増加入力 :音声信号xa および対応するテキスト転写xt出力 :感情クラス予測ŷ目標 :生成拡張データを通じて感情分類性能を向上させる音声特徴抽出 : 事前学習済み音声トランスフォーマー(ASTまたはWav2Vec2)を使用して音声特徴を抽出テキスト特徴抽出 : 事前学習済みテキストトランスフォーマー(BERT/RoBERTa)を使用してテキスト特徴を抽出クロスモーダルアライメント :対比学習損失:L C L = − log exp ( s i m ( t i , h i ) / τ ) ∑ j = 1 B exp ( s i m ( t i , h j ) / τ ) L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)} L C L = − log ∑ j = 1 B e x p ( s im ( t i , h j ) / τ ) e x p ( s im ( t i , h i ) / τ ) InfoNCE損失:L M I = − log exp ( s i m ( t i , h ^ i ) / τ ) ∑ j = 1 B exp ( s i m ( t i , h ^ j ) / τ ) L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)} L M I = − log ∑ j = 1 B e x p ( s im ( t i , h ^ j ) / τ ) e x p ( s im ( t i , h ^ i ) / τ ) 生成器の目的 :min max V(D,G) - λI(c;G(z,c))
ここでcは感情ラベルとテキスト埋め込みを含む相互情報の最大化 :感情相互情報:L I y = − E { ∑ c 1 ( y = c ) log ( y ^ g ) } L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\} L I y = − E { ∑ c 1 ( y = c ) log ( y ^ g )} テキスト相互情報:L I t = − log exp ( s i m ( t i , t ^ i g ) / τ ) ∑ j = 1 B exp ( s i m ( t i , t ^ j g ) / τ ) L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)} L I t = − log ∑ j = 1 B e x p ( s im ( t i , t ^ j g ) / τ ) e x p ( s im ( t i , t ^ i g ) / τ ) SERシナリオ :元の特徴hと生成特徴ĥを使用して分類器を訓練マルチモーダルSER :(h,t)、(h,t')、(ĥ,t)、(ĥ,t')の4つの組み合わせを使用して訓練相互情報品質指標 :相互情報損失を生成サンプル品質の観測可能な指標として利用クロスモーダル情報伝達 :テキスト情報を通じて音声特徴生成を指導し、生成品質を向上マルチモーダル拡張 :音声およびテキスト特徴を同時に生成し、真のマルチモーダルデータ拡張を実現特徴レベル生成 :原始信号空間ではなく特徴空間で生成を実行し、複雑性を低減IEMOCAP :12時間の録音、5対の男女俳優対話、4クラスの感情(中立、喜び、悲しみ、怒り)MSP-IMPROV :9時間の録音、12名の俳優インタラクション、4つの基本感情MSP-Podcast :ポッドキャストからの「野生」音声データ、実際のアプリケーションシナリオにより近い重み付けなし平均再現率(UAR) :不均衡データセットに対するより公平な評価指標Leave-one-speaker-out交差検証 :モデルの汎化性能を確保Sahu et al.、Bao et al.、Latif et al.、Malik et al.などの既存データ拡張手法、およびMMIN、CIF-MMINなどのマルチモーダル手法を含む。
音声モデル:AST(SER)、Wav2Vec2(マルチモーダルSER) テキストモデル:BERT、RoBERTa、Llama 3.0 InfoGANアーキテクチャ:シンプルな線形層で生成器と判別器を実装 訓練戦略:生成器訓練の安定化にmix-up戦略を採用 手法 拡張なし 拡張あり 改善 Sahu et al. 59.42% 60.29% 0.87% Bao et al. 59.48±0.71% 60.37±0.70% 0.89% Latif et al. 60.51±0.57% 61.05±0.68% 0.54% Malik et al. 58.62±2.11% 61.22±1.85% 2.6% 本手法 60.81±4.83% 63.40±2.52% 2.59%
IEMOCAPデータセットにおいて、本手法は音声+テキストモーダル組み合わせで76.54%のUARを達成し、CIF-MMIN(75.65%)などの既存手法を上回った。
構成 UAR 完全なモデル 63.40±2.52% クロスモーダルアライメントなし 62.31±3.65% クロスモーダルアライメントとテキスト埋め込みなし 61.07±2.45% クロスモーダルアライメントと相互情報最大化なし 61.70±2.58%
アブレーション実験は各コンポーネントが最終性能に重要な貢献をしていることを示している。
相互情報正則化の有効性 :相互情報損失は確かに生成サンプル品質の指標として機能するクロスモーダル情報の重要性 :テキスト情報は音声特徴生成品質を著しく向上させるクラス不均衡処理 :MSP-Podcastデータセットでは、本手法がクラス不均衡問題を効果的に緩和するクロスモーダル情報なしの生成能力 :本フレームワークは他のモーダル情報がない場合でも新しい入力を生成できることが判明初期の研究は自動エンコーダフレームワークを採用(Latif et al.) GANと自動エンコーダの組み合わせ手法(Yi et al.、Latif et al.) 拡散モデルへの最近の拡張(Malik et al.、Kim et al.) クロスモーダルアテンションメカニズム(Goncalves et al.) 対比学習手法(Liu et al.) 再構成手法(Meng et al.、Wang et al.) 既存研究と比較して、本論文は初めてクロスモーダル伝達と相互情報正則化を組み合わせ、真のマルチモーダルデータ拡張に拡張した。
相互情報正則化生成モデルはSER性能を効果的に向上させることができる クロスモーダル情報伝達は生成サンプル品質を著しく改善する マルチモーダルデータ拡張フレームワークは複数のベンチマークデータセットで最適性能を達成 本手法はクラス不均衡問題に対処する可能性を有する 計算複雑性 :複数のモデル段階の訓練が必要であり、計算オーバーヘッドが大きい特徴空間の制限 :原始信号空間ではなく特徴空間で生成を行うため、特定の情報が失われる可能性があるデータセット依存性 :手法の性能は特定のデータセット特性に依存する可能性があるハイパーパラメータ感度 :相互情報重みλなどのハイパーパラメータは慎重な調整が必要原始信号生成のエンドツーエンド手法の探索 より効率的な訓練戦略の研究 より多くのモーダルと感情カテゴリーへの拡張 相互情報正則化の収束特性の理論的分析 手法の革新性が強い :相互情報正則化とクロスモーダル情報伝達をSERデータ拡張に初めて組み合わせた実験が充分 :複数のベンチマークデータセットでの包括的評価、アブレーション実験を含む理論基礎が堅実 :相互情報理論は生成サンプル品質に理論的保証を提供実用価値が高い :手法は実際のアプリケーションで優れた拡張性を有するアーキテクチャの複雑性 :3段階の訓練フロー比較的複雑であり、実際の展開が課題となる可能性計算効率 :単純なデータ拡張手法と比較して計算オーバーヘッドが著しく増加汎化性分析の不足 :データセット間の汎化性能の深い分析が欠落理論分析の限定 :相互情報正則化の収束特性に対する理論的保証が不足学術的貢献 :SERデータ拡張に新しい研究思想と方法フレームワークを提供実用価値 :データ希少シナリオで重要な応用価値を有する再現性 :実験設定が詳細であり、優れた再現性を有する啓発性 :相互情報正則化の考え方は他の生成タスクに拡張可能データ希少シナリオ :特に高品質な注釈付きデータが限定的な感情認識タスクに適用マルチモーダルアプリケーション :音声とテキスト情報を同時に処理する必要があるアプリケーションで優れた性能クラス不均衡問題 :感情クラス分布が不均等なデータセットに対する緩和効果研究プロトタイプ開発 :SER研究に対する効果的なデータ拡張ベースライン手法を提供本論文は48篇の関連文献を引用しており、SER、生成モデル、マルチモーダル学習など複数の分野の重要な研究をカバーし、研究に堅実な理論基礎と比較ベンチマークを提供している。