This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
academic- 論文ID: 2506.19887
- タイトル: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- 著者: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- 分類: eess.AS cs.AI cs.SD
- 発表時期/会議: Interspeech 2025
- 論文リンク: https://arxiv.org/abs/2506.19887
本論文では、自然条件下の音声感情認識のための多層階層フレームワークであるMATER(Multi-level Acoustic-Textual Emotion Representation)を提案している。本手法は単語レベル、文レベル、埋め込みレベルの3つのレベルで音響特徴とテキスト特徴を統合し、低層の語彙・音響手がかりと高層の文脈化表現を融合することで、細粒度の韻律変化と意味的微妙さを効果的に捉える。さらに、不確実性を考慮したアンサンブル戦略を導入して、アノテータの不一致問題を緩和し、曖昧な感情表現における堅牢性を向上させる。MATERは2つのタスクで第4位にランクされ、Macro-F1は41.01%、平均CCCは0.5928を達成し、感情価値予測では第2位を獲得し、CCCは0.6941に達した。
- 自然音声感情認識の複雑性:既存のほとんどのSERデータセットは実世界の感情表現を完全に捉えることができず、通常は演技的または誘発的な録音で構成されており、汎化能力が不足している。
- 話者内および話者間の変動性:自然音声には個体差と感情表現の複雑性が顕著に存在する。
- アノテーション不一致問題:重複、曖昧性、および高度に可変な感情表現により、アノテータの合意が不十分となり、信頼度の差異とカテゴリバイアスが生じる。
感情は人間の経験の基盤であり、意思決定、コミュニケーション、心理的健康に影響を与える。音声は最も一般的なコミュニケーション形式として、話者の身元、感情状態、言語的強調を含む豊富な感情手がかりを担う。
- ほとんどのデータセットは参加者数が限定されており、多様な実世界シナリオへの汎化能力が低下している
- 多層特徴の効果的な統合が不足している
- アノテーション不一致がもたらすバイアス問題に効果的に対処していない
- MATERフレームワークの提案:単語レベル、文レベル、埋め込みレベルの3つのレベルで音響特徴とテキスト特徴を統合する新規な階層フレームワーク
- 多層特徴融合:低層の構文的・韻律的手がかりから高層の文脈化表現まで、感情をシステマティックにモデル化
- 不確実性を考慮したアンサンブル戦略:不確実性が最小の感情予測を選択することで堅牢性を向上させ、アノテーションバイアスを緩和
- SERNCチャレンジでの優異な成績:2つのタスクで第4位、感情価値予測で第2位を獲得
研究は2つのタスクを対象としている:
- タスク1:カテゴリ感情認識:音声片段を8つの感情カテゴリ(怒り、軽蔑、嫌悪、恐怖、喜び、中立、悲しみ、驚き)に分類
- タスク2:感情属性予測:3つの感情次元で7段階リッカート尺度評定を実施(覚醒度、支配度、感情価値)
MATERは3つの異なるレベルで音響特徴とテキスト特徴を抽出する:
単語レベル特徴(Word-level):
- 構文特徴:BERTweetの構文解析器を使用して言語パターンを抽出、代名詞の文法的人称情報を含む20次元の構文特徴ベクトルを形成
- 韻律特徴:openSMILEライブラリを使用して22次元の特徴ベクトルを抽出、音量、ジッター、シマー、α比率、有声/無声セグメント統計を含む
- 連結により構文認識韻律表現を形成
文レベル特徴(Utterance-level):
- 感情特徴:SEANCEフィーチャセットから派生、517次元表現を生成、転記全体の感情傾向を捉える
- リズム特徴:音声の流暢性、強度、微妙さを分析、音量、ジッター、シマー、調和雑音比(HNR)、ポーズ、有声/無声統計を含む34次元特徴ベクトルを形成
埋め込みレベル特徴(Embedding-level):
- 音声エンコーダ:WavLMおよびHuBERTが豊富な音素・韻律情報を捉える
- テキストエンコーダ:BERTおよびT5が意味情報表現を提供
- MSP-Podcastコーパスでの後事前学習によりドメイン適応を強化
- 単語レベル:2層LSTMで処理、最終隠れ状態を単語レベル埋め込みとして使用
- 文レベル:まずPLE(Piecewise Linear Embedding)層を通過、その後線形層で固定次元表現を生成
- 埋め込みレベル:複数の埋め込みソース使用時はPerceiver アーキテクチャで融合、それ以外は直接プーリング特徴を使用
- 最終融合:連結された多層埋め込みを線形層に入力して予測を実施
- 多層特徴モデリング:細粒度の構文韻律手がかりから高層の意味表現まで、完全な感情情報を体系的に捉える
- 構文認識韻律表現:言語構造と音調の相互作用をモデル化、感情表現において重要な役割を果たす
- ドメイン適応戦略:事前学習エンコーダをターゲットデータセット上で後事前学習
- 不確実性を考慮したアンサンブル:予測確率をランク付けして認知的不確実性を推定、高信頼度予測を優先
MSP-Podcastコーパスを使用:
- 訓練集:84,260サンプル、2,112話者から取得
- 開発集:31,961サンプル、714話者から取得
- テスト集:3,200バランス済みサンプル、8つの感情カテゴリをカバー
- Whisper-large-v3を使用して転記と強制アライメントを生成
- タスク1:Macro-F1と精度
- タスク2:一致性相関係数(CCC)
- WavLMベースライン手法
- 各種特徴組み合わせのアブレーション実験
- 異なるアンサンブル戦略の比較
- 単語レベルおよび文レベル特徴を128次元ベクトルに投影
- Perceiverは768次元出力を生成、64×768潜在配列を使用
- タスク特定損失関数:タスク1は加重交差エントロピー、タスク2はCCC損失を使用
- 50エポック訓練、学習率1×10^-5~5×10^-7、バッチサイズ128~2048
タスク1(カテゴリ感情認識):
- 最終提出結果:Macro-F1 = 41.01%、精度 = 40.97%
- WavLMベースライン(32.93% Macro-F1)と比較して大幅な改善
- SERNCチャレンジで第4位にランク
タスク2(感情属性予測):
- 平均CCC = 0.5928
- 感情価値予測CCC = 0.6941(第2位)
- 覚醒度CCC = 0.6119
- 支配度CCC = 0.4775
- 特徴レベルの貢献:単語レベル特徴は文レベル特徴より大きな貢献を示し、構文認識韻律がカテゴリ感情認識に対してより情報量が多いことを示唆
- ソフトラベルの効果:微調整モデルで有効だが、MATERでは限定的な改善
- アンサンブル戦略の比較:不確実性を考慮したアンサンブルが平均および多数決投票戦略を上回る
チャレンジ後の分析:
- 音響特徴は両タスクでテキスト特徴を上回る
- 異なるタスクで最適なエンコーダが異なり、タスク特定エンコーダ選択の必要性を強調
- MATERの多モーダル融合は単語レベルおよび文レベルで性能を強化
- 感情価値はテキストに依存しやすく、覚醒度と支配度は音響手がかりに依存しやすい
- 従来的SER手法:主に演技的または誘発的データセットを使用
- 自然音声SER:MSP-Podcastなどのデータセットの出現
- マルチモーダル感情認識:音響特徴とテキスト特徴の融合
- 不確実性処理:アノテーション不一致に対処する手法
- 体系的な多層特徴モデリング
- 新規な不確実性を考慮したアンサンブル戦略
- 大規模自然音声データセット上での検証
MATERは多層特徴融合と不確実性を考慮したアンサンブルを通じて、自然条件下の音声感情認識性能を効果的に向上させ、特に感情価値予測において優れた性能を示す。
- 覚醒度と支配度の予測:依然として課題が存在し、テキスト指向の融合戦略が音響変化を十分に活用できていない可能性
- 計算複雑性:多層特徴抽出とPerceiverアーキテクチャが計算オーバーヘッドを増加させる
- ドメイン適応:主にポッドキャストデータで検証されており、他のドメインへの汎化能力は未検証
- 感情特定特徴選択:異なる感情次元に対する適応的特徴重み付けの採用
- 動的融合戦略:音声テキスト統合のバランスを取る動的融合
- 多様なデータセットへの拡張:異なるSERデータセット上でのMATERの性能検証
- 手法の革新性:多層特徴モデリングと不確実性を考慮したアンサンブルは新規性を有する
- 体系的設計:単語レベルから埋め込みレベルまでの完全な特徴階層設計は合理的
- 実験の充実性:詳細なアブレーション実験と事後分析が深い洞察を提供
- 実用的価値:大規模チャレンジでの検証により手法の有効性が実証される
- 理論的分析の不足:多層融合が有効である理由に関する理論的説明が欠如
- 計算効率分析の不足:詳細な計算複雑度と推論時間分析が提供されていない
- クロスドメイン汎化:ポッドキャストデータのみで検証、クロスドメイン実験が不足
- 解釈可能性:タイトルで解釈可能性を謳っているが、論文中に関連分析が不足
- 学術的貢献:自然音声感情認識に新しいフレームワーク思想を提供
- 実用的価値:実際のチャレンジでの優異な性能が手法の実用性を証明
- 再現性:詳細な実装詳細が提供され、再現に有利
- 自然音声感情認識システム
- マルチモーダル感情分析アプリケーション
- アノテーション不確実性処理が必要な感情計算タスク
- ポッドキャスト、対話システムなどの自然音声シナリオ
論文は感情計算、音声処理、深層学習など関連分野の重要な業績を網羅する68篇の参考文献を引用しており、研究に堅実な理論的基礎を提供している。