This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
論文ID : 2510.09505タイトル : Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings著者 : Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li分類 : eess.AS(音声・音響信号処理)発表日 : 2025年10月10日論文リンク : https://arxiv.org/abs/2510.09505v1 本論文は、SRP-DNNで推定された到来方向(DOA)手がかりをS2SND主幹ネットワークに統合する空間拡張シーケンス・ツー・シーケンス神経話者分離(SA-S2SND)フレームワークを提案する。二段階訓練戦略を採用し、モデルはまず単一チャネル音声とDOA特徴で訓練され、その後DOA指導下で多チャネル入力を用いてさらに最適化される。さらに、シミュレートDOA生成スキームを導入して、マッチング多チャネルコーパスへの依存を軽減する。AliMeetingデータセット上で、SA-S2SNDは常にS2SND基線を上回り、オフライン モードで7.4%の相対DER削減を達成し、チャネル注意機構と組み合わせた場合は19%を超える改善を実現する。これらの結果は、空間手がかりとクロスチャネルモデリングが高度に相補的であり、オンラインおよびオフライン設定の両方で優れた性能を生成することを示している。
話者分離は「誰がいつ話しているのか」という問題に答えることを目的とし、音声認識などの下流タスクの基礎的な前処理ステップである。この分野で著しい進展が遂行されているにもかかわらず、会議シーンにおける話者分離は依然として課題が多く、主な理由は以下の通りである:
重複音声 :複数の話者が同時に発言信頼性の低い話者埋め込み :ノイズの多い環境での話者特徴抽出の困難性残響 :室内環境による音響歪み初期モジュール化手法 :音声を短い発話に分割し、話者埋め込み類似度によるクラスタリングを実施。各セグメントが単一話者のみを含むと仮定するため、重複音声で性能が低下エンドツーエンド神経分離(EEND) :重複問題を解決するが、依然として主に音響埋め込みに依存シーケンス・ツー・シーケンス分離(S2SND) :オンライン分離で進展があるが、明示的な空間情報が不足既存手法の大多数は音響埋め込みのみに依存しており、実際の会議ではしばしば信頼性が低い。重要な問題は以下の通りである:多チャネル録音の空間手がかりをいかに活用して話者分離を改善するか?
SA-S2SNDフレームワークの提案 :DNN導出DOAを明示的な空間入力としてS2SNDに統合し、オンラインおよびオフライン話者分離を実現シミュレートDOA手法の設計 :空間手がかりをアレイ設計から分離し、大規模多チャネルコーパスなしで空間情報を効果的に活用有効性の検証 :AliMeetingデータセット上でSA-S2SNDを検証し、両モードでS2SND基線に対する一貫したDER改善を実証二段階訓練戦略 :単一チャネル音声で先に訓練し、その後多チャネルに拡張することで、純粋な音響から空間拡張モデリングへの一貫した経路を確保話者分離タスクの目的は、多話者音声から各時間セグメント内でアクティブな話者の身元を決定することである。入力は多チャネル音声信号であり、出力は各時間フレームの話者活動ラベルと話者表現である。
ロバストな多源DOA推定にSRP-DNNを採用:
核心思想 :直接経路位相差(DP-IPDs)を学習。第k音源に対して、DOAは以下のように表現される:
θ k = [ θ e l e k , θ a z i k ] T \theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T θ k = [ θ e l e k , θ a z i k ] T
訓練目標 :加重直接経路IPDベクトル和:
R m m ′ ( n ) = ∑ k = 1 K β k ( n ) r m m ′ ( θ k ( n ) ) R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n)) R m m ′ ( n ) = ∑ k = 1 K β k ( n ) r m m ′ ( θ k ( n ))
空間スペクトラム構築 :
P ′ ( θ ; n ) = 2 M ( M − 1 ) F ∑ m = 1 M − 1 ∑ m ′ = m + 1 M ℜ { R ^ m m ′ ( n ) H r m m ′ ( θ ) } P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\} P ′ ( θ ; n ) = M ( M − 1 ) F 2 ∑ m = 1 M − 1 ∑ m ′ = m + 1 M ℜ { R ^ m m ′ ( n ) H r m m ′ ( θ )}
多源定位 :反復検出・除去(IDL)戦略を採用して多話者シーンに対応。
S2SND主幹ネットワークに基づき、4つの核心モジュールを含む:
抽出器 :ResNet + セグメント統計プーリング(SSP)エンコーダ :長期依存性をモデル化するConformer表現デコーダ :目標埋め込み Ê を生成検出デコーダ :活動性 Ŷ を予測DOA統合方式 :
X = X + Linear R A → R D ( interpolate ( O ) ) / D X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D} X = X + Linear R A → R D ( interpolate ( O )) / D
ここで O ∈ R^{T''×A} はDOA確率行列であり、最近傍補間と線形投影を通じてエンコーダ表現に融合される。
明示的空間手がかり注入 :盲融合と異なり、DOA推定から直接方向証拠を使用シミュレートDOA戦略 :
実多チャネル音声 + SRP-DNN推定DOA シミュレート多チャネル音声 + ランダム生成疑似DOA 二段階訓練 :
Part A:単一チャネルモデル + 多チャネルDOA(段階1-3) Part B:多チャネルモデル + 多チャネルDOA(段階4-5) シミュレートデータ :VoxCeleb2(100万発話、6,112話者)をオンライン混合生成に使用実データ :AliMeeting(訓練セット104.75h、評価セット4h、テストセット10h)
8チャネル遠距離アレイとヘッドセット録音 NARA-WPE逆残響後の遠距離アレイ信号を使用 DER(話者分離エラー率) :Oracle VADなし、許容度なし1-2話者および2+話者シーンの性能を個別に報告 オンラインおよびオフラインモードの性能比較 S2SND基線(単一チャネルおよび多チャネル版) BUTシステム(最先端技術水準) 異なるモデルサイズ:Small(1,656万パラメータ)およびMedium(4,596万パラメータ) 音声処理 :8秒ウィンドウ、2秒オーバーラップ、80次元対数メルフィルタバンク訓練 :AdamW最適化器、BCE + ArcFace損失推論 :ブロックレベルスライディングウィンドウ、オンライン遅延0.8秒ハードウェア :2枚のRTX-A6000 GPUモデル チャネル数 DOA 総DER(オンライン%) 総DER(オフライン%) S2SND 1 ✗ 16.03 13.59 SA-S2SND 1 ✓ 15.35 12.59 S2SND 8 ✗ 14.85 12.79 SA-S2SND 8 ✓ 12.93 10.84
一貫した改善 :DOA追加がすべての構成で改善をもたらす単一チャネル:オンライン4.2%↓、オフライン7.4%↓ 多チャネル:オンライン12.9%↓、オフライン15.2%↓ 多話者シーンの優位性 :2+話者シーンでより顕著な改善を示し、複雑な対話条件下でのロバスト性を実証相補性 :チャネル注意機構とDOAは高度に相補的チャネル注意機構は相関性をキャプチャ DOAは明示的な空間手がかりを提供 パラメータ効率 :最適モデル(E4)は基線(E1)と比較して19.3%/20.3%の相対利得を達成し、パラメータ数はSOTAと同等AliMeeting訓練セットでは、5.98%の時間のみが3人以上の同時話者を含む シミュレートデータはDOAエラーが無視できることを示す 実会議データでは、方位角推定が異なる話者に明確な区別を提供 モジュール化手法 :クラスタリングベースの従来的手法エンドツーエンド神経分離(EEND) :マルチラベル予測タスク目標話者音声活動検出(TSVAD) :モジュール化と神経的手法の組み合わせシーケンス・ツー・シーケンス分離(S2SND) :オンライン分離をサポート音声強調 :ビームフォーミングなど、ただし歪みを導入する可能性ありチャネル融合 :注意機構でシグナルを集約するが、通常は盲融合明示的特徴 :DOA推定など、直接方向証拠を提供既存研究と比較して、本論文は明示的DOA手がかりをシーケンス・ツー・シーケンス話者分離フレームワークに初めて効果的に統合し、多チャネルコーパス依存を軽減するシミュレート戦略を提案している。
空間手がかりの有効性 :DOA手がかりが話者分離性能を大幅に改善相補性 :空間情報とクロスチャネルモデリングが高度に相補的実用性 :オンラインおよびオフライン設定の両方で優れた性能汎化能力 :シミュレートDOA戦略が特定アレイ構成への依存を軽減多話者制限 :SRP-DNNのIDL戦略は最大2話者の追跡に限定アレイ依存性 :異なるアレイ構成に適応するにはSRP-DNNの再訓練が必要計算複雑度 :DOA推定の計算オーバーヘッドが増加多話者DOAロバスト性 :3人以上の同時話者処理能力の改善統合訓練戦略 :DOA推定と話者分離のエンドツーエンド訓練の探索システム性能向上 :全体システム性能のさらなる最適化革新性が高い :明示的DOA手がかりをS2SNDフレームワークに初めて効果的に統合 多チャネルデータ不足問題を解決するシミュレートDOA戦略を提案 二段階訓練戦略の設計が合理的 実験が充実 :標準データセット上での包括的評価 詳細なアブレーション実験と分析を提供 SOTA手法との公正な比較 技術が堅実 :DOA統合方式は位置エンコーディングに類似し、設計が巧妙 多チャネルアレイ適応問題に対応 オンラインおよびオフラインの両方の応用シーンをサポート 実用価値が高い :顕著な性能向上(最大19%以上の相対改善) パラメータ効率が良好 異なるアレイ構成への拡張が可能 手法の限界 :SRP-DNNの2話者制限に依存 異なるアレイに対してDOAモジュールの再訓練が必要 シミュレートDOAの現実性に検証の余地あり 実験範囲 :AliMeetingデータセットのみでの検証 異なる音響条件下のロバスト性分析が不足 計算複雑度分析が未提供 理論分析が不十分 :DOA手がかりが有効である理由の理論的説明が不足 異なるノイズと残響条件下での性能分析が欠落 学術的貢献 :話者分離分野に空間情報利用の新しい視点を提供実用価値 :会議転写システムに直接応用可能再現性 :詳細な実装詳細を提供し、再現を容易にする会議転写 :多人数会議のリアルタイムおよびオフライン話者分離インテリジェント会議システム :音声認識と組み合わせたエンドツーエンド会議理解多チャネル音声処理 :空間情報利用が必要な任意の音声分離タスク論文は36篇の関連文献を引用しており、話者分離、多チャネル信号処理、深層学習などの重要分野の主要研究を網羅し、研究に堅実な理論的基礎を提供している。
総合評価 :これは話者分離分野における高品質な研究論文であり、空間情報利用の革新的手法を提案している。実験設計が厳密で、結果が説得力があり、実用価値と学術的影響力が優れている。主な革新は、明示的DOA手がかりをシーケンス・ツー・シーケンスフレームワークに効果的に統合し、巧妙な訓練戦略を通じて多チャネルデータ不足問題を解決した点にある。