2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

基本信息

  • 论文ID: 2510.09505
  • 标题: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
  • 作者: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
  • 分类: eess.AS (音频与语音处理)
  • 发表时间: 2025年10月10日
  • 论文链接: https://arxiv.org/abs/2510.09505v1

摘要

本文提出了一个空间增强的序列到序列神经话者分离(SA-S2SND)框架,该框架将通过SRP-DNN估计的到达方向(DOA)线索集成到S2SND主干网络中。采用两阶段训练策略:模型首先使用单通道音频和DOA特征进行训练,然后在DOA指导下使用多通道输入进一步优化。此外,引入了模拟DOA生成方案以减少对匹配多通道语料库的依赖。在AliMeeting数据集上,SA-S2SND始终优于S2SND基线,在离线模式下实现7.4%的相对DER降低,与通道注意力结合时改善超过19%。这些结果表明空间线索与跨通道建模高度互补,在在线和离线设置中都产生良好的性能。

研究背景与动机

核心问题

话者分离旨在回答"谁在何时说话"的问题,是下游任务(如语音识别)的基础预处理步骤。尽管在该领域取得了显著进展,但会议场景中的话者分离仍然具有挑战性,主要原因包括:

  1. 重叠语音:多个说话者同时发言
  2. 不可靠的话者嵌入:在嘈杂环境下话者特征提取困难
  3. 混响:室内环境造成的声学失真

现有方法局限性

  1. 早期模块化方法:将音频分割为短话语并通过话者嵌入相似性聚类,假设每个片段只包含一个说话者,在重叠语音上表现不佳
  2. 端到端神经分离(EEND):虽然解决了重叠问题,但仍主要依赖声学嵌入
  3. 序列到序列分离(S2SND):在在线分离方面有所进展,但缺乏显式空间信息

研究动机

大多数现有方法仅依赖声学嵌入,这在真实会议中往往不可靠。关键问题是:如何利用多通道录音的空间线索来改善话者分离?

核心贡献

  1. 提出SA-S2SND框架:将DNN衍生的DOA作为显式空间输入集成到S2SND中,用于在线和离线话者分离
  2. 设计模拟DOA方法:将空间线索与阵列设计解耦,无需大型多通道语料库即可有效利用空间信息
  3. 验证有效性:在AliMeeting数据集上验证SA-S2SND,在两种模式下都显示出相对于S2SND基线的一致DER改善
  4. 两阶段训练策略:先用单通道音频训练,再扩展到多通道,确保从纯声学到空间增强建模的一致路径

方法详解

任务定义

话者分离任务的目标是从多说话者音频中确定每个时间段内活跃的说话者身份。输入为多通道音频信号,输出为每个时间帧的话者活动标签和话者表示。

模型架构

1. DOA估计模块(SRP-DNN)

采用SRP-DNN进行鲁棒的多源DOA估计:

核心思想:学习直接路径相位差(DP-IPDs),对于第k个源,DOA表示为: θk=[θelek,θazik]T\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T

训练目标:加权直接路径IPD向量和: Rmm(n)=k=1Kβk(n)rmm(θk(n))R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))

空间谱构建P(θ;n)=2M(M1)Fm=1M1m=m+1M{R^mm(n)Hrmm(θ)}P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}

多源定位:采用迭代检测-移除(IDL)策略处理多说话者场景。

2. SA-S2SND架构

基于S2SND主干网络,包含四个核心模块:

  1. 提取器:ResNet + 分段统计池化(SSP)
  2. 编码器:Conformer建模长程依赖
  3. 表示解码器:生成目标嵌入 Ê
  4. 检测解码器:预测活动性 Ŷ

DOA集成方式X=X+LinearRARD(interpolate(O))/DX = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}

其中O ∈ R^{T''×A}是DOA概率矩阵,通过最近邻插值和线性投影融入编码器表示。

技术创新点

  1. 显式空间线索注入:不同于盲融合,直接使用DOA估计提供方向证据
  2. 模拟DOA策略
    • 真实多通道语音 + SRP-DNN估计的DOA
    • 模拟多通道语音 + 随机生成的伪DOA
  3. 两阶段训练
    • Part A:单通道模型 + 多通道DOA(阶段1-3)
    • Part B:多通道模型 + 多通道DOA(阶段4-5)

实验设置

数据集

  1. 模拟数据:VoxCeleb2(1M话语,6,112说话者)用于在线混合生成
  2. 真实数据:AliMeeting(训练集104.75h,评估集4h,测试集10h)
    • 8通道远场阵列和头戴式录音
    • 使用NARA-WPE去混响后的远场阵列信号

评价指标

  • DER(Diarization Error Rate):不使用Oracle VAD和容忍度
  • 分别报告1-2说话者和2+说话者场景的性能
  • 在线和离线模式的性能对比

对比方法

  • S2SND基线(单通道和多通道版本)
  • BUT System(最新技术水平)
  • 不同模型规模:Small(16.56M参数)和Medium(45.96M参数)

实现细节

  • 音频处理:8s窗口,2s重叠,80维log-Mel滤波器组
  • 训练:AdamW优化器,BCE + ArcFace损失
  • 推理:块级滑动窗口,在线延迟0.8s
  • 硬件:两块RTX-A6000 GPU

实验结果

主要结果

模型通道数DOA总DER(在线%)总DER(离线%)
S2SND116.0313.59
SA-S2SND115.3512.59
S2SND814.8512.79
SA-S2SND812.9310.84

关键发现

  1. 一致性改善:添加DOA在所有配置下都带来改善
    • 单通道:在线4.2%↓,离线7.4%↓
    • 多通道:在线12.9%↓,离线15.2%↓
  2. 多说话者场景优势:在2+说话者场景中改善更显著,显示在复杂对话条件下的鲁棒性
  3. 互补性:通道注意力与DOA高度互补
    • 通道注意力捕获相关性
    • DOA提供显式空间线索
  4. 参数效率:最佳模型(E4)相比基线(E1)获得19.3%/20.3%的相对增益,同时参数量与SOTA相当

DOA分析

  • 在AliMeeting训练集中,仅5.98%的时长涉及超过两个同时说话者
  • 模拟数据显示可忽略的DOA错误
  • 真实会议数据中,方位角估计为不同说话者提供清晰区分

相关工作

话者分离发展脉络

  1. 模块化方法:基于聚类的传统方法
  2. 端到端神经分离(EEND):多标签预测任务
  3. 目标说话者语音活动检测(TSVAD):结合模块化和神经方法
  4. 序列到序列分离(S2SND):支持在线分离

多通道处理方式

  1. 语音增强:波束形成等,但可能引入失真
  2. 通道融合:注意力模块聚合信号,但通常是盲融合
  3. 显式特征:DOA估计等,提供直接方向证据

本文优势

相比现有工作,本文首次将显式DOA线索有效集成到序列到序列话者分离框架中,并提出了减少对多通道语料库依赖的模拟策略。

结论与讨论

主要结论

  1. 空间线索有效性:DOA线索显著改善话者分离性能
  2. 互补性:空间信息与跨通道建模高度互补
  3. 实用性:在在线和离线设置中都表现良好
  4. 泛化能力:模拟DOA策略减少了对特定阵列配置的依赖

局限性

  1. 多说话者限制:SRP-DNN的IDL策略最多追踪两个说话者
  2. 阵列依赖:需要重新训练SRP-DNN以适应不同阵列配置
  3. 计算复杂度:增加了DOA估计的计算开销

未来方向

  1. 多说话者DOA鲁棒性:改善超过两个同时说话者的处理能力
  2. 联合训练策略:探索DOA估计和话者分离的端到端训练
  3. 系统性能提升:进一步优化整体系统性能

深度评价

优点

  1. 创新性强
    • 首次将显式DOA线索有效集成到S2SND框架
    • 提出模拟DOA策略,解决多通道数据稀缺问题
    • 两阶段训练策略设计合理
  2. 实验充分
    • 在标准数据集上进行全面评估
    • 提供详细的消融实验和分析
    • 与SOTA方法进行公平对比
  3. 技术扎实
    • DOA集成方式类似位置编码,设计巧妙
    • 处理了多通道阵列适配问题
    • 支持在线和离线两种应用场景
  4. 实用价值高
    • 显著的性能提升(最高19%+相对改善)
    • 参数效率良好
    • 可扩展到不同阵列配置

不足

  1. 方法局限
    • 依赖SRP-DNN的两说话者限制
    • 需要针对不同阵列重新训练DOA模块
    • 模拟DOA的真实性有待验证
  2. 实验范围
    • 仅在AliMeeting数据集上验证
    • 缺乏不同声学条件下的鲁棒性分析
    • 未提供计算复杂度分析
  3. 理论分析不足
    • 缺乏对DOA线索为何有效的理论解释
    • 未分析不同噪声和混响条件下的性能

影响力

  1. 学术贡献:为话者分离领域提供了新的空间信息利用思路
  2. 实用价值:可直接应用于会议转录系统
  3. 可复现性:提供了详细的实现细节,有利于复现

适用场景

  1. 会议转录:多人会议的实时和离线话者分离
  2. 智能会议系统:结合语音识别的端到端会议理解
  3. 多通道语音处理:任何需要利用空间信息的语音分离任务

参考文献

论文引用了36篇相关文献,涵盖了话者分离、多通道信号处理、深度学习等关键领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的研究论文,在话者分离领域提出了创新的空间信息利用方法。实验设计严谨,结果令人信服,具有很好的实用价值和学术影响力。主要创新在于将显式DOA线索有效集成到序列到序列框架中,并通过巧妙的训练策略解决了多通道数据稀缺问题。