Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
Пространственно-дополненная нейронная диаризация "последовательность-в-последовательность" для совещаний
В данной работе предложена структура пространственно-дополненной нейронной диаризации "последовательность-в-последовательность" (SA-S2SND), которая интегрирует сигналы направления прихода (DOA), оцененные посредством SRP-DNN, в основную сеть S2SND. Применяется двухэтапная стратегия обучения: модель сначала обучается на одноканальном аудио и признаках DOA, а затем дополнительно оптимизируется с использованием многоканального входа под руководством DOA. Кроме того, введена схема моделирования DOA для снижения зависимости от согласованных многоканальных корпусов. На наборе данных AliMeeting SA-S2SND постоянно превосходит базовую модель S2SND, достигая 7,4% относительного снижения DER в автономном режиме и улучшения более чем на 19% при сочетании с канальным вниманием. Эти результаты демонстрируют высокую дополнительность пространственных сигналов и кросс-канального моделирования, обеспечивая хорошую производительность как в онлайн-, так и в автономном режимах.
Диаризация говорящих направлена на ответ на вопрос "кто говорит и когда", являясь фундаментальным этапом предварительной обработки для последующих задач, таких как распознавание речи. Несмотря на значительный прогресс в этой области, диаризация в сценариях совещаний остается сложной задачей по следующим причинам:
Перекрывающаяся речь: несколько говорящих говорят одновременно
Ненадежные вложения говорящих: сложность извлечения характеристик говорящих в шумной среде
Реверберация: акустические искажения, вызванные внутренней средой
Ранние модульные подходы: разделение аудио на короткие высказывания и кластеризация через сходство вложений говорящих, предполагающие, что каждый сегмент содержит только одного говорящего, плохо работают на перекрывающейся речи
Сквозная нейронная диаризация (EEND): хотя решает проблему перекрытия, по-прежнему в основном полагается на акустические вложения
Диаризация "последовательность-в-последовательность" (S2SND): достигнут прогресс в онлайн-диаризации, но отсутствует явная пространственная информация
Большинство существующих методов полагаются только на акустические вложения, которые часто ненадежны в реальных совещаниях. Ключевой вопрос: как использовать пространственные сигналы многоканальных записей для улучшения диаризации говорящих?
Предложена структура SA-S2SND: интегрирует DOA, полученные от DNN, как явный пространственный вход в S2SND для онлайн- и автономной диаризации говорящих
Разработан метод моделирования DOA: разделяет пространственные сигналы и конструкцию массива, позволяя эффективно использовать пространственную информацию без больших многоканальных корпусов
Проверена эффективность: валидация SA-S2SND на наборе данных AliMeeting показывает последовательное улучшение DER по сравнению с базовой моделью S2SND в обоих режимах
Двухэтапная стратегия обучения: сначала обучение на одноканальном аудио, затем расширение на многоканальное, обеспечивая согласованный путь от чистого акустического к пространственно-дополненному моделированию
Цель задачи диаризации говорящих состоит в определении идентичности активных говорящих для каждого временного сегмента многоговорящего аудио. Входными данными является многоканальный аудиосигнал, выходными данными являются метки активности говорящих и представления говорящих для каждого временного кадра.
Способ интеграции DOA:
X=X+LinearRA→RD(interpolate(O))/D
где O ∈ R^{T''×A} — матрица вероятностей DOA, интегрируемая в представления кодировщика посредством интерполяции ближайшего соседа и линейной проекции.
Последовательное улучшение: добавление DOA приносит улучшения во всех конфигурациях
Одноканальное: онлайн 4,2%↓, автономный 7,4%↓
Многоканальное: онлайн 12,9%↓, автономный 15,2%↓
Преимущество в многоговорящих сценариях: более значительные улучшения в сценариях с 2+ говорящими, демонстрирующие надежность в сложных условиях диалога
Дополнительность: канальное внимание и DOA высоко дополняют друг друга
Канальное внимание захватывает корреляции
DOA предоставляет явные пространственные сигналы
Эффективность параметров: оптимальная модель (E4) достигает 19,3%/20,3% относительного прироста по сравнению с базовой моделью (E1) при сопоставимом количестве параметров с SOTA
По сравнению с существующими работами, в данной статье впервые эффективно интегрируются явные сигналы DOA в структуру диаризации "последовательность-в-последовательность" с предложением стратегии моделирования для снижения зависимости от многоканальных корпусов.
Статья цитирует 36 соответствующих работ, охватывающих ключевые области диаризации говорящих, многоканальной обработки сигналов и глубокого обучения, обеспечивая прочную теоретическую базу для исследования.
Общая оценка: это высококачественная исследовательская работа, предлагающая инновационный метод использования пространственной информации в области диаризации говорящих. Экспериментальный дизайн строг, результаты убедительны и имеют хорошую практическую ценность и академическое влияние. Основная инновация заключается в эффективной интеграции явных сигналов DOA в структуру "последовательность-в-последовательность" и решении проблемы дефицита многоканальных данных посредством умной стратегии обучения.