2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

Пространственно-дополненная нейронная диаризация "последовательность-в-последовательность" для совещаний

Основная информация

ID статьи: 2510.09505
Название: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Авторы: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
Категория: eess.AS (обработка аудио и речи)
Дата публикации: 10 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.09505v1

Аннотация

В данной работе предложена структура пространственно-дополненной нейронной диаризации "последовательность-в-последовательность" (SA-S2SND), которая интегрирует сигналы направления прихода (DOA), оцененные посредством SRP-DNN, в основную сеть S2SND. Применяется двухэтапная стратегия обучения: модель сначала обучается на одноканальном аудио и признаках DOA, а затем дополнительно оптимизируется с использованием многоканального входа под руководством DOA. Кроме того, введена схема моделирования DOA для снижения зависимости от согласованных многоканальных корпусов. На наборе данных AliMeeting SA-S2SND постоянно превосходит базовую модель S2SND, достигая 7,4% относительного снижения DER в автономном режиме и улучшения более чем на 19% при сочетании с канальным вниманием. Эти результаты демонстрируют высокую дополнительность пространственных сигналов и кросс-канального моделирования, обеспечивая хорошую производительность как в онлайн-, так и в автономном режимах.

Исследовательский контекст и мотивация

Основная проблема

Диаризация говорящих направлена на ответ на вопрос "кто говорит и когда", являясь фундаментальным этапом предварительной обработки для последующих задач, таких как распознавание речи. Несмотря на значительный прогресс в этой области, диаризация в сценариях совещаний остается сложной задачей по следующим причинам:

Перекрывающаяся речь: несколько говорящих говорят одновременно
Ненадежные вложения говорящих: сложность извлечения характеристик говорящих в шумной среде
Реверберация: акустические искажения, вызванные внутренней средой

Ограничения существующих методов

Ранние модульные подходы: разделение аудио на короткие высказывания и кластеризация через сходство вложений говорящих, предполагающие, что каждый сегмент содержит только одного говорящего, плохо работают на перекрывающейся речи
Сквозная нейронная диаризация (EEND): хотя решает проблему перекрытия, по-прежнему в основном полагается на акустические вложения
Диаризация "последовательность-в-последовательность" (S2SND): достигнут прогресс в онлайн-диаризации, но отсутствует явная пространственная информация

Исследовательская мотивация

Большинство существующих методов полагаются только на акустические вложения, которые часто ненадежны в реальных совещаниях. Ключевой вопрос: как использовать пространственные сигналы многоканальных записей для улучшения диаризации говорящих?

Основные вклады

Предложена структура SA-S2SND: интегрирует DOA, полученные от DNN, как явный пространственный вход в S2SND для онлайн- и автономной диаризации говорящих
Разработан метод моделирования DOA: разделяет пространственные сигналы и конструкцию массива, позволяя эффективно использовать пространственную информацию без больших многоканальных корпусов
Проверена эффективность: валидация SA-S2SND на наборе данных AliMeeting показывает последовательное улучшение DER по сравнению с базовой моделью S2SND в обоих режимах
Двухэтапная стратегия обучения: сначала обучение на одноканальном аудио, затем расширение на многоканальное, обеспечивая согласованный путь от чистого акустического к пространственно-дополненному моделированию

Подробное описание методов

Определение задачи

Цель задачи диаризации говорящих состоит в определении идентичности активных говорящих для каждого временного сегмента многоговорящего аудио. Входными данными является многоканальный аудиосигнал, выходными данными являются метки активности говорящих и представления говорящих для каждого временного кадра.

Архитектура модели

1. Модуль оценки DOA (SRP-DNN)

Применяется SRP-DNN для надежной многоисточниковой оценки DOA:

Основная идея: обучение разности фаз прямого пути (DP-IPDs), для k-го источника DOA представляется как: $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

Цель обучения: взвешенная сумма векторов IPD прямого пути: $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

Построение пространственного спектра: $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

Многоисточниковая локализация: применяется итеративная стратегия обнаружения-удаления (IDL) для обработки многоговорящих сценариев.

2. Архитектура SA-S2SND

На основе основной сети S2SND, содержащей четыре ключевых модуля:

Экстрактор: ResNet + сегментная статистическая пулинг (SSP)
Кодировщик: Conformer для моделирования долгосрочных зависимостей
Декодировщик представлений: генерирует целевые вложения Ê
Декодировщик обнаружения: предсказывает активность Ŷ

Способ интеграции DOA: $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

где O ∈ R^{T''×A} — матрица вероятностей DOA, интегрируемая в представления кодировщика посредством интерполяции ближайшего соседа и линейной проекции.

Технические инновации

Инъекция явных пространственных сигналов: в отличие от слепого слияния, прямое использование оценок DOA для предоставления доказательств направления
Стратегия моделирования DOA:
- Реальная многоканальная речь + DOA, оцененные SRP-DNN
- Моделируемая многоканальная речь + случайно сгенерированные псевдо-DOA
Двухэтапное обучение:
- Часть A: одноканальная модель + многоканальные DOA (этапы 1-3)
- Часть B: многоканальная модель + многоканальные DOA (этапы 4-5)

Экспериментальная установка

Наборы данных

Моделируемые данные: VoxCeleb2 (1M высказываний, 6112 говорящих) для онлайн-смешивания
Реальные данные: AliMeeting (обучающий набор 104,75 ч, оценочный набор 4 ч, тестовый набор 10 ч)
- 8-канальный дальнопольный массив и головные записи
- Использование сигналов дальнего поля после дереверберации NARA-WPE

Метрики оценки

DER (коэффициент ошибки диаризации): без использования Oracle VAD и допуска
Отдельная отчетность о производительности для сценариев с 1-2 говорящими и 2+ говорящими
Сравнение производительности в онлайн- и автономном режимах

Методы сравнения

Базовая модель S2SND (одноканальная и многоканальная версии)
BUT System (современное состояние)
Различные размеры моделей: Small (16,56M параметров) и Medium (45,96M параметров)

Детали реализации

Обработка аудио: окно 8 с, перекрытие 2 с, 80-мерный логарифмический спектр Мела
Обучение: оптимизатор AdamW, потери BCE + ArcFace
Вывод: блочное скользящее окно, онлайн-задержка 0,8 с
Оборудование: два GPU RTX-A6000

Результаты экспериментов

Основные результаты

Модель	Каналы	DOA	Общий DER (онлайн, %)	Общий DER (автономный, %)
S2SND	1	✗	16,03	13,59
SA-S2SND	1	✓	15,35	12,59
S2SND	8	✗	14,85	12,79
SA-S2SND	8	✓	12,93	10,84

Ключевые выводы

Последовательное улучшение: добавление DOA приносит улучшения во всех конфигурациях
- Одноканальное: онлайн 4,2%↓, автономный 7,4%↓
- Многоканальное: онлайн 12,9%↓, автономный 15,2%↓
Преимущество в многоговорящих сценариях: более значительные улучшения в сценариях с 2+ говорящими, демонстрирующие надежность в сложных условиях диалога
Дополнительность: канальное внимание и DOA высоко дополняют друг друга
- Канальное внимание захватывает корреляции
- DOA предоставляет явные пространственные сигналы
Эффективность параметров: оптимальная модель (E4) достигает 19,3%/20,3% относительного прироста по сравнению с базовой моделью (E1) при сопоставимом количестве параметров с SOTA

Анализ DOA

В обучающем наборе AliMeeting только 5,98% длительности включает более двух одновременно говорящих
Моделируемые данные показывают пренебрежимо малые ошибки DOA
В реальных данных совещаний азимут обеспечивает четкое различие между разными говорящими

Связанные работы

Эволюция диаризации говорящих

Модульные методы: традиционные методы на основе кластеризации
Сквозная нейронная диаризация (EEND): задача многометочного предсказания
Обнаружение активности целевого говорящего (TSVAD): сочетание модульных и нейронных методов
Диаризация "последовательность-в-последовательность" (S2SND): поддержка онлайн-диаризации

Способы многоканальной обработки

Улучшение речи: формирование луча и т.д., но может вносить искажения
Слияние каналов: модули внимания для агрегирования сигналов, но обычно слепое слияние
Явные признаки: оценка DOA и т.д., предоставляющие прямые доказательства направления

Преимущества данной работы

По сравнению с существующими работами, в данной статье впервые эффективно интегрируются явные сигналы DOA в структуру диаризации "последовательность-в-последовательность" с предложением стратегии моделирования для снижения зависимости от многоканальных корпусов.

Заключение и обсуждение

Основные выводы

Эффективность пространственных сигналов: сигналы DOA значительно улучшают производительность диаризации
Дополнительность: пространственная информация высоко дополняет кросс-канальное моделирование
Практичность: хорошая производительность как в онлайн-, так и в автономном режимах
Способность к обобщению: стратегия моделирования DOA снижает зависимость от конкретной конфигурации массива

Ограничения

Ограничение многоговорящих: стратегия IDL SRP-DNN отслеживает максимум двух одновременно говорящих
Зависимость от массива: требуется переобучение SRP-DNN для адаптации к различным конфигурациям массивов
Вычислительная сложность: добавляет вычислительные затраты на оценку DOA

Направления будущих исследований

Надежность DOA для многоговорящих: улучшение обработки более чем двух одновременно говорящих
Совместная стратегия обучения: исследование сквозного обучения оценки DOA и диаризации
Улучшение производительности системы: дальнейшая оптимизация общей производительности системы

Глубокая оценка

Преимущества

Высокая инновационность:
- Впервые эффективно интегрируются явные сигналы DOA в структуру S2SND
- Предложена стратегия моделирования DOA, решающая проблему дефицита многоканальных данных
- Разумный дизайн двухэтапной стратегии обучения
Полные эксперименты:
- Комплексная оценка на стандартных наборах данных
- Подробные абляционные исследования и анализ
- Справедливое сравнение с методами SOTA
Твердая техника:
- Способ интеграции DOA аналогичен позиционному кодированию, дизайн изящен
- Решены проблемы адаптации многоканальных массивов
- Поддержка как онлайн-, так и автономного применения
Высокая практическая ценность:
- Значительное улучшение производительности (максимум 19%+ относительное улучшение)
- Хорошая эффективность параметров
- Масштабируемость на различные конфигурации массивов

Недостатки

Ограничения методов:
- Зависимость от ограничения двух говорящих SRP-DNN
- Требуется переобучение модуля DOA для различных массивов
- Реалистичность моделируемого DOA требует проверки
Ограниченный объем экспериментов:
- Валидация только на наборе данных AliMeeting
- Отсутствует анализ надежности при различных акустических условиях
- Не предоставлен анализ вычислительной сложности
Недостаточный теоретический анализ:
- Отсутствует теоретическое объяснение эффективности сигналов DOA
- Не проанализирована производительность при различных условиях шума и реверберации

Влияние

Академический вклад: предоставляет новый подход к использованию пространственной информации в области диаризации говорящих
Практическая ценность: может быть непосредственно применена в системах транскрипции совещаний
Воспроизводимость: подробные детали реализации способствуют воспроизведению

Применимые сценарии

Транскрипция совещаний: диаризация в реальном времени и автономная диаризация многолюдных совещаний
Интеллектуальные системы совещаний: комплексное понимание совещаний в сочетании с распознаванием речи
Многоканальная обработка речи: любые задачи обработки речи, требующие использования пространственной информации

Библиография

Статья цитирует 36 соответствующих работ, охватывающих ключевые области диаризации говорящих, многоканальной обработки сигналов и глубокого обучения, обеспечивая прочную теоретическую базу для исследования.

Общая оценка: это высококачественная исследовательская работа, предлагающая инновационный метод использования пространственной информации в области диаризации говорящих. Экспериментальный дизайн строг, результаты убедительны и имеют хорошую практическую ценность и академическое влияние. Основная инновация заключается в эффективной интеграции явных сигналов DOA в структуру "последовательность-в-последовательность" и решении проблемы дефицита многоканальных данных посредством умной стратегии обучения.