2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic

Пространственно-дополненная нейронная диаризация "последовательность-в-последовательность" для совещаний

Основная информация

  • ID статьи: 2510.09505
  • Название: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
  • Авторы: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
  • Категория: eess.AS (обработка аудио и речи)
  • Дата публикации: 10 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.09505v1

Аннотация

В данной работе предложена структура пространственно-дополненной нейронной диаризации "последовательность-в-последовательность" (SA-S2SND), которая интегрирует сигналы направления прихода (DOA), оцененные посредством SRP-DNN, в основную сеть S2SND. Применяется двухэтапная стратегия обучения: модель сначала обучается на одноканальном аудио и признаках DOA, а затем дополнительно оптимизируется с использованием многоканального входа под руководством DOA. Кроме того, введена схема моделирования DOA для снижения зависимости от согласованных многоканальных корпусов. На наборе данных AliMeeting SA-S2SND постоянно превосходит базовую модель S2SND, достигая 7,4% относительного снижения DER в автономном режиме и улучшения более чем на 19% при сочетании с канальным вниманием. Эти результаты демонстрируют высокую дополнительность пространственных сигналов и кросс-канального моделирования, обеспечивая хорошую производительность как в онлайн-, так и в автономном режимах.

Исследовательский контекст и мотивация

Основная проблема

Диаризация говорящих направлена на ответ на вопрос "кто говорит и когда", являясь фундаментальным этапом предварительной обработки для последующих задач, таких как распознавание речи. Несмотря на значительный прогресс в этой области, диаризация в сценариях совещаний остается сложной задачей по следующим причинам:

  1. Перекрывающаяся речь: несколько говорящих говорят одновременно
  2. Ненадежные вложения говорящих: сложность извлечения характеристик говорящих в шумной среде
  3. Реверберация: акустические искажения, вызванные внутренней средой

Ограничения существующих методов

  1. Ранние модульные подходы: разделение аудио на короткие высказывания и кластеризация через сходство вложений говорящих, предполагающие, что каждый сегмент содержит только одного говорящего, плохо работают на перекрывающейся речи
  2. Сквозная нейронная диаризация (EEND): хотя решает проблему перекрытия, по-прежнему в основном полагается на акустические вложения
  3. Диаризация "последовательность-в-последовательность" (S2SND): достигнут прогресс в онлайн-диаризации, но отсутствует явная пространственная информация

Исследовательская мотивация

Большинство существующих методов полагаются только на акустические вложения, которые часто ненадежны в реальных совещаниях. Ключевой вопрос: как использовать пространственные сигналы многоканальных записей для улучшения диаризации говорящих?

Основные вклады

  1. Предложена структура SA-S2SND: интегрирует DOA, полученные от DNN, как явный пространственный вход в S2SND для онлайн- и автономной диаризации говорящих
  2. Разработан метод моделирования DOA: разделяет пространственные сигналы и конструкцию массива, позволяя эффективно использовать пространственную информацию без больших многоканальных корпусов
  3. Проверена эффективность: валидация SA-S2SND на наборе данных AliMeeting показывает последовательное улучшение DER по сравнению с базовой моделью S2SND в обоих режимах
  4. Двухэтапная стратегия обучения: сначала обучение на одноканальном аудио, затем расширение на многоканальное, обеспечивая согласованный путь от чистого акустического к пространственно-дополненному моделированию

Подробное описание методов

Определение задачи

Цель задачи диаризации говорящих состоит в определении идентичности активных говорящих для каждого временного сегмента многоговорящего аудио. Входными данными является многоканальный аудиосигнал, выходными данными являются метки активности говорящих и представления говорящих для каждого временного кадра.

Архитектура модели

1. Модуль оценки DOA (SRP-DNN)

Применяется SRP-DNN для надежной многоисточниковой оценки DOA:

Основная идея: обучение разности фаз прямого пути (DP-IPDs), для k-го источника DOA представляется как: θk=[θelek,θazik]T\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T

Цель обучения: взвешенная сумма векторов IPD прямого пути: Rmm(n)=k=1Kβk(n)rmm(θk(n))R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))

Построение пространственного спектра: P(θ;n)=2M(M1)Fm=1M1m=m+1M{R^mm(n)Hrmm(θ)}P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}

Многоисточниковая локализация: применяется итеративная стратегия обнаружения-удаления (IDL) для обработки многоговорящих сценариев.

2. Архитектура SA-S2SND

На основе основной сети S2SND, содержащей четыре ключевых модуля:

  1. Экстрактор: ResNet + сегментная статистическая пулинг (SSP)
  2. Кодировщик: Conformer для моделирования долгосрочных зависимостей
  3. Декодировщик представлений: генерирует целевые вложения Ê
  4. Декодировщик обнаружения: предсказывает активность Ŷ

Способ интеграции DOA: X=X+LinearRARD(interpolate(O))/DX = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}

где O ∈ R^{T''×A} — матрица вероятностей DOA, интегрируемая в представления кодировщика посредством интерполяции ближайшего соседа и линейной проекции.

Технические инновации

  1. Инъекция явных пространственных сигналов: в отличие от слепого слияния, прямое использование оценок DOA для предоставления доказательств направления
  2. Стратегия моделирования DOA:
    • Реальная многоканальная речь + DOA, оцененные SRP-DNN
    • Моделируемая многоканальная речь + случайно сгенерированные псевдо-DOA
  3. Двухэтапное обучение:
    • Часть A: одноканальная модель + многоканальные DOA (этапы 1-3)
    • Часть B: многоканальная модель + многоканальные DOA (этапы 4-5)

Экспериментальная установка

Наборы данных

  1. Моделируемые данные: VoxCeleb2 (1M высказываний, 6112 говорящих) для онлайн-смешивания
  2. Реальные данные: AliMeeting (обучающий набор 104,75 ч, оценочный набор 4 ч, тестовый набор 10 ч)
    • 8-канальный дальнопольный массив и головные записи
    • Использование сигналов дальнего поля после дереверберации NARA-WPE

Метрики оценки

  • DER (коэффициент ошибки диаризации): без использования Oracle VAD и допуска
  • Отдельная отчетность о производительности для сценариев с 1-2 говорящими и 2+ говорящими
  • Сравнение производительности в онлайн- и автономном режимах

Методы сравнения

  • Базовая модель S2SND (одноканальная и многоканальная версии)
  • BUT System (современное состояние)
  • Различные размеры моделей: Small (16,56M параметров) и Medium (45,96M параметров)

Детали реализации

  • Обработка аудио: окно 8 с, перекрытие 2 с, 80-мерный логарифмический спектр Мела
  • Обучение: оптимизатор AdamW, потери BCE + ArcFace
  • Вывод: блочное скользящее окно, онлайн-задержка 0,8 с
  • Оборудование: два GPU RTX-A6000

Результаты экспериментов

Основные результаты

МодельКаналыDOAОбщий DER (онлайн, %)Общий DER (автономный, %)
S2SND116,0313,59
SA-S2SND115,3512,59
S2SND814,8512,79
SA-S2SND812,9310,84

Ключевые выводы

  1. Последовательное улучшение: добавление DOA приносит улучшения во всех конфигурациях
    • Одноканальное: онлайн 4,2%↓, автономный 7,4%↓
    • Многоканальное: онлайн 12,9%↓, автономный 15,2%↓
  2. Преимущество в многоговорящих сценариях: более значительные улучшения в сценариях с 2+ говорящими, демонстрирующие надежность в сложных условиях диалога
  3. Дополнительность: канальное внимание и DOA высоко дополняют друг друга
    • Канальное внимание захватывает корреляции
    • DOA предоставляет явные пространственные сигналы
  4. Эффективность параметров: оптимальная модель (E4) достигает 19,3%/20,3% относительного прироста по сравнению с базовой моделью (E1) при сопоставимом количестве параметров с SOTA

Анализ DOA

  • В обучающем наборе AliMeeting только 5,98% длительности включает более двух одновременно говорящих
  • Моделируемые данные показывают пренебрежимо малые ошибки DOA
  • В реальных данных совещаний азимут обеспечивает четкое различие между разными говорящими

Связанные работы

Эволюция диаризации говорящих

  1. Модульные методы: традиционные методы на основе кластеризации
  2. Сквозная нейронная диаризация (EEND): задача многометочного предсказания
  3. Обнаружение активности целевого говорящего (TSVAD): сочетание модульных и нейронных методов
  4. Диаризация "последовательность-в-последовательность" (S2SND): поддержка онлайн-диаризации

Способы многоканальной обработки

  1. Улучшение речи: формирование луча и т.д., но может вносить искажения
  2. Слияние каналов: модули внимания для агрегирования сигналов, но обычно слепое слияние
  3. Явные признаки: оценка DOA и т.д., предоставляющие прямые доказательства направления

Преимущества данной работы

По сравнению с существующими работами, в данной статье впервые эффективно интегрируются явные сигналы DOA в структуру диаризации "последовательность-в-последовательность" с предложением стратегии моделирования для снижения зависимости от многоканальных корпусов.

Заключение и обсуждение

Основные выводы

  1. Эффективность пространственных сигналов: сигналы DOA значительно улучшают производительность диаризации
  2. Дополнительность: пространственная информация высоко дополняет кросс-канальное моделирование
  3. Практичность: хорошая производительность как в онлайн-, так и в автономном режимах
  4. Способность к обобщению: стратегия моделирования DOA снижает зависимость от конкретной конфигурации массива

Ограничения

  1. Ограничение многоговорящих: стратегия IDL SRP-DNN отслеживает максимум двух одновременно говорящих
  2. Зависимость от массива: требуется переобучение SRP-DNN для адаптации к различным конфигурациям массивов
  3. Вычислительная сложность: добавляет вычислительные затраты на оценку DOA

Направления будущих исследований

  1. Надежность DOA для многоговорящих: улучшение обработки более чем двух одновременно говорящих
  2. Совместная стратегия обучения: исследование сквозного обучения оценки DOA и диаризации
  3. Улучшение производительности системы: дальнейшая оптимизация общей производительности системы

Глубокая оценка

Преимущества

  1. Высокая инновационность:
    • Впервые эффективно интегрируются явные сигналы DOA в структуру S2SND
    • Предложена стратегия моделирования DOA, решающая проблему дефицита многоканальных данных
    • Разумный дизайн двухэтапной стратегии обучения
  2. Полные эксперименты:
    • Комплексная оценка на стандартных наборах данных
    • Подробные абляционные исследования и анализ
    • Справедливое сравнение с методами SOTA
  3. Твердая техника:
    • Способ интеграции DOA аналогичен позиционному кодированию, дизайн изящен
    • Решены проблемы адаптации многоканальных массивов
    • Поддержка как онлайн-, так и автономного применения
  4. Высокая практическая ценность:
    • Значительное улучшение производительности (максимум 19%+ относительное улучшение)
    • Хорошая эффективность параметров
    • Масштабируемость на различные конфигурации массивов

Недостатки

  1. Ограничения методов:
    • Зависимость от ограничения двух говорящих SRP-DNN
    • Требуется переобучение модуля DOA для различных массивов
    • Реалистичность моделируемого DOA требует проверки
  2. Ограниченный объем экспериментов:
    • Валидация только на наборе данных AliMeeting
    • Отсутствует анализ надежности при различных акустических условиях
    • Не предоставлен анализ вычислительной сложности
  3. Недостаточный теоретический анализ:
    • Отсутствует теоретическое объяснение эффективности сигналов DOA
    • Не проанализирована производительность при различных условиях шума и реверберации

Влияние

  1. Академический вклад: предоставляет новый подход к использованию пространственной информации в области диаризации говорящих
  2. Практическая ценность: может быть непосредственно применена в системах транскрипции совещаний
  3. Воспроизводимость: подробные детали реализации способствуют воспроизведению

Применимые сценарии

  1. Транскрипция совещаний: диаризация в реальном времени и автономная диаризация многолюдных совещаний
  2. Интеллектуальные системы совещаний: комплексное понимание совещаний в сочетании с распознаванием речи
  3. Многоканальная обработка речи: любые задачи обработки речи, требующие использования пространственной информации

Библиография

Статья цитирует 36 соответствующих работ, охватывающих ключевые области диаризации говорящих, многоканальной обработки сигналов и глубокого обучения, обеспечивая прочную теоретическую базу для исследования.


Общая оценка: это высококачественная исследовательская работа, предлагающая инновационный метод использования пространственной информации в области диаризации говорящих. Экспериментальный дизайн строг, результаты убедительны и имеют хорошую практическую ценность и академическое влияние. Основная инновация заключается в эффективной интеграции явных сигналов DOA в структуру "последовательность-в-последовательность" и решении проблемы дефицита многоканальных данных посредством умной стратегии обучения.