2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman
We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
academic

VoiceVector: Многомодальные векторы регистрации для разделения говорящих

Основная информация

  • ID статьи: 2501.01401
  • Название: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
  • Авторы: Акам Рахими, Триантафиллос Афоурас, Эндрю Зиссерман (группа VGG, Оксфордский университет)
  • Классификация: eess.AS (электротехника и системные науки — обработка аудио и речи)
  • Дата публикации: 2 января 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.01401

Аннотация

В данной работе предложена архитектура на основе Transformer для разделения голоса целевого говорящего из смеси нескольких говорящих и окружающего шума. Метод использует две независимые нейронные сети: (A) сеть регистрации, которая использует различные комбинации аудио и визуальных модальностей для генерации векторов встраивания, специфичных для говорящего; (B) сеть разделения, которая принимает зашумленный сигнал и векторы регистрации в качестве входных данных и выводит чистый сигнал целевого говорящего. Основные инновации включают: (i) векторы регистрации могут быть сгенерированы только из аудио, аудиовизуальных данных (с использованием движений губ) или только из визуальных данных (с использованием движений губ из немого видео); (ii) гибкость использования нескольких положительных и отрицательных векторов регистрации при разделении.

Исследовательский контекст и мотивация

Определение проблемы

Разделение речи является ключевой задачей в обработке аудио, особенно в шумных окружающих средах и сценариях с несколькими говорящими. Существующие приложения, такие как слуховые аппараты, системы голосовой активации и видеоконференции, в значительной степени зависят от производительности разделения речи.

Ограничения существующих методов

  1. Методы на основе аудио встраивания: Методы, такие как VoiceFilter, полагаются на чистое, неискаженное аудио для генерации встраивания говорящего, что сложно получить в реальных шумных окружающих средах.
  2. Аудиовизуальные методы: Методы, такие как Looking to Listen и VoiceFormer, хотя и используют визуальные подсказки (движения губ), требуют постоянного получения визуальной информации во время разделения, и производительность снижается при окклюзии или отсутствии визуальных данных.

Исследовательская мотивация

Данная работа направлена на объединение преимуществ методов аудио и визуального кондиционирования при избежании присущих им проблем. Благодаря двухэтапной конструкции: этап регистрации может использовать многомодальную информацию для генерации надежного представления говорящего, тогда как этап разделения зависит только от аудиоданных, повышая вычислительную эффективность и устойчивость к изменениям визуальной информации.

Основные вклады

  1. Многомодальная сеть регистрации: Предложена сеть встраивания говорящего, способная обрабатывать аудио, аудиовизуальные и чисто визуальные входные данные, особенно инновационно поддерживающая генерацию векторов регистрации только из немого видео.
  2. Кондиционирование положительными и отрицательными образцами: Введен механизм контрастивного обучения, одновременно использующий положительные образцы (целевой говорящий) и отрицательные образцы (нецелевые говорящие) векторов регистрации.
  3. Преимущества двухэтапной архитектуры: Этап разделения полностью независим от визуальной информации, решая ограничения традиционных аудиовизуальных методов при отсутствии визуальной информации.
  4. Повышение производительности: Достигнута производительность, превосходящая существующие методы на наборах данных LRS3 и LibriSpeech.

Подробное описание методологии

Определение задачи

Учитывая смешанный аудиосигнал, содержащий целевого говорящего, других говорящих и окружающий шум, цель состоит в разделении речевого компонента целевого говорящего с конкретными акустическими характеристиками при фильтрации конкурирующих голосов и окружающего шума.

Архитектура модели

1. Сеть регистрации говорящего

Сеть только для аудио (рис. 1a):

  • Использует предварительно обученную модель ECAPA-TDNN в качестве экстрактора признаков говорящего
  • Вход: спектрограмма чистого аудио S(f,t)=STFT(ac)S(f,t) = STFT(a_c)
  • Выход: 192-мерное встраивание говорящего SacR192S_{ac} \in \mathbb{R}^{192}

Аудиовизуальная сеть (рис. 1b):

  • Кодирование аудио: EaRta×768E_a \in \mathbb{R}^{t_a \times 768}
  • Кодирование видео (движения губ): EvRtv×512E_v \in \mathbb{R}^{t_v \times 512}
  • Кодирование изображения лица: EfR128E_f \in \mathbb{R}^{128}
  • Слияние признаков: F(Ea,Ev,Ef)=(Ea;Ev;Ef)R(ta+tv+1)×768F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}
  • Обработка объединенных признаков через трехслойный кодировщик Transformer
  • Выход: 192-мерный вектор регистрации SavfR192S_{avf} \in \mathbb{R}^{192}

Чисто визуальная сеть (рис. 1b):

  • Использует только визуальную информацию (движения губ и/или изображение лица)
  • Выход: Svf=SpeakerExtractor(Transformer([Ev;Ef]))S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))

2. Сеть разделения говорящего

  • На основе архитектуры VoiceFormer, включающей кодировщик-декодировщик аудио и кодировщик встраивания говорящего
  • Вход: зашумленная аудиоволна и несколько положительных и отрицательных векторов регистрации
  • Использует трехслойный кодировщик Transformer для слияния аудио и встраивания говорящего
  • Через механизм внимания усиливает признаки, соответствующие целевому говорящему, и подавляет признаки нецелевых говорящих
  • Пропускные соединения между кодировщиком и декодировщиком сохраняют низкоуровневую и высокоуровневую информацию

Технические инновации

  1. Стратегия обучения с дистилляцией знаний: Аудиовизуальная сеть регистрации обучается путем дистилляции знаний имитировать выход сети только для аудио, обеспечивая согласованность между различными модальностями.
  2. Многомодальная гибкость: Поддерживает генерацию векторов регистрации из различных комбинаций модальностей, включая инновационный режим только для визуальной информации.
  3. Механизм контрастивного обучения: Одновременное использование положительных и отрицательных образцов обеспечивает более сильную способность различения говорящих.

Экспериментальная установка

Наборы данных

  • LRS3: Крупномасштабный набор данных аудиовизуального контента из открытых видео TEDx, содержащий разнообразные стили речи и темы
  • LibriSpeech: Крупномасштабный набор данных чистого аудио из аудиокниг общественного достояния
  • Говорящие в тестовом наборе не встречались во время обучения, обеспечивая оценку способности к обобщению

Метрики оценки

  • SDR (Signal-to-Distortion Ratio): Измеряет качество выходного разделения
  • STOI (Short-Time Objective Intelligibility): Количественно определяет разборчивость сигнала
  • PESQ (Perceptual Evaluation of Speech Quality): Отражает воспринимаемую оценку слушателем

Методы сравнения

  • Аудиометоды: VoiceFilter
  • Аудиовизуальные методы: Conversation, VisualVoice, VoiceFormer

Детали реализации

  • Реализация на PyTorch
  • Видеоданные: 25 кадров в секунду, лицевая область обрезана до области рта говорящего
  • Аудио: моноканал, частота дискретизации 16 кГц
  • Transformer: 3 слоя, 8 головок внимания, размер модели 532
  • Данные обучения: 4-секундные аудиофрагменты, случайная обрезка и применение расширения данных, включая изменение скорости, тона и громкости

Результаты экспериментов

Основные результаты

Эффект положительных и отрицательных векторов встраивания (таблица 1):

Конфигурация1P-0N1P-1N3P-2N3P-3N
SDR↑13.814.014.414.5

Результаты показывают, что увеличение количества положительных и отрицательных векторов регистрации улучшает производительность разделения.

Многомодальное сравнение (таблица 2):

МодальностьАудиоВизуальнаяSDR↑STOI↑PESQ↑
Чистое аудио14.4912.52
Чистое аудио + губы14.5912.55
Зашумленное аудио6.3581.82
Зашумленное аудио + губы13.7882.45
Только движения губ11.1772.25
Губы + лицо12.0802.35

Сравнение с методами SOTA (таблица 3):

МетодНабор данныхSDR↑STOI↑PESQ↑
VoiceFormerLRS314.4922.42
VoiceVectorLRS314.5912.52
VoiceFilterLibriSpeech12.6--
VoiceVectorLibriSpeech13.1892.12

Ключевые выводы

  1. Эффективность чисто визуального режима: Использование только движений губ позволяет достичь производительности SDR 11.1, что доказывает важность визуальной информации.
  2. Устойчивость к шуму: При объединении с визуальными подсказками производительность зашумленного аудио значительно улучшается с SDR 6.3 до 13.7.
  3. Обобщение между наборами данных: На наборе данных LibriSpeech, на котором не проводилось обучение, метод по-прежнему превосходит базовые методы.

Связанные работы

Основные направления исследований

  1. Методы многомодального кондиционирования: Использование визуальных подсказок (в основном движений губ) для направления разделения
  2. Методы встраивания, специфичные для говорящего: Генерация встраивания говорящего на основе чистых речевых образцов для кондиционирования

Преимущества данной работы

  • По сравнению с традиционными аудиовизуальными методами: этап разделения не требует визуальной информации, повышая устойчивость и вычислительную эффективность
  • По сравнению с чисто аудиометодами: предоставление более сильной способности различения говорящих через многомодальные векторы регистрации
  • Введение механизма отрицательных образцов: обеспечение лучшего эффекта контрастивного обучения по сравнению с предыдущими методами, использующими только положительные образцы

Заключение и обсуждение

Основные выводы

  1. Предложенная двухэтапная архитектура успешно объединяет преимущества аудио и визуального кондиционирования
  2. Многомодальные векторы регистрации демонстрируют хорошую производительность во всех сценариях
  3. Механизм контрастивного обучения с положительными и отрицательными образцами эффективно улучшает производительность разделения
  4. На стандартных наборах данных достигнута производительность, превосходящая существующие методы

Ограничения

  1. Зависимость от синтетических данных: Обучение и тестирование проводятся в основном на синтетических смешанных аудиоданных, что может привести к расхождению с реальными шумными окружающими средами
  2. Требования к качеству визуальной информации: Режим только для визуальной информации по-прежнему требует четкого видео движений губ
  3. Вычислительная сложность: Двухэтапная архитектура увеличивает общую сложность системы

Будущие направления

  1. Проверка и оптимизация в реальных шумных окружающих средах
  2. Исследование слияния дополнительных визуальных модальностей (жесты, выражения лица)
  3. Дальнейшие исследования стратегий сквозной оптимизации

Глубокая оценка

Преимущества

  1. Сильная техническая инновативность: Впервые реализована регистрация говорящего из чисто визуальной модальности, открывая новые направления в обработке визуальной речи
  2. Разумная конструкция архитектуры: Двухэтапная конструкция ловко балансирует производительность и практичность
  3. Полные эксперименты: Всесторонняя оценка, охватывающая различные комбинации модальностей и методы сравнения
  4. Явное повышение производительности: Превосходит существующие методы SOTA по нескольким метрикам

Недостатки

  1. Недостаточная проверка в реальных сценариях: Основана в основном на синтетических данных, отсутствует проверка в реальных шумных окружающих средах
  2. Отсутствие анализа вычислительной эффективности: Не предоставлены подробные анализы вычислительной сложности и времени вывода
  3. Недостаточный анализ случаев отказа: Отсутствует углубленный анализ ограничений метода

Влияние

  1. Академическая ценность: Предоставляет новые исследовательские идеи для многомодального разделения речи
  2. Практическая ценность: Имеет потенциальную ценность в практических приложениях, таких как слуховые аппараты и видеоконференции
  3. Воспроизводимость: Предоставляет подробные детали реализации, способствуя воспроизведению исследований

Применимые сценарии

  1. Системы видеоконференций: Использование визуальной информации участников для разделения речи
  2. Интеллектуальные слуховые устройства: Выделение голоса целевого говорящего в шумной окружающей среде
  3. Обработка мультимедийного контента: Извлечение речи конкретного говорящего из аудиовизуального контента

Библиография

Статья ссылается на важные работы в области разделения речи, включая:

  • Серия VoiceFilter: методы разделения на основе встраивания говорящего
  • Looking to Listen, VoiceFormer: представительные работы в области аудиовизуального разделения
  • ECAPA-TDNN: классическая модель для распознавания говорящего
  • LRS3, LibriSpeech: стандартные наборы данных для обработки речи

Общая оценка: Это высококачественная статья с сильной технической инновативностью и разумным экспериментальным дизайном. Благодаря умной двухэтапной конструкции архитектуры и стратегии многомодального слияния, работа достигает значительного повышения производительности в задаче разделения речи. Особенно инновационное применение чисто визуальной модальности открывает новые направления исследований в этой области. Хотя есть место для улучшения в проверке в реальных сценариях, общее качество работы высоко и имеет важную академическую и практическую ценность.