2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: Многомодальные векторы регистрации для разделения говорящих

Основная информация

ID статьи: 2501.01401
Название: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
Авторы: Акам Рахими, Триантафиллос Афоурас, Эндрю Зиссерман (группа VGG, Оксфордский университет)
Классификация: eess.AS (электротехника и системные науки — обработка аудио и речи)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01401

Аннотация

В данной работе предложена архитектура на основе Transformer для разделения голоса целевого говорящего из смеси нескольких говорящих и окружающего шума. Метод использует две независимые нейронные сети: (A) сеть регистрации, которая использует различные комбинации аудио и визуальных модальностей для генерации векторов встраивания, специфичных для говорящего; (B) сеть разделения, которая принимает зашумленный сигнал и векторы регистрации в качестве входных данных и выводит чистый сигнал целевого говорящего. Основные инновации включают: (i) векторы регистрации могут быть сгенерированы только из аудио, аудиовизуальных данных (с использованием движений губ) или только из визуальных данных (с использованием движений губ из немого видео); (ii) гибкость использования нескольких положительных и отрицательных векторов регистрации при разделении.

Исследовательский контекст и мотивация

Определение проблемы

Разделение речи является ключевой задачей в обработке аудио, особенно в шумных окружающих средах и сценариях с несколькими говорящими. Существующие приложения, такие как слуховые аппараты, системы голосовой активации и видеоконференции, в значительной степени зависят от производительности разделения речи.

Ограничения существующих методов

Методы на основе аудио встраивания: Методы, такие как VoiceFilter, полагаются на чистое, неискаженное аудио для генерации встраивания говорящего, что сложно получить в реальных шумных окружающих средах.
Аудиовизуальные методы: Методы, такие как Looking to Listen и VoiceFormer, хотя и используют визуальные подсказки (движения губ), требуют постоянного получения визуальной информации во время разделения, и производительность снижается при окклюзии или отсутствии визуальных данных.

Исследовательская мотивация

Данная работа направлена на объединение преимуществ методов аудио и визуального кондиционирования при избежании присущих им проблем. Благодаря двухэтапной конструкции: этап регистрации может использовать многомодальную информацию для генерации надежного представления говорящего, тогда как этап разделения зависит только от аудиоданных, повышая вычислительную эффективность и устойчивость к изменениям визуальной информации.

Основные вклады

Многомодальная сеть регистрации: Предложена сеть встраивания говорящего, способная обрабатывать аудио, аудиовизуальные и чисто визуальные входные данные, особенно инновационно поддерживающая генерацию векторов регистрации только из немого видео.
Кондиционирование положительными и отрицательными образцами: Введен механизм контрастивного обучения, одновременно использующий положительные образцы (целевой говорящий) и отрицательные образцы (нецелевые говорящие) векторов регистрации.
Преимущества двухэтапной архитектуры: Этап разделения полностью независим от визуальной информации, решая ограничения традиционных аудиовизуальных методов при отсутствии визуальной информации.
Повышение производительности: Достигнута производительность, превосходящая существующие методы на наборах данных LRS3 и LibriSpeech.

Подробное описание методологии

Определение задачи

Учитывая смешанный аудиосигнал, содержащий целевого говорящего, других говорящих и окружающий шум, цель состоит в разделении речевого компонента целевого говорящего с конкретными акустическими характеристиками при фильтрации конкурирующих голосов и окружающего шума.

Архитектура модели

1. Сеть регистрации говорящего

Сеть только для аудио (рис. 1a):

Использует предварительно обученную модель ECAPA-TDNN в качестве экстрактора признаков говорящего
Вход: спектрограмма чистого аудио $S(f,t) = STFT(a_c)$
Выход: 192-мерное встраивание говорящего $S_{ac} \in \mathbb{R}^{192}$

Аудиовизуальная сеть (рис. 1b):

Кодирование аудио: $E_a \in \mathbb{R}^{t_a \times 768}$
Кодирование видео (движения губ): $E_v \in \mathbb{R}^{t_v \times 512}$
Кодирование изображения лица: $E_f \in \mathbb{R}^{128}$
Слияние признаков: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
Обработка объединенных признаков через трехслойный кодировщик Transformer
Выход: 192-мерный вектор регистрации $S_{avf} \in \mathbb{R}^{192}$

Чисто визуальная сеть (рис. 1b):

Использует только визуальную информацию (движения губ и/или изображение лица)
Выход: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. Сеть разделения говорящего

На основе архитектуры VoiceFormer, включающей кодировщик-декодировщик аудио и кодировщик встраивания говорящего
Вход: зашумленная аудиоволна и несколько положительных и отрицательных векторов регистрации
Использует трехслойный кодировщик Transformer для слияния аудио и встраивания говорящего
Через механизм внимания усиливает признаки, соответствующие целевому говорящему, и подавляет признаки нецелевых говорящих
Пропускные соединения между кодировщиком и декодировщиком сохраняют низкоуровневую и высокоуровневую информацию

Технические инновации

Стратегия обучения с дистилляцией знаний: Аудиовизуальная сеть регистрации обучается путем дистилляции знаний имитировать выход сети только для аудио, обеспечивая согласованность между различными модальностями.
Многомодальная гибкость: Поддерживает генерацию векторов регистрации из различных комбинаций модальностей, включая инновационный режим только для визуальной информации.
Механизм контрастивного обучения: Одновременное использование положительных и отрицательных образцов обеспечивает более сильную способность различения говорящих.

Экспериментальная установка

Наборы данных

LRS3: Крупномасштабный набор данных аудиовизуального контента из открытых видео TEDx, содержащий разнообразные стили речи и темы
LibriSpeech: Крупномасштабный набор данных чистого аудио из аудиокниг общественного достояния
Говорящие в тестовом наборе не встречались во время обучения, обеспечивая оценку способности к обобщению

Метрики оценки

SDR (Signal-to-Distortion Ratio): Измеряет качество выходного разделения
STOI (Short-Time Objective Intelligibility): Количественно определяет разборчивость сигнала
PESQ (Perceptual Evaluation of Speech Quality): Отражает воспринимаемую оценку слушателем

Методы сравнения

Аудиометоды: VoiceFilter
Аудиовизуальные методы: Conversation, VisualVoice, VoiceFormer

Детали реализации

Реализация на PyTorch
Видеоданные: 25 кадров в секунду, лицевая область обрезана до области рта говорящего
Аудио: моноканал, частота дискретизации 16 кГц
Transformer: 3 слоя, 8 головок внимания, размер модели 532
Данные обучения: 4-секундные аудиофрагменты, случайная обрезка и применение расширения данных, включая изменение скорости, тона и громкости

Результаты экспериментов

Основные результаты

Эффект положительных и отрицательных векторов встраивания (таблица 1):

Конфигурация	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

Результаты показывают, что увеличение количества положительных и отрицательных векторов регистрации улучшает производительность разделения.

Многомодальное сравнение (таблица 2):

Модальность	Аудио	Визуальная	SDR↑	STOI↑	PESQ↑
Чистое аудио	✓	✗	14.4	91	2.52
Чистое аудио + губы	✓	✓	14.5	91	2.55
Зашумленное аудио	✓	✗	6.3	58	1.82
Зашумленное аудио + губы	✓	✓	13.7	88	2.45
Только движения губ	✗	✓	11.1	77	2.25
Губы + лицо	✗	✓	12.0	80	2.35

Сравнение с методами SOTA (таблица 3):

Метод	Набор данных	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14.4	92	2.42
VoiceVector	LRS3	14.5	91	2.52
VoiceFilter	LibriSpeech	12.6	-	-
VoiceVector	LibriSpeech	13.1	89	2.12

Ключевые выводы

Эффективность чисто визуального режима: Использование только движений губ позволяет достичь производительности SDR 11.1, что доказывает важность визуальной информации.
Устойчивость к шуму: При объединении с визуальными подсказками производительность зашумленного аудио значительно улучшается с SDR 6.3 до 13.7.
Обобщение между наборами данных: На наборе данных LibriSpeech, на котором не проводилось обучение, метод по-прежнему превосходит базовые методы.

Связанные работы

Основные направления исследований

Методы многомодального кондиционирования: Использование визуальных подсказок (в основном движений губ) для направления разделения
Методы встраивания, специфичные для говорящего: Генерация встраивания говорящего на основе чистых речевых образцов для кондиционирования

Преимущества данной работы

По сравнению с традиционными аудиовизуальными методами: этап разделения не требует визуальной информации, повышая устойчивость и вычислительную эффективность
По сравнению с чисто аудиометодами: предоставление более сильной способности различения говорящих через многомодальные векторы регистрации
Введение механизма отрицательных образцов: обеспечение лучшего эффекта контрастивного обучения по сравнению с предыдущими методами, использующими только положительные образцы

Заключение и обсуждение

Основные выводы

Предложенная двухэтапная архитектура успешно объединяет преимущества аудио и визуального кондиционирования
Многомодальные векторы регистрации демонстрируют хорошую производительность во всех сценариях
Механизм контрастивного обучения с положительными и отрицательными образцами эффективно улучшает производительность разделения
На стандартных наборах данных достигнута производительность, превосходящая существующие методы

Ограничения

Зависимость от синтетических данных: Обучение и тестирование проводятся в основном на синтетических смешанных аудиоданных, что может привести к расхождению с реальными шумными окружающими средами
Требования к качеству визуальной информации: Режим только для визуальной информации по-прежнему требует четкого видео движений губ
Вычислительная сложность: Двухэтапная архитектура увеличивает общую сложность системы

Будущие направления

Проверка и оптимизация в реальных шумных окружающих средах
Исследование слияния дополнительных визуальных модальностей (жесты, выражения лица)
Дальнейшие исследования стратегий сквозной оптимизации

Глубокая оценка

Преимущества

Сильная техническая инновативность: Впервые реализована регистрация говорящего из чисто визуальной модальности, открывая новые направления в обработке визуальной речи
Разумная конструкция архитектуры: Двухэтапная конструкция ловко балансирует производительность и практичность
Полные эксперименты: Всесторонняя оценка, охватывающая различные комбинации модальностей и методы сравнения
Явное повышение производительности: Превосходит существующие методы SOTA по нескольким метрикам

Недостатки

Недостаточная проверка в реальных сценариях: Основана в основном на синтетических данных, отсутствует проверка в реальных шумных окружающих средах
Отсутствие анализа вычислительной эффективности: Не предоставлены подробные анализы вычислительной сложности и времени вывода
Недостаточный анализ случаев отказа: Отсутствует углубленный анализ ограничений метода

Влияние

Академическая ценность: Предоставляет новые исследовательские идеи для многомодального разделения речи
Практическая ценность: Имеет потенциальную ценность в практических приложениях, таких как слуховые аппараты и видеоконференции
Воспроизводимость: Предоставляет подробные детали реализации, способствуя воспроизведению исследований

Применимые сценарии

Системы видеоконференций: Использование визуальной информации участников для разделения речи
Интеллектуальные слуховые устройства: Выделение голоса целевого говорящего в шумной окружающей среде
Обработка мультимедийного контента: Извлечение речи конкретного говорящего из аудиовизуального контента

Библиография

Статья ссылается на важные работы в области разделения речи, включая:

Серия VoiceFilter: методы разделения на основе встраивания говорящего
Looking to Listen, VoiceFormer: представительные работы в области аудиовизуального разделения
ECAPA-TDNN: классическая модель для распознавания говорящего
LRS3, LibriSpeech: стандартные наборы данных для обработки речи

Общая оценка: Это высококачественная статья с сильной технической инновативностью и разумным экспериментальным дизайном. Благодаря умной двухэтапной конструкции архитектуры и стратегии многомодального слияния, работа достигает значительного повышения производительности в задаче разделения речи. Особенно инновационное применение чисто визуальной модальности открывает новые направления исследований в этой области. Хотя есть место для улучшения в проверке в реальных сценариях, общее качество работы высоко и имеет важную академическую и практическую ценность.