We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- ID статьи: 2501.01401
- Название: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- Авторы: Акам Рахими, Триантафиллос Афоурас, Эндрю Зиссерман (группа VGG, Оксфордский университет)
- Классификация: eess.AS (электротехника и системные науки — обработка аудио и речи)
- Дата публикации: 2 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.01401
В данной работе предложена архитектура на основе Transformer для разделения голоса целевого говорящего из смеси нескольких говорящих и окружающего шума. Метод использует две независимые нейронные сети: (A) сеть регистрации, которая использует различные комбинации аудио и визуальных модальностей для генерации векторов встраивания, специфичных для говорящего; (B) сеть разделения, которая принимает зашумленный сигнал и векторы регистрации в качестве входных данных и выводит чистый сигнал целевого говорящего. Основные инновации включают: (i) векторы регистрации могут быть сгенерированы только из аудио, аудиовизуальных данных (с использованием движений губ) или только из визуальных данных (с использованием движений губ из немого видео); (ii) гибкость использования нескольких положительных и отрицательных векторов регистрации при разделении.
Разделение речи является ключевой задачей в обработке аудио, особенно в шумных окружающих средах и сценариях с несколькими говорящими. Существующие приложения, такие как слуховые аппараты, системы голосовой активации и видеоконференции, в значительной степени зависят от производительности разделения речи.
- Методы на основе аудио встраивания: Методы, такие как VoiceFilter, полагаются на чистое, неискаженное аудио для генерации встраивания говорящего, что сложно получить в реальных шумных окружающих средах.
- Аудиовизуальные методы: Методы, такие как Looking to Listen и VoiceFormer, хотя и используют визуальные подсказки (движения губ), требуют постоянного получения визуальной информации во время разделения, и производительность снижается при окклюзии или отсутствии визуальных данных.
Данная работа направлена на объединение преимуществ методов аудио и визуального кондиционирования при избежании присущих им проблем. Благодаря двухэтапной конструкции: этап регистрации может использовать многомодальную информацию для генерации надежного представления говорящего, тогда как этап разделения зависит только от аудиоданных, повышая вычислительную эффективность и устойчивость к изменениям визуальной информации.
- Многомодальная сеть регистрации: Предложена сеть встраивания говорящего, способная обрабатывать аудио, аудиовизуальные и чисто визуальные входные данные, особенно инновационно поддерживающая генерацию векторов регистрации только из немого видео.
- Кондиционирование положительными и отрицательными образцами: Введен механизм контрастивного обучения, одновременно использующий положительные образцы (целевой говорящий) и отрицательные образцы (нецелевые говорящие) векторов регистрации.
- Преимущества двухэтапной архитектуры: Этап разделения полностью независим от визуальной информации, решая ограничения традиционных аудиовизуальных методов при отсутствии визуальной информации.
- Повышение производительности: Достигнута производительность, превосходящая существующие методы на наборах данных LRS3 и LibriSpeech.
Учитывая смешанный аудиосигнал, содержащий целевого говорящего, других говорящих и окружающий шум, цель состоит в разделении речевого компонента целевого говорящего с конкретными акустическими характеристиками при фильтрации конкурирующих голосов и окружающего шума.
Сеть только для аудио (рис. 1a):
- Использует предварительно обученную модель ECAPA-TDNN в качестве экстрактора признаков говорящего
- Вход: спектрограмма чистого аудио S(f,t)=STFT(ac)
- Выход: 192-мерное встраивание говорящего Sac∈R192
Аудиовизуальная сеть (рис. 1b):
- Кодирование аудио: Ea∈Rta×768
- Кодирование видео (движения губ): Ev∈Rtv×512
- Кодирование изображения лица: Ef∈R128
- Слияние признаков: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- Обработка объединенных признаков через трехслойный кодировщик Transformer
- Выход: 192-мерный вектор регистрации Savf∈R192
Чисто визуальная сеть (рис. 1b):
- Использует только визуальную информацию (движения губ и/или изображение лица)
- Выход: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- На основе архитектуры VoiceFormer, включающей кодировщик-декодировщик аудио и кодировщик встраивания говорящего
- Вход: зашумленная аудиоволна и несколько положительных и отрицательных векторов регистрации
- Использует трехслойный кодировщик Transformer для слияния аудио и встраивания говорящего
- Через механизм внимания усиливает признаки, соответствующие целевому говорящему, и подавляет признаки нецелевых говорящих
- Пропускные соединения между кодировщиком и декодировщиком сохраняют низкоуровневую и высокоуровневую информацию
- Стратегия обучения с дистилляцией знаний: Аудиовизуальная сеть регистрации обучается путем дистилляции знаний имитировать выход сети только для аудио, обеспечивая согласованность между различными модальностями.
- Многомодальная гибкость: Поддерживает генерацию векторов регистрации из различных комбинаций модальностей, включая инновационный режим только для визуальной информации.
- Механизм контрастивного обучения: Одновременное использование положительных и отрицательных образцов обеспечивает более сильную способность различения говорящих.
- LRS3: Крупномасштабный набор данных аудиовизуального контента из открытых видео TEDx, содержащий разнообразные стили речи и темы
- LibriSpeech: Крупномасштабный набор данных чистого аудио из аудиокниг общественного достояния
- Говорящие в тестовом наборе не встречались во время обучения, обеспечивая оценку способности к обобщению
- SDR (Signal-to-Distortion Ratio): Измеряет качество выходного разделения
- STOI (Short-Time Objective Intelligibility): Количественно определяет разборчивость сигнала
- PESQ (Perceptual Evaluation of Speech Quality): Отражает воспринимаемую оценку слушателем
- Аудиометоды: VoiceFilter
- Аудиовизуальные методы: Conversation, VisualVoice, VoiceFormer
- Реализация на PyTorch
- Видеоданные: 25 кадров в секунду, лицевая область обрезана до области рта говорящего
- Аудио: моноканал, частота дискретизации 16 кГц
- Transformer: 3 слоя, 8 головок внимания, размер модели 532
- Данные обучения: 4-секундные аудиофрагменты, случайная обрезка и применение расширения данных, включая изменение скорости, тона и громкости
Эффект положительных и отрицательных векторов встраивания (таблица 1):
| Конфигурация | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
Результаты показывают, что увеличение количества положительных и отрицательных векторов регистрации улучшает производительность разделения.
Многомодальное сравнение (таблица 2):
| Модальность | Аудио | Визуальная | SDR↑ | STOI↑ | PESQ↑ |
|---|
| Чистое аудио | ✓ | ✗ | 14.4 | 91 | 2.52 |
| Чистое аудио + губы | ✓ | ✓ | 14.5 | 91 | 2.55 |
| Зашумленное аудио | ✓ | ✗ | 6.3 | 58 | 1.82 |
| Зашумленное аудио + губы | ✓ | ✓ | 13.7 | 88 | 2.45 |
| Только движения губ | ✗ | ✓ | 11.1 | 77 | 2.25 |
| Губы + лицо | ✗ | ✓ | 12.0 | 80 | 2.35 |
Сравнение с методами SOTA (таблица 3):
| Метод | Набор данных | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- Эффективность чисто визуального режима: Использование только движений губ позволяет достичь производительности SDR 11.1, что доказывает важность визуальной информации.
- Устойчивость к шуму: При объединении с визуальными подсказками производительность зашумленного аудио значительно улучшается с SDR 6.3 до 13.7.
- Обобщение между наборами данных: На наборе данных LibriSpeech, на котором не проводилось обучение, метод по-прежнему превосходит базовые методы.
- Методы многомодального кондиционирования: Использование визуальных подсказок (в основном движений губ) для направления разделения
- Методы встраивания, специфичные для говорящего: Генерация встраивания говорящего на основе чистых речевых образцов для кондиционирования
- По сравнению с традиционными аудиовизуальными методами: этап разделения не требует визуальной информации, повышая устойчивость и вычислительную эффективность
- По сравнению с чисто аудиометодами: предоставление более сильной способности различения говорящих через многомодальные векторы регистрации
- Введение механизма отрицательных образцов: обеспечение лучшего эффекта контрастивного обучения по сравнению с предыдущими методами, использующими только положительные образцы
- Предложенная двухэтапная архитектура успешно объединяет преимущества аудио и визуального кондиционирования
- Многомодальные векторы регистрации демонстрируют хорошую производительность во всех сценариях
- Механизм контрастивного обучения с положительными и отрицательными образцами эффективно улучшает производительность разделения
- На стандартных наборах данных достигнута производительность, превосходящая существующие методы
- Зависимость от синтетических данных: Обучение и тестирование проводятся в основном на синтетических смешанных аудиоданных, что может привести к расхождению с реальными шумными окружающими средами
- Требования к качеству визуальной информации: Режим только для визуальной информации по-прежнему требует четкого видео движений губ
- Вычислительная сложность: Двухэтапная архитектура увеличивает общую сложность системы
- Проверка и оптимизация в реальных шумных окружающих средах
- Исследование слияния дополнительных визуальных модальностей (жесты, выражения лица)
- Дальнейшие исследования стратегий сквозной оптимизации
- Сильная техническая инновативность: Впервые реализована регистрация говорящего из чисто визуальной модальности, открывая новые направления в обработке визуальной речи
- Разумная конструкция архитектуры: Двухэтапная конструкция ловко балансирует производительность и практичность
- Полные эксперименты: Всесторонняя оценка, охватывающая различные комбинации модальностей и методы сравнения
- Явное повышение производительности: Превосходит существующие методы SOTA по нескольким метрикам
- Недостаточная проверка в реальных сценариях: Основана в основном на синтетических данных, отсутствует проверка в реальных шумных окружающих средах
- Отсутствие анализа вычислительной эффективности: Не предоставлены подробные анализы вычислительной сложности и времени вывода
- Недостаточный анализ случаев отказа: Отсутствует углубленный анализ ограничений метода
- Академическая ценность: Предоставляет новые исследовательские идеи для многомодального разделения речи
- Практическая ценность: Имеет потенциальную ценность в практических приложениях, таких как слуховые аппараты и видеоконференции
- Воспроизводимость: Предоставляет подробные детали реализации, способствуя воспроизведению исследований
- Системы видеоконференций: Использование визуальной информации участников для разделения речи
- Интеллектуальные слуховые устройства: Выделение голоса целевого говорящего в шумной окружающей среде
- Обработка мультимедийного контента: Извлечение речи конкретного говорящего из аудиовизуального контента
Статья ссылается на важные работы в области разделения речи, включая:
- Серия VoiceFilter: методы разделения на основе встраивания говорящего
- Looking to Listen, VoiceFormer: представительные работы в области аудиовизуального разделения
- ECAPA-TDNN: классическая модель для распознавания говорящего
- LRS3, LibriSpeech: стандартные наборы данных для обработки речи
Общая оценка: Это высококачественная статья с сильной технической инновативностью и разумным экспериментальным дизайном. Благодаря умной двухэтапной конструкции архитектуры и стратегии многомодального слияния, работа достигает значительного повышения производительности в задаче разделения речи. Особенно инновационное применение чисто визуальной модальности открывает новые направления исследований в этой области. Хотя есть место для улучшения в проверке в реальных сценариях, общее качество работы высоко и имеет важную академическую и практическую ценность.