2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.

academic

Улучшение речи и дереверберация с использованием диффузионных генеративных моделей

Основная информация

ID статьи: 2208.05830
Название: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Авторы: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
Классификация: eess.AS (обработка аудио и речи), cs.LG (машинное обучение), cs.SD (звук)
Дата публикации: август 2022 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2208.05830
Ссылка на код: https://github.com/sp-uhh/sgmse

Аннотация

В данной статье на основе предыдущих работ авторов используются диффузионные генеративные модели для улучшения речи. Статья подробно описывает процесс диффузии на основе стохастических дифференциальных уравнений (СДУ) и проводит глубокий теоретический анализ. В отличие от обычных условных генеративных задач, авторы не начинают обратный процесс с чистого гауссовского шума, а с смеси зашумленной речи и гауссовского шума. Это соответствует прямому процессу, содержащему член дрейфа, который преобразует чистую речь в зашумленную. Исследование показывает, что метод может генерировать высококачественные оценки чистой речи всего за 30 шагов диффузии. Благодаря улучшению архитектуры сети значительно повышена производительность улучшения речи, что указывает на то, что сеть, а не формализованный метод, является основным ограничивающим фактором исходного подхода.

Предпосылки и мотивация исследования

Определение проблемы

Улучшение речи направлено на восстановление чистого речевого сигнала из звукозаписей, подверженных воздействию акустического шума или реверберации. Это классическая задача обработки сигналов, имеющая важное применение в телефонной связи, слуховых аппаратах, распознавании речи и других областях.

Ограничения существующих методов

Ограничения дискриминативных моделей:
- Сложность охвата всех возможных акустических условий в обучающих данных
- Возможность создания неестественных речевых искажений
- Ограниченная способность к обобщению
Проблемы генеративных моделей VAE:
- Ограничения размерности скрытого слоя
- Чувствительность кодировщика к зашумленным входам
- Зависимость от линейной модели шума
Недостатки существующих диффузионных моделей:
- CDiffuSE требует явной оценки окружающего шума
- Плохое сохранение высокочастотной информации

Мотивация исследования

Целью данной работы является разработка чистой генеративной диффузионной модели, которая путем обучения распределению приоритета чистой речи обеспечивает высококачественное улучшение речи и дереверберацию в области комплексного спектрограмма кратковременного преобразования Фурье (STFT).

Основные вклады

Инновационный процесс диффузии СДУ: предложено стохастическое дифференциальное уравнение с членом дрейфа, который преобразует прямой процесс от чистой речи к зашумленной
Улучшенная архитектура сети: использование архитектуры NCSN++ вместо исходной комплексной U-Net значительно повышает производительность
Унифицированная структура: одна структура может обрабатывать как задачи улучшения речи, так и дереверберации
Комплексная оценка: включает кросс-датасетную оценку, тестирование на реальных данных и субъективные слуховые эксперименты
Оптимизация эффективности: балансировка производительности и скорости вычислений через различные конфигурации дискретизаторов
Теоретический анализ: предоставляет подробный теоретический вывод и анализ процесса диффузии

Подробное описание метода

Определение задачи

Вход: сигнал речи с шумом/реверберацией $y$
Выход: чистый речевой сигнал $x_0$
Ограничения: сохранение естественности и разборчивости речи

Представление данных

Статья работает в области комплексного STFT с использованием преобразования сжатия амплитуды: $\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)}$ где $\alpha \in (0,1]$ — показатель сжатия, $\beta \in \mathbb{R}^+$ — коэффициент масштабирования.

Проектирование стохастического дифференциального уравнения

Прямой процесс

Определено линейное СДУ: $dx_t = f(x_t, y)dt + g(t)dw$

где:

Коэффициент дрейфа: $f(x_t, y) = \gamma(y - x_t)$
Коэффициент диффузии: $g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}$

Обратный процесс

Соответствующее обратное СДУ: $dx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}$

где $s_\theta(x_t, y, t)$ — функция оценки, которую необходимо обучить.

Целевая функция обучения

На основе сопоставления оценок шумоподавления целевая функция обучения: $\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]$

Архитектура сети

Используется архитектура NCSN++, основные характеристики:

Многоразрешающая структура U-Net
Пути прогрессивного роста
Механизм глобального внимания
Временное встраивание: использование встраивания Фурье для кодирования временной информации
Остаточные блоки: остаточные сетевые блоки на основе BigGAN

Экспериментальная установка

Наборы данных

WSJ0-CHiME3: использование чистой речи WSJ0 и шума CHiME3, диапазон SNR 0-20 дБ
VB-DMD (VoiceBank-DEMAND): стандартный эталонный набор данных для улучшения речи
WSJ0-REVERB: смоделированные данные реверберации с использованием pyroomacoustics, диапазон T60 0,4-1,0 секунды

Показатели оценки

Полнотекстовые показатели: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
Показатели без ссылки: DNSMOS, SIG, BAK, OVRL, WVMOS

Методы сравнения

Генеративные модели: STCN, DVAE, CDiffuSE, SGMSE (исходная версия)
Дискриминативные модели: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Детали реализации

Параметры STFT: длина окна 510, размер скачка 128, окно Ханна
Параметры СДУ: $\sigma_{min}=0.05$ , $\sigma_{max}=0.5$ , $\gamma=1.5$
Обучение: 4×Quadro RTX 6000, 160 эпох, скорость обучения $10^{-4}$
Дискретизация: 30 шагов обратного процесса, дискретизатор предсказание-коррекция

Результаты экспериментов

Основные результаты

Производительность улучшения речи (WSJ0-CHiME3)

Метод	Набор обучения	POLQA	PESQ	SI-SDR
SGMSE+	WSJ0-C3	3.73	2.96	18.3
Conv-TasNet	WSJ0-C3	3.65	2.99	19.9
MetricGAN+	WSJ0-C3	3.52	3.03	10.5
CDiffuSE	WSJ0-C3	3.08	2.27	9.2

Способность к кросс-датасетному обобщению

При несовпадающих условиях (обучение на VB-DMD, тестирование на WSJ0-CHiME3) SGMSE+ превосходит другие методы по всем показателям, демонстрируя превосходную способность к обобщению.

Производительность дереверберации (WSJ0-REVERB)

Метод	POLQA	PESQ	SI-SDR
SGMSE+	3.24	2.66	1.6
Conv-TasNet	2.41	1.84	1.6
GaGNet	2.62	1.98	-0.6

Абляционные исследования

Оптимизация конфигурации дискретизатора

Дискретизатор предсказание-коррекция: одна корректирующая итерация достигает оптимального баланса производительности
Выбор количества шагов: 30 шагов достигают насыщения производительности
Вычислительная эффективность: RTF составляет 1,77 (в 1,77 раза больше реального времени обработки)

Эффект улучшения архитектуры

По сравнению с исходной SGMSE, SGMSE+ показывает улучшение на 0,75 по POLQA и на 0,68 по PESQ, что подтверждает важность архитектуры сети.

Субъективные слуховые эксперименты

Результаты эксперимента MUSHRA показывают, что SGMSE+ получила наивысший балл, особенно демонстрируя отличную надежность при несовпадающих условиях.

Оценка на реальных данных

На реальных данных шума DNS Challenge 2020 SGMSE+ показывает лучшие результаты по всем показателям без ссылки.

Связанные работы

Методы дискриминативных моделей

Маскирование время-частота: обучение идеальному бинарному маскированию или маскированию отношения
Отображение комплексного спектра: прямая оценка коэффициентов комплексного STFT
Методы во временной области: сквозная обработка волновой формы

Методы генеративных моделей

На основе VAE: обучение распределению приоритета речи, но ограничено размерностью скрытого пространства
Методы GAN: неявная оценка плотности, но нестабильное обучение
Диффузионные модели: недавно появившиеся методы, разделяемые на две категории: переколичество и прямое моделирование

Применение диффузионных моделей в обработке речи

Переколичество речи: методы типа CDiffuSE
Прямое моделирование: методы серии SGMSE в данной работе

Выводы и обсуждение

Основные выводы

Улучшенная архитектура сети является ключевым фактором повышения производительности
Генеративные модели превосходят дискриминативные модели в кросс-датасетном обобщении
Одна структура может эффективно обрабатывать несколько задач восстановления речи
30-шаговый процесс диффузии может достичь высококачественного генерирования речи

Ограничения

Вычислительная сложность: большой объем вычислений по сравнению с дискриминативными моделями
Артефакты: возможные артефакты "озвучивания" при очень низком SNR
Моделирование фазы: ограниченный эффект улучшения фазы при комплексном моделировании
Чувствительность параметров: требуется тщательная настройка параметров СДУ

Направления будущих исследований

Включение обнаружения активности речи и условной информации фонем
Исследование более эффективных стратегий дискретизации
Изучение улучшения фазы при более коротких длинах кадров
Расширение на другие задачи восстановления речи

Глубокая оценка

Преимущества

Теоретический вклад: предоставляет полный теоретический вывод и анализ СДУ
Методологическая инновация: умное проектирование члена дрейфа для адаптации задач
Комплексные эксперименты: включает кросс-датасетную оценку, реальные данные и субъективную оценку
Практическая ценность: открытый исходный код, удобный для воспроизведения и применения
Ясное изложение: подробный теоретический вывод и разумное проектирование экспериментов

Недостатки

Вычислительная эффективность: RTF составляет 1,77, требуется улучшение реального времени обработки
Проблема артефактов: артефакты "озвучивания" при низком SNR требуют решения
Настройка параметров: параметры СДУ требуют оптимизации для каждого набора данных
Теоретический анализ: анализ влияния несовпадения прямого и обратного процессов недостаточно глубок

Влияние

Научная ценность: предоставляет важный справочный материал для применения диффузионных моделей в обработке речи
Практическая ценность: достигает конкурентоспособной производительности на нескольких эталонных наборах данных
Воспроизводимость: предоставляет полный исходный код и примеры аудио
Вдохновляющее значение: предоставляет универсальную структуру для других задач восстановления речи

Применимые сценарии

Улучшение речи: телефонная связь, слуховые аппараты
Дереверберация: постобработка записей речи в помещении
Восстановление речи: восстановление исторических записей
Предварительная обработка: фронтальная обработка систем распознавания речи

Библиография

Статья цитирует большое количество связанных работ, в основном включая:

Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models

Общая оценка: Это высококачественная исследовательская статья, которая демонстрирует отличные результаты в теоретических инновациях, проектировании методов и экспериментальной проверке. Статья успешно применяет диффузионные модели к задаче улучшения речи, достигая производительности, сравнимой с дискриминативными моделями благодаря умному проектированию СДУ и улучшению архитектуры сети, при этом демонстрируя превосходную способность к обобщению. Несмотря на проблемы вычислительной эффективности и артефактов, ее теоретический вклад и практическая ценность делают ее важной работой в этой области.