Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic
Улучшение речи и дереверберация с использованием диффузионных генеративных моделей
В данной статье на основе предыдущих работ авторов используются диффузионные генеративные модели для улучшения речи. Статья подробно описывает процесс диффузии на основе стохастических дифференциальных уравнений (СДУ) и проводит глубокий теоретический анализ. В отличие от обычных условных генеративных задач, авторы не начинают обратный процесс с чистого гауссовского шума, а с смеси зашумленной речи и гауссовского шума. Это соответствует прямому процессу, содержащему член дрейфа, который преобразует чистую речь в зашумленную. Исследование показывает, что метод может генерировать высококачественные оценки чистой речи всего за 30 шагов диффузии. Благодаря улучшению архитектуры сети значительно повышена производительность улучшения речи, что указывает на то, что сеть, а не формализованный метод, является основным ограничивающим фактором исходного подхода.
Улучшение речи направлено на восстановление чистого речевого сигнала из звукозаписей, подверженных воздействию акустического шума или реверберации. Это классическая задача обработки сигналов, имеющая важное применение в телефонной связи, слуховых аппаратах, распознавании речи и других областях.
Целью данной работы является разработка чистой генеративной диффузионной модели, которая путем обучения распределению приоритета чистой речи обеспечивает высококачественное улучшение речи и дереверберацию в области комплексного спектрограмма кратковременного преобразования Фурье (STFT).
Инновационный процесс диффузии СДУ: предложено стохастическое дифференциальное уравнение с членом дрейфа, который преобразует прямой процесс от чистой речи к зашумленной
Улучшенная архитектура сети: использование архитектуры NCSN++ вместо исходной комплексной U-Net значительно повышает производительность
Унифицированная структура: одна структура может обрабатывать как задачи улучшения речи, так и дереверберации
Комплексная оценка: включает кросс-датасетную оценку, тестирование на реальных данных и субъективные слуховые эксперименты
Оптимизация эффективности: балансировка производительности и скорости вычислений через различные конфигурации дискретизаторов
Теоретический анализ: предоставляет подробный теоретический вывод и анализ процесса диффузии
Статья работает в области комплексного STFT с использованием преобразования сжатия амплитуды:
c~=β∣c∣αei∠(c)
где α∈(0,1] — показатель сжатия, β∈R+ — коэффициент масштабирования.
При несовпадающих условиях (обучение на VB-DMD, тестирование на WSJ0-CHiME3) SGMSE+ превосходит другие методы по всем показателям, демонстрируя превосходную способность к обобщению.
Статья цитирует большое количество связанных работ, в основном включая:
Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models
Общая оценка: Это высококачественная исследовательская статья, которая демонстрирует отличные результаты в теоретических инновациях, проектировании методов и экспериментальной проверке. Статья успешно применяет диффузионные модели к задаче улучшения речи, достигая производительности, сравнимой с дискриминативными моделями благодаря умному проектированию СДУ и улучшению архитектуры сети, при этом демонстрируя превосходную способность к обобщению. Несмотря на проблемы вычислительной эффективности и артефактов, ее теоретический вклад и практическая ценность делают ее важной работой в этой области.