This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic
Неконтролируемая дереверберация речи с помощью гибридной модели
В данной работе предлагается новая стратегия обучения для улучшения системы дереверберации речи неконтролируемым способом, используя только реверберированную речь. Большинство существующих алгоритмов зависят от парных данных чистой/реверберированной речи, которые сложно получить. Предложенный метод использует ограниченную акустическую информацию (такую как время реверберации RT60) для обучения системы дереверберации. Экспериментальные результаты показывают, что метод демонстрирует более последовательную производительность по различным объективным метрикам по сравнению с современными методами.
Основная проблема: В помещениях звуковые сигналы подвергаются воздействию отражений от стен и дифракции препятствиями, создавая явление реверберации, которое снижает разборчивость речевых записей. Необходимо разработать методы дереверберации для смягчения этого эффекта.
Важность проблемы: Реверберация серьёзно влияет на качество и разборчивость речи. Эффективные методы дереверберации требуются для приложений распознавания речи, систем коммуникации и других областей.
Ограничения существующих методов:
Дискриминативные методы требуют большого количества парных данных (чистая, реверберированная), которые сложно получить
Генеративные методы требуют меньше контроля, но всё ещё нуждаются в данных чистой речи, которые ещё сложнее получить, чем реверберированные данные
Методы типа MetricGAN-U используют только реверберированные сигналы, но основаны на оптимизации одной метрики, что не обеспечивает полную производительность
Исследовательская мотивация: Разработать неконтролируемый метод дереверберации речи, использующий только реверберированную речь и ограниченную акустическую информацию, такую как время реверберации.
Предложена структура самоконтролируемого обучения с реверберацией: Инновационное использование модели реверберации для контроля обучения глубокой нейронной сети вместо традиционного контроля по метрикам
Разработана стратегия обучения, учитывающая время реверберации: Интеграция акустической модели и глубокого обучения с использованием параметров RT60 для направления обучения
Достигнута более последовательная улучшенная производительность: Превосходство над методами, основанными на контроле по метрикам, по нескольким объективным метрикам
Предоставлена реализация с открытым исходным кодом: Выпущены код, предварительно обученные модели и примеры для содействия воспроизведению исследований
Входные данные: Реверберированный речевой сигнал Y
Выходные данные: Оценённый чистый речевой сигнал Ŝ
Ограничения: При обучении используются только реверберированные сигналы без парных данных чистой/реверберированной речи
Стратегия самоконтроля реверберации: В отличие от традиционного контроля по метрикам, прямое использование физической модели реверберации для контроля
Кросс-полосная свёртка в частотно-временной области: Реализация дифференцируемой операции свёртки в частотно-временной области для удобства обратного распространения градиента
Функция потерь согласования реверберации:
L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²
Преимущество последовательности: Предложенный метод превосходит базовый метод SRMR по трём метрикам: SISDR, ESTOI и WB-PESQ
Ограничения базового метода: Базовый метод MetricGAN-U показывает лучшие результаты по метрике SRMR, но производительность снижается по другим метрикам, даже ниже исходного реверберированного сигнала
Робастность оценки: Версия слепого контроля показывает почти идентичную производительность версии с частичным контролем, что указывает на робастность метода к ошибкам оценки RT60
Адаптивность модели: BiLSTM показывает меньшее снижение производительности при переходе от полного к частичному контролю, возможно, потому что обрабатывает только амплитудные маски и менее чувствителен к фазовым возмущениям
Сложность модели: По сравнению с чистыми методами, управляемыми данными, требует дополнительных компонентов моделирования реверберации
Зависимость от параметров: Хотя возможна слепая оценка, всё ещё зависит от точности акустических параметров, таких как RT60
Упрощение модели реверберации: Используемая модель Polack — это упрощённая модель реверберации, которая может не полностью соответствовать реальным условиям
Чувствительность к фазе: Методы комплексного спектра (например, FSN) более чувствительны к фазовым возмущениям модели реверберации
Статья цитирует важные работы в соответствующих областях, включая:
Классическую теоретическую базу модели реверберации Polack
Традиционные методы дереверберации, такие как WPE
Последние неконтролируемые методы, такие как MetricGAN-U
Передовые модели улучшения речи, такие как FullSubNet
Соответствующие алгоритмы слепой оценки параметров реверберации
В данной работе предложена инновационная структура неконтролируемой дереверберации речи, которая путём умелого сочетания акустического моделирования и глубокого обучения находит хороший баланс между практичностью и производительностью. Хотя остаётся разрыв по сравнению с методами полного контроля, работа предоставляет ценное решение для решения проблемы сложности получения данных в практических приложениях.