This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- ID статьи: 2510.12326
- Название: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- Авторы: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- Учреждение: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
- Классификация: eess.AS (Обработка аудио и речи)
- Дата публикации: 14 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.12326
В данной работе предложен метод DeePAQ на основе глубокого обучения для оценки перцептивного качества аудио общего назначения. Метод объединяет метрическое обучение и музыкальную фундаментальную модель MERT, создавая пространство встраивания, управляемое прокси-метками, которое способно захватывать интенсивность общих аудиодефектов. Насколько известно авторам, DeePAQ является первым методом в области оценки качества аудио общего назначения, использующим слабо контролируемые метки и метрическое обучение с тонкой настройкой музыкальной фундаментальной модели посредством низкоранговой адаптации (LoRA). На слуховых тестах, охватывающих кодирование аудио и разделение источников, метод превосходит существующие объективные стандарты оценки качества аудио, демонстрируя отличные результаты при обнаружении артефактов кодирования и хорошую обобщаемость на невидимые типы дефектов, такие как разделение источников.
Оценка качества аудио является центральной проблемой в области обработки аудио. Хотя традиционные субъективные слуховые тесты являются точными, они требуют больших затрат времени и средств, поэтому необходимы объективные вычислительные методы для оценки перцептивного качества аудио.
- Дефицит данных: По сравнению с оценкой качества речи, субъективные оценки музыкального контента при различных типах дефектов более редки и редко доступны в открытом доступе
- Сложность сигнала: По сравнению с речью музыкальные сигналы характеризуются большей вариативностью, включая более богатую гармоническую структуру, резкие переходные процессы от инструментов и намеренные дефекты, вносимые художественным выражением
- Соответствие дефектов: Дефекты, адаптированные или соответствующие содержанию сигнала, такие как артефакты перцептивного кодирования, особенно сложно отделить
- Существующие музыкальные фундаментальные модели (такие как MERT, CLAP) в основном оптимизированы для нижестоящих задач, таких как поиск музыкальной информации и классификация жанров
- Остается неясным, какое встраивание лучше всего отражает перцептивные аспекты качества музыки
- Существующие методы, такие как Fréchet Audio Distance (FAD), высокочувствительны к размеру тестовой выборки и выбору эталонного сигнала, что ограничивает их надежность
- Новаторский метод: Первое применение слабо контролируемых меток и метрического обучения в области оценки качества аудио общего назначения с тонкой настройкой музыкальной фундаментальной модели посредством LoRA
- Инновационная стратегия обучения: Предложена цель слабо контролируемого обучения на основе потерь Rank-n-Contrast (RnC), объединяющая прокси-метки ViSQOL и метки битрейта кодирования
- Превосходная производительность: Достижение наивысшей общей корреляции на множественных слуховых тестах (PCC: 0.918, SRCC: 0.889)
- Сильная обобщаемость: Отличные результаты как при обнаружении артефактов кодирования в пределах домена, так и при дефектах разделения источников вне домена
- Двухрежимный режим: Поддержка как полнореференсного, так и нереференсного режимов оценки
Построение функции встраивания f:X→Z, которая отображает аудиосэмплы xi∈RD в пространство встраивания качества Z таким образом, что аудио с похожим перцептивным качеством находятся на близких расстояниях в пространстве встраивания, а аудио с большими различиями в качестве находятся на больших расстояниях.
- MERT v1: Музыкальная фундаментальная модель с 95M параметрами, использующая EnCodec в качестве метода токенизации во время предварительного обучения
- Архитектура: 12 слоев трансформера, каждый временной кадр производит матрицу признаков размером 13×768
- Обработка признаков: После усреднения по временному измерению и развертывания получается вектор размером 9,984, подаваемый на последующие слои проекции
- Функция активации ReLU + линейный слой размером 256
- Используется для отображения признаков MERT в пространство встраивания, чувствительное к качеству
- Метки ViSQOL: Использование ViSQOL v3 для вычисления оценки MOS каждого деградированного сигнала относительно чистого эталона (1-5 баллов)
- Метки битрейта: Битрейт кодирования служит грубым показателем качества аудио, чистым сигналам присваивается b=∞
Потери RnC для одного образца определяются как:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
где Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} представляет набор образцов, которые ранжируются выше, чем xj относительно якоря xi.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- Вставка матриц LoRA в слои проекции запросов и значений в модулях внимания
- Ранг 8, коэффициент масштабирования 16
- Только 2.93% параметров модели требуют обучения, эффективно смягчая переобучение на малых наборах данных
- Скорость обучения: 1×10⁻⁴, экспоненциальное затухание с коэффициентом 0.99 после 10 эпох без улучшения
- Затухание веса: 0.01, коэффициент отсева: 0.05
- Размер пакета: 32
- Объем: Примерно 460 часов музыки CD качества (44.1 кГц)
- Форматы кодирования: Opus, mp3, AAC
- Битрейты: 16, 32, 48, 64, 80, 96, 128 кбит/с
- Разделение данных: 122 часа закодированного аудио на каждый кодек, 45 часов чистого сигнала
- Набор валидации: 50 часов музыки (8 часов чистого + 14 часов закодированного на каждый кодек)
Включают 9 слуховых тестов, разделенные на две категории:
- Кодирование аудио: IgorC96Multiformat, ODAQ, тесты валидации MPEG USAC (t1-t3)
- Разделение источников: 4 подмножества набора данных SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)
- PCC: Коэффициент линейной корреляции Пирсона
- SRCC: Коэффициент ранговой корреляции Спирмена
- Традиционные методы: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
- Методы на основе фундаментальных моделей: Тонко настроенный wav2vec 2.0, FAD (MERT-v1-95M)
- Наивысшая корреляция: PCC = 0.918, SRCC = 0.889
- Последовательная производительность: Высокая корреляция и последовательная производительность на большинстве тестовых наборов
- Диапазон качества: Отличные результаты в диапазоне высокого качества, некоторые недостатки в диапазоне низкого качества из-за дефицита данных обучения
- IgorC96Multiformat: PCC = 0.954, SRCC = 0.848
- ODAQ в целом: PCC = 0.916, SRCC = 0.868
- Тесты USAC: PCC выше 0.9 на всех тестах t1-t3
- Разделение источников: Общий PCC = 0.919, SRCC = 0.787
- LoRA vs полная тонкая настройка: LoRA показывает лучшие результаты на малых наборах данных, разница сокращается с увеличением данных
- LoRA vs замороженная голова проекции: LoRA значительно превосходит метод, использующий только обучение головы проекции
- MERT vs wav2vec 2.0: MERT демонстрирует более сбалансированную производительность на музыке и речи, wav2vec 2.0 смещен в сторону речи
- Добавление члена потерь RnC с упорядочением битрейта дает улучшение на 1-3%
- Кубическое полиномиальное и MLP отображение значительно повышают PCC, SRCC остается практически неизменным
- Указывает на нелинейную связь между расстоянием встраивания и субъективной оценкой
- Обобщаемость в пределах домена: Отличные результаты при обнаружении артефактов кодирования
- Обобщаемость вне домена: Сохранение хорошей производительности на невидимых типах дефектов, таких как разделение источников
- Обобщаемость между контентом: Последовательная производительность на музыке, речи и смешанном контенте
- Репрезентативные методы используют потери триплетов для контрастного обучения
- Использование фундаментальных моделей речи, таких как wav2vec 2.0, для кодирования сигналов
- Отражение интенсивности субъективной деградации через евклидово расстояние между встраиваниями
- PEAQ: Извлечение промежуточных перцептивных признаков (MOVs), объединение через нейронную сеть для получения ODG
- 2f-model: Использование двух MOVs из PEAQ Basic, впечатляющая корреляция с субъективными оценками
- HAAQI: Первоначально разработан для приложений слухопротезирования, может использоваться для нормального слуха при обходе моделирования потери слуха
- FAD: Используется для оценки встраиваний моделей генерации музыки, но чувствительна к размеру выборки и выбору эталонного сигнала
- MERT/CLAP: Главным образом оптимизированы для задач поиска музыкальной информации
- DeePAQ успешно расширяет парадигму метрического обучения оценки качества речи на область оценки качества аудио общего назначения
- Стратегия тонкой настройки LoRA эффективно предотвращает переобучение на малых наборах данных
- Многоисточниковые прокси-метки (ViSQOL + битрейт) повышают робастность модели
- Сильная обобщаемость делает метод применимым к различным типам дефектов
- Диапазон низкого качества: Из-за дефицита данных обучения производительность в диапазоне низкого качества ниже, чем у 2f-model
- Вызовы разделения источников: Набор данных PEASS представляет вызов для всех объективных метрик
- Ограничения данных обучения: Главным образом сосредоточены на артефактах кодирования, ограниченное покрытие других типов дефектов
- Расширение данных обучения: Включение более широкого спектра типов дефектов для повышения обобщаемости
- Улучшение нереференсной модели: Повышение производительности за счет более разнообразного обучения
- Сквозная оптимизация: Исследование методов прямой оптимизации предсказания субъективной оценки
- Высокая инновационность: Первое применение LoRA и слабо контролируемого обучения в оценке качества аудио
- Обоснованный метод: Умный дизайн потерь RnC, эффективное использование многоисточниковых прокси-меток
- Полные эксперименты: Комплексная оценка на 9 различных слуховых тестах
- Сильная обобщаемость: Отличная производительность на внедоменных задачах, демонстрирующая робастность метода
- Недостаточный теоретический анализ: Отсутствие глубокого анализа того, почему MERT подходит для оценки качества аудио
- Вычислительная сложность: Не обсуждаются вычислительные затраты по сравнению с традиционными методами
- Ограничения типов дефектов: Главным образом сосредоточены на артефактах кодирования, недостаточное покрытие других типов дефектов
- Академическая ценность: Предоставление новой технологической траектории для области оценки качества аудио
- Практическая ценность: Применимость при разработке аудиокодеков и мониторинге качества
- Воспроизводимость: Подробное описание метода, четкая установка экспериментов
- Оценка аудиокодеков: Особенно подходит для обнаружения артефактов кодирования
- Мониторинг качества систем обработки аудио: Может использоваться для оценки качества в реальном времени
- Контроль качества мультимедийного контента: Применимо к оценке качества музыки и речевого контента
Статья цитирует 26 важных ссылок, охватывающих основные работы в смежных областях оценки качества речи, музыкальных фундаментальных моделей и метрического обучения, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная статья в области обработки аудио, демонстрирующая отличные результаты в методологической инновации, дизайне экспериментов и анализе результатов. DeePAQ представляет технологический прорыв в области оценки качества аудио, обладая значительной академической ценностью и практической значимостью.