2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: Метрика перцептивного качества аудио на основе фундаментальных моделей и слабо контролируемого обучения

Основная информация

ID статьи: 2510.12326
Название: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
Авторы: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
Учреждение: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
Классификация: eess.AS (Обработка аудио и речи)
Дата публикации: 14 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12326

Аннотация

В данной работе предложен метод DeePAQ на основе глубокого обучения для оценки перцептивного качества аудио общего назначения. Метод объединяет метрическое обучение и музыкальную фундаментальную модель MERT, создавая пространство встраивания, управляемое прокси-метками, которое способно захватывать интенсивность общих аудиодефектов. Насколько известно авторам, DeePAQ является первым методом в области оценки качества аудио общего назначения, использующим слабо контролируемые метки и метрическое обучение с тонкой настройкой музыкальной фундаментальной модели посредством низкоранговой адаптации (LoRA). На слуховых тестах, охватывающих кодирование аудио и разделение источников, метод превосходит существующие объективные стандарты оценки качества аудио, демонстрируя отличные результаты при обнаружении артефактов кодирования и хорошую обобщаемость на невидимые типы дефектов, такие как разделение источников.

Исследовательский контекст и мотивация

Определение проблемы

Оценка качества аудио является центральной проблемой в области обработки аудио. Хотя традиционные субъективные слуховые тесты являются точными, они требуют больших затрат времени и средств, поэтому необходимы объективные вычислительные методы для оценки перцептивного качества аудио.

Исследовательские вызовы

Дефицит данных: По сравнению с оценкой качества речи, субъективные оценки музыкального контента при различных типах дефектов более редки и редко доступны в открытом доступе
Сложность сигнала: По сравнению с речью музыкальные сигналы характеризуются большей вариативностью, включая более богатую гармоническую структуру, резкие переходные процессы от инструментов и намеренные дефекты, вносимые художественным выражением
Соответствие дефектов: Дефекты, адаптированные или соответствующие содержанию сигнала, такие как артефакты перцептивного кодирования, особенно сложно отделить

Ограничения существующих методов

Существующие музыкальные фундаментальные модели (такие как MERT, CLAP) в основном оптимизированы для нижестоящих задач, таких как поиск музыкальной информации и классификация жанров
Остается неясным, какое встраивание лучше всего отражает перцептивные аспекты качества музыки
Существующие методы, такие как Fréchet Audio Distance (FAD), высокочувствительны к размеру тестовой выборки и выбору эталонного сигнала, что ограничивает их надежность

Основные вклады

Новаторский метод: Первое применение слабо контролируемых меток и метрического обучения в области оценки качества аудио общего назначения с тонкой настройкой музыкальной фундаментальной модели посредством LoRA
Инновационная стратегия обучения: Предложена цель слабо контролируемого обучения на основе потерь Rank-n-Contrast (RnC), объединяющая прокси-метки ViSQOL и метки битрейта кодирования
Превосходная производительность: Достижение наивысшей общей корреляции на множественных слуховых тестах (PCC: 0.918, SRCC: 0.889)
Сильная обобщаемость: Отличные результаты как при обнаружении артефактов кодирования в пределах домена, так и при дефектах разделения источников вне домена
Двухрежимный режим: Поддержка как полнореференсного, так и нереференсного режимов оценки

Подробное описание метода

Определение задачи

Построение функции встраивания $f: X \rightarrow Z$ , которая отображает аудиосэмплы $x_i \in \mathbb{R}^D$ в пространство встраивания качества $Z$ таким образом, что аудио с похожим перцептивным качеством находятся на близких расстояниях в пространстве встраивания, а аудио с большими различиями в качестве находятся на больших расстояниях.

Архитектура модели

Фундаментальная модель

MERT v1: Музыкальная фундаментальная модель с 95M параметрами, использующая EnCodec в качестве метода токенизации во время предварительного обучения
Архитектура: 12 слоев трансформера, каждый временной кадр производит матрицу признаков размером 13×768
Обработка признаков: После усреднения по временному измерению и развертывания получается вектор размером 9,984, подаваемый на последующие слои проекции

Дизайн головы проекции

Функция активации ReLU + линейный слой размером 256
Используется для отображения признаков MERT в пространство встраивания, чувствительное к качеству

Цели слабо контролируемого обучения

Построение прокси-меток

Метки ViSQOL: Использование ViSQOL v3 для вычисления оценки MOS каждого деградированного сигнала относительно чистого эталона (1-5 баллов)
Метки битрейта: Битрейт кодирования служит грубым показателем качества аудио, чистым сигналам присваивается $b = \infty$

Потери Rank-n-Contrast

Потери RnC для одного образца определяются как:

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$

где $S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\}$ представляет набор образцов, которые ранжируются выше, чем $x_j$ относительно якоря $x_i$ .

Общая функция потерь

$L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]$

Стратегия обучения

Тонкая настройка LoRA

Вставка матриц LoRA в слои проекции запросов и значений в модулях внимания
Ранг 8, коэффициент масштабирования 16
Только 2.93% параметров модели требуют обучения, эффективно смягчая переобучение на малых наборах данных

Конфигурация обучения

Скорость обучения: 1×10⁻⁴, экспоненциальное затухание с коэффициентом 0.99 после 10 эпох без улучшения
Затухание веса: 0.01, коэффициент отсева: 0.05
Размер пакета: 32

Экспериментальная установка

Наборы данных

Данные обучения

Объем: Примерно 460 часов музыки CD качества (44.1 кГц)
Форматы кодирования: Opus, mp3, AAC
Битрейты: 16, 32, 48, 64, 80, 96, 128 кбит/с
Разделение данных: 122 часа закодированного аудио на каждый кодек, 45 часов чистого сигнала
Набор валидации: 50 часов музыки (8 часов чистого + 14 часов закодированного на каждый кодек)

Тестовые наборы

Включают 9 слуховых тестов, разделенные на две категории:

Кодирование аудио: IgorC96Multiformat, ODAQ, тесты валидации MPEG USAC (t1-t3)
Разделение источников: 4 подмножества набора данных SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Метрики оценки

PCC: Коэффициент линейной корреляции Пирсона
SRCC: Коэффициент ранговой корреляции Спирмена

Методы сравнения

Традиционные методы: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
Методы на основе фундаментальных моделей: Тонко настроенный wav2vec 2.0, FAD (MERT-v1-95M)

Результаты экспериментов

Основные результаты

Общая производительность

Наивысшая корреляция: PCC = 0.918, SRCC = 0.889
Последовательная производительность: Высокая корреляция и последовательная производительность на большинстве тестовых наборов
Диапазон качества: Отличные результаты в диапазоне высокого качества, некоторые недостатки в диапазоне низкого качества из-за дефицита данных обучения

Производительность на конкретных тестах

IgorC96Multiformat: PCC = 0.954, SRCC = 0.848
ODAQ в целом: PCC = 0.916, SRCC = 0.868
Тесты USAC: PCC выше 0.9 на всех тестах t1-t3
Разделение источников: Общий PCC = 0.919, SRCC = 0.787

Абляционные исследования

Сравнение стратегий обучения

LoRA vs полная тонкая настройка: LoRA показывает лучшие результаты на малых наборах данных, разница сокращается с увеличением данных
LoRA vs замороженная голова проекции: LoRA значительно превосходит метод, использующий только обучение головы проекции

Сравнение фундаментальных моделей

MERT vs wav2vec 2.0: MERT демонстрирует более сбалансированную производительность на музыке и речи, wav2vec 2.0 смещен в сторону речи

Анализ функции потерь

Добавление члена потерь RnC с упорядочением битрейта дает улучшение на 1-3%

Функция отображения

Кубическое полиномиальное и MLP отображение значительно повышают PCC, SRCC остается практически неизменным
Указывает на нелинейную связь между расстоянием встраивания и субъективной оценкой

Анализ обобщаемости

Обобщаемость в пределах домена: Отличные результаты при обнаружении артефактов кодирования
Обобщаемость вне домена: Сохранение хорошей производительности на невидимых типах дефектов, таких как разделение источников
Обобщаемость между контентом: Последовательная производительность на музыке, речи и смешанном контенте

Связанные работы

Оценка качества речи

Репрезентативные методы используют потери триплетов для контрастного обучения
Использование фундаментальных моделей речи, таких как wav2vec 2.0, для кодирования сигналов
Отражение интенсивности субъективной деградации через евклидово расстояние между встраиваниями

Традиционные метрики качества аудио

PEAQ: Извлечение промежуточных перцептивных признаков (MOVs), объединение через нейронную сеть для получения ODG
2f-model: Использование двух MOVs из PEAQ Basic, впечатляющая корреляция с субъективными оценками
HAAQI: Первоначально разработан для приложений слухопротезирования, может использоваться для нормального слуха при обходе моделирования потери слуха

Применение музыкальных фундаментальных моделей

FAD: Используется для оценки встраиваний моделей генерации музыки, но чувствительна к размеру выборки и выбору эталонного сигнала
MERT/CLAP: Главным образом оптимизированы для задач поиска музыкальной информации

Заключение и обсуждение

Основные выводы

DeePAQ успешно расширяет парадигму метрического обучения оценки качества речи на область оценки качества аудио общего назначения
Стратегия тонкой настройки LoRA эффективно предотвращает переобучение на малых наборах данных
Многоисточниковые прокси-метки (ViSQOL + битрейт) повышают робастность модели
Сильная обобщаемость делает метод применимым к различным типам дефектов

Ограничения

Диапазон низкого качества: Из-за дефицита данных обучения производительность в диапазоне низкого качества ниже, чем у 2f-model
Вызовы разделения источников: Набор данных PEASS представляет вызов для всех объективных метрик
Ограничения данных обучения: Главным образом сосредоточены на артефактах кодирования, ограниченное покрытие других типов дефектов

Направления будущих исследований

Расширение данных обучения: Включение более широкого спектра типов дефектов для повышения обобщаемости
Улучшение нереференсной модели: Повышение производительности за счет более разнообразного обучения
Сквозная оптимизация: Исследование методов прямой оптимизации предсказания субъективной оценки

Глубокая оценка

Преимущества

Высокая инновационность: Первое применение LoRA и слабо контролируемого обучения в оценке качества аудио
Обоснованный метод: Умный дизайн потерь RnC, эффективное использование многоисточниковых прокси-меток
Полные эксперименты: Комплексная оценка на 9 различных слуховых тестах
Сильная обобщаемость: Отличная производительность на внедоменных задачах, демонстрирующая робастность метода

Недостатки

Недостаточный теоретический анализ: Отсутствие глубокого анализа того, почему MERT подходит для оценки качества аудио
Вычислительная сложность: Не обсуждаются вычислительные затраты по сравнению с традиционными методами
Ограничения типов дефектов: Главным образом сосредоточены на артефактах кодирования, недостаточное покрытие других типов дефектов

Влияние

Академическая ценность: Предоставление новой технологической траектории для области оценки качества аудио
Практическая ценность: Применимость при разработке аудиокодеков и мониторинге качества
Воспроизводимость: Подробное описание метода, четкая установка экспериментов

Применимые сценарии

Оценка аудиокодеков: Особенно подходит для обнаружения артефактов кодирования
Мониторинг качества систем обработки аудио: Может использоваться для оценки качества в реальном времени
Контроль качества мультимедийного контента: Применимо к оценке качества музыки и речевого контента

Библиография

Статья цитирует 26 важных ссылок, охватывающих основные работы в смежных областях оценки качества речи, музыкальных фундаментальных моделей и метрического обучения, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья в области обработки аудио, демонстрирующая отличные результаты в методологической инновации, дизайне экспериментов и анализе результатов. DeePAQ представляет технологический прорыв в области оценки качества аудио, обладая значительной академической ценностью и практической значимостью.