2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

基本信息

论文ID: 2510.12326
标题: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
作者: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
机构: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
分类: eess.AS (Audio and Speech Processing)
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.12326

摘要

本文提出了基于深度学习的感知音频质量度量方法DeePAQ，用于评估通用音频质量。该方法结合度量学习和音乐基础模型MERT，通过代理标签指导构建能够捕获通用音频失真强度的嵌入空间。据作者所知，DeePAQ是通用音频质量领域中首个利用弱监督标签和度量学习，通过低秩适应(LoRA)微调音乐基础模型的方法。在涵盖音频编码和源分离的听力测试中，该方法超越了现有的客观音频质量度量标准，在检测编码伪影方面表现优异，并对源分离等未见失真具有良好的泛化能力。

研究背景与动机

问题定义

音频质量评估是音频处理领域的核心问题。传统的主观听力测试虽然准确，但耗时昂贵且不实用，因此需要客观的计算方法来估计感知音频质量。

研究挑战

数据稀缺性：与语音质量评估相比，音乐内容在不同失真类型下的主观评分更加稀缺且很少公开可用
信号复杂性：相比语音，音乐信号具有更大的变异性，包括更丰富的谐波结构、来自乐器的尖锐瞬变以及艺术表达引入的意图性失真
失真匹配性：感知编码伪影等与信号内容匹配或适应的失真特别难以分离

现有方法局限

现有音乐基础模型(如MERT、CLAP)主要针对音乐信息检索和流派分类等下游任务优化
哪种嵌入最能反映音乐质量的感知方面尚不清楚
现有方法如Fréchet Audio Distance (FAD)对测试样本大小和参考信号选择高度敏感，可靠性有限

核心贡献

首创性方法：首次在通用音频质量领域使用弱监督标签和度量学习，通过LoRA微调音乐基础模型
创新训练策略：提出基于Rank-n-Contrast (RnC)损失的弱监督训练目标，结合ViSQOL伪标签和编码比特率标签
优异性能：在多个听力测试中达到最高的整体相关性(PCC: 0.918, SRCC: 0.889)
强泛化能力：在域内编码伪影检测和域外源分离失真上都表现出色
双参考模式：支持全参考和非匹配参考两种评估模式

方法详解

任务定义

构建嵌入函数 $f: X \rightarrow Z$ ，将音频样本 $x_i \in \mathbb{R}^D$ 映射到质量嵌入空间 $Z$ ，使得感知质量相似的音频在嵌入空间中距离较近，质量差异大的音频距离较远。

模型架构

基础模型

MERT v1：95M参数的音乐基础模型，使用EnCodec作为预训练期间的标记化方法
架构：12个transformer层，每个时间帧产生13×768维特征矩阵
特征处理：时间维度平均后展平为9,984维向量，输入后续投影头

投影头设计

ReLU激活函数 + 256维线性层输出
用于将MERT特征映射到质量感知嵌入空间

弱监督训练目标

代理标签构建

ViSQOL标签：使用ViSQOL v3计算每个降质信号相对于清洁参考的MOS分数(1-5分)
比特率标签：编码比特率作为音频质量的粗略指示，清洁信号赋值 $b = \infty$

Rank-n-Contrast损失

单样本RnC损失定义为：

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$