This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- 论文ID: 2510.12326
- 标题: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- 作者: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- 机构: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
- 分类: eess.AS (Audio and Speech Processing)
- 发表时间: 2025年10月14日
- 论文链接: https://arxiv.org/abs/2510.12326
本文提出了基于深度学习的感知音频质量度量方法DeePAQ,用于评估通用音频质量。该方法结合度量学习和音乐基础模型MERT,通过代理标签指导构建能够捕获通用音频失真强度的嵌入空间。据作者所知,DeePAQ是通用音频质量领域中首个利用弱监督标签和度量学习,通过低秩适应(LoRA)微调音乐基础模型的方法。在涵盖音频编码和源分离的听力测试中,该方法超越了现有的客观音频质量度量标准,在检测编码伪影方面表现优异,并对源分离等未见失真具有良好的泛化能力。
音频质量评估是音频处理领域的核心问题。传统的主观听力测试虽然准确,但耗时昂贵且不实用,因此需要客观的计算方法来估计感知音频质量。
- 数据稀缺性:与语音质量评估相比,音乐内容在不同失真类型下的主观评分更加稀缺且很少公开可用
- 信号复杂性:相比语音,音乐信号具有更大的变异性,包括更丰富的谐波结构、来自乐器的尖锐瞬变以及艺术表达引入的意图性失真
- 失真匹配性:感知编码伪影等与信号内容匹配或适应的失真特别难以分离
- 现有音乐基础模型(如MERT、CLAP)主要针对音乐信息检索和流派分类等下游任务优化
- 哪种嵌入最能反映音乐质量的感知方面尚不清楚
- 现有方法如Fréchet Audio Distance (FAD)对测试样本大小和参考信号选择高度敏感,可靠性有限
- 首创性方法:首次在通用音频质量领域使用弱监督标签和度量学习,通过LoRA微调音乐基础模型
- 创新训练策略:提出基于Rank-n-Contrast (RnC)损失的弱监督训练目标,结合ViSQOL伪标签和编码比特率标签
- 优异性能:在多个听力测试中达到最高的整体相关性(PCC: 0.918, SRCC: 0.889)
- 强泛化能力:在域内编码伪影检测和域外源分离失真上都表现出色
- 双参考模式:支持全参考和非匹配参考两种评估模式
构建嵌入函数 f:X→Z,将音频样本 xi∈RD 映射到质量嵌入空间 Z,使得感知质量相似的音频在嵌入空间中距离较近,质量差异大的音频距离较远。
- MERT v1:95M参数的音乐基础模型,使用EnCodec作为预训练期间的标记化方法
- 架构:12个transformer层,每个时间帧产生13×768维特征矩阵
- 特征处理:时间维度平均后展平为9,984维向量,输入后续投影头
- ReLU激活函数 + 256维线性层输出
- 用于将MERT特征映射到质量感知嵌入空间
- ViSQOL标签:使用ViSQOL v3计算每个降质信号相对于清洁参考的MOS分数(1-5分)
- 比特率标签:编码比特率作为音频质量的粗略指示,清洁信号赋值 b=∞
单样本RnC损失定义为:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
其中 Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} 表示相对于锚点 xi 比 xj 排名更高的样本集合。
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- 在注意力模块的查询和值投影层插入LoRA矩阵
- 秩为8,缩放因子为16
- 仅需2.93%的模型参数可训练,有效缓解小数据集上的过拟合
- 学习率:1×10⁻⁴,10个epoch无改善后按0.99因子指数衰减
- 权重衰减:0.01,dropout率:0.05
- 批大小:32
- 规模:约460小时CD质量音乐(44.1kHz)
- 编码格式:Opus、mp3、AAC
- 比特率:16, 32, 48, 64, 80, 96, 128 kbps
- 数据分割:每种编解码器122小时编码音频,45小时清洁信号
- 验证集:50小时音乐(8小时清洁+每种编解码器14小时编码)
包含9个听力测试,分为两类:
- 音频编码:IgorC96Multiformat、ODAQ、MPEG USAC验证测试(t1-t3)
- 源分离:SEBASS数据集的4个子集(PEASS BAQ、SAOC DB、SASSEC、SiSEC08)
- PCC:皮尔逊线性相关系数
- SRCC:斯皮尔曼秩相关系数
- 传统方法:ViSQOL v3、PEAQ ODG、2f-model、HAAQI
- 基础模型方法:微调的wav2vec 2.0、FAD (MERT-v1-95M)
- 最高相关性:PCC = 0.918, SRCC = 0.889
- 一致性表现:在大多数测试集上都表现出高相关性和一致性能
- 质量范围:在高质量范围表现优异,低质量范围由于训练数据稀缺略有不足
- IgorC96Multiformat:PCC = 0.954, SRCC = 0.848
- ODAQ整体:PCC = 0.916, SRCC = 0.868
- USAC测试:在t1-t3测试中均达到0.9以上的PCC
- 源分离:整体PCC = 0.919, SRCC = 0.787
- LoRA vs 全微调:LoRA在小数据集上表现更好,随数据增长差距缩小
- LoRA vs 冻结投影头:LoRA显著优于仅训练投影头的方法
- MERT vs wav2vec 2.0:MERT在音乐和语音上表现更均衡,wav2vec 2.0偏向语音
- 加入比特率排序的RnC损失项带来1-3%的性能提升
- 三次多项式和MLP映射显著提升PCC,SRCC基本不变
- 表明嵌入距离与主观分数非线性相关
- 域内泛化:在编码伪影检测上表现优异
- 域外泛化:在源分离等未见失真类型上仍保持良好性能
- 跨内容泛化:在音乐、语音、混合内容上表现一致
- 代表性方法使用三元组损失进行对比学习
- 利用wav2vec 2.0等语音基础模型编码信号
- 通过嵌入间欧几里得距离反映主观降质强度
- PEAQ:提取中级感知特征(MOVs),通过神经网络组合产生ODG
- 2f-model:利用PEAQ Basic的两个MOVs,与主观分数相关性印象深刻
- HAAQI:原为助听器应用设计,绕过听力损失模拟可用于正常听力
- FAD:用于评估生成音乐模型嵌入,但对样本大小和参考信号选择敏感
- MERT/CLAP:主要针对音乐信息检索任务优化
- DeePAQ成功将语音质量评估的度量学习范式扩展到通用音频领域
- LoRA微调策略在小数据集上有效防止过拟合
- 多源代理标签(ViSQOL + 比特率)提升模型鲁棒性
- 强泛化能力使其适用于多种失真类型
- 低质量范围:由于训练数据稀缺,在低质量范围表现不如2f-model
- 源分离挑战:PEASS测试集对所有客观度量都具有挑战性
- 训练数据限制:主要针对编码伪影,对其他失真类型覆盖有限
- 扩展训练数据:包含更广泛的失真类型以提升泛化能力
- 改进非匹配参考模型:通过更多样化的训练提升性能
- 端到端优化:探索直接优化主观分数预测的方法
- 创新性强:首次将LoRA和弱监督学习应用于音频质量评估
- 方法合理:RnC损失设计巧妙,有效利用多源代理标签
- 实验充分:在9个不同听力测试上进行全面评估
- 泛化能力强:在域外任务上表现出色,证明方法鲁棒性
- 理论分析不足:缺乏对为什么MERT适合音频质量评估的深入理论分析
- 计算复杂度:未讨论相比传统方法的计算开销
- 失真类型局限:主要关注编码伪影,其他失真类型覆盖不够全面
- 学术价值:为音频质量评估领域提供了新的技术路径
- 实用价值:可应用于音频编解码器开发和质量监控
- 可复现性:方法描述详细,实验设置清晰
- 音频编解码器评估:特别适合检测编码伪影
- 音频处理系统质量监控:可用于实时质量评估
- 多媒体内容质量控制:适用于音乐和语音内容的质量评估
论文引用了26篇重要参考文献,涵盖了语音质量评估、音乐基础模型、度量学习等相关领域的核心工作,为研究提供了坚实的理论基础。
总体评价:这是一篇高质量的音频处理领域论文,在方法创新、实验设计和结果分析方面都表现出色。DeePAQ为音频质量评估领域带来了新的技术突破,具有重要的学术价值和实用意义。