2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: 기초 모델과 약한 감독 학습 기반 지각 음향 품질 메트릭

기본 정보

논문 ID: 2510.12326
제목: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
저자: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
기관: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
분류: eess.AS (음성 및 음향 신호 처리)
발표 시간: 2025년 10월 14일
논문 링크: https://arxiv.org/abs/2510.12326

초록

본 논문은 범용 음향 품질 평가를 위한 심층 학습 기반 지각 음향 품질 메트릭 DeePAQ를 제안한다. 본 방법은 메트릭 학습과 음악 기초 모델 MERT를 결합하여 대리 레이블 지도 하에 범용 음향 왜곡 강도를 포착할 수 있는 임베딩 공간을 구축한다. 저자들의 지식으로는 DeePAQ가 범용 음향 품질 영역에서 약한 감독 레이블과 메트릭 학습을 활용하고 저순위 적응(LoRA)을 통해 음악 기초 모델을 미세 조정하는 첫 번째 방법이다. 음향 부호화 및 음원 분리를 포함하는 청취 테스트에서 본 방법은 기존의 객관적 음향 품질 메트릭을 능가하며, 부호화 아티팩트 검출에서 우수한 성능을 보이고 음원 분리 등 미지의 왜곡에 대해 우수한 일반화 능력을 갖는다.

연구 배경 및 동기

문제 정의

음향 품질 평가는 음향 처리 분야의 핵심 문제이다. 전통적인 주관적 청취 테스트는 정확하지만 시간이 많이 소요되고 비용이 높으며 실용적이지 않으므로, 지각 음향 품질을 추정하기 위한 객관적 계산 방법이 필요하다.

연구 과제

데이터 부족: 음성 품질 평가와 비교하여 다양한 왜곡 유형 하에서 음악 콘텐츠의 주관적 평가 점수는 더욱 부족하고 공개적으로 이용 가능한 경우가 드물다
신호 복잡성: 음성과 비교하여 음악 신호는 더 큰 변동성을 가지며, 여기에는 더 풍부한 고조파 구조, 악기로부터의 날카로운 과도 현상, 그리고 예술적 표현으로 인한 의도적 왜곡이 포함된다
왜곡 매칭: 지각 부호화 아티팩트 등 신호 콘텐츠와 일치하거나 적응하는 왜곡은 특히 분리하기 어렵다

기존 방법의 한계

기존 음악 기초 모델(예: MERT, CLAP)은 주로 음악 정보 검색 및 장르 분류 등 하위 작업에 최적화되어 있다
어떤 임베딩이 음악 품질의 지각적 측면을 가장 잘 반영하는지는 여전히 불명확하다
Fréchet Audio Distance(FAD) 같은 기존 방법은 테스트 샘플 크기 및 참조 신호 선택에 매우 민감하여 신뢰성이 제한적이다

핵심 기여

선도적 방법: 범용 음향 품질 영역에서 약한 감독 레이블과 메트릭 학습을 처음 사용하며, LoRA를 통해 음악 기초 모델을 미세 조정한다
혁신적 훈련 전략: Rank-n-Contrast(RnC) 손실 기반 약한 감독 훈련 목표를 제안하며, ViSQOL 대리 레이블과 부호화 비트레이트 레이블을 결합한다
우수한 성능: 여러 청취 테스트에서 최고의 전체 상관성 달성(PCC: 0.918, SRCC: 0.889)
강력한 일반화 능력: 도메인 내 부호화 아티팩트 검출과 도메인 외 음원 분리 왜곡 모두에서 우수한 성능을 보인다
이중 참조 모드: 전체 참조 및 비일치 참조 두 가지 평가 모드를 지원한다

방법 상세 설명

작업 정의

임베딩 함수 $f: X \rightarrow Z$ 를 구축하여 음향 샘플 $x_i \in \mathbb{R}^D$ 를 품질 임베딩 공간 $Z$ 로 매핑하므로, 지각 품질이 유사한 음향은 임베딩 공간에서 거리가 가깝고, 품질 차이가 큰 음향은 거리가 멀다.

모델 아키텍처

기초 모델

MERT v1: 95M 매개변수의 음악 기초 모델로, 사전 훈련 중 EnCodec을 토큰화 방법으로 사용한다
아키텍처: 12개의 트랜스포머 층, 각 시간 프레임은 13×768 차원 특성 행렬을 생성한다
특성 처리: 시간 차원 평균 후 9,984 차원 벡터로 평탄화되어 후속 프로젝션 헤드에 입력된다

프로젝션 헤드 설계

ReLU 활성화 함수 + 256 차원 선형 층 출력
MERT 특성을 품질 인식 임베딩 공간으로 매핑하는 데 사용된다

약한 감독 훈련 목표

대리 레이블 구축

ViSQOL 레이블: ViSQOL v3를 사용하여 각 저하된 신호의 깨끗한 참조에 대한 MOS 점수(1-5점)를 계산한다
비트레이트 레이블: 부호화 비트레이트를 음향 품질의 대략적 지표로 사용하며, 깨끗한 신호에는 $b = \infty$ 를 할당한다

Rank-n-Contrast 손실

단일 샘플 RnC 손실은 다음과 같이 정의된다:

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$