This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- 논문 ID: 2510.12326
- 제목: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- 저자: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- 기관: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
- 분류: eess.AS (음성 및 음향 신호 처리)
- 발표 시간: 2025년 10월 14일
- 논문 링크: https://arxiv.org/abs/2510.12326
본 논문은 범용 음향 품질 평가를 위한 심층 학습 기반 지각 음향 품질 메트릭 DeePAQ를 제안한다. 본 방법은 메트릭 학습과 음악 기초 모델 MERT를 결합하여 대리 레이블 지도 하에 범용 음향 왜곡 강도를 포착할 수 있는 임베딩 공간을 구축한다. 저자들의 지식으로는 DeePAQ가 범용 음향 품질 영역에서 약한 감독 레이블과 메트릭 학습을 활용하고 저순위 적응(LoRA)을 통해 음악 기초 모델을 미세 조정하는 첫 번째 방법이다. 음향 부호화 및 음원 분리를 포함하는 청취 테스트에서 본 방법은 기존의 객관적 음향 품질 메트릭을 능가하며, 부호화 아티팩트 검출에서 우수한 성능을 보이고 음원 분리 등 미지의 왜곡에 대해 우수한 일반화 능력을 갖는다.
음향 품질 평가는 음향 처리 분야의 핵심 문제이다. 전통적인 주관적 청취 테스트는 정확하지만 시간이 많이 소요되고 비용이 높으며 실용적이지 않으므로, 지각 음향 품질을 추정하기 위한 객관적 계산 방법이 필요하다.
- 데이터 부족: 음성 품질 평가와 비교하여 다양한 왜곡 유형 하에서 음악 콘텐츠의 주관적 평가 점수는 더욱 부족하고 공개적으로 이용 가능한 경우가 드물다
- 신호 복잡성: 음성과 비교하여 음악 신호는 더 큰 변동성을 가지며, 여기에는 더 풍부한 고조파 구조, 악기로부터의 날카로운 과도 현상, 그리고 예술적 표현으로 인한 의도적 왜곡이 포함된다
- 왜곡 매칭: 지각 부호화 아티팩트 등 신호 콘텐츠와 일치하거나 적응하는 왜곡은 특히 분리하기 어렵다
- 기존 음악 기초 모델(예: MERT, CLAP)은 주로 음악 정보 검색 및 장르 분류 등 하위 작업에 최적화되어 있다
- 어떤 임베딩이 음악 품질의 지각적 측면을 가장 잘 반영하는지는 여전히 불명확하다
- Fréchet Audio Distance(FAD) 같은 기존 방법은 테스트 샘플 크기 및 참조 신호 선택에 매우 민감하여 신뢰성이 제한적이다
- 선도적 방법: 범용 음향 품질 영역에서 약한 감독 레이블과 메트릭 학습을 처음 사용하며, LoRA를 통해 음악 기초 모델을 미세 조정한다
- 혁신적 훈련 전략: Rank-n-Contrast(RnC) 손실 기반 약한 감독 훈련 목표를 제안하며, ViSQOL 대리 레이블과 부호화 비트레이트 레이블을 결합한다
- 우수한 성능: 여러 청취 테스트에서 최고의 전체 상관성 달성(PCC: 0.918, SRCC: 0.889)
- 강력한 일반화 능력: 도메인 내 부호화 아티팩트 검출과 도메인 외 음원 분리 왜곡 모두에서 우수한 성능을 보인다
- 이중 참조 모드: 전체 참조 및 비일치 참조 두 가지 평가 모드를 지원한다
임베딩 함수 f:X→Z를 구축하여 음향 샘플 xi∈RD를 품질 임베딩 공간 Z로 매핑하므로, 지각 품질이 유사한 음향은 임베딩 공간에서 거리가 가깝고, 품질 차이가 큰 음향은 거리가 멀다.
- MERT v1: 95M 매개변수의 음악 기초 모델로, 사전 훈련 중 EnCodec을 토큰화 방법으로 사용한다
- 아키텍처: 12개의 트랜스포머 층, 각 시간 프레임은 13×768 차원 특성 행렬을 생성한다
- 특성 처리: 시간 차원 평균 후 9,984 차원 벡터로 평탄화되어 후속 프로젝션 헤드에 입력된다
- ReLU 활성화 함수 + 256 차원 선형 층 출력
- MERT 특성을 품질 인식 임베딩 공간으로 매핑하는 데 사용된다
- ViSQOL 레이블: ViSQOL v3를 사용하여 각 저하된 신호의 깨끗한 참조에 대한 MOS 점수(1-5점)를 계산한다
- 비트레이트 레이블: 부호화 비트레이트를 음향 품질의 대략적 지표로 사용하며, 깨끗한 신호에는 b=∞를 할당한다
단일 샘플 RnC 손실은 다음과 같이 정의된다:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
여기서 Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣}는 앵커 xi에 대해 xj보다 순위가 높은 샘플 집합을 나타낸다.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- 주의 모듈의 쿼리 및 값 프로젝션 층에 LoRA 행렬 삽입
- 순위 8, 스케일 인수 16
- 모델 매개변수의 2.93%만 훈련 가능하여 소규모 데이터셋에서 과적합을 효과적으로 완화한다
- 학습률: 1×10⁻⁴, 10 에포크 개선 없음 후 0.99 인수로 지수 감소
- 가중치 감소: 0.01, 드롭아웃 비율: 0.05
- 배치 크기: 32
- 규모: 약 460시간 CD 품질 음악(44.1kHz)
- 부호화 형식: Opus, mp3, AAC
- 비트레이트: 16, 32, 48, 64, 80, 96, 128 kbps
- 데이터 분할: 각 코덱당 122시간 부호화 음향, 45시간 깨끗한 신호
- 검증 집합: 50시간 음악(8시간 깨끗한 신호 + 각 코덱당 14시간 부호화)
9개의 청취 테스트를 포함하며, 두 가지 범주로 나뉜다:
- 음향 부호화: IgorC96Multiformat, ODAQ, MPEG USAC 검증 테스트(t1-t3)
- 음원 분리: SEBASS 데이터셋의 4개 부분집합(PEASS BAQ, SAOC DB, SASSEC, SiSEC08)
- PCC: 피어슨 선형 상관 계수
- SRCC: 스피어만 순위 상관 계수
- 전통적 방법: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
- 기초 모델 방법: 미세 조정된 wav2vec 2.0, FAD(MERT-v1-95M)
- 최고 상관성: PCC = 0.918, SRCC = 0.889
- 일관된 성능: 대부분의 테스트 집합에서 높은 상관성과 일관된 성능을 보인다
- 품질 범위: 고품질 범위에서 우수한 성능을 보이며, 저품질 범위에서는 훈련 데이터 부족으로 인해 약간의 부족함을 보인다
- IgorC96Multiformat: PCC = 0.954, SRCC = 0.848
- ODAQ 전체: PCC = 0.916, SRCC = 0.868
- USAC 테스트: t1-t3 테스트 모두에서 0.9 이상의 PCC 달성
- 음원 분리: 전체 PCC = 0.919, SRCC = 0.787
- LoRA vs 전체 미세 조정: LoRA는 소규모 데이터셋에서 더 나은 성능을 보이며, 데이터 증가에 따라 차이가 감소한다
- LoRA vs 동결된 프로젝션 헤드: LoRA는 프로젝션 헤드만 훈련하는 방법보다 현저히 우수하다
- MERT vs wav2vec 2.0: MERT는 음악과 음성에서 더 균형 잡힌 성능을 보이며, wav2vec 2.0은 음성에 편향되어 있다
- 비트레이트 순서 RnC 손실 항 추가로 1-3%의 성능 향상을 가져온다
- 3차 다항식 및 MLP 매핑은 PCC를 현저히 향상시키며, SRCC는 기본적으로 변하지 않는다
- 임베딩 거리와 주관적 점수 간의 비선형 관계를 나타낸다
- 도메인 내 일반화: 부호화 아티팩트 검출에서 우수한 성능을 보인다
- 도메인 외 일반화: 음원 분리 등 미지의 왜곡 유형에서도 양호한 성능을 유지한다
- 교차 콘텐츠 일반화: 음악, 음성, 혼합 콘텐츠에서 일관된 성능을 보인다
- 대표적 방법은 삼중항 손실을 사용한 대조 학습을 활용한다
- wav2vec 2.0 등 음성 기초 모델을 활용하여 신호를 인코딩한다
- 임베딩 간 유클리드 거리를 통해 주관적 저하 강도를 반영한다
- PEAQ: 중간 수준 지각 특성(MOVs)을 추출하고 신경망을 통해 조합하여 ODG를 생성한다
- 2f-model: PEAQ Basic의 두 MOVs를 활용하며 주관적 점수와의 상관성이 인상적이다
- HAAQI: 원래 보청기 응용을 위해 설계되었으며, 청력 손실 시뮬레이션을 우회하여 정상 청력에 사용할 수 있다
- FAD: 생성 음악 모델 임베딩 평가에 사용되지만 샘플 크기 및 참조 신호 선택에 민감하다
- MERT/CLAP: 주로 음악 정보 검색 작업에 최적화되어 있다
- DeePAQ는 음성 품질 평가의 메트릭 학습 패러다임을 범용 음향 영역으로 성공적으로 확장한다
- LoRA 미세 조정 전략은 소규모 데이터셋에서 과적합을 효과적으로 방지한다
- 다중 소스 대리 레이블(ViSQOL + 비트레이트)은 모델 견고성을 향상시킨다
- 강력한 일반화 능력으로 인해 다양한 왜곡 유형에 적용 가능하다
- 저품질 범위: 훈련 데이터 부족으로 인해 저품질 범위에서 2f-model만큼 우수하지 않다
- 음원 분리 과제: PEASS 테스트 집합은 모든 객관적 메트릭에 대해 도전적이다
- 훈련 데이터 제한: 주로 부호화 아티팩트에 초점을 맞추고 있으며 다른 왜곡 유형의 범위가 제한적이다
- 훈련 데이터 확장: 더 광범위한 왜곡 유형을 포함하여 일반화 능력을 향상시킨다
- 비일치 참조 모델 개선: 더 다양한 훈련을 통해 성능을 향상시킨다
- 엔드-투-엔드 최적화: 주관적 점수 예측을 직접 최적화하는 방법을 탐색한다
- 강한 혁신성: LoRA와 약한 감독 학습을 음향 품질 평가에 처음 적용한다
- 합리적 방법: RnC 손실 설계가 정교하며 다중 소스 대리 레이블을 효과적으로 활용한다
- 충분한 실험: 9개의 서로 다른 청취 테스트에서 포괄적 평가를 수행한다
- 강력한 일반화 능력: 도메인 외 작업에서 우수한 성능을 보이며 방법의 견고성을 입증한다
- 이론적 분석 부족: MERT가 음향 품질 평가에 적합한 이유에 대한 심층적 이론적 분석이 부족하다
- 계산 복잡도: 전통적 방법과 비교한 계산 오버헤드에 대한 논의가 없다
- 왜곡 유형 제한: 주로 부호화 아티팩트에 초점을 맞추고 있으며 다른 왜곡 유형의 범위가 충분하지 않다
- 학술적 가치: 음향 품질 평가 분야에 새로운 기술 경로를 제공한다
- 실용적 가치: 음향 코덱 개발 및 품질 모니터링에 적용 가능하다
- 재현성: 방법 설명이 상세하고 실험 설정이 명확하다
- 음향 코덱 평가: 특히 부호화 아티팩트 검출에 적합하다
- 음향 처리 시스템 품질 모니터링: 실시간 품질 평가에 사용 가능하다
- 멀티미디어 콘텐츠 품질 제어: 음악 및 음성 콘텐츠의 품질 평가에 적용 가능하다
본 논문은 음성 품질 평가, 음악 기초 모델, 메트릭 학습 등 관련 분야의 핵심 연구를 포함하는 26개의 중요한 참고 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 음향 처리 분야의 고품질 논문으로, 방법 혁신, 실험 설계 및 결과 분석 모든 측면에서 우수한 성능을 보인다. DeePAQ는 음향 품질 평가 분야에 새로운 기술적 돌파구를 가져오며 중요한 학술적 가치와 실용적 의미를 갖는다.