2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: Una Metrica di Qualità Audio Percettiva Basata su Modelli Fondazionali e Apprendimento Debolmente Supervisionato

Informazioni Fondamentali

ID Articolo: 2510.12326
Titolo: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
Autori: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
Istituzioni: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
Classificazione: eess.AS (Elaborazione Audio e Voce)
Data di Pubblicazione: 14 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.12326

Riassunto

Il presente articolo propone DeePAQ, un metodo di valutazione della qualità audio percettiva basato su apprendimento profondo, per la valutazione della qualità audio generale. Il metodo combina l'apprendimento metrico e il modello fondazionale musicale MERT, costruendo uno spazio di embedding in grado di catturare l'intensità della distorsione audio generale attraverso etichette proxy. A conoscenza degli autori, DeePAQ è il primo metodo nel campo della qualità audio generale che sfrutta etichette debolmente supervisionate e apprendimento metrico, affinando il modello fondazionale musicale mediante adattamento a basso rango (LoRA). In test di ascolto che coprono codifica audio e separazione sorgente, il metodo supera gli standard di qualità audio oggettivi esistenti, mostrando prestazioni eccellenti nel rilevamento di artefatti di codifica e buona capacità di generalizzazione a distorsioni non osservate come la separazione sorgente.

Contesto di Ricerca e Motivazione

Definizione del Problema

La valutazione della qualità audio è un problema centrale nell'elaborazione audio. Sebbene i test di ascolto soggettivi tradizionali siano accurati, risultano dispendiosi in termini di tempo e denaro, pertanto sono necessari metodi computazionali oggettivi per stimare la qualità audio percettiva.

Sfide di Ricerca

Scarsità di Dati: Rispetto alla valutazione della qualità vocale, i punteggi soggettivi per contenuti musicali in diverse tipologie di distorsione sono più scarsi e raramente disponibili pubblicamente
Complessità del Segnale: Rispetto alla voce, i segnali musicali presentano maggiore variabilità, inclusa una struttura armonica più ricca, transitori acuti provenienti da strumenti musicali e distorsioni intenzionali introdotte dall'espressione artistica
Corrispondenza della Distorsione: Le distorsioni che si adattano o corrispondono al contenuto del segnale, come gli artefatti di codifica percettiva, sono particolarmente difficili da separare

Limitazioni dei Metodi Esistenti

I modelli fondazionali musicali esistenti (come MERT, CLAP) sono principalmente ottimizzati per compiti a valle come il recupero di informazioni musicali e la classificazione di genere
Non è chiaro quale embedding rifletta meglio gli aspetti percettivi della qualità musicale
I metodi esistenti come Fréchet Audio Distance (FAD) sono altamente sensibili alla dimensione del campione di test e alla scelta del segnale di riferimento, con affidabilità limitata

Contributi Principali

Metodo Innovativo: Primo utilizzo di etichette debolmente supervisionate e apprendimento metrico nel campo della qualità audio generale, affinando il modello fondazionale musicale mediante LoRA
Strategia di Addestramento Innovativa: Propone un obiettivo di addestramento debolmente supervisionato basato sulla perdita Rank-n-Contrast (RnC), combinando etichette pseudo ViSQOL e etichette di bitrate di codifica
Prestazioni Eccellenti: Raggiunge la più alta correlazione complessiva in molteplici test di ascolto (PCC: 0,918, SRCC: 0,889)
Forte Capacità di Generalizzazione: Mostra prestazioni eccellenti sia nel rilevamento di artefatti di codifica in-domain che su distorsioni di separazione sorgente out-of-domain
Modalità Doppio Riferimento: Supporta sia la valutazione a riferimento completo che a riferimento non corrispondente

Dettagli del Metodo

Definizione del Compito

Costruire una funzione di embedding $f: X \rightarrow Z$ che mappi campioni audio $x_i \in \mathbb{R}^D$ nello spazio di embedding di qualità $Z$ , in modo che gli audio con qualità percettiva simile siano più vicini nello spazio di embedding, mentre gli audio con qualità molto diversa siano più distanti.

Architettura del Modello

Modello Fondazionale

MERT v1: Modello fondazionale musicale con 95M parametri, che utilizza EnCodec come metodo di tokenizzazione durante il preaddestramento
Architettura: 12 strati transformer, producendo una matrice di caratteristiche di dimensione 13×768 per ogni frame temporale
Elaborazione delle Caratteristiche: Dopo la media sulla dimensione temporale e l'appiattimento, si ottiene un vettore di 9.984 dimensioni, inserito nella testata di proiezione successiva

Progettazione della Testata di Proiezione

Funzione di attivazione ReLU + strato lineare di 256 dimensioni in uscita
Utilizzato per mappare le caratteristiche MERT nello spazio di embedding consapevole della qualità

Obiettivo di Addestramento Debolmente Supervisionato

Costruzione di Etichette Proxy

Etichette ViSQOL: Utilizza ViSQOL v3 per calcolare il punteggio MOS (1-5) di ogni segnale degradato rispetto al riferimento pulito
Etichette di Bitrate: Il bitrate di codifica funge da indicatore approssimativo della qualità audio, con segnali puliti assegnati a $b = \infty$

Perdita Rank-n-Contrast

La perdita RnC per singolo campione è definita come:

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$

dove $S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\}$ rappresenta l'insieme di campioni classificati più in alto rispetto a $x_j$ relativamente all'ancoraggio $x_i$ .

Funzione di Perdita Complessiva

$L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]$

Strategia di Addestramento

Affinamento LoRA

Inserimento di matrici LoRA nei strati di proiezione di query e value dei moduli di attenzione
Rango pari a 8, fattore di scala pari a 16
Solo il 2,93% dei parametri del modello è addestrabile, mitigando efficacemente l'overfitting su dataset di piccole dimensioni

Configurazione di Addestramento

Tasso di apprendimento: 1×10⁻⁴, decadimento esponenziale con fattore 0,99 dopo 10 epoch senza miglioramenti
Decadimento dei pesi: 0,01, tasso di dropout: 0,05
Dimensione del batch: 32

Configurazione Sperimentale

Dataset

Dati di Addestramento

Scala: Circa 460 ore di musica di qualità CD (44,1 kHz)
Formati di Codifica: Opus, mp3, AAC
Bitrate: 16, 32, 48, 64, 80, 96, 128 kbps
Divisione dei Dati: 122 ore di audio codificato per ogni codec, 45 ore di segnale pulito
Set di Validazione: 50 ore di musica (8 ore pulite + 14 ore di audio codificato per ogni codec)

Set di Test

Contiene 9 test di ascolto, divisi in due categorie:

Codifica Audio: IgorC96Multiformat, ODAQ, test di validazione MPEG USAC (t1-t3)
Separazione Sorgente: 4 sottoinsiemi del dataset SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Metriche di Valutazione

PCC: Coefficiente di Correlazione Lineare di Pearson
SRCC: Coefficiente di Correlazione dei Ranghi di Spearman

Metodi di Confronto

Metodi Tradizionali: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
Metodi Basati su Modelli Fondazionali: wav2vec 2.0 affinato, FAD (MERT-v1-95M)

Risultati Sperimentali

Risultati Principali

Prestazioni Complessive

Correlazione Massima: PCC = 0,918, SRCC = 0,889
Prestazioni Coerenti: Mostra alta correlazione e prestazioni coerenti sulla maggior parte dei set di test
Intervallo di Qualità: Prestazioni eccellenti nell'intervallo di alta qualità, con prestazioni leggermente inferiori nell'intervallo di bassa qualità a causa della scarsità di dati di addestramento

Prestazioni su Test Specifici

IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
ODAQ Complessivo: PCC = 0,916, SRCC = 0,868
Test USAC: PCC superiore a 0,9 nei test t1-t3
Separazione Sorgente: PCC complessivo = 0,919, SRCC = 0,787

Esperimenti di Ablazione

Confronto delle Strategie di Addestramento

LoRA vs Affinamento Completo: LoRA mostra prestazioni migliori su dataset di piccole dimensioni, con il divario che si riduce con l'aumento dei dati
LoRA vs Testata di Proiezione Congelata: LoRA è significativamente superiore al metodo che addestra solo la testata di proiezione

Confronto dei Modelli Fondazionali

MERT vs wav2vec 2.0: MERT mostra prestazioni più bilanciate su musica e voce, mentre wav2vec 2.0 è orientato verso la voce

Analisi della Funzione di Perdita

L'aggiunta del termine di perdita RnC con ordinamento di bitrate porta a un miglioramento delle prestazioni dell'1-3%

Funzione di Mappatura

La mappatura polinomiale cubica e MLP migliora significativamente il PCC, mentre l'SRCC rimane sostanzialmente invariato
Ciò suggerisce una relazione non lineare tra la distanza di embedding e il punteggio soggettivo

Analisi della Capacità di Generalizzazione

Generalizzazione In-Domain: Prestazioni eccellenti nel rilevamento di artefatti di codifica
Generalizzazione Out-of-Domain: Mantiene buone prestazioni su tipi di distorsione non osservati come la separazione sorgente
Generalizzazione Cross-Content: Prestazioni coerenti su contenuti musicali, vocali e misti

Lavori Correlati

Valutazione della Qualità Vocale

Metodi rappresentativi che utilizzano perdita triplet per l'apprendimento contrastivo
Sfruttamento di modelli fondazionali vocali come wav2vec 2.0 per codificare i segnali
Riflessione dell'intensità di degradazione soggettiva attraverso la distanza euclidea tra embedding

Metriche di Qualità Audio Tradizionali

PEAQ: Estrae caratteristiche percettive di livello intermedio (MOVs), combinate tramite rete neurale per produrre ODG
2f-model: Utilizza due MOVs di PEAQ Basic, con correlazione impressionante con i punteggi soggettivi
HAAQI: Originariamente progettato per applicazioni di apparecchi acustici, aggirando la simulazione della perdita uditiva utilizzabile per l'udito normale

Applicazioni di Modelli Fondazionali Musicali

FAD: Utilizzato per valutare embedding di modelli di generazione musicale, ma sensibile alla dimensione del campione e alla scelta del segnale di riferimento
MERT/CLAP: Principalmente ottimizzati per compiti di recupero di informazioni musicali

Conclusioni e Discussione

Conclusioni Principali

DeePAQ estende con successo il paradigma dell'apprendimento metrico dalla valutazione della qualità vocale al campo audio generale
La strategia di affinamento LoRA previene efficacemente l'overfitting su dataset di piccole dimensioni
Le etichette proxy multi-sorgente (ViSQOL + bitrate) migliorano la robustezza del modello
La forte capacità di generalizzazione lo rende adatto a molteplici tipi di distorsione

Limitazioni

Intervallo di Bassa Qualità: A causa della scarsità di dati di addestramento, le prestazioni nell'intervallo di bassa qualità non sono superiori a quelle del 2f-model
Sfide di Separazione Sorgente: Il set di test PEASS presenta sfide per tutte le metriche oggettive
Limitazioni dei Dati di Addestramento: Principalmente focalizzato su artefatti di codifica, con copertura limitata di altri tipi di distorsione

Direzioni Future

Espansione dei Dati di Addestramento: Inclusione di una più ampia gamma di tipi di distorsione per migliorare la capacità di generalizzazione
Miglioramento del Modello di Riferimento Non Corrispondente: Miglioramento delle prestazioni attraverso un addestramento più diversificato
Ottimizzazione End-to-End: Esplorazione di metodi che ottimizzano direttamente la previsione dei punteggi soggettivi

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo utilizzo di LoRA e apprendimento debolmente supervisionato nella valutazione della qualità audio
Metodo Razionale: Progettazione ingegnosa della perdita RnC, sfruttamento efficace di etichette proxy multi-sorgente
Sperimentazione Completa: Valutazione completa su 9 diversi test di ascolto
Forte Capacità di Generalizzazione: Prestazioni eccellenti su compiti out-of-domain, dimostrando la robustezza del metodo

Insufficienze

Analisi Teorica Limitata: Manca un'analisi teorica approfondita sul perché MERT sia adatto alla valutazione della qualità audio
Complessità Computazionale: Non viene discusso il carico computazionale rispetto ai metodi tradizionali
Limitazioni dei Tipi di Distorsione: Principalmente focalizzato su artefatti di codifica, con copertura insufficiente di altri tipi di distorsione

Impatto

Valore Accademico: Fornisce un nuovo percorso tecnologico per il campo della valutazione della qualità audio
Valore Pratico: Applicabile allo sviluppo di codec audio e al monitoraggio della qualità
Riproducibilità: Descrizione dettagliata del metodo e configurazione sperimentale chiara

Scenari Applicabili

Valutazione di Codec Audio: Particolarmente adatto al rilevamento di artefatti di codifica
Monitoraggio della Qualità dei Sistemi di Elaborazione Audio: Utilizzabile per la valutazione della qualità in tempo reale
Controllo della Qualità dei Contenuti Multimediali: Adatto alla valutazione della qualità di contenuti musicali e vocali

Riferimenti Bibliografici

L'articolo cita 26 importanti riferimenti bibliografici, coprendo i lavori fondamentali nei campi della valutazione della qualità vocale, modelli fondazionali musicali e apprendimento metrico, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'elaborazione audio, che si distingue per l'innovazione metodologica, il design sperimentale e l'analisi dei risultati. DeePAQ rappresenta un importante progresso tecnologico nel campo della valutazione della qualità audio, con significativo valore accademico e pratico.