This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- ID Articolo: 2510.12326
- Titolo: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- Autori: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- Istituzioni: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
- Classificazione: eess.AS (Elaborazione Audio e Voce)
- Data di Pubblicazione: 14 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.12326
Il presente articolo propone DeePAQ, un metodo di valutazione della qualità audio percettiva basato su apprendimento profondo, per la valutazione della qualità audio generale. Il metodo combina l'apprendimento metrico e il modello fondazionale musicale MERT, costruendo uno spazio di embedding in grado di catturare l'intensità della distorsione audio generale attraverso etichette proxy. A conoscenza degli autori, DeePAQ è il primo metodo nel campo della qualità audio generale che sfrutta etichette debolmente supervisionate e apprendimento metrico, affinando il modello fondazionale musicale mediante adattamento a basso rango (LoRA). In test di ascolto che coprono codifica audio e separazione sorgente, il metodo supera gli standard di qualità audio oggettivi esistenti, mostrando prestazioni eccellenti nel rilevamento di artefatti di codifica e buona capacità di generalizzazione a distorsioni non osservate come la separazione sorgente.
La valutazione della qualità audio è un problema centrale nell'elaborazione audio. Sebbene i test di ascolto soggettivi tradizionali siano accurati, risultano dispendiosi in termini di tempo e denaro, pertanto sono necessari metodi computazionali oggettivi per stimare la qualità audio percettiva.
- Scarsità di Dati: Rispetto alla valutazione della qualità vocale, i punteggi soggettivi per contenuti musicali in diverse tipologie di distorsione sono più scarsi e raramente disponibili pubblicamente
- Complessità del Segnale: Rispetto alla voce, i segnali musicali presentano maggiore variabilità, inclusa una struttura armonica più ricca, transitori acuti provenienti da strumenti musicali e distorsioni intenzionali introdotte dall'espressione artistica
- Corrispondenza della Distorsione: Le distorsioni che si adattano o corrispondono al contenuto del segnale, come gli artefatti di codifica percettiva, sono particolarmente difficili da separare
- I modelli fondazionali musicali esistenti (come MERT, CLAP) sono principalmente ottimizzati per compiti a valle come il recupero di informazioni musicali e la classificazione di genere
- Non è chiaro quale embedding rifletta meglio gli aspetti percettivi della qualità musicale
- I metodi esistenti come Fréchet Audio Distance (FAD) sono altamente sensibili alla dimensione del campione di test e alla scelta del segnale di riferimento, con affidabilità limitata
- Metodo Innovativo: Primo utilizzo di etichette debolmente supervisionate e apprendimento metrico nel campo della qualità audio generale, affinando il modello fondazionale musicale mediante LoRA
- Strategia di Addestramento Innovativa: Propone un obiettivo di addestramento debolmente supervisionato basato sulla perdita Rank-n-Contrast (RnC), combinando etichette pseudo ViSQOL e etichette di bitrate di codifica
- Prestazioni Eccellenti: Raggiunge la più alta correlazione complessiva in molteplici test di ascolto (PCC: 0,918, SRCC: 0,889)
- Forte Capacità di Generalizzazione: Mostra prestazioni eccellenti sia nel rilevamento di artefatti di codifica in-domain che su distorsioni di separazione sorgente out-of-domain
- Modalità Doppio Riferimento: Supporta sia la valutazione a riferimento completo che a riferimento non corrispondente
Costruire una funzione di embedding f:X→Z che mappi campioni audio xi∈RD nello spazio di embedding di qualità Z, in modo che gli audio con qualità percettiva simile siano più vicini nello spazio di embedding, mentre gli audio con qualità molto diversa siano più distanti.
- MERT v1: Modello fondazionale musicale con 95M parametri, che utilizza EnCodec come metodo di tokenizzazione durante il preaddestramento
- Architettura: 12 strati transformer, producendo una matrice di caratteristiche di dimensione 13×768 per ogni frame temporale
- Elaborazione delle Caratteristiche: Dopo la media sulla dimensione temporale e l'appiattimento, si ottiene un vettore di 9.984 dimensioni, inserito nella testata di proiezione successiva
- Funzione di attivazione ReLU + strato lineare di 256 dimensioni in uscita
- Utilizzato per mappare le caratteristiche MERT nello spazio di embedding consapevole della qualità
- Etichette ViSQOL: Utilizza ViSQOL v3 per calcolare il punteggio MOS (1-5) di ogni segnale degradato rispetto al riferimento pulito
- Etichette di Bitrate: Il bitrate di codifica funge da indicatore approssimativo della qualità audio, con segnali puliti assegnati a b=∞
La perdita RnC per singolo campione è definita come:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
dove Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} rappresenta l'insieme di campioni classificati più in alto rispetto a xj relativamente all'ancoraggio xi.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- Inserimento di matrici LoRA nei strati di proiezione di query e value dei moduli di attenzione
- Rango pari a 8, fattore di scala pari a 16
- Solo il 2,93% dei parametri del modello è addestrabile, mitigando efficacemente l'overfitting su dataset di piccole dimensioni
- Tasso di apprendimento: 1×10⁻⁴, decadimento esponenziale con fattore 0,99 dopo 10 epoch senza miglioramenti
- Decadimento dei pesi: 0,01, tasso di dropout: 0,05
- Dimensione del batch: 32
- Scala: Circa 460 ore di musica di qualità CD (44,1 kHz)
- Formati di Codifica: Opus, mp3, AAC
- Bitrate: 16, 32, 48, 64, 80, 96, 128 kbps
- Divisione dei Dati: 122 ore di audio codificato per ogni codec, 45 ore di segnale pulito
- Set di Validazione: 50 ore di musica (8 ore pulite + 14 ore di audio codificato per ogni codec)
Contiene 9 test di ascolto, divisi in due categorie:
- Codifica Audio: IgorC96Multiformat, ODAQ, test di validazione MPEG USAC (t1-t3)
- Separazione Sorgente: 4 sottoinsiemi del dataset SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)
- PCC: Coefficiente di Correlazione Lineare di Pearson
- SRCC: Coefficiente di Correlazione dei Ranghi di Spearman
- Metodi Tradizionali: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
- Metodi Basati su Modelli Fondazionali: wav2vec 2.0 affinato, FAD (MERT-v1-95M)
- Correlazione Massima: PCC = 0,918, SRCC = 0,889
- Prestazioni Coerenti: Mostra alta correlazione e prestazioni coerenti sulla maggior parte dei set di test
- Intervallo di Qualità: Prestazioni eccellenti nell'intervallo di alta qualità, con prestazioni leggermente inferiori nell'intervallo di bassa qualità a causa della scarsità di dati di addestramento
- IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
- ODAQ Complessivo: PCC = 0,916, SRCC = 0,868
- Test USAC: PCC superiore a 0,9 nei test t1-t3
- Separazione Sorgente: PCC complessivo = 0,919, SRCC = 0,787
- LoRA vs Affinamento Completo: LoRA mostra prestazioni migliori su dataset di piccole dimensioni, con il divario che si riduce con l'aumento dei dati
- LoRA vs Testata di Proiezione Congelata: LoRA è significativamente superiore al metodo che addestra solo la testata di proiezione
- MERT vs wav2vec 2.0: MERT mostra prestazioni più bilanciate su musica e voce, mentre wav2vec 2.0 è orientato verso la voce
- L'aggiunta del termine di perdita RnC con ordinamento di bitrate porta a un miglioramento delle prestazioni dell'1-3%
- La mappatura polinomiale cubica e MLP migliora significativamente il PCC, mentre l'SRCC rimane sostanzialmente invariato
- Ciò suggerisce una relazione non lineare tra la distanza di embedding e il punteggio soggettivo
- Generalizzazione In-Domain: Prestazioni eccellenti nel rilevamento di artefatti di codifica
- Generalizzazione Out-of-Domain: Mantiene buone prestazioni su tipi di distorsione non osservati come la separazione sorgente
- Generalizzazione Cross-Content: Prestazioni coerenti su contenuti musicali, vocali e misti
- Metodi rappresentativi che utilizzano perdita triplet per l'apprendimento contrastivo
- Sfruttamento di modelli fondazionali vocali come wav2vec 2.0 per codificare i segnali
- Riflessione dell'intensità di degradazione soggettiva attraverso la distanza euclidea tra embedding
- PEAQ: Estrae caratteristiche percettive di livello intermedio (MOVs), combinate tramite rete neurale per produrre ODG
- 2f-model: Utilizza due MOVs di PEAQ Basic, con correlazione impressionante con i punteggi soggettivi
- HAAQI: Originariamente progettato per applicazioni di apparecchi acustici, aggirando la simulazione della perdita uditiva utilizzabile per l'udito normale
- FAD: Utilizzato per valutare embedding di modelli di generazione musicale, ma sensibile alla dimensione del campione e alla scelta del segnale di riferimento
- MERT/CLAP: Principalmente ottimizzati per compiti di recupero di informazioni musicali
- DeePAQ estende con successo il paradigma dell'apprendimento metrico dalla valutazione della qualità vocale al campo audio generale
- La strategia di affinamento LoRA previene efficacemente l'overfitting su dataset di piccole dimensioni
- Le etichette proxy multi-sorgente (ViSQOL + bitrate) migliorano la robustezza del modello
- La forte capacità di generalizzazione lo rende adatto a molteplici tipi di distorsione
- Intervallo di Bassa Qualità: A causa della scarsità di dati di addestramento, le prestazioni nell'intervallo di bassa qualità non sono superiori a quelle del 2f-model
- Sfide di Separazione Sorgente: Il set di test PEASS presenta sfide per tutte le metriche oggettive
- Limitazioni dei Dati di Addestramento: Principalmente focalizzato su artefatti di codifica, con copertura limitata di altri tipi di distorsione
- Espansione dei Dati di Addestramento: Inclusione di una più ampia gamma di tipi di distorsione per migliorare la capacità di generalizzazione
- Miglioramento del Modello di Riferimento Non Corrispondente: Miglioramento delle prestazioni attraverso un addestramento più diversificato
- Ottimizzazione End-to-End: Esplorazione di metodi che ottimizzano direttamente la previsione dei punteggi soggettivi
- Forte Innovatività: Primo utilizzo di LoRA e apprendimento debolmente supervisionato nella valutazione della qualità audio
- Metodo Razionale: Progettazione ingegnosa della perdita RnC, sfruttamento efficace di etichette proxy multi-sorgente
- Sperimentazione Completa: Valutazione completa su 9 diversi test di ascolto
- Forte Capacità di Generalizzazione: Prestazioni eccellenti su compiti out-of-domain, dimostrando la robustezza del metodo
- Analisi Teorica Limitata: Manca un'analisi teorica approfondita sul perché MERT sia adatto alla valutazione della qualità audio
- Complessità Computazionale: Non viene discusso il carico computazionale rispetto ai metodi tradizionali
- Limitazioni dei Tipi di Distorsione: Principalmente focalizzato su artefatti di codifica, con copertura insufficiente di altri tipi di distorsione
- Valore Accademico: Fornisce un nuovo percorso tecnologico per il campo della valutazione della qualità audio
- Valore Pratico: Applicabile allo sviluppo di codec audio e al monitoraggio della qualità
- Riproducibilità: Descrizione dettagliata del metodo e configurazione sperimentale chiara
- Valutazione di Codec Audio: Particolarmente adatto al rilevamento di artefatti di codifica
- Monitoraggio della Qualità dei Sistemi di Elaborazione Audio: Utilizzabile per la valutazione della qualità in tempo reale
- Controllo della Qualità dei Contenuti Multimediali: Adatto alla valutazione della qualità di contenuti musicali e vocali
L'articolo cita 26 importanti riferimenti bibliografici, coprendo i lavori fondamentali nei campi della valutazione della qualità vocale, modelli fondazionali musicali e apprendimento metrico, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'elaborazione audio, che si distingue per l'innovazione metodologica, il design sperimentale e l'analisi dei risultati. DeePAQ rappresenta un importante progresso tecnologico nel campo della valutazione della qualità audio, con significativo valore accademico e pratico.