2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.
This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
academic

DeePAQ: Una Metrica di Qualità Audio Percettiva Basata su Modelli Fondazionali e Apprendimento Debolmente Supervisionato

Informazioni Fondamentali

  • ID Articolo: 2510.12326
  • Titolo: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
  • Autori: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
  • Istituzioni: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
  • Classificazione: eess.AS (Elaborazione Audio e Voce)
  • Data di Pubblicazione: 14 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.12326

Riassunto

Il presente articolo propone DeePAQ, un metodo di valutazione della qualità audio percettiva basato su apprendimento profondo, per la valutazione della qualità audio generale. Il metodo combina l'apprendimento metrico e il modello fondazionale musicale MERT, costruendo uno spazio di embedding in grado di catturare l'intensità della distorsione audio generale attraverso etichette proxy. A conoscenza degli autori, DeePAQ è il primo metodo nel campo della qualità audio generale che sfrutta etichette debolmente supervisionate e apprendimento metrico, affinando il modello fondazionale musicale mediante adattamento a basso rango (LoRA). In test di ascolto che coprono codifica audio e separazione sorgente, il metodo supera gli standard di qualità audio oggettivi esistenti, mostrando prestazioni eccellenti nel rilevamento di artefatti di codifica e buona capacità di generalizzazione a distorsioni non osservate come la separazione sorgente.

Contesto di Ricerca e Motivazione

Definizione del Problema

La valutazione della qualità audio è un problema centrale nell'elaborazione audio. Sebbene i test di ascolto soggettivi tradizionali siano accurati, risultano dispendiosi in termini di tempo e denaro, pertanto sono necessari metodi computazionali oggettivi per stimare la qualità audio percettiva.

Sfide di Ricerca

  1. Scarsità di Dati: Rispetto alla valutazione della qualità vocale, i punteggi soggettivi per contenuti musicali in diverse tipologie di distorsione sono più scarsi e raramente disponibili pubblicamente
  2. Complessità del Segnale: Rispetto alla voce, i segnali musicali presentano maggiore variabilità, inclusa una struttura armonica più ricca, transitori acuti provenienti da strumenti musicali e distorsioni intenzionali introdotte dall'espressione artistica
  3. Corrispondenza della Distorsione: Le distorsioni che si adattano o corrispondono al contenuto del segnale, come gli artefatti di codifica percettiva, sono particolarmente difficili da separare

Limitazioni dei Metodi Esistenti

  • I modelli fondazionali musicali esistenti (come MERT, CLAP) sono principalmente ottimizzati per compiti a valle come il recupero di informazioni musicali e la classificazione di genere
  • Non è chiaro quale embedding rifletta meglio gli aspetti percettivi della qualità musicale
  • I metodi esistenti come Fréchet Audio Distance (FAD) sono altamente sensibili alla dimensione del campione di test e alla scelta del segnale di riferimento, con affidabilità limitata

Contributi Principali

  1. Metodo Innovativo: Primo utilizzo di etichette debolmente supervisionate e apprendimento metrico nel campo della qualità audio generale, affinando il modello fondazionale musicale mediante LoRA
  2. Strategia di Addestramento Innovativa: Propone un obiettivo di addestramento debolmente supervisionato basato sulla perdita Rank-n-Contrast (RnC), combinando etichette pseudo ViSQOL e etichette di bitrate di codifica
  3. Prestazioni Eccellenti: Raggiunge la più alta correlazione complessiva in molteplici test di ascolto (PCC: 0,918, SRCC: 0,889)
  4. Forte Capacità di Generalizzazione: Mostra prestazioni eccellenti sia nel rilevamento di artefatti di codifica in-domain che su distorsioni di separazione sorgente out-of-domain
  5. Modalità Doppio Riferimento: Supporta sia la valutazione a riferimento completo che a riferimento non corrispondente

Dettagli del Metodo

Definizione del Compito

Costruire una funzione di embedding f:XZf: X \rightarrow Z che mappi campioni audio xiRDx_i \in \mathbb{R}^D nello spazio di embedding di qualità ZZ, in modo che gli audio con qualità percettiva simile siano più vicini nello spazio di embedding, mentre gli audio con qualità molto diversa siano più distanti.

Architettura del Modello

Modello Fondazionale

  • MERT v1: Modello fondazionale musicale con 95M parametri, che utilizza EnCodec come metodo di tokenizzazione durante il preaddestramento
  • Architettura: 12 strati transformer, producendo una matrice di caratteristiche di dimensione 13×768 per ogni frame temporale
  • Elaborazione delle Caratteristiche: Dopo la media sulla dimensione temporale e l'appiattimento, si ottiene un vettore di 9.984 dimensioni, inserito nella testata di proiezione successiva

Progettazione della Testata di Proiezione

  • Funzione di attivazione ReLU + strato lineare di 256 dimensioni in uscita
  • Utilizzato per mappare le caratteristiche MERT nello spazio di embedding consapevole della qualità

Obiettivo di Addestramento Debolmente Supervisionato

Costruzione di Etichette Proxy

  1. Etichette ViSQOL: Utilizza ViSQOL v3 per calcolare il punteggio MOS (1-5) di ogni segnale degradato rispetto al riferimento pulito
  2. Etichette di Bitrate: Il bitrate di codifica funge da indicatore approssimativo della qualità audio, con segnali puliti assegnati a b=b = \infty

Perdita Rank-n-Contrast

La perdita RnC per singolo campione è definita come:

LRNCp(xi)=1N1j=1,jiNlogexp(f(xi)f(xj)2)xkSi,jpexp(f(xi)f(xk)2)L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}

dove Si,jp:={xkXki,yipykpyipyjp}S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\} rappresenta l'insieme di campioni classificati più in alto rispetto a xjx_j relativamente all'ancoraggio xix_i.

Funzione di Perdita Complessiva

LRNC=1N[i=1NLRNCViSQOL(xi)+xiXcodedLRNCp(xi)]L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]

Strategia di Addestramento

Affinamento LoRA

  • Inserimento di matrici LoRA nei strati di proiezione di query e value dei moduli di attenzione
  • Rango pari a 8, fattore di scala pari a 16
  • Solo il 2,93% dei parametri del modello è addestrabile, mitigando efficacemente l'overfitting su dataset di piccole dimensioni

Configurazione di Addestramento

  • Tasso di apprendimento: 1×10⁻⁴, decadimento esponenziale con fattore 0,99 dopo 10 epoch senza miglioramenti
  • Decadimento dei pesi: 0,01, tasso di dropout: 0,05
  • Dimensione del batch: 32

Configurazione Sperimentale

Dataset

Dati di Addestramento

  • Scala: Circa 460 ore di musica di qualità CD (44,1 kHz)
  • Formati di Codifica: Opus, mp3, AAC
  • Bitrate: 16, 32, 48, 64, 80, 96, 128 kbps
  • Divisione dei Dati: 122 ore di audio codificato per ogni codec, 45 ore di segnale pulito
  • Set di Validazione: 50 ore di musica (8 ore pulite + 14 ore di audio codificato per ogni codec)

Set di Test

Contiene 9 test di ascolto, divisi in due categorie:

  1. Codifica Audio: IgorC96Multiformat, ODAQ, test di validazione MPEG USAC (t1-t3)
  2. Separazione Sorgente: 4 sottoinsiemi del dataset SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Metriche di Valutazione

  • PCC: Coefficiente di Correlazione Lineare di Pearson
  • SRCC: Coefficiente di Correlazione dei Ranghi di Spearman

Metodi di Confronto

  • Metodi Tradizionali: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
  • Metodi Basati su Modelli Fondazionali: wav2vec 2.0 affinato, FAD (MERT-v1-95M)

Risultati Sperimentali

Risultati Principali

Prestazioni Complessive

  • Correlazione Massima: PCC = 0,918, SRCC = 0,889
  • Prestazioni Coerenti: Mostra alta correlazione e prestazioni coerenti sulla maggior parte dei set di test
  • Intervallo di Qualità: Prestazioni eccellenti nell'intervallo di alta qualità, con prestazioni leggermente inferiori nell'intervallo di bassa qualità a causa della scarsità di dati di addestramento

Prestazioni su Test Specifici

  1. IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
  2. ODAQ Complessivo: PCC = 0,916, SRCC = 0,868
  3. Test USAC: PCC superiore a 0,9 nei test t1-t3
  4. Separazione Sorgente: PCC complessivo = 0,919, SRCC = 0,787

Esperimenti di Ablazione

Confronto delle Strategie di Addestramento

  • LoRA vs Affinamento Completo: LoRA mostra prestazioni migliori su dataset di piccole dimensioni, con il divario che si riduce con l'aumento dei dati
  • LoRA vs Testata di Proiezione Congelata: LoRA è significativamente superiore al metodo che addestra solo la testata di proiezione

Confronto dei Modelli Fondazionali

  • MERT vs wav2vec 2.0: MERT mostra prestazioni più bilanciate su musica e voce, mentre wav2vec 2.0 è orientato verso la voce

Analisi della Funzione di Perdita

  • L'aggiunta del termine di perdita RnC con ordinamento di bitrate porta a un miglioramento delle prestazioni dell'1-3%

Funzione di Mappatura

  • La mappatura polinomiale cubica e MLP migliora significativamente il PCC, mentre l'SRCC rimane sostanzialmente invariato
  • Ciò suggerisce una relazione non lineare tra la distanza di embedding e il punteggio soggettivo

Analisi della Capacità di Generalizzazione

  • Generalizzazione In-Domain: Prestazioni eccellenti nel rilevamento di artefatti di codifica
  • Generalizzazione Out-of-Domain: Mantiene buone prestazioni su tipi di distorsione non osservati come la separazione sorgente
  • Generalizzazione Cross-Content: Prestazioni coerenti su contenuti musicali, vocali e misti

Lavori Correlati

Valutazione della Qualità Vocale

  • Metodi rappresentativi che utilizzano perdita triplet per l'apprendimento contrastivo
  • Sfruttamento di modelli fondazionali vocali come wav2vec 2.0 per codificare i segnali
  • Riflessione dell'intensità di degradazione soggettiva attraverso la distanza euclidea tra embedding

Metriche di Qualità Audio Tradizionali

  • PEAQ: Estrae caratteristiche percettive di livello intermedio (MOVs), combinate tramite rete neurale per produrre ODG
  • 2f-model: Utilizza due MOVs di PEAQ Basic, con correlazione impressionante con i punteggi soggettivi
  • HAAQI: Originariamente progettato per applicazioni di apparecchi acustici, aggirando la simulazione della perdita uditiva utilizzabile per l'udito normale

Applicazioni di Modelli Fondazionali Musicali

  • FAD: Utilizzato per valutare embedding di modelli di generazione musicale, ma sensibile alla dimensione del campione e alla scelta del segnale di riferimento
  • MERT/CLAP: Principalmente ottimizzati per compiti di recupero di informazioni musicali

Conclusioni e Discussione

Conclusioni Principali

  1. DeePAQ estende con successo il paradigma dell'apprendimento metrico dalla valutazione della qualità vocale al campo audio generale
  2. La strategia di affinamento LoRA previene efficacemente l'overfitting su dataset di piccole dimensioni
  3. Le etichette proxy multi-sorgente (ViSQOL + bitrate) migliorano la robustezza del modello
  4. La forte capacità di generalizzazione lo rende adatto a molteplici tipi di distorsione

Limitazioni

  1. Intervallo di Bassa Qualità: A causa della scarsità di dati di addestramento, le prestazioni nell'intervallo di bassa qualità non sono superiori a quelle del 2f-model
  2. Sfide di Separazione Sorgente: Il set di test PEASS presenta sfide per tutte le metriche oggettive
  3. Limitazioni dei Dati di Addestramento: Principalmente focalizzato su artefatti di codifica, con copertura limitata di altri tipi di distorsione

Direzioni Future

  1. Espansione dei Dati di Addestramento: Inclusione di una più ampia gamma di tipi di distorsione per migliorare la capacità di generalizzazione
  2. Miglioramento del Modello di Riferimento Non Corrispondente: Miglioramento delle prestazioni attraverso un addestramento più diversificato
  3. Ottimizzazione End-to-End: Esplorazione di metodi che ottimizzano direttamente la previsione dei punteggi soggettivi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo utilizzo di LoRA e apprendimento debolmente supervisionato nella valutazione della qualità audio
  2. Metodo Razionale: Progettazione ingegnosa della perdita RnC, sfruttamento efficace di etichette proxy multi-sorgente
  3. Sperimentazione Completa: Valutazione completa su 9 diversi test di ascolto
  4. Forte Capacità di Generalizzazione: Prestazioni eccellenti su compiti out-of-domain, dimostrando la robustezza del metodo

Insufficienze

  1. Analisi Teorica Limitata: Manca un'analisi teorica approfondita sul perché MERT sia adatto alla valutazione della qualità audio
  2. Complessità Computazionale: Non viene discusso il carico computazionale rispetto ai metodi tradizionali
  3. Limitazioni dei Tipi di Distorsione: Principalmente focalizzato su artefatti di codifica, con copertura insufficiente di altri tipi di distorsione

Impatto

  1. Valore Accademico: Fornisce un nuovo percorso tecnologico per il campo della valutazione della qualità audio
  2. Valore Pratico: Applicabile allo sviluppo di codec audio e al monitoraggio della qualità
  3. Riproducibilità: Descrizione dettagliata del metodo e configurazione sperimentale chiara

Scenari Applicabili

  1. Valutazione di Codec Audio: Particolarmente adatto al rilevamento di artefatti di codifica
  2. Monitoraggio della Qualità dei Sistemi di Elaborazione Audio: Utilizzabile per la valutazione della qualità in tempo reale
  3. Controllo della Qualità dei Contenuti Multimediali: Adatto alla valutazione della qualità di contenuti musicali e vocali

Riferimenti Bibliografici

L'articolo cita 26 importanti riferimenti bibliografici, coprendo i lavori fondamentali nei campi della valutazione della qualità vocale, modelli fondazionali musicali e apprendimento metrico, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'elaborazione audio, che si distingue per l'innovazione metodologica, il design sperimentale e l'analisi dei risultati. DeePAQ rappresenta un importante progresso tecnologico nel campo della valutazione della qualità audio, con significativo valore accademico e pratico.