2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ : Une Métrique de Qualité Audio Perceptuelle Basée sur les Modèles Fondamentaux et l'Apprentissage Faiblement Supervisé

Informations Fondamentales

ID de l'article : 2510.12326
Titre : DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
Auteurs : Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
Institution : International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
Classification : eess.AS (Traitement Audio et Parole)
Date de Publication : 14 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.12326

Résumé

Cet article propose DeePAQ, une méthode de métrique de qualité audio perceptuelle basée sur l'apprentissage profond, destinée à évaluer la qualité audio générale. Cette approche combine l'apprentissage métrique et le modèle fondamental musical MERT, en utilisant des étiquettes de substitution pour construire un espace d'intégration capable de capturer l'intensité des distorsions audio générales. Selon les auteurs, DeePAQ est la première méthode dans le domaine de la qualité audio générale à exploiter les étiquettes faiblement supervisées et l'apprentissage métrique, en affinant le modèle fondamental musical via l'adaptation de faible rang (LoRA). Dans les tests auditifs couvrant le codage audio et la séparation de source, cette méthode surpasse les métriques objectives de qualité audio existantes, démontrant une excellente performance dans la détection des artefacts de codage et une bonne capacité de généralisation aux distorsions non observées telles que la séparation de source.

Contexte et Motivation de la Recherche

Définition du Problème

L'évaluation de la qualité audio est un problème fondamental dans le domaine du traitement audio. Bien que les tests auditifs subjectifs traditionnels soient précis, ils sont coûteux en temps et en ressources, d'où la nécessité de méthodes de calcul objectives pour estimer la qualité audio perceptuelle.

Défis de la Recherche

Rareté des données : Comparées à l'évaluation de la qualité vocale, les évaluations subjectives du contenu musical sous différents types de distorsion sont plus rares et rarement accessibles publiquement
Complexité du signal : Par rapport à la parole, les signaux musicaux présentent une plus grande variabilité, incluant des structures harmoniques plus riches, des transitoires aigus provenant des instruments et des distorsions intentionnelles introduites par l'expression artistique
Correspondance des distorsions : Les distorsions adaptées au contenu du signal, telles que les artefacts de codage perceptif, sont particulièrement difficiles à isoler

Limitations des Méthodes Existantes

Les modèles fondamentaux musicaux existants (tels que MERT, CLAP) sont principalement optimisés pour les tâches en aval comme la recherche d'informations musicales et la classification de genres
Il reste flou de déterminer quel intégration reflète le mieux les aspects perceptuels de la qualité musicale
Les méthodes existantes comme la Distance Audio de Fréchet (FAD) sont hautement sensibles à la taille de l'échantillon de test et au choix du signal de référence, avec une fiabilité limitée

Contributions Principales

Approche Novatrice : Première utilisation des étiquettes faiblement supervisées et de l'apprentissage métrique dans le domaine de la qualité audio générale, avec affinement du modèle fondamental musical via LoRA
Stratégie d'Entraînement Innovante : Proposition d'un objectif d'entraînement faiblement supervisé basé sur la perte Rank-n-Contrast (RnC), combinant les étiquettes de pseudo-ViSQOL et les étiquettes de débit binaire de codage
Performance Supérieure : Atteinte de la plus haute corrélation globale dans plusieurs tests auditifs (PCC : 0,918, SRCC : 0,889)
Capacité de Généralisation Robuste : Excellente performance à la fois dans la détection des artefacts de codage intra-domaine et sur les distorsions de séparation de source hors-domaine
Mode Bi-Référence : Support des modes d'évaluation avec référence complète et référence non appariée

Explication Détaillée de la Méthode

Définition de la Tâche

Construire une fonction d'intégration $f: X \rightarrow Z$ qui mappe les échantillons audio $x_i \in \mathbb{R}^D$ vers un espace d'intégration de qualité $Z$ , de sorte que les audios avec une qualité perceptuelle similaire soient proches dans l'espace d'intégration, tandis que ceux avec une grande différence de qualité soient éloignés.

Architecture du Modèle

Modèle Fondamental

MERT v1 : Modèle fondamental musical de 95M paramètres, utilisant EnCodec comme méthode de tokenisation lors de la pré-entraînement
Architecture : 12 couches de transformateur, produisant une matrice de caractéristiques de 13×768 dimensions par trame temporelle
Traitement des Caractéristiques : Après moyenne sur la dimension temporelle et aplatissement en vecteur de 9 984 dimensions, entrée aux têtes de projection suivantes

Conception de la Tête de Projection

Fonction d'activation ReLU + couche linéaire de 256 dimensions en sortie
Utilisée pour mapper les caractéristiques MERT vers l'espace d'intégration sensible à la qualité

Objectif d'Entraînement Faiblement Supervisé

Construction des Étiquettes de Substitution

Étiquettes ViSQOL : Utilisation de ViSQOL v3 pour calculer le score MOS (1-5) de chaque signal dégradé par rapport à la référence propre
Étiquettes de Débit Binaire : Le débit binaire de codage comme indicateur approximatif de la qualité audio, avec $b = \infty$ attribué aux signaux propres

Perte Rank-n-Contrast

La perte RnC pour un seul échantillon est définie comme :

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$

où $S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\}$ représente l'ensemble des échantillons classés plus haut que $x_j$ par rapport à l'ancre $x_i$ .

Fonction de Perte Globale

$L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]$

Stratégie d'Entraînement

Affinement LoRA

Insertion de matrices LoRA dans les couches de projection de requête et de valeur des modules d'attention
Rang de 8, facteur d'échelle de 16
Seulement 2,93 % des paramètres du modèle sont entraînables, atténuant efficacement le surapprentissage sur les petits ensembles de données

Configuration d'Entraînement

Taux d'apprentissage : 1×10⁻⁴, décroissance exponentielle par facteur 0,99 après 10 epochs sans amélioration
Décroissance des poids : 0,01, taux de dropout : 0,05
Taille de lot : 32

Configuration Expérimentale

Ensembles de Données

Données d'Entraînement

Échelle : Environ 460 heures de musique en qualité CD (44,1 kHz)
Formats de Codage : Opus, mp3, AAC
Débits Binaires : 16, 32, 48, 64, 80, 96, 128 kbps
Division des Données : 122 heures d'audio codé par codec, 45 heures de signal propre
Ensemble de Validation : 50 heures de musique (8 heures propres + 14 heures codées par codec)

Ensemble de Test

Comprend 9 tests auditifs, divisés en deux catégories :

Codage Audio : IgorC96Multiformat, ODAQ, tests de validation MPEG USAC (t1-t3)
Séparation de Source : 4 sous-ensembles de l'ensemble de données SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Métriques d'Évaluation

PCC : Coefficient de Corrélation Linéaire de Pearson
SRCC : Coefficient de Corrélation de Rang de Spearman

Méthodes de Comparaison

Méthodes Traditionnelles : ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
Méthodes de Modèles Fondamentaux : wav2vec 2.0 affiné, FAD (MERT-v1-95M)

Résultats Expérimentaux

Résultats Principaux

Performance Globale

Corrélation Maximale : PCC = 0,918, SRCC = 0,889
Performance Cohérente : Démonstration de corrélations élevées et de performance cohérente sur la plupart des ensembles de test
Plage de Qualité : Excellente performance dans la plage de haute qualité, légèrement insuffisante dans la plage de basse qualité en raison de la rareté des données d'entraînement

Performance sur Tests Spécifiques

IgorC96Multiformat : PCC = 0,954, SRCC = 0,848
ODAQ Global : PCC = 0,916, SRCC = 0,868
Tests USAC : PCC supérieur à 0,9 sur tous les tests t1-t3
Séparation de Source : PCC Global = 0,919, SRCC = 0,787

Études d'Ablation

Comparaison des Stratégies d'Entraînement

LoRA vs Affinement Complet : LoRA surpasse sur les petits ensembles de données, l'écart diminuant avec l'augmentation des données
LoRA vs Tête de Projection Gelée : LoRA surpasse significativement la méthode d'entraînement de la tête de projection uniquement

Comparaison des Modèles Fondamentaux

MERT vs wav2vec 2.0 : MERT démontre un équilibre supérieur entre musique et parole, wav2vec 2.0 étant biaisé vers la parole

Analyse de la Fonction de Perte

L'ajout du terme de perte RnC avec classement par débit binaire apporte une amélioration de 1-3 % de la performance

Fonction de Mappage

Le mappage polynomial cubique et MLP améliorent significativement le PCC, le SRCC restant essentiellement inchangé
Indiquant une relation non-linéaire entre la distance d'intégration et le score subjectif

Analyse de la Capacité de Généralisation

Généralisation Intra-Domaine : Excellente performance dans la détection des artefacts de codage
Généralisation Hors-Domaine : Maintien d'une bonne performance sur les types de distorsion non observés tels que la séparation de source
Généralisation Transversale au Contenu : Performance cohérente sur le contenu musical, vocal et mixte

Travaux Connexes

Évaluation de la Qualité Vocale

Méthodes représentatives utilisant la perte de triplet pour l'apprentissage contrastif
Exploitation des modèles fondamentaux vocaux tels que wav2vec 2.0 pour l'encodage des signaux
Réflexion de l'intensité de dégradation subjective via la distance euclidienne entre intégrations

Métriques de Qualité Audio Traditionnelles

PEAQ : Extraction de caractéristiques perceptuelles intermédiaires (MOVs), combinaison via réseau neuronal pour produire l'ODG
2f-model : Utilisation de deux MOVs de PEAQ Basic, avec une corrélation impressionnante avec les scores subjectifs
HAAQI : Initialement conçu pour les applications d'appareils auditifs, contournable pour une utilisation avec audition normale

Applications des Modèles Fondamentaux Musicaux

FAD : Utilisé pour évaluer les intégrations des modèles de musique générative, mais sensible à la taille de l'échantillon et au choix du signal de référence
MERT/CLAP : Principalement optimisés pour les tâches de recherche d'informations musicales

Conclusion et Discussion

Conclusions Principales

DeePAQ étend avec succès le paradigme d'apprentissage métrique de l'évaluation de la qualité vocale au domaine audio général
La stratégie d'affinement LoRA prévient efficacement le surapprentissage sur les petits ensembles de données
Les étiquettes de substitution multi-sources (ViSQOL + débit binaire) renforcent la robustesse du modèle
La capacité de généralisation robuste le rend applicable à plusieurs types de distorsion

Limitations

Plage de Basse Qualité : Performance inférieure au 2f-model dans la plage de basse qualité en raison de la rareté des données d'entraînement
Défi de Séparation de Source : L'ensemble de test PEASS pose un défi à toutes les métriques objectives
Limitation des Données d'Entraînement : Principalement axé sur les artefacts de codage, couverture limitée d'autres types de distorsion

Directions Futures

Expansion des Données d'Entraînement : Inclusion d'une plus large gamme de types de distorsion pour améliorer la capacité de généralisation
Amélioration du Modèle de Référence Non-Appariée : Amélioration de la performance via un entraînement plus diversifié
Optimisation Bout à Bout : Exploration de méthodes optimisant directement la prédiction des scores subjectifs

Évaluation Approfondie

Points Forts

Innovation Forte : Première application de LoRA et d'apprentissage faiblement supervisé à l'évaluation de la qualité audio
Méthodologie Solide : Conception ingénieuse de la perte RnC, exploitation efficace des étiquettes de substitution multi-sources
Expérimentation Complète : Évaluation exhaustive sur 9 tests auditifs différents
Capacité de Généralisation Robuste : Excellente performance sur les tâches hors-domaine, démontrant la robustesse de la méthode

Insuffisances

Analyse Théorique Limitée : Manque d'analyse théorique approfondie sur les raisons pour lesquelles MERT convient à l'évaluation de la qualité audio
Complexité Computationnelle : Absence de discussion sur les frais de calcul par rapport aux méthodes traditionnelles
Couverture des Types de Distorsion : Accent principal sur les artefacts de codage, couverture insuffisante d'autres types de distorsion

Impact

Valeur Académique : Fournit une nouvelle voie technologique pour le domaine de l'évaluation de la qualité audio
Valeur Pratique : Applicable au développement de codecs audio et à la surveillance de la qualité
Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire

Scénarios d'Application

Évaluation de Codecs Audio : Particulièrement adapté à la détection des artefacts de codage
Surveillance de la Qualité des Systèmes de Traitement Audio : Utilisable pour l'évaluation de qualité en temps réel
Contrôle de Qualité du Contenu Multimédia : Applicable à l'évaluation de la qualité du contenu musical et vocal

Références Bibliographiques

L'article cite 26 références importantes couvrant l'évaluation de la qualité vocale, les modèles fondamentaux musicaux, l'apprentissage métrique et d'autres domaines connexes, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Cet article de haute qualité dans le domaine du traitement audio démontre une excellence en innovation méthodologique, conception expérimentale et analyse des résultats. DeePAQ apporte une percée technologique importante au domaine de l'évaluation de la qualité audio, possédant une valeur académique et pratique significative.