2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.
This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
academic

DeePAQ : Une Métrique de Qualité Audio Perceptuelle Basée sur les Modèles Fondamentaux et l'Apprentissage Faiblement Supervisé

Informations Fondamentales

  • ID de l'article : 2510.12326
  • Titre : DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
  • Auteurs : Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
  • Institution : International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
  • Classification : eess.AS (Traitement Audio et Parole)
  • Date de Publication : 14 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.12326

Résumé

Cet article propose DeePAQ, une méthode de métrique de qualité audio perceptuelle basée sur l'apprentissage profond, destinée à évaluer la qualité audio générale. Cette approche combine l'apprentissage métrique et le modèle fondamental musical MERT, en utilisant des étiquettes de substitution pour construire un espace d'intégration capable de capturer l'intensité des distorsions audio générales. Selon les auteurs, DeePAQ est la première méthode dans le domaine de la qualité audio générale à exploiter les étiquettes faiblement supervisées et l'apprentissage métrique, en affinant le modèle fondamental musical via l'adaptation de faible rang (LoRA). Dans les tests auditifs couvrant le codage audio et la séparation de source, cette méthode surpasse les métriques objectives de qualité audio existantes, démontrant une excellente performance dans la détection des artefacts de codage et une bonne capacité de généralisation aux distorsions non observées telles que la séparation de source.

Contexte et Motivation de la Recherche

Définition du Problème

L'évaluation de la qualité audio est un problème fondamental dans le domaine du traitement audio. Bien que les tests auditifs subjectifs traditionnels soient précis, ils sont coûteux en temps et en ressources, d'où la nécessité de méthodes de calcul objectives pour estimer la qualité audio perceptuelle.

Défis de la Recherche

  1. Rareté des données : Comparées à l'évaluation de la qualité vocale, les évaluations subjectives du contenu musical sous différents types de distorsion sont plus rares et rarement accessibles publiquement
  2. Complexité du signal : Par rapport à la parole, les signaux musicaux présentent une plus grande variabilité, incluant des structures harmoniques plus riches, des transitoires aigus provenant des instruments et des distorsions intentionnelles introduites par l'expression artistique
  3. Correspondance des distorsions : Les distorsions adaptées au contenu du signal, telles que les artefacts de codage perceptif, sont particulièrement difficiles à isoler

Limitations des Méthodes Existantes

  • Les modèles fondamentaux musicaux existants (tels que MERT, CLAP) sont principalement optimisés pour les tâches en aval comme la recherche d'informations musicales et la classification de genres
  • Il reste flou de déterminer quel intégration reflète le mieux les aspects perceptuels de la qualité musicale
  • Les méthodes existantes comme la Distance Audio de Fréchet (FAD) sont hautement sensibles à la taille de l'échantillon de test et au choix du signal de référence, avec une fiabilité limitée

Contributions Principales

  1. Approche Novatrice : Première utilisation des étiquettes faiblement supervisées et de l'apprentissage métrique dans le domaine de la qualité audio générale, avec affinement du modèle fondamental musical via LoRA
  2. Stratégie d'Entraînement Innovante : Proposition d'un objectif d'entraînement faiblement supervisé basé sur la perte Rank-n-Contrast (RnC), combinant les étiquettes de pseudo-ViSQOL et les étiquettes de débit binaire de codage
  3. Performance Supérieure : Atteinte de la plus haute corrélation globale dans plusieurs tests auditifs (PCC : 0,918, SRCC : 0,889)
  4. Capacité de Généralisation Robuste : Excellente performance à la fois dans la détection des artefacts de codage intra-domaine et sur les distorsions de séparation de source hors-domaine
  5. Mode Bi-Référence : Support des modes d'évaluation avec référence complète et référence non appariée

Explication Détaillée de la Méthode

Définition de la Tâche

Construire une fonction d'intégration f:XZf: X \rightarrow Z qui mappe les échantillons audio xiRDx_i \in \mathbb{R}^D vers un espace d'intégration de qualité ZZ, de sorte que les audios avec une qualité perceptuelle similaire soient proches dans l'espace d'intégration, tandis que ceux avec une grande différence de qualité soient éloignés.

Architecture du Modèle

Modèle Fondamental

  • MERT v1 : Modèle fondamental musical de 95M paramètres, utilisant EnCodec comme méthode de tokenisation lors de la pré-entraînement
  • Architecture : 12 couches de transformateur, produisant une matrice de caractéristiques de 13×768 dimensions par trame temporelle
  • Traitement des Caractéristiques : Après moyenne sur la dimension temporelle et aplatissement en vecteur de 9 984 dimensions, entrée aux têtes de projection suivantes

Conception de la Tête de Projection

  • Fonction d'activation ReLU + couche linéaire de 256 dimensions en sortie
  • Utilisée pour mapper les caractéristiques MERT vers l'espace d'intégration sensible à la qualité

Objectif d'Entraînement Faiblement Supervisé

Construction des Étiquettes de Substitution

  1. Étiquettes ViSQOL : Utilisation de ViSQOL v3 pour calculer le score MOS (1-5) de chaque signal dégradé par rapport à la référence propre
  2. Étiquettes de Débit Binaire : Le débit binaire de codage comme indicateur approximatif de la qualité audio, avec b=b = \infty attribué aux signaux propres

Perte Rank-n-Contrast

La perte RnC pour un seul échantillon est définie comme :

LRNCp(xi)=1N1j=1,jiNlogexp(f(xi)f(xj)2)xkSi,jpexp(f(xi)f(xk)2)L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}

Si,jp:={xkXki,yipykpyipyjp}S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\} représente l'ensemble des échantillons classés plus haut que xjx_j par rapport à l'ancre xix_i.

Fonction de Perte Globale

LRNC=1N[i=1NLRNCViSQOL(xi)+xiXcodedLRNCp(xi)]L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]

Stratégie d'Entraînement

Affinement LoRA

  • Insertion de matrices LoRA dans les couches de projection de requête et de valeur des modules d'attention
  • Rang de 8, facteur d'échelle de 16
  • Seulement 2,93 % des paramètres du modèle sont entraînables, atténuant efficacement le surapprentissage sur les petits ensembles de données

Configuration d'Entraînement

  • Taux d'apprentissage : 1×10⁻⁴, décroissance exponentielle par facteur 0,99 après 10 epochs sans amélioration
  • Décroissance des poids : 0,01, taux de dropout : 0,05
  • Taille de lot : 32

Configuration Expérimentale

Ensembles de Données

Données d'Entraînement

  • Échelle : Environ 460 heures de musique en qualité CD (44,1 kHz)
  • Formats de Codage : Opus, mp3, AAC
  • Débits Binaires : 16, 32, 48, 64, 80, 96, 128 kbps
  • Division des Données : 122 heures d'audio codé par codec, 45 heures de signal propre
  • Ensemble de Validation : 50 heures de musique (8 heures propres + 14 heures codées par codec)

Ensemble de Test

Comprend 9 tests auditifs, divisés en deux catégories :

  1. Codage Audio : IgorC96Multiformat, ODAQ, tests de validation MPEG USAC (t1-t3)
  2. Séparation de Source : 4 sous-ensembles de l'ensemble de données SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Métriques d'Évaluation

  • PCC : Coefficient de Corrélation Linéaire de Pearson
  • SRCC : Coefficient de Corrélation de Rang de Spearman

Méthodes de Comparaison

  • Méthodes Traditionnelles : ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
  • Méthodes de Modèles Fondamentaux : wav2vec 2.0 affiné, FAD (MERT-v1-95M)

Résultats Expérimentaux

Résultats Principaux

Performance Globale

  • Corrélation Maximale : PCC = 0,918, SRCC = 0,889
  • Performance Cohérente : Démonstration de corrélations élevées et de performance cohérente sur la plupart des ensembles de test
  • Plage de Qualité : Excellente performance dans la plage de haute qualité, légèrement insuffisante dans la plage de basse qualité en raison de la rareté des données d'entraînement

Performance sur Tests Spécifiques

  1. IgorC96Multiformat : PCC = 0,954, SRCC = 0,848
  2. ODAQ Global : PCC = 0,916, SRCC = 0,868
  3. Tests USAC : PCC supérieur à 0,9 sur tous les tests t1-t3
  4. Séparation de Source : PCC Global = 0,919, SRCC = 0,787

Études d'Ablation

Comparaison des Stratégies d'Entraînement

  • LoRA vs Affinement Complet : LoRA surpasse sur les petits ensembles de données, l'écart diminuant avec l'augmentation des données
  • LoRA vs Tête de Projection Gelée : LoRA surpasse significativement la méthode d'entraînement de la tête de projection uniquement

Comparaison des Modèles Fondamentaux

  • MERT vs wav2vec 2.0 : MERT démontre un équilibre supérieur entre musique et parole, wav2vec 2.0 étant biaisé vers la parole

Analyse de la Fonction de Perte

  • L'ajout du terme de perte RnC avec classement par débit binaire apporte une amélioration de 1-3 % de la performance

Fonction de Mappage

  • Le mappage polynomial cubique et MLP améliorent significativement le PCC, le SRCC restant essentiellement inchangé
  • Indiquant une relation non-linéaire entre la distance d'intégration et le score subjectif

Analyse de la Capacité de Généralisation

  • Généralisation Intra-Domaine : Excellente performance dans la détection des artefacts de codage
  • Généralisation Hors-Domaine : Maintien d'une bonne performance sur les types de distorsion non observés tels que la séparation de source
  • Généralisation Transversale au Contenu : Performance cohérente sur le contenu musical, vocal et mixte

Travaux Connexes

Évaluation de la Qualité Vocale

  • Méthodes représentatives utilisant la perte de triplet pour l'apprentissage contrastif
  • Exploitation des modèles fondamentaux vocaux tels que wav2vec 2.0 pour l'encodage des signaux
  • Réflexion de l'intensité de dégradation subjective via la distance euclidienne entre intégrations

Métriques de Qualité Audio Traditionnelles

  • PEAQ : Extraction de caractéristiques perceptuelles intermédiaires (MOVs), combinaison via réseau neuronal pour produire l'ODG
  • 2f-model : Utilisation de deux MOVs de PEAQ Basic, avec une corrélation impressionnante avec les scores subjectifs
  • HAAQI : Initialement conçu pour les applications d'appareils auditifs, contournable pour une utilisation avec audition normale

Applications des Modèles Fondamentaux Musicaux

  • FAD : Utilisé pour évaluer les intégrations des modèles de musique générative, mais sensible à la taille de l'échantillon et au choix du signal de référence
  • MERT/CLAP : Principalement optimisés pour les tâches de recherche d'informations musicales

Conclusion et Discussion

Conclusions Principales

  1. DeePAQ étend avec succès le paradigme d'apprentissage métrique de l'évaluation de la qualité vocale au domaine audio général
  2. La stratégie d'affinement LoRA prévient efficacement le surapprentissage sur les petits ensembles de données
  3. Les étiquettes de substitution multi-sources (ViSQOL + débit binaire) renforcent la robustesse du modèle
  4. La capacité de généralisation robuste le rend applicable à plusieurs types de distorsion

Limitations

  1. Plage de Basse Qualité : Performance inférieure au 2f-model dans la plage de basse qualité en raison de la rareté des données d'entraînement
  2. Défi de Séparation de Source : L'ensemble de test PEASS pose un défi à toutes les métriques objectives
  3. Limitation des Données d'Entraînement : Principalement axé sur les artefacts de codage, couverture limitée d'autres types de distorsion

Directions Futures

  1. Expansion des Données d'Entraînement : Inclusion d'une plus large gamme de types de distorsion pour améliorer la capacité de généralisation
  2. Amélioration du Modèle de Référence Non-Appariée : Amélioration de la performance via un entraînement plus diversifié
  3. Optimisation Bout à Bout : Exploration de méthodes optimisant directement la prédiction des scores subjectifs

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première application de LoRA et d'apprentissage faiblement supervisé à l'évaluation de la qualité audio
  2. Méthodologie Solide : Conception ingénieuse de la perte RnC, exploitation efficace des étiquettes de substitution multi-sources
  3. Expérimentation Complète : Évaluation exhaustive sur 9 tests auditifs différents
  4. Capacité de Généralisation Robuste : Excellente performance sur les tâches hors-domaine, démontrant la robustesse de la méthode

Insuffisances

  1. Analyse Théorique Limitée : Manque d'analyse théorique approfondie sur les raisons pour lesquelles MERT convient à l'évaluation de la qualité audio
  2. Complexité Computationnelle : Absence de discussion sur les frais de calcul par rapport aux méthodes traditionnelles
  3. Couverture des Types de Distorsion : Accent principal sur les artefacts de codage, couverture insuffisante d'autres types de distorsion

Impact

  1. Valeur Académique : Fournit une nouvelle voie technologique pour le domaine de l'évaluation de la qualité audio
  2. Valeur Pratique : Applicable au développement de codecs audio et à la surveillance de la qualité
  3. Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire

Scénarios d'Application

  1. Évaluation de Codecs Audio : Particulièrement adapté à la détection des artefacts de codage
  2. Surveillance de la Qualité des Systèmes de Traitement Audio : Utilisable pour l'évaluation de qualité en temps réel
  3. Contrôle de Qualité du Contenu Multimédia : Applicable à l'évaluation de la qualité du contenu musical et vocal

Références Bibliographiques

L'article cite 26 références importantes couvrant l'évaluation de la qualité vocale, les modèles fondamentaux musicaux, l'apprentissage métrique et d'autres domaines connexes, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Cet article de haute qualité dans le domaine du traitement audio démontre une excellence en innovation méthodologique, conception expérimentale et analyse des résultats. DeePAQ apporte une percée technologique importante au domaine de l'évaluation de la qualité audio, possédant une valeur académique et pratique significative.