2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.
This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
academic

DeePAQ: Eine Metrik zur Wahrnehmung der Audioqualität basierend auf Grundlagenmodellen und schwach überwachtem Lernen

Grundlegende Informationen

  • Paper-ID: 2510.12326
  • Titel: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
  • Autoren: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
  • Institution: International Audio Laboratories Erlangen, Fraunhofer-Institut für Integrierte Schaltungen IIS
  • Klassifizierung: eess.AS (Audio- und Sprachverarbeitung)
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.12326

Zusammenfassung

In diesem Artikel wird DeePAQ, eine auf tiefem Lernen basierende Methode zur Wahrnehmung der Audioqualität, vorgestellt, um die allgemeine Audioqualität zu bewerten. Die Methode kombiniert metrisches Lernen mit dem Musik-Grundlagenmodell MERT und konstruiert durch Proxy-Label-Anleitung einen Einbettungsraum, der die Intensität allgemeiner Audioverzerrungen erfassen kann. Nach Aussage der Autoren ist DeePAQ die erste Methode im Bereich der allgemeinen Audioqualität, die schwach überwachte Label und metrisches Lernen nutzt und das Musik-Grundlagenmodell durch Low-Rank-Adaptation (LoRA) verfeinert. In Hörtests, die Audiokodierung und Quellentrennung abdecken, übertrifft die Methode bestehende objektive Audioqualitätsmetriken, zeigt hervorragende Leistungen bei der Erkennung von Kodierungsartefakten und weist gute Generalisierungsfähigkeiten für ungesehene Verzerrungen wie Quellentrennung auf.

Forschungshintergrund und Motivation

Problembeschreibung

Die Audioqualitätsbewertung ist ein Kernproblem im Bereich der Audioverarbeitung. Obwohl subjektive Hörtests genau sind, sind sie zeitaufwändig, teuer und unpraktisch. Daher werden objektive Rechenmethoden zur Schätzung der wahrgenommenen Audioqualität benötigt.

Forschungsherausforderungen

  1. Datenmangel: Im Vergleich zur Sprachqualitätsbewertung sind subjektive Bewertungen von Musikinhalten unter verschiedenen Verzerrungstypen seltener und selten öffentlich verfügbar
  2. Signalkomplexität: Im Vergleich zu Sprache weist das Musiksignal größere Variabilität auf, einschließlich reicherer harmonischer Strukturen, scharfer Transienten von Instrumenten und beabsichtigter Verzerrungen durch künstlerischen Ausdruck
  3. Verzerrungsanpassung: Verzerrungen, die mit dem Signalinhalt übereinstimmen oder sich anpassen, wie Kodierungsartefakte, sind besonders schwer zu trennen

Einschränkungen bestehender Methoden

  • Bestehende Musik-Grundlagenmodelle (wie MERT, CLAP) sind hauptsächlich für nachgelagerte Aufgaben wie Musikinformationsabruf und Genreklassifizierung optimiert
  • Unklar ist, welche Einbettung die wahrgenommenen Aspekte der Musikqualität am besten widerspiegelt
  • Bestehende Methoden wie Fréchet Audio Distance (FAD) sind hochempfindlich gegenüber der Testbeispielgröße und der Auswahl des Referenzsignals, mit begrenzter Zuverlässigkeit

Kernbeiträge

  1. Neuartige Methode: Erstmalige Verwendung von schwach überwachten Labels und metrikem Lernen im Bereich der allgemeinen Audioqualität mit LoRA-Verfeinerung des Musik-Grundlagenmodells
  2. Innovative Trainingsstrategie: Vorschlag eines schwach überwachten Trainingsziels basierend auf Rank-n-Contrast (RnC) Verlust, kombiniert mit ViSQOL-Pseudo-Labels und Kodierungsbitrate-Labels
  3. Überlegene Leistung: Erreichung der höchsten Gesamtkorrelation in mehreren Hörtests (PCC: 0,918, SRCC: 0,889)
  4. Starke Generalisierungsfähigkeit: Hervorragende Leistung sowohl bei der Erkennung von Kodierungsartefakten im Bereich als auch bei Quellentrennung außerhalb des Bereichs
  5. Dualer Referenzmodus: Unterstützung sowohl für Vollreferenz- als auch für nicht übereinstimmende Referenzbewertungsmodi

Methodische Details

Aufgabendefinition

Konstruktion einer Einbettungsfunktion f:XZf: X \rightarrow Z, die Audiosamples xiRDx_i \in \mathbb{R}^D in einen Qualitätseinbettungsraum ZZ abbildet, so dass Audios mit ähnlicher wahrgenommener Qualität im Einbettungsraum näher beieinander liegen und Audios mit großen Qualitätsunterschieden weiter auseinander liegen.

Modellarchitektur

Grundlagenmodell

  • MERT v1: Musik-Grundlagenmodell mit 95M Parametern, verwendet EnCodec als Tokenisierungsmethode während des Vortrainings
  • Architektur: 12 Transformer-Schichten, jeder Zeitrahmen erzeugt eine 13×768-dimensionale Merkmalsmatrix
  • Merkmalverarbeitung: Nach Durchschnittsbildung über die Zeitdimension und Abflachung zu einem 9.984-dimensionalen Vektor, eingegeben in nachfolgende Projektionsköpfe

Projektionskopf-Design

  • ReLU-Aktivierungsfunktion + lineare Schicht mit 256-dimensionaler Ausgabe
  • Zur Abbildung von MERT-Merkmalen in den qualitätswahrnehmenden Einbettungsraum

Schwach überwachtes Trainingsziel

Konstruktion von Proxy-Labels

  1. ViSQOL-Labels: Verwendung von ViSQOL v3 zur Berechnung von MOS-Scores (1-5 Punkte) für jedes degradierte Signal relativ zur sauberen Referenz
  2. Bitrate-Labels: Kodierungsbitrate als grobe Indikatoren für Audioqualität, saubere Signale erhalten b=b = \infty

Rank-n-Contrast Verlust

Der RnC-Verlust für ein einzelnes Sample ist definiert als:

LRNCp(xi)=1N1j=1,jiNlogexp(f(xi)f(xj)2)xkSi,jpexp(f(xi)f(xk)2)L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}

wobei Si,jp:={xkXki,yipykpyipyjp}S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\} die Menge von Samples darstellt, die relativ zum Ankerpunkt xix_i höher bewertet sind als xjx_j.

Gesamtverlustfunktion

LRNC=1N[i=1NLRNCViSQOL(xi)+xiXcodedLRNCp(xi)]L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]

Trainingsstrategie

LoRA-Verfeinerung

  • Einfügung von LoRA-Matrizen in die Abfrage- und Wertprojektionsschichten der Aufmerksamkeitsmodule
  • Rang 8, Skalierungsfaktor 16
  • Nur 2,93% der Modellparameter sind trainierbar, was eine wirksame Überanpassung bei kleinen Datensätzen verhindert

Trainingskonfiguration

  • Lernrate: 1×10⁻⁴, exponentielle Abnahme mit Faktor 0,99 nach 10 Epochen ohne Verbesserung
  • Gewichtsabfall: 0,01, Dropout-Rate: 0,05
  • Batch-Größe: 32

Experimentelle Einrichtung

Datensätze

Trainingsdaten

  • Umfang: Etwa 460 Stunden CD-Qualitätsmusik (44,1 kHz)
  • Kodierungsformate: Opus, mp3, AAC
  • Bitraten: 16, 32, 48, 64, 80, 96, 128 kbps
  • Datenteilung: 122 Stunden kodierte Musik pro Codec, 45 Stunden sauberes Signal
  • Validierungssatz: 50 Stunden Musik (8 Stunden sauber + 14 Stunden kodiert pro Codec)

Testsätze

Umfasst 9 Hörtests, unterteilt in zwei Kategorien:

  1. Audiokodierung: IgorC96Multiformat, ODAQ, MPEG USAC Validierungstests (t1-t3)
  2. Quellentrennung: 4 Teilmengen des SEBASS-Datensatzes (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Bewertungsmetriken

  • PCC: Pearson-Korrelationskoeffizient
  • SRCC: Spearman-Rangkorrelationskoeffizient

Vergleichsmethoden

  • Traditionelle Methoden: ViSQOL v3, PEAQ ODG, 2f-Modell, HAAQI
  • Grundlagenmodell-Methoden: Verfeinertes wav2vec 2.0, FAD (MERT-v1-95M)

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung

  • Höchste Korrelation: PCC = 0,918, SRCC = 0,889
  • Konsistente Leistung: Hohe Korrelation und konsistente Leistung in den meisten Testsätzen
  • Qualitätsbereich: Hervorragende Leistung im hohen Qualitätsbereich, leichte Unzulänglichkeiten im niedrigen Qualitätsbereich aufgrund von Datenmangel

Spezifische Testergebnisse

  1. IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
  2. ODAQ insgesamt: PCC = 0,916, SRCC = 0,868
  3. USAC-Tests: PCC über 0,9 in allen t1-t3 Tests
  4. Quellentrennung: Gesamt PCC = 0,919, SRCC = 0,787

Ablationsstudien

Vergleich von Trainingsstrategien

  • LoRA vs. vollständige Verfeinerung: LoRA zeigt bessere Leistung bei kleinen Datensätzen, Unterschied nimmt mit Datenwachstum ab
  • LoRA vs. gefrorener Projektionskopf: LoRA deutlich besser als nur Trainieren des Projektionskopfes

Vergleich von Grundlagenmodellen

  • MERT vs. wav2vec 2.0: MERT zeigt ausgewogenere Leistung bei Musik und Sprache, wav2vec 2.0 neigt zur Sprache

Verlustfunktionsanalyse

  • Hinzufügen des RnC-Verlustterms mit Bitrate-Ranking bringt 1-3% Leistungsverbesserung

Abbildungsfunktion

  • Kubische Polynom- und MLP-Abbildungen verbessern PCC erheblich, SRCC bleibt grundsätzlich unverändert
  • Zeigt nichtlineare Beziehung zwischen Einbettungsdistanz und subjektiven Scores

Generalisierungsanalyse

  • Generalisierung im Bereich: Hervorragende Leistung bei der Erkennung von Kodierungsartefakten
  • Generalisierung außerhalb des Bereichs: Gute Leistung bei ungesehenen Verzerrungstypen wie Quellentrennung
  • Generalisierung über Inhalte: Konsistente Leistung bei Musik, Sprache und gemischtem Inhalt

Verwandte Arbeiten

Sprachqualitätsbewertung

  • Repräsentative Methoden verwenden Triplet-Verlust für kontrastives Lernen
  • Nutzung von Sprachgrundlagenmodellen wie wav2vec 2.0 zur Signalcodierung
  • Widerspiegelung der subjektiven Degradationsintensität durch euklidische Distanz zwischen Einbettungen

Traditionelle Audioqualitätsmetriken

  • PEAQ: Extraktion von mittleren Wahrnehmungsmerkmalen (MOVs), Kombination durch neuronale Netze zur Erzeugung von ODG
  • 2f-Modell: Nutzung von zwei MOVs von PEAQ Basic mit beeindruckender Korrelation zu subjektiven Scores
  • HAAQI: Ursprünglich für Hörgeräte-Anwendungen konzipiert, kann durch Umgehung der Hörverlustmodellierung für normales Gehör verwendet werden

Anwendungen von Musik-Grundlagenmodellen

  • FAD: Verwendet zur Bewertung von Einbettungen generativer Musikmodelle, aber empfindlich gegenüber Stichprobengröße und Referenzsignalauswahl
  • MERT/CLAP: Hauptsächlich für Musikinformationsabruf-Aufgaben optimiert

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. DeePAQ erweitert erfolgreich das Paradigma des metrischen Lernens aus der Sprachqualitätsbewertung auf den Bereich der allgemeinen Audioqualität
  2. Die LoRA-Verfeinerungsstrategie verhindert effektiv Überanpassung bei kleinen Datensätzen
  3. Multi-Source-Proxy-Labels (ViSQOL + Bitrate) verbessern die Modellrobustheit
  4. Starke Generalisierungsfähigkeit macht es für verschiedene Verzerrungstypen anwendbar

Einschränkungen

  1. Niedriger Qualitätsbereich: Aufgrund von Datenmangel nicht so gut wie 2f-Modell im niedrigen Qualitätsbereich
  2. Herausforderungen bei Quellentrennung: PEASS-Testsatz stellt eine Herausforderung für alle objektiven Metriken dar
  3. Trainingsdatenbeschränkungen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, begrenzte Abdeckung anderer Verzerrungstypen

Zukünftige Richtungen

  1. Erweiterung der Trainingsdaten: Einbeziehung breiterer Verzerrungstypen zur Verbesserung der Generalisierungsfähigkeit
  2. Verbesserung des nicht übereinstimmenden Referenzmodells: Verbesserung der Leistung durch vielfältigeres Training
  3. End-to-End-Optimierung: Erkundung von Methoden zur direkten Optimierung der subjektiven Score-Vorhersage

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Anwendung von LoRA und schwach überwachtem Lernen auf Audioqualitätsbewertung
  2. Rationale Methode: Geschicktes RnC-Verlust-Design, effektive Nutzung von Multi-Source-Proxy-Labels
  3. Umfassende Experimente: Umfassende Bewertung auf 9 verschiedenen Hörtests
  4. Starke Generalisierungsfähigkeit: Hervorragende Leistung bei Aufgaben außerhalb des Bereichs, beweist Methodenrobustheit

Mängel

  1. Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum MERT für Audioqualitätsbewertung geeignet ist
  2. Rechenkomplexität: Keine Diskussion des Rechenaufwands im Vergleich zu traditionellen Methoden
  3. Begrenzte Verzerrungstypen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, unzureichende Abdeckung anderer Verzerrungstypen

Auswirkungen

  1. Akademischer Wert: Bietet neue technische Wege für das Feld der Audioqualitätsbewertung
  2. Praktischer Wert: Anwendbar auf Audiokodec-Entwicklung und Qualitätsüberwachung
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung, klare experimentelle Einrichtung

Anwendungsszenarien

  1. Audiocodec-Bewertung: Besonders geeignet zur Erkennung von Kodierungsartefakten
  2. Qualitätsüberwachung von Audioverarbeitungssystemen: Kann für Echtzeitqualitätsbewertung verwendet werden
  3. Qualitätskontrolle von Multimedia-Inhalten: Geeignet für Qualitätsbewertung von Musik- und Sprachinhalten

Referenzen

Das Paper zitiert 26 wichtige Referenzen, die Kernarbeiten in den Bereichen Sprachqualitätsbewertung, Musik-Grundlagenmodelle und metrisches Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Paper im Bereich der Audioverarbeitung mit hervorragenden Leistungen in Methodikinnovation, Experimentdesign und Ergebnisanalyse. DeePAQ bringt einen neuen technologischen Durchbruch in das Feld der Audioqualitätsbewertung und hat wichtige akademische und praktische Bedeutung.