2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: Eine Metrik zur Wahrnehmung der Audioqualität basierend auf Grundlagenmodellen und schwach überwachtem Lernen

Grundlegende Informationen

Paper-ID: 2510.12326
Titel: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
Autoren: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
Institution: International Audio Laboratories Erlangen, Fraunhofer-Institut für Integrierte Schaltungen IIS
Klassifizierung: eess.AS (Audio- und Sprachverarbeitung)
Veröffentlichungsdatum: 14. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.12326

Zusammenfassung

In diesem Artikel wird DeePAQ, eine auf tiefem Lernen basierende Methode zur Wahrnehmung der Audioqualität, vorgestellt, um die allgemeine Audioqualität zu bewerten. Die Methode kombiniert metrisches Lernen mit dem Musik-Grundlagenmodell MERT und konstruiert durch Proxy-Label-Anleitung einen Einbettungsraum, der die Intensität allgemeiner Audioverzerrungen erfassen kann. Nach Aussage der Autoren ist DeePAQ die erste Methode im Bereich der allgemeinen Audioqualität, die schwach überwachte Label und metrisches Lernen nutzt und das Musik-Grundlagenmodell durch Low-Rank-Adaptation (LoRA) verfeinert. In Hörtests, die Audiokodierung und Quellentrennung abdecken, übertrifft die Methode bestehende objektive Audioqualitätsmetriken, zeigt hervorragende Leistungen bei der Erkennung von Kodierungsartefakten und weist gute Generalisierungsfähigkeiten für ungesehene Verzerrungen wie Quellentrennung auf.

Forschungshintergrund und Motivation

Problembeschreibung

Die Audioqualitätsbewertung ist ein Kernproblem im Bereich der Audioverarbeitung. Obwohl subjektive Hörtests genau sind, sind sie zeitaufwändig, teuer und unpraktisch. Daher werden objektive Rechenmethoden zur Schätzung der wahrgenommenen Audioqualität benötigt.

Forschungsherausforderungen

Datenmangel: Im Vergleich zur Sprachqualitätsbewertung sind subjektive Bewertungen von Musikinhalten unter verschiedenen Verzerrungstypen seltener und selten öffentlich verfügbar
Signalkomplexität: Im Vergleich zu Sprache weist das Musiksignal größere Variabilität auf, einschließlich reicherer harmonischer Strukturen, scharfer Transienten von Instrumenten und beabsichtigter Verzerrungen durch künstlerischen Ausdruck
Verzerrungsanpassung: Verzerrungen, die mit dem Signalinhalt übereinstimmen oder sich anpassen, wie Kodierungsartefakte, sind besonders schwer zu trennen

Einschränkungen bestehender Methoden

Bestehende Musik-Grundlagenmodelle (wie MERT, CLAP) sind hauptsächlich für nachgelagerte Aufgaben wie Musikinformationsabruf und Genreklassifizierung optimiert
Unklar ist, welche Einbettung die wahrgenommenen Aspekte der Musikqualität am besten widerspiegelt
Bestehende Methoden wie Fréchet Audio Distance (FAD) sind hochempfindlich gegenüber der Testbeispielgröße und der Auswahl des Referenzsignals, mit begrenzter Zuverlässigkeit

Kernbeiträge

Neuartige Methode: Erstmalige Verwendung von schwach überwachten Labels und metrikem Lernen im Bereich der allgemeinen Audioqualität mit LoRA-Verfeinerung des Musik-Grundlagenmodells
Innovative Trainingsstrategie: Vorschlag eines schwach überwachten Trainingsziels basierend auf Rank-n-Contrast (RnC) Verlust, kombiniert mit ViSQOL-Pseudo-Labels und Kodierungsbitrate-Labels
Überlegene Leistung: Erreichung der höchsten Gesamtkorrelation in mehreren Hörtests (PCC: 0,918, SRCC: 0,889)
Starke Generalisierungsfähigkeit: Hervorragende Leistung sowohl bei der Erkennung von Kodierungsartefakten im Bereich als auch bei Quellentrennung außerhalb des Bereichs
Dualer Referenzmodus: Unterstützung sowohl für Vollreferenz- als auch für nicht übereinstimmende Referenzbewertungsmodi

Methodische Details

Aufgabendefinition

Konstruktion einer Einbettungsfunktion $f: X \rightarrow Z$ , die Audiosamples $x_i \in \mathbb{R}^D$ in einen Qualitätseinbettungsraum $Z$ abbildet, so dass Audios mit ähnlicher wahrgenommener Qualität im Einbettungsraum näher beieinander liegen und Audios mit großen Qualitätsunterschieden weiter auseinander liegen.

Modellarchitektur

Grundlagenmodell

MERT v1: Musik-Grundlagenmodell mit 95M Parametern, verwendet EnCodec als Tokenisierungsmethode während des Vortrainings
Architektur: 12 Transformer-Schichten, jeder Zeitrahmen erzeugt eine 13×768-dimensionale Merkmalsmatrix
Merkmalverarbeitung: Nach Durchschnittsbildung über die Zeitdimension und Abflachung zu einem 9.984-dimensionalen Vektor, eingegeben in nachfolgende Projektionsköpfe

Projektionskopf-Design

ReLU-Aktivierungsfunktion + lineare Schicht mit 256-dimensionaler Ausgabe
Zur Abbildung von MERT-Merkmalen in den qualitätswahrnehmenden Einbettungsraum

Schwach überwachtes Trainingsziel

Konstruktion von Proxy-Labels

ViSQOL-Labels: Verwendung von ViSQOL v3 zur Berechnung von MOS-Scores (1-5 Punkte) für jedes degradierte Signal relativ zur sauberen Referenz
Bitrate-Labels: Kodierungsbitrate als grobe Indikatoren für Audioqualität, saubere Signale erhalten $b = \infty$

Rank-n-Contrast Verlust

Der RnC-Verlust für ein einzelnes Sample ist definiert als:

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$

wobei $S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\}$ die Menge von Samples darstellt, die relativ zum Ankerpunkt $x_i$ höher bewertet sind als $x_j$ .

Gesamtverlustfunktion

$L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]$

Trainingsstrategie

LoRA-Verfeinerung

Einfügung von LoRA-Matrizen in die Abfrage- und Wertprojektionsschichten der Aufmerksamkeitsmodule
Rang 8, Skalierungsfaktor 16
Nur 2,93% der Modellparameter sind trainierbar, was eine wirksame Überanpassung bei kleinen Datensätzen verhindert

Trainingskonfiguration

Lernrate: 1×10⁻⁴, exponentielle Abnahme mit Faktor 0,99 nach 10 Epochen ohne Verbesserung
Gewichtsabfall: 0,01, Dropout-Rate: 0,05
Batch-Größe: 32

Experimentelle Einrichtung

Datensätze

Trainingsdaten

Umfang: Etwa 460 Stunden CD-Qualitätsmusik (44,1 kHz)
Kodierungsformate: Opus, mp3, AAC
Bitraten: 16, 32, 48, 64, 80, 96, 128 kbps
Datenteilung: 122 Stunden kodierte Musik pro Codec, 45 Stunden sauberes Signal
Validierungssatz: 50 Stunden Musik (8 Stunden sauber + 14 Stunden kodiert pro Codec)

Testsätze

Umfasst 9 Hörtests, unterteilt in zwei Kategorien:

Audiokodierung: IgorC96Multiformat, ODAQ, MPEG USAC Validierungstests (t1-t3)
Quellentrennung: 4 Teilmengen des SEBASS-Datensatzes (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Bewertungsmetriken

PCC: Pearson-Korrelationskoeffizient
SRCC: Spearman-Rangkorrelationskoeffizient

Vergleichsmethoden

Traditionelle Methoden: ViSQOL v3, PEAQ ODG, 2f-Modell, HAAQI
Grundlagenmodell-Methoden: Verfeinertes wav2vec 2.0, FAD (MERT-v1-95M)

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung

Höchste Korrelation: PCC = 0,918, SRCC = 0,889
Konsistente Leistung: Hohe Korrelation und konsistente Leistung in den meisten Testsätzen
Qualitätsbereich: Hervorragende Leistung im hohen Qualitätsbereich, leichte Unzulänglichkeiten im niedrigen Qualitätsbereich aufgrund von Datenmangel

Spezifische Testergebnisse

IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
ODAQ insgesamt: PCC = 0,916, SRCC = 0,868
USAC-Tests: PCC über 0,9 in allen t1-t3 Tests
Quellentrennung: Gesamt PCC = 0,919, SRCC = 0,787

Ablationsstudien

Vergleich von Trainingsstrategien

LoRA vs. vollständige Verfeinerung: LoRA zeigt bessere Leistung bei kleinen Datensätzen, Unterschied nimmt mit Datenwachstum ab
LoRA vs. gefrorener Projektionskopf: LoRA deutlich besser als nur Trainieren des Projektionskopfes

Vergleich von Grundlagenmodellen

MERT vs. wav2vec 2.0: MERT zeigt ausgewogenere Leistung bei Musik und Sprache, wav2vec 2.0 neigt zur Sprache

Verlustfunktionsanalyse

Hinzufügen des RnC-Verlustterms mit Bitrate-Ranking bringt 1-3% Leistungsverbesserung

Abbildungsfunktion

Kubische Polynom- und MLP-Abbildungen verbessern PCC erheblich, SRCC bleibt grundsätzlich unverändert
Zeigt nichtlineare Beziehung zwischen Einbettungsdistanz und subjektiven Scores

Generalisierungsanalyse

Generalisierung im Bereich: Hervorragende Leistung bei der Erkennung von Kodierungsartefakten
Generalisierung außerhalb des Bereichs: Gute Leistung bei ungesehenen Verzerrungstypen wie Quellentrennung
Generalisierung über Inhalte: Konsistente Leistung bei Musik, Sprache und gemischtem Inhalt

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

DeePAQ erweitert erfolgreich das Paradigma des metrischen Lernens aus der Sprachqualitätsbewertung auf den Bereich der allgemeinen Audioqualität
Die LoRA-Verfeinerungsstrategie verhindert effektiv Überanpassung bei kleinen Datensätzen
Multi-Source-Proxy-Labels (ViSQOL + Bitrate) verbessern die Modellrobustheit
Starke Generalisierungsfähigkeit macht es für verschiedene Verzerrungstypen anwendbar

Einschränkungen

Niedriger Qualitätsbereich: Aufgrund von Datenmangel nicht so gut wie 2f-Modell im niedrigen Qualitätsbereich
Herausforderungen bei Quellentrennung: PEASS-Testsatz stellt eine Herausforderung für alle objektiven Metriken dar
Trainingsdatenbeschränkungen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, begrenzte Abdeckung anderer Verzerrungstypen

Zukünftige Richtungen

Erweiterung der Trainingsdaten: Einbeziehung breiterer Verzerrungstypen zur Verbesserung der Generalisierungsfähigkeit
Verbesserung des nicht übereinstimmenden Referenzmodells: Verbesserung der Leistung durch vielfältigeres Training
End-to-End-Optimierung: Erkundung von Methoden zur direkten Optimierung der subjektiven Score-Vorhersage

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Anwendung von LoRA und schwach überwachtem Lernen auf Audioqualitätsbewertung
Rationale Methode: Geschicktes RnC-Verlust-Design, effektive Nutzung von Multi-Source-Proxy-Labels
Umfassende Experimente: Umfassende Bewertung auf 9 verschiedenen Hörtests
Starke Generalisierungsfähigkeit: Hervorragende Leistung bei Aufgaben außerhalb des Bereichs, beweist Methodenrobustheit

Mängel

Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum MERT für Audioqualitätsbewertung geeignet ist
Rechenkomplexität: Keine Diskussion des Rechenaufwands im Vergleich zu traditionellen Methoden
Begrenzte Verzerrungstypen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, unzureichende Abdeckung anderer Verzerrungstypen

Auswirkungen

Akademischer Wert: Bietet neue technische Wege für das Feld der Audioqualitätsbewertung
Praktischer Wert: Anwendbar auf Audiokodec-Entwicklung und Qualitätsüberwachung
Reproduzierbarkeit: Detaillierte Methodenbeschreibung, klare experimentelle Einrichtung

Anwendungsszenarien

Audiocodec-Bewertung: Besonders geeignet zur Erkennung von Kodierungsartefakten
Qualitätsüberwachung von Audioverarbeitungssystemen: Kann für Echtzeitqualitätsbewertung verwendet werden
Qualitätskontrolle von Multimedia-Inhalten: Geeignet für Qualitätsbewertung von Musik- und Sprachinhalten

Referenzen

Das Paper zitiert 26 wichtige Referenzen, die Kernarbeiten in den Bereichen Sprachqualitätsbewertung, Musik-Grundlagenmodelle und metrisches Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Paper im Bereich der Audioverarbeitung mit hervorragenden Leistungen in Methodikinnovation, Experimentdesign und Ergebnisanalyse. DeePAQ bringt einen neuen technologischen Durchbruch in das Feld der Audioqualitätsbewertung und hat wichtige akademische und praktische Bedeutung.