This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- Paper-ID: 2510.12326
- Titel: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- Autoren: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- Institution: International Audio Laboratories Erlangen, Fraunhofer-Institut für Integrierte Schaltungen IIS
- Klassifizierung: eess.AS (Audio- und Sprachverarbeitung)
- Veröffentlichungsdatum: 14. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.12326
In diesem Artikel wird DeePAQ, eine auf tiefem Lernen basierende Methode zur Wahrnehmung der Audioqualität, vorgestellt, um die allgemeine Audioqualität zu bewerten. Die Methode kombiniert metrisches Lernen mit dem Musik-Grundlagenmodell MERT und konstruiert durch Proxy-Label-Anleitung einen Einbettungsraum, der die Intensität allgemeiner Audioverzerrungen erfassen kann. Nach Aussage der Autoren ist DeePAQ die erste Methode im Bereich der allgemeinen Audioqualität, die schwach überwachte Label und metrisches Lernen nutzt und das Musik-Grundlagenmodell durch Low-Rank-Adaptation (LoRA) verfeinert. In Hörtests, die Audiokodierung und Quellentrennung abdecken, übertrifft die Methode bestehende objektive Audioqualitätsmetriken, zeigt hervorragende Leistungen bei der Erkennung von Kodierungsartefakten und weist gute Generalisierungsfähigkeiten für ungesehene Verzerrungen wie Quellentrennung auf.
Die Audioqualitätsbewertung ist ein Kernproblem im Bereich der Audioverarbeitung. Obwohl subjektive Hörtests genau sind, sind sie zeitaufwändig, teuer und unpraktisch. Daher werden objektive Rechenmethoden zur Schätzung der wahrgenommenen Audioqualität benötigt.
- Datenmangel: Im Vergleich zur Sprachqualitätsbewertung sind subjektive Bewertungen von Musikinhalten unter verschiedenen Verzerrungstypen seltener und selten öffentlich verfügbar
- Signalkomplexität: Im Vergleich zu Sprache weist das Musiksignal größere Variabilität auf, einschließlich reicherer harmonischer Strukturen, scharfer Transienten von Instrumenten und beabsichtigter Verzerrungen durch künstlerischen Ausdruck
- Verzerrungsanpassung: Verzerrungen, die mit dem Signalinhalt übereinstimmen oder sich anpassen, wie Kodierungsartefakte, sind besonders schwer zu trennen
- Bestehende Musik-Grundlagenmodelle (wie MERT, CLAP) sind hauptsächlich für nachgelagerte Aufgaben wie Musikinformationsabruf und Genreklassifizierung optimiert
- Unklar ist, welche Einbettung die wahrgenommenen Aspekte der Musikqualität am besten widerspiegelt
- Bestehende Methoden wie Fréchet Audio Distance (FAD) sind hochempfindlich gegenüber der Testbeispielgröße und der Auswahl des Referenzsignals, mit begrenzter Zuverlässigkeit
- Neuartige Methode: Erstmalige Verwendung von schwach überwachten Labels und metrikem Lernen im Bereich der allgemeinen Audioqualität mit LoRA-Verfeinerung des Musik-Grundlagenmodells
- Innovative Trainingsstrategie: Vorschlag eines schwach überwachten Trainingsziels basierend auf Rank-n-Contrast (RnC) Verlust, kombiniert mit ViSQOL-Pseudo-Labels und Kodierungsbitrate-Labels
- Überlegene Leistung: Erreichung der höchsten Gesamtkorrelation in mehreren Hörtests (PCC: 0,918, SRCC: 0,889)
- Starke Generalisierungsfähigkeit: Hervorragende Leistung sowohl bei der Erkennung von Kodierungsartefakten im Bereich als auch bei Quellentrennung außerhalb des Bereichs
- Dualer Referenzmodus: Unterstützung sowohl für Vollreferenz- als auch für nicht übereinstimmende Referenzbewertungsmodi
Konstruktion einer Einbettungsfunktion f:X→Z, die Audiosamples xi∈RD in einen Qualitätseinbettungsraum Z abbildet, so dass Audios mit ähnlicher wahrgenommener Qualität im Einbettungsraum näher beieinander liegen und Audios mit großen Qualitätsunterschieden weiter auseinander liegen.
- MERT v1: Musik-Grundlagenmodell mit 95M Parametern, verwendet EnCodec als Tokenisierungsmethode während des Vortrainings
- Architektur: 12 Transformer-Schichten, jeder Zeitrahmen erzeugt eine 13×768-dimensionale Merkmalsmatrix
- Merkmalverarbeitung: Nach Durchschnittsbildung über die Zeitdimension und Abflachung zu einem 9.984-dimensionalen Vektor, eingegeben in nachfolgende Projektionsköpfe
- ReLU-Aktivierungsfunktion + lineare Schicht mit 256-dimensionaler Ausgabe
- Zur Abbildung von MERT-Merkmalen in den qualitätswahrnehmenden Einbettungsraum
- ViSQOL-Labels: Verwendung von ViSQOL v3 zur Berechnung von MOS-Scores (1-5 Punkte) für jedes degradierte Signal relativ zur sauberen Referenz
- Bitrate-Labels: Kodierungsbitrate als grobe Indikatoren für Audioqualität, saubere Signale erhalten b=∞
Der RnC-Verlust für ein einzelnes Sample ist definiert als:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
wobei Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} die Menge von Samples darstellt, die relativ zum Ankerpunkt xi höher bewertet sind als xj.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- Einfügung von LoRA-Matrizen in die Abfrage- und Wertprojektionsschichten der Aufmerksamkeitsmodule
- Rang 8, Skalierungsfaktor 16
- Nur 2,93% der Modellparameter sind trainierbar, was eine wirksame Überanpassung bei kleinen Datensätzen verhindert
- Lernrate: 1×10⁻⁴, exponentielle Abnahme mit Faktor 0,99 nach 10 Epochen ohne Verbesserung
- Gewichtsabfall: 0,01, Dropout-Rate: 0,05
- Batch-Größe: 32
- Umfang: Etwa 460 Stunden CD-Qualitätsmusik (44,1 kHz)
- Kodierungsformate: Opus, mp3, AAC
- Bitraten: 16, 32, 48, 64, 80, 96, 128 kbps
- Datenteilung: 122 Stunden kodierte Musik pro Codec, 45 Stunden sauberes Signal
- Validierungssatz: 50 Stunden Musik (8 Stunden sauber + 14 Stunden kodiert pro Codec)
Umfasst 9 Hörtests, unterteilt in zwei Kategorien:
- Audiokodierung: IgorC96Multiformat, ODAQ, MPEG USAC Validierungstests (t1-t3)
- Quellentrennung: 4 Teilmengen des SEBASS-Datensatzes (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)
- PCC: Pearson-Korrelationskoeffizient
- SRCC: Spearman-Rangkorrelationskoeffizient
- Traditionelle Methoden: ViSQOL v3, PEAQ ODG, 2f-Modell, HAAQI
- Grundlagenmodell-Methoden: Verfeinertes wav2vec 2.0, FAD (MERT-v1-95M)
- Höchste Korrelation: PCC = 0,918, SRCC = 0,889
- Konsistente Leistung: Hohe Korrelation und konsistente Leistung in den meisten Testsätzen
- Qualitätsbereich: Hervorragende Leistung im hohen Qualitätsbereich, leichte Unzulänglichkeiten im niedrigen Qualitätsbereich aufgrund von Datenmangel
- IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
- ODAQ insgesamt: PCC = 0,916, SRCC = 0,868
- USAC-Tests: PCC über 0,9 in allen t1-t3 Tests
- Quellentrennung: Gesamt PCC = 0,919, SRCC = 0,787
- LoRA vs. vollständige Verfeinerung: LoRA zeigt bessere Leistung bei kleinen Datensätzen, Unterschied nimmt mit Datenwachstum ab
- LoRA vs. gefrorener Projektionskopf: LoRA deutlich besser als nur Trainieren des Projektionskopfes
- MERT vs. wav2vec 2.0: MERT zeigt ausgewogenere Leistung bei Musik und Sprache, wav2vec 2.0 neigt zur Sprache
- Hinzufügen des RnC-Verlustterms mit Bitrate-Ranking bringt 1-3% Leistungsverbesserung
- Kubische Polynom- und MLP-Abbildungen verbessern PCC erheblich, SRCC bleibt grundsätzlich unverändert
- Zeigt nichtlineare Beziehung zwischen Einbettungsdistanz und subjektiven Scores
- Generalisierung im Bereich: Hervorragende Leistung bei der Erkennung von Kodierungsartefakten
- Generalisierung außerhalb des Bereichs: Gute Leistung bei ungesehenen Verzerrungstypen wie Quellentrennung
- Generalisierung über Inhalte: Konsistente Leistung bei Musik, Sprache und gemischtem Inhalt
- Repräsentative Methoden verwenden Triplet-Verlust für kontrastives Lernen
- Nutzung von Sprachgrundlagenmodellen wie wav2vec 2.0 zur Signalcodierung
- Widerspiegelung der subjektiven Degradationsintensität durch euklidische Distanz zwischen Einbettungen
- PEAQ: Extraktion von mittleren Wahrnehmungsmerkmalen (MOVs), Kombination durch neuronale Netze zur Erzeugung von ODG
- 2f-Modell: Nutzung von zwei MOVs von PEAQ Basic mit beeindruckender Korrelation zu subjektiven Scores
- HAAQI: Ursprünglich für Hörgeräte-Anwendungen konzipiert, kann durch Umgehung der Hörverlustmodellierung für normales Gehör verwendet werden
- FAD: Verwendet zur Bewertung von Einbettungen generativer Musikmodelle, aber empfindlich gegenüber Stichprobengröße und Referenzsignalauswahl
- MERT/CLAP: Hauptsächlich für Musikinformationsabruf-Aufgaben optimiert
- DeePAQ erweitert erfolgreich das Paradigma des metrischen Lernens aus der Sprachqualitätsbewertung auf den Bereich der allgemeinen Audioqualität
- Die LoRA-Verfeinerungsstrategie verhindert effektiv Überanpassung bei kleinen Datensätzen
- Multi-Source-Proxy-Labels (ViSQOL + Bitrate) verbessern die Modellrobustheit
- Starke Generalisierungsfähigkeit macht es für verschiedene Verzerrungstypen anwendbar
- Niedriger Qualitätsbereich: Aufgrund von Datenmangel nicht so gut wie 2f-Modell im niedrigen Qualitätsbereich
- Herausforderungen bei Quellentrennung: PEASS-Testsatz stellt eine Herausforderung für alle objektiven Metriken dar
- Trainingsdatenbeschränkungen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, begrenzte Abdeckung anderer Verzerrungstypen
- Erweiterung der Trainingsdaten: Einbeziehung breiterer Verzerrungstypen zur Verbesserung der Generalisierungsfähigkeit
- Verbesserung des nicht übereinstimmenden Referenzmodells: Verbesserung der Leistung durch vielfältigeres Training
- End-to-End-Optimierung: Erkundung von Methoden zur direkten Optimierung der subjektiven Score-Vorhersage
- Starke Innovativität: Erstmalige Anwendung von LoRA und schwach überwachtem Lernen auf Audioqualitätsbewertung
- Rationale Methode: Geschicktes RnC-Verlust-Design, effektive Nutzung von Multi-Source-Proxy-Labels
- Umfassende Experimente: Umfassende Bewertung auf 9 verschiedenen Hörtests
- Starke Generalisierungsfähigkeit: Hervorragende Leistung bei Aufgaben außerhalb des Bereichs, beweist Methodenrobustheit
- Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum MERT für Audioqualitätsbewertung geeignet ist
- Rechenkomplexität: Keine Diskussion des Rechenaufwands im Vergleich zu traditionellen Methoden
- Begrenzte Verzerrungstypen: Hauptsächlich auf Kodierungsartefakte ausgerichtet, unzureichende Abdeckung anderer Verzerrungstypen
- Akademischer Wert: Bietet neue technische Wege für das Feld der Audioqualitätsbewertung
- Praktischer Wert: Anwendbar auf Audiokodec-Entwicklung und Qualitätsüberwachung
- Reproduzierbarkeit: Detaillierte Methodenbeschreibung, klare experimentelle Einrichtung
- Audiocodec-Bewertung: Besonders geeignet zur Erkennung von Kodierungsartefakten
- Qualitätsüberwachung von Audioverarbeitungssystemen: Kann für Echtzeitqualitätsbewertung verwendet werden
- Qualitätskontrolle von Multimedia-Inhalten: Geeignet für Qualitätsbewertung von Musik- und Sprachinhalten
Das Paper zitiert 26 wichtige Referenzen, die Kernarbeiten in den Bereichen Sprachqualitätsbewertung, Musik-Grundlagenmodelle und metrisches Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Paper im Bereich der Audioverarbeitung mit hervorragenden Leistungen in Methodikinnovation, Experimentdesign und Ergebnisanalyse. DeePAQ bringt einen neuen technologischen Durchbruch in das Feld der Audioqualitätsbewertung und hat wichtige akademische und praktische Bedeutung.