2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.

This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.

academic

DeePAQ: Una Métrica de Calidad de Audio Perceptual Basada en Modelos Fundamentales y Aprendizaje Débilmente Supervisado

Información Básica

ID del Artículo: 2510.12326
Título: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
Autores: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
Institución: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
Clasificación: eess.AS (Procesamiento de Audio y Voz)
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12326

Resumen

Este artículo propone DeePAQ, un método de métrica de calidad de audio perceptual basado en aprendizaje profundo para evaluar la calidad de audio general. El método combina aprendizaje métrico y el modelo fundamental de música MERT, construyendo un espacio de incrustación capaz de capturar la intensidad de distorsión de audio general bajo la guía de etiquetas proxy. Según el conocimiento de los autores, DeePAQ es el primer método en el campo de calidad de audio general que utiliza etiquetas débilmente supervisadas y aprendizaje métrico, ajustando el modelo fundamental de música mediante adaptación de bajo rango (LoRA). En pruebas de audición que abarcan codificación de audio y separación de fuentes, el método supera los estándares objetivos de calidad de audio existentes, demostrando un desempeño excepcional en la detección de artefactos de codificación y buena capacidad de generalización a distorsiones no vistas como la separación de fuentes.

Antecedentes y Motivación de la Investigación

Definición del Problema

La evaluación de calidad de audio es un problema central en el campo del procesamiento de audio. Aunque las pruebas de audición subjetivas tradicionales son precisas, son costosas en tiempo y recursos, por lo que se requieren métodos computacionales objetivos para estimar la calidad de audio perceptual.

Desafíos de Investigación

Escasez de Datos: En comparación con la evaluación de calidad de voz, las puntuaciones subjetivas de contenido musical bajo diferentes tipos de distorsión son más escasas y raramente están disponibles públicamente
Complejidad de Señales: En comparación con la voz, las señales musicales tienen mayor variabilidad, incluyendo estructuras armónicas más ricas, transitorios agudos de instrumentos y distorsiones intencionales introducidas por la expresión artística
Coincidencia de Distorsión: Las distorsiones que coinciden o se adaptan al contenido de la señal, como artefactos de codificación perceptual, son particularmente difíciles de separar

Limitaciones de Métodos Existentes

Los modelos fundamentales de música existentes (como MERT, CLAP) están principalmente optimizados para tareas posteriores como recuperación de información musical y clasificación de géneros
No está claro qué incrustación refleja mejor los aspectos perceptuales de la calidad musical
Los métodos existentes como Fréchet Audio Distance (FAD) son altamente sensibles al tamaño de muestra de prueba y la selección de señal de referencia, con confiabilidad limitada

Contribuciones Principales

Método Pionero: Primer uso de etiquetas débilmente supervisadas y aprendizaje métrico en el campo de calidad de audio general, ajustando el modelo fundamental de música mediante LoRA
Estrategia de Entrenamiento Innovadora: Propone un objetivo de entrenamiento débilmente supervisado basado en pérdida Rank-n-Contrast (RnC), combinando etiquetas proxy de ViSQOL y etiquetas de tasa de bits de codificación
Desempeño Excepcional: Logra la correlación general más alta en múltiples pruebas de audición (PCC: 0,918, SRCC: 0,889)
Fuerte Capacidad de Generalización: Demuestra excelente desempeño tanto en detección de artefactos de codificación dentro del dominio como en distorsiones de separación de fuentes fuera del dominio
Modo de Doble Referencia: Soporta dos modos de evaluación: referencia completa y referencia no coincidente

Explicación Detallada del Método

Definición de la Tarea

Construir una función de incrustación $f: X \rightarrow Z$ que mapee muestras de audio $x_i \in \mathbb{R}^D$ a un espacio de incrustación de calidad $Z$ , de modo que audios con calidad perceptual similar estén más cercanos en el espacio de incrustación, mientras que audios con gran diferencia de calidad estén más distantes.

Arquitectura del Modelo

Modelo Fundamental

MERT v1: Modelo fundamental de música con 95M parámetros, utilizando EnCodec como método de tokenización durante el preentrenamiento
Arquitectura: 12 capas de transformador, produciendo una matriz de características de 13×768 dimensiones por fotograma temporal
Procesamiento de Características: Promediado en la dimensión temporal seguido de aplanamiento a un vector de 9,984 dimensiones, entrada a la cabeza de proyección posterior

Diseño de la Cabeza de Proyección

Función de activación ReLU + capa lineal de 256 dimensiones de salida
Mapea características de MERT al espacio de incrustación consciente de calidad

Objetivo de Entrenamiento Débilmente Supervisado

Construcción de Etiquetas Proxy

Etiquetas ViSQOL: Utiliza ViSQOL v3 para calcular puntuaciones MOS (1-5) de cada señal degradada relativa a la referencia limpia
Etiquetas de Tasa de Bits: La tasa de bits de codificación como indicador aproximado de calidad de audio, asignando $b = \infty$ a señales limpias

Pérdida Rank-n-Contrast

La pérdida RnC de una sola muestra se define como:

$L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}$

donde $S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\}$ representa el conjunto de muestras clasificadas más alto que $x_j$ relativo al punto de anclaje $x_i$ .

Función de Pérdida General

$L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]$

Estrategia de Entrenamiento

Ajuste Fino LoRA

Inserción de matrices LoRA en las capas de proyección de consulta y valor de módulos de atención
Rango de 8, factor de escala de 16
Solo requiere 2,93% de parámetros del modelo entrenable, mitigando efectivamente el sobreajuste en conjuntos de datos pequeños

Configuración de Entrenamiento

Tasa de aprendizaje: 1×10⁻⁴, decaimiento exponencial por factor de 0,99 después de 10 épocas sin mejora
Decaimiento de peso: 0,01, tasa de dropout: 0,05
Tamaño de lote: 32

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento

Escala: Aproximadamente 460 horas de música de calidad CD (44,1 kHz)
Formatos de Codificación: Opus, mp3, AAC
Tasas de Bits: 16, 32, 48, 64, 80, 96, 128 kbps
División de Datos: 122 horas de audio codificado por códec, 45 horas de señal limpia
Conjunto de Validación: 50 horas de música (8 horas limpias + 14 horas codificadas por códec)

Conjunto de Prueba

Incluye 9 pruebas de audición, divididas en dos categorías:

Codificación de Audio: IgorC96Multiformat, ODAQ, pruebas de validación MPEG USAC (t1-t3)
Separación de Fuentes: 4 subconjuntos del conjunto de datos SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)

Métricas de Evaluación

PCC: Coeficiente de Correlación Lineal de Pearson
SRCC: Coeficiente de Correlación de Rango de Spearman

Métodos de Comparación

Métodos Tradicionales: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
Métodos de Modelos Fundamentales: wav2vec 2.0 ajustado, FAD (MERT-v1-95M)

Resultados Experimentales

Resultados Principales

Desempeño General

Correlación Más Alta: PCC = 0,918, SRCC = 0,889
Desempeño Consistente: Demuestra alta correlación y desempeño consistente en la mayoría de conjuntos de prueba
Rango de Calidad: Desempeño excepcional en rango de alta calidad, con rendimiento ligeramente inferior en rango de baja calidad debido a escasez de datos de entrenamiento

Desempeño en Pruebas Específicas

IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
ODAQ General: PCC = 0,916, SRCC = 0,868
Pruebas USAC: PCC superior a 0,9 en pruebas t1-t3
Separación de Fuentes: PCC general = 0,919, SRCC = 0,787

Experimentos de Ablación

Comparación de Estrategias de Entrenamiento

LoRA vs Ajuste Completo: LoRA muestra mejor desempeño en conjuntos de datos pequeños, con brecha reducida con crecimiento de datos
LoRA vs Cabeza de Proyección Congelada: LoRA significativamente superior al método de solo entrenar la cabeza de proyección

Comparación de Modelos Fundamentales

MERT vs wav2vec 2.0: MERT muestra equilibrio más uniforme en música y voz, wav2vec 2.0 sesgado hacia voz

Análisis de Función de Pérdida

La adición del término de pérdida RnC de ordenamiento de tasa de bits proporciona mejora de 1-3% en desempeño

Función de Mapeo

Mapeo polinomial cúbico y MLP mejoran significativamente PCC, SRCC básicamente sin cambios
Indica relación no lineal entre distancia de incrustación y puntuación subjetiva

Análisis de Capacidad de Generalización

Generalización Dentro del Dominio: Desempeño excepcional en detección de artefactos de codificación
Generalización Fuera del Dominio: Mantiene buen desempeño en tipos de distorsión no vistos como separación de fuentes
Generalización Entre Contenidos: Desempeño consistente en contenido de música, voz y mixto

Trabajo Relacionado

Evaluación de Calidad de Voz

Métodos representativos utilizan pérdida de tripletes para aprendizaje contrastivo
Aprovechan modelos fundamentales de voz como wav2vec 2.0 para codificar señales
Reflejan intensidad de degradación subjetiva mediante distancia euclidiana entre incrustaciones

Métricas de Calidad de Audio Tradicionales

PEAQ: Extrae características perceptuales de nivel intermedio (MOVs), combinadas mediante red neuronal para producir ODG
2f-model: Utiliza dos MOVs de PEAQ Basic, con correlación impresionante con puntuaciones subjetivas
HAAQI: Originalmente diseñado para aplicaciones de audífonos, puede usarse para audición normal omitiendo simulación de pérdida auditiva

Aplicaciones de Modelos Fundamentales de Música

FAD: Utilizado para evaluar incrustaciones de modelos de música generativa, pero sensible a tamaño de muestra y selección de señal de referencia
MERT/CLAP: Principalmente optimizados para tareas de recuperación de información musical

Conclusiones y Discusión

Conclusiones Principales

DeePAQ extiende exitosamente el paradigma de aprendizaje métrico de evaluación de calidad de voz al campo de audio general
La estrategia de ajuste fino LoRA previene efectivamente el sobreajuste en conjuntos de datos pequeños
Etiquetas proxy de múltiples fuentes (ViSQOL + tasa de bits) mejoran la robustez del modelo
La fuerte capacidad de generalización lo hace aplicable a múltiples tipos de distorsión

Limitaciones

Rango de Baja Calidad: Debido a escasez de datos de entrenamiento, desempeño inferior a 2f-model en rango de baja calidad
Desafío de Separación de Fuentes: El conjunto de prueba PEASS presenta desafío para todas las métricas objetivas
Limitación de Datos de Entrenamiento: Principalmente enfocado en artefactos de codificación, con cobertura limitada de otros tipos de distorsión

Direcciones Futuras

Expansión de Datos de Entrenamiento: Incluir tipos de distorsión más amplios para mejorar capacidad de generalización
Mejora del Modelo de Referencia No Coincidente: Mejorar desempeño mediante entrenamiento más diversificado
Optimización Extremo a Extremo: Explorar métodos que optimicen directamente la predicción de puntuaciones subjetivas

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer uso de LoRA y aprendizaje débilmente supervisado en evaluación de calidad de audio
Método Razonable: Diseño ingenioso de pérdida RnC, utilización efectiva de etiquetas proxy de múltiples fuentes
Experimentación Completa: Evaluación integral en 9 diferentes pruebas de audición
Capacidad de Generalización Fuerte: Desempeño excepcional en tareas fuera del dominio, demostrando robustez del método

Insuficiencias

Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué MERT es apropiado para evaluación de calidad de audio
Complejidad Computacional: No se discute el costo computacional en comparación con métodos tradicionales
Limitación de Tipos de Distorsión: Enfoque principal en artefactos de codificación, cobertura insuficiente de otros tipos de distorsión

Impacto

Valor Académico: Proporciona nueva ruta técnica para el campo de evaluación de calidad de audio
Valor Práctico: Aplicable al desarrollo de códecs de audio y monitoreo de calidad
Reproducibilidad: Descripción detallada del método, configuración experimental clara

Escenarios de Aplicación

Evaluación de Códecs de Audio: Particularmente adecuado para detección de artefactos de codificación
Monitoreo de Calidad de Sistemas de Procesamiento de Audio: Puede usarse para evaluación de calidad en tiempo real
Control de Calidad de Contenido Multimedia: Aplicable a evaluación de calidad de contenido de música y voz

Referencias

El artículo cita 26 referencias importantes que abarcan evaluación de calidad de voz, modelos fundamentales de música, aprendizaje métrico y otros campos relacionados, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad en el campo del procesamiento de audio, demostrando excelencia en innovación de métodos, diseño experimental y análisis de resultados. DeePAQ aporta un avance tecnológico significativo al campo de evaluación de calidad de audio, con importante valor académico y práctico.