This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- ID del Artículo: 2510.12326
- Título: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- Autores: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- Institución: International Audio Laboratories Erlangen, Fraunhofer Institute for Integrated Circuits IIS
- Clasificación: eess.AS (Procesamiento de Audio y Voz)
- Fecha de Publicación: 14 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.12326
Este artículo propone DeePAQ, un método de métrica de calidad de audio perceptual basado en aprendizaje profundo para evaluar la calidad de audio general. El método combina aprendizaje métrico y el modelo fundamental de música MERT, construyendo un espacio de incrustación capaz de capturar la intensidad de distorsión de audio general bajo la guía de etiquetas proxy. Según el conocimiento de los autores, DeePAQ es el primer método en el campo de calidad de audio general que utiliza etiquetas débilmente supervisadas y aprendizaje métrico, ajustando el modelo fundamental de música mediante adaptación de bajo rango (LoRA). En pruebas de audición que abarcan codificación de audio y separación de fuentes, el método supera los estándares objetivos de calidad de audio existentes, demostrando un desempeño excepcional en la detección de artefactos de codificación y buena capacidad de generalización a distorsiones no vistas como la separación de fuentes.
La evaluación de calidad de audio es un problema central en el campo del procesamiento de audio. Aunque las pruebas de audición subjetivas tradicionales son precisas, son costosas en tiempo y recursos, por lo que se requieren métodos computacionales objetivos para estimar la calidad de audio perceptual.
- Escasez de Datos: En comparación con la evaluación de calidad de voz, las puntuaciones subjetivas de contenido musical bajo diferentes tipos de distorsión son más escasas y raramente están disponibles públicamente
- Complejidad de Señales: En comparación con la voz, las señales musicales tienen mayor variabilidad, incluyendo estructuras armónicas más ricas, transitorios agudos de instrumentos y distorsiones intencionales introducidas por la expresión artística
- Coincidencia de Distorsión: Las distorsiones que coinciden o se adaptan al contenido de la señal, como artefactos de codificación perceptual, son particularmente difíciles de separar
- Los modelos fundamentales de música existentes (como MERT, CLAP) están principalmente optimizados para tareas posteriores como recuperación de información musical y clasificación de géneros
- No está claro qué incrustación refleja mejor los aspectos perceptuales de la calidad musical
- Los métodos existentes como Fréchet Audio Distance (FAD) son altamente sensibles al tamaño de muestra de prueba y la selección de señal de referencia, con confiabilidad limitada
- Método Pionero: Primer uso de etiquetas débilmente supervisadas y aprendizaje métrico en el campo de calidad de audio general, ajustando el modelo fundamental de música mediante LoRA
- Estrategia de Entrenamiento Innovadora: Propone un objetivo de entrenamiento débilmente supervisado basado en pérdida Rank-n-Contrast (RnC), combinando etiquetas proxy de ViSQOL y etiquetas de tasa de bits de codificación
- Desempeño Excepcional: Logra la correlación general más alta en múltiples pruebas de audición (PCC: 0,918, SRCC: 0,889)
- Fuerte Capacidad de Generalización: Demuestra excelente desempeño tanto en detección de artefactos de codificación dentro del dominio como en distorsiones de separación de fuentes fuera del dominio
- Modo de Doble Referencia: Soporta dos modos de evaluación: referencia completa y referencia no coincidente
Construir una función de incrustación f:X→Z que mapee muestras de audio xi∈RD a un espacio de incrustación de calidad Z, de modo que audios con calidad perceptual similar estén más cercanos en el espacio de incrustación, mientras que audios con gran diferencia de calidad estén más distantes.
- MERT v1: Modelo fundamental de música con 95M parámetros, utilizando EnCodec como método de tokenización durante el preentrenamiento
- Arquitectura: 12 capas de transformador, produciendo una matriz de características de 13×768 dimensiones por fotograma temporal
- Procesamiento de Características: Promediado en la dimensión temporal seguido de aplanamiento a un vector de 9,984 dimensiones, entrada a la cabeza de proyección posterior
- Función de activación ReLU + capa lineal de 256 dimensiones de salida
- Mapea características de MERT al espacio de incrustación consciente de calidad
- Etiquetas ViSQOL: Utiliza ViSQOL v3 para calcular puntuaciones MOS (1-5) de cada señal degradada relativa a la referencia limpia
- Etiquetas de Tasa de Bits: La tasa de bits de codificación como indicador aproximado de calidad de audio, asignando b=∞ a señales limpias
La pérdida RnC de una sola muestra se define como:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
donde Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} representa el conjunto de muestras clasificadas más alto que xj relativo al punto de anclaje xi.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- Inserción de matrices LoRA en las capas de proyección de consulta y valor de módulos de atención
- Rango de 8, factor de escala de 16
- Solo requiere 2,93% de parámetros del modelo entrenable, mitigando efectivamente el sobreajuste en conjuntos de datos pequeños
- Tasa de aprendizaje: 1×10⁻⁴, decaimiento exponencial por factor de 0,99 después de 10 épocas sin mejora
- Decaimiento de peso: 0,01, tasa de dropout: 0,05
- Tamaño de lote: 32
- Escala: Aproximadamente 460 horas de música de calidad CD (44,1 kHz)
- Formatos de Codificación: Opus, mp3, AAC
- Tasas de Bits: 16, 32, 48, 64, 80, 96, 128 kbps
- División de Datos: 122 horas de audio codificado por códec, 45 horas de señal limpia
- Conjunto de Validación: 50 horas de música (8 horas limpias + 14 horas codificadas por códec)
Incluye 9 pruebas de audición, divididas en dos categorías:
- Codificación de Audio: IgorC96Multiformat, ODAQ, pruebas de validación MPEG USAC (t1-t3)
- Separación de Fuentes: 4 subconjuntos del conjunto de datos SEBASS (PEASS BAQ, SAOC DB, SASSEC, SiSEC08)
- PCC: Coeficiente de Correlación Lineal de Pearson
- SRCC: Coeficiente de Correlación de Rango de Spearman
- Métodos Tradicionales: ViSQOL v3, PEAQ ODG, 2f-model, HAAQI
- Métodos de Modelos Fundamentales: wav2vec 2.0 ajustado, FAD (MERT-v1-95M)
- Correlación Más Alta: PCC = 0,918, SRCC = 0,889
- Desempeño Consistente: Demuestra alta correlación y desempeño consistente en la mayoría de conjuntos de prueba
- Rango de Calidad: Desempeño excepcional en rango de alta calidad, con rendimiento ligeramente inferior en rango de baja calidad debido a escasez de datos de entrenamiento
- IgorC96Multiformat: PCC = 0,954, SRCC = 0,848
- ODAQ General: PCC = 0,916, SRCC = 0,868
- Pruebas USAC: PCC superior a 0,9 en pruebas t1-t3
- Separación de Fuentes: PCC general = 0,919, SRCC = 0,787
- LoRA vs Ajuste Completo: LoRA muestra mejor desempeño en conjuntos de datos pequeños, con brecha reducida con crecimiento de datos
- LoRA vs Cabeza de Proyección Congelada: LoRA significativamente superior al método de solo entrenar la cabeza de proyección
- MERT vs wav2vec 2.0: MERT muestra equilibrio más uniforme en música y voz, wav2vec 2.0 sesgado hacia voz
- La adición del término de pérdida RnC de ordenamiento de tasa de bits proporciona mejora de 1-3% en desempeño
- Mapeo polinomial cúbico y MLP mejoran significativamente PCC, SRCC básicamente sin cambios
- Indica relación no lineal entre distancia de incrustación y puntuación subjetiva
- Generalización Dentro del Dominio: Desempeño excepcional en detección de artefactos de codificación
- Generalización Fuera del Dominio: Mantiene buen desempeño en tipos de distorsión no vistos como separación de fuentes
- Generalización Entre Contenidos: Desempeño consistente en contenido de música, voz y mixto
- Métodos representativos utilizan pérdida de tripletes para aprendizaje contrastivo
- Aprovechan modelos fundamentales de voz como wav2vec 2.0 para codificar señales
- Reflejan intensidad de degradación subjetiva mediante distancia euclidiana entre incrustaciones
- PEAQ: Extrae características perceptuales de nivel intermedio (MOVs), combinadas mediante red neuronal para producir ODG
- 2f-model: Utiliza dos MOVs de PEAQ Basic, con correlación impresionante con puntuaciones subjetivas
- HAAQI: Originalmente diseñado para aplicaciones de audífonos, puede usarse para audición normal omitiendo simulación de pérdida auditiva
- FAD: Utilizado para evaluar incrustaciones de modelos de música generativa, pero sensible a tamaño de muestra y selección de señal de referencia
- MERT/CLAP: Principalmente optimizados para tareas de recuperación de información musical
- DeePAQ extiende exitosamente el paradigma de aprendizaje métrico de evaluación de calidad de voz al campo de audio general
- La estrategia de ajuste fino LoRA previene efectivamente el sobreajuste en conjuntos de datos pequeños
- Etiquetas proxy de múltiples fuentes (ViSQOL + tasa de bits) mejoran la robustez del modelo
- La fuerte capacidad de generalización lo hace aplicable a múltiples tipos de distorsión
- Rango de Baja Calidad: Debido a escasez de datos de entrenamiento, desempeño inferior a 2f-model en rango de baja calidad
- Desafío de Separación de Fuentes: El conjunto de prueba PEASS presenta desafío para todas las métricas objetivas
- Limitación de Datos de Entrenamiento: Principalmente enfocado en artefactos de codificación, con cobertura limitada de otros tipos de distorsión
- Expansión de Datos de Entrenamiento: Incluir tipos de distorsión más amplios para mejorar capacidad de generalización
- Mejora del Modelo de Referencia No Coincidente: Mejorar desempeño mediante entrenamiento más diversificado
- Optimización Extremo a Extremo: Explorar métodos que optimicen directamente la predicción de puntuaciones subjetivas
- Innovación Fuerte: Primer uso de LoRA y aprendizaje débilmente supervisado en evaluación de calidad de audio
- Método Razonable: Diseño ingenioso de pérdida RnC, utilización efectiva de etiquetas proxy de múltiples fuentes
- Experimentación Completa: Evaluación integral en 9 diferentes pruebas de audición
- Capacidad de Generalización Fuerte: Desempeño excepcional en tareas fuera del dominio, demostrando robustez del método
- Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué MERT es apropiado para evaluación de calidad de audio
- Complejidad Computacional: No se discute el costo computacional en comparación con métodos tradicionales
- Limitación de Tipos de Distorsión: Enfoque principal en artefactos de codificación, cobertura insuficiente de otros tipos de distorsión
- Valor Académico: Proporciona nueva ruta técnica para el campo de evaluación de calidad de audio
- Valor Práctico: Aplicable al desarrollo de códecs de audio y monitoreo de calidad
- Reproducibilidad: Descripción detallada del método, configuración experimental clara
- Evaluación de Códecs de Audio: Particularmente adecuado para detección de artefactos de codificación
- Monitoreo de Calidad de Sistemas de Procesamiento de Audio: Puede usarse para evaluación de calidad en tiempo real
- Control de Calidad de Contenido Multimedia: Aplicable a evaluación de calidad de contenido de música y voz
El artículo cita 26 referencias importantes que abarcan evaluación de calidad de voz, modelos fundamentales de música, aprendizaje métrico y otros campos relacionados, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en el campo del procesamiento de audio, demostrando excelencia en innovación de métodos, diseño experimental y análisis de resultados. DeePAQ aporta un avance tecnológico significativo al campo de evaluación de calidad de audio, con importante valor académico y práctico.