This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
- معرّف الورقة: 2510.12326
- العنوان: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
- المؤلفون: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
- المؤسسات: المختبرات الدولية للصوت إرلانجن، معهد فراونهوفر للدوائر المتكاملة IIS
- التصنيف: eess.AS (معالجة الصوت والكلام)
- تاريخ النشر: 14 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.12326
تقترح هذه الورقة طريقة DeePAQ لقياس جودة الصوت الإدراكي القائمة على التعلم العميق، لتقييم جودة الصوت العامة. تجمع الطريقة بين تعلم المقاييس والنموذج الأساسي للموسيقى MERT، من خلال بناء فضاء تضمين موجه بواسطة العلامات الوكيلة يمكنه التقاط شدة التشوهات الصوتية العامة. وفقاً لمعرفة المؤلفين، يعتبر DeePAQ أول طريقة في مجال جودة الصوت العامة تستخدم العلامات الضعيفة الإشراف وتعلم المقاييس، مع ضبط دقيق للنموذج الأساسي للموسيقى باستخدام التكيف منخفض الرتبة (LoRA). في الاختبارات السمعية التي تغطي ترميز الصوت وفصل المصدر، تتفوق الطريقة على معايير جودة الصوت الموضوعية الحالية، وتظهر أداءً ممتازاً في كشف الأخطاء الترميزية، وتتمتع بقدرة تعميم جيدة على التشوهات غير المرئية مثل فصل المصدر.
يعتبر تقييم جودة الصوت مشكلة أساسية في مجال معالجة الصوت. على الرغم من أن الاختبارات السمعية الذاتية التقليدية دقيقة، إلا أنها مكلفة وتستغرق وقتاً طويلاً وغير عملية، لذلك يتطلب الأمر طرقاً حسابية موضوعية لتقدير جودة الصوت الإدراكية.
- ندرة البيانات: مقارنة بتقييم جودة الكلام، تكون الدرجات الذاتية لمحتوى الموسيقى تحت أنواع تشوه مختلفة أكثر ندرة وقلما تكون متاحة للجمهور
- تعقيد الإشارة: مقارنة بالكلام، تتمتع إشارات الموسيقى بتنوع أكبر، بما في ذلك هيكل توافقي أكثر ثراءً، وانتقالات حادة من الآلات الموسيقية، وتشوهات مقصودة تقدمها التعبيرات الفنية
- توافق التشوه: يصعب بشكل خاص فصل التشوهات التي تتطابق أو تتكيف مع محتوى الإشارة، مثل أخطاء الترميز الإدراكي
- تركز النماذج الأساسية للموسيقى الموجودة (مثل MERT و CLAP) بشكل أساسي على تحسين المهام النهائية مثل استرجاع معلومات الموسيقى وتصنيف الأنواع
- لا يزال غير واضح أي تضمين يعكس بشكل أفضل الجوانب الإدراكية لجودة الموسيقى
- الطرق الموجودة مثل Fréchet Audio Distance (FAD) حساسة جداً لحجم العينة الاختبارية واختيار الإشارة المرجعية، مما يحد من موثوقيتها
- طريقة رائدة: استخدام أول لعلامات ضعيفة الإشراف وتعلم المقاييس في مجال جودة الصوت العامة، مع ضبط دقيق للنموذج الأساسي للموسيقى باستخدام LoRA
- استراتيجية تدريب مبتكرة: اقتراح هدف تدريب ضعيف الإشراف قائم على خسارة Rank-n-Contrast (RnC)، مع دمج علامات ViSQOL الوكيلة وعلامات معدل البت
- أداء متفوق: تحقيق أعلى ارتباط شامل في اختبارات سمعية متعددة (PCC: 0.918, SRCC: 0.889)
- قدرة تعميم قوية: أداء ممتاز في كشف أخطاء الترميز داخل المجال وتشوهات فصل المصدر خارج المجال
- وضع مرجع مزدوج: دعم أوضاع التقييم الكاملة المرجعية والمرجعية غير المتطابقة
بناء دالة التضمين f:X→Z، التي تعيّن عينات الصوت xi∈RD إلى فضاء تضمين الجودة Z، بحيث تكون الأصوات ذات الجودة الإدراكية المتشابهة قريبة في فضاء التضمين، والأصوات ذات الفروقات الكبيرة في الجودة بعيدة عن بعضها.
- MERT v1: نموذج أساسي للموسيقى بـ 95 مليون معامل، يستخدم EnCodec كطريقة توكنيزيشن أثناء التدريب المسبق
- المعمارية: 12 طبقة محول، كل إطار زمني ينتج مصفوفة ميزات بحجم 13×768
- معالجة الميزات: بعد حساب المتوسط على البعد الزمني وتسطيح المصفوفة إلى متجه 9,984 بعد، يتم إدخاله إلى رأس الإسقاط اللاحق
- دالة تفعيل ReLU + طبقة خطية بـ 256 بعد للإخراج
- تُستخدم لتعيين ميزات MERT إلى فضاء التضمين الحساس للجودة
- علامات ViSQOL: استخدام ViSQOL v3 لحساب درجة MOS لكل إشارة متدهورة بالنسبة للمرجع النظيف (1-5 درجات)
- علامات معدل البت: معدل البت الترميزي كمؤشر تقريبي لجودة الصوت، مع إسناد b=∞ للإشارات النظيفة
يتم تعريف خسارة RnC للعينة الواحدة كالتالي:
LRNCp(xi)=−N−11∑j=1,j=iNlog∑xk∈Si,jpexp(∥f(xi)−f(xk)∥2)exp(∥f(xi)−f(xj)∥2)
حيث Si,jp:={xk∈X∣k=i,∣yip−ykp∣≥∣yip−yjp∣} تمثل مجموعة العينات التي تحتل مرتبة أعلى من xj بالنسبة للنقطة المرجعية xi.
LRNC=N1[∑i=1NLRNCViSQOL(xi)+∑xi∈XcodedLRNCp(xi)]
- إدراج مصفوفات LoRA في طبقات الاستعلام والقيمة للإسقاط في وحدات الانتباه
- رتبة 8، مع عامل تحجيم 16
- يتطلب فقط 2.93% من معاملات النموذج قابلة للتدريب، مما يخفف بشكل فعال من الإفراط في التدريب على مجموعات البيانات الصغيرة
- معدل التعلم: 1×10⁻⁴، مع تحلل أسي بمعامل 0.99 بعد 10 حقب بدون تحسن
- تحلل الأوزان: 0.01، معدل الإسقاط: 0.05
- حجم الدفعة: 32
- الحجم: حوالي 460 ساعة من موسيقى جودة CD (44.1 كيلوهرتز)
- صيغ الترميز: Opus و mp3 و AAC
- معدلات البت: 16, 32, 48, 64, 80, 96, 128 كيلوبت/ثانية
- تقسيم البيانات: 122 ساعة صوت مرمز لكل برنامج ترميز، 45 ساعة إشارة نظيفة
- مجموعة التحقق: 50 ساعة موسيقى (8 ساعات نظيفة + 14 ساعة مرمزة لكل برنامج ترميز)
تتضمن 9 اختبارات سمعية، مقسمة إلى فئتين:
- ترميز الصوت: IgorC96Multiformat و ODAQ واختبارات التحقق من MPEG USAC (t1-t3)
- فصل المصدر: 4 مجموعات فرعية من مجموعة بيانات SEBASS (PEASS BAQ و SAOC DB و SASSEC و SiSEC08)
- PCC: معامل الارتباط الخطي لبيرسون
- SRCC: معامل ارتباط رتبة سبيرمان
- الطرق التقليدية: ViSQOL v3 و PEAQ ODG و 2f-model و HAAQI
- طرق النموذج الأساسي: wav2vec 2.0 المضبوط بدقة و FAD (MERT-v1-95M)
- أعلى ارتباط: PCC = 0.918, SRCC = 0.889
- الأداء المتسق: أداء عالية الارتباط والاتساق في معظم مجموعات الاختبار
- نطاق الجودة: أداء ممتاز في نطاق الجودة العالية، مع نقص طفيف في نطاق الجودة المنخفضة بسبب ندرة بيانات التدريب
- IgorC96Multiformat: PCC = 0.954, SRCC = 0.848
- ODAQ الشامل: PCC = 0.916, SRCC = 0.868
- اختبارات USAC: تحقيق PCC أعلى من 0.9 في جميع اختبارات t1-t3
- فصل المصدر: PCC الشامل = 0.919, SRCC = 0.787
- LoRA مقابل الضبط الدقيق الكامل: يظهر LoRA أداءً أفضل على مجموعات البيانات الصغيرة، مع تضاؤل الفجوة مع نمو البيانات
- LoRA مقابل تجميد رأس الإسقاط: يتفوق LoRA بشكل كبير على طريقة تدريب رأس الإسقاط فقط
- MERT مقابل wav2vec 2.0: يظهر MERT توازناً أفضل بين الموسيقى والكلام، بينما يميل wav2vec 2.0 نحو الكلام
- إضافة حد خسارة RnC مع ترتيب معدل البت يحقق تحسناً بنسبة 1-3% في الأداء
- يحقق التعيين متعدد الحدود من الدرجة الثالثة و MLP تحسناً كبيراً في PCC، مع بقاء SRCC دون تغيير تقريباً
- يشير إلى وجود علاقة غير خطية بين مسافة التضمين والدرجات الذاتية
- التعميم داخل المجال: أداء ممتاز في كشف أخطاء الترميز
- التعميم خارج المجال: الحفاظ على أداء جيدة على أنواع التشوه غير المرئية مثل فصل المصدر
- التعميم عبر المحتوى: أداء متسقة على محتوى الموسيقى والكلام والمحتوى المختلط
- تستخدم الطرق التمثيلية خسارة ثلاثية للتعلم المقارن
- الاستفادة من النماذج الأساسية للكلام مثل wav2vec 2.0 لترميز الإشارات
- عكس شدة التدهور الذاتي من خلال المسافة الإقليدية بين التضمينات
- PEAQ: استخراج ميزات إدراكية وسيطة (MOVs)، مع دمجها من خلال شبكة عصبية لإنتاج ODG
- 2f-model: الاستفادة من اثنين من MOVs من PEAQ Basic، مع ارتباط مثير للإعجاب بالدرجات الذاتية
- HAAQI: تم تصميمه في الأصل لتطبيقات أجهزة السمع، يمكن استخدامه للسمع الطبيعي بتجاوز محاكاة فقدان السمع
- FAD: يُستخدم لتقييم تضمينات نماذج الموسيقى المولدة، لكنه حساس لحجم العينة واختيار الإشارة المرجعية
- MERT/CLAP: تركيز أساسي على تحسين مهام استرجاع معلومات الموسيقى
- نجح DeePAQ في توسيع نموذج تعلم المقاييس من تقييم جودة الكلام إلى مجال الصوت العامة
- استراتيجية الضبط الدقيق باستخدام LoRA فعالة في منع الإفراط في التدريب على مجموعات البيانات الصغيرة
- تحسن العلامات الوكيلة متعددة المصادر (ViSQOL + معدل البت) من قوة النموذج
- تمكن القدرة على التعميم القوية من تطبيقها على أنواع تشوه متعددة
- نطاق الجودة المنخفضة: بسبب ندرة بيانات التدريب، الأداء في نطاق الجودة المنخفضة أقل من 2f-model
- تحديات فصل المصدر: تشكل مجموعة بيانات PEASS تحدياً لجميع معايير الجودة الموضوعية
- قيود بيانات التدريب: التركيز الأساسي على أخطاء الترميز، مع تغطية محدودة لأنواع التشوه الأخرى
- توسيع بيانات التدريب: تضمين أنواع تشوه أوسع لتحسين القدرة على التعميم
- تحسين نموذج المرجع غير المتطابق: تحسين الأداء من خلال تدريب أكثر تنوعاً
- التحسين من طرف إلى طرف: استكشاف طرق لتحسين التنبؤ المباشر بالدرجات الذاتية
- ابتكار قوي: أول تطبيق لـ LoRA والتعلم الضعيف الإشراف في تقييم جودة الصوت
- طريقة معقولة: تصميم خسارة RnC ذكي، مع الاستفادة الفعالة من العلامات الوكيلة متعددة المصادر
- تجارب شاملة: تقييم شامل على 9 اختبارات سمعية مختلفة
- قدرة تعميم قوية: أداء ممتاز على المهام خارج المجال، مما يثبت قوة الطريقة
- نقص التحليل النظري: غياب التحليل النظري العميق حول سبب ملاءمة MERT لتقييم جودة الصوت
- التعقيد الحسابي: عدم مناقشة النفقات الحسابية مقارنة بالطرق التقليدية
- محدودية أنواع التشوه: التركيز الأساسي على أخطاء الترميز، مع تغطية غير كافية لأنواع التشوه الأخرى
- القيمة الأكاديمية: توفير مسار تقني جديد لمجال تقييم جودة الصوت
- القيمة العملية: قابلة للتطبيق في تطوير برامج ترميز الصوت ومراقبة الجودة
- قابلية التكرار: وصف الطريقة مفصل، وإعدادات التجارب واضحة
- تقييم برامج ترميز الصوت: مناسبة بشكل خاص لكشف أخطاء الترميز
- مراقبة جودة أنظمة معالجة الصوت: قابلة للاستخدام في التقييم الفوري للجودة
- التحكم في جودة محتوى الوسائط المتعددة: مناسبة لتقييم جودة محتوى الموسيقى والكلام
تستشهد الورقة بـ 26 مرجعاً مهماً، تغطي تقييم جودة الكلام والنماذج الأساسية للموسيقى وتعلم المقاييس وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة عالية الجودة في مجال معالجة الصوت، تظهر أداءً ممتازاً من حيث الابتكار الطريقة وتصميم التجارب وتحليل النتائج. يحقق DeePAQ اختراقاً تقنياً جديداً في مجال تقييم جودة الصوت، مع قيمة أكاديمية وعملية مهمة.