2025-11-12T21:49:14.281280

DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning

Jiang, Brendel, Delgado et al.
This paper presents the Deep learning-based Perceptual Audio Quality metric (DeePAQ) for evaluating general audio quality. Our approach leverages metric learning together with the music foundation model MERT, guided by surrogate labels, to construct an embedding space that captures distortion intensity in general audio. To the best of our knowledge, DeePAQ is the first in the general audio quality domain to leverage weakly supervised labels and metric learning for fine-tuning a music foundation model with Low-Rank Adaptation (LoRA), a direction not yet explored by other state-of-the-art methods. We benchmark the proposed model against state-of-the-art objective audio quality metrics across listening tests spanning audio coding and source separation. Results show that our method surpasses existing metrics in detecting coding artifacts and generalizes well to unseen distortions such as source separation, highlighting its robustness and versatility.
academic

DeePAQ: مقياس جودة الصوت الإدراكي القائم على النماذج الأساسية والتعلم الضعيف الإشراف

المعلومات الأساسية

  • معرّف الورقة: 2510.12326
  • العنوان: DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning
  • المؤلفون: Guanxin Jiang, Andreas Brendel, Pablo M. Delgado, Jürgen Herre
  • المؤسسات: المختبرات الدولية للصوت إرلانجن، معهد فراونهوفر للدوائر المتكاملة IIS
  • التصنيف: eess.AS (معالجة الصوت والكلام)
  • تاريخ النشر: 14 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12326

الملخص

تقترح هذه الورقة طريقة DeePAQ لقياس جودة الصوت الإدراكي القائمة على التعلم العميق، لتقييم جودة الصوت العامة. تجمع الطريقة بين تعلم المقاييس والنموذج الأساسي للموسيقى MERT، من خلال بناء فضاء تضمين موجه بواسطة العلامات الوكيلة يمكنه التقاط شدة التشوهات الصوتية العامة. وفقاً لمعرفة المؤلفين، يعتبر DeePAQ أول طريقة في مجال جودة الصوت العامة تستخدم العلامات الضعيفة الإشراف وتعلم المقاييس، مع ضبط دقيق للنموذج الأساسي للموسيقى باستخدام التكيف منخفض الرتبة (LoRA). في الاختبارات السمعية التي تغطي ترميز الصوت وفصل المصدر، تتفوق الطريقة على معايير جودة الصوت الموضوعية الحالية، وتظهر أداءً ممتازاً في كشف الأخطاء الترميزية، وتتمتع بقدرة تعميم جيدة على التشوهات غير المرئية مثل فصل المصدر.

الخلفية البحثية والدافع

تعريف المشكلة

يعتبر تقييم جودة الصوت مشكلة أساسية في مجال معالجة الصوت. على الرغم من أن الاختبارات السمعية الذاتية التقليدية دقيقة، إلا أنها مكلفة وتستغرق وقتاً طويلاً وغير عملية، لذلك يتطلب الأمر طرقاً حسابية موضوعية لتقدير جودة الصوت الإدراكية.

التحديات البحثية

  1. ندرة البيانات: مقارنة بتقييم جودة الكلام، تكون الدرجات الذاتية لمحتوى الموسيقى تحت أنواع تشوه مختلفة أكثر ندرة وقلما تكون متاحة للجمهور
  2. تعقيد الإشارة: مقارنة بالكلام، تتمتع إشارات الموسيقى بتنوع أكبر، بما في ذلك هيكل توافقي أكثر ثراءً، وانتقالات حادة من الآلات الموسيقية، وتشوهات مقصودة تقدمها التعبيرات الفنية
  3. توافق التشوه: يصعب بشكل خاص فصل التشوهات التي تتطابق أو تتكيف مع محتوى الإشارة، مثل أخطاء الترميز الإدراكي

قيود الطرق الموجودة

  • تركز النماذج الأساسية للموسيقى الموجودة (مثل MERT و CLAP) بشكل أساسي على تحسين المهام النهائية مثل استرجاع معلومات الموسيقى وتصنيف الأنواع
  • لا يزال غير واضح أي تضمين يعكس بشكل أفضل الجوانب الإدراكية لجودة الموسيقى
  • الطرق الموجودة مثل Fréchet Audio Distance (FAD) حساسة جداً لحجم العينة الاختبارية واختيار الإشارة المرجعية، مما يحد من موثوقيتها

المساهمات الأساسية

  1. طريقة رائدة: استخدام أول لعلامات ضعيفة الإشراف وتعلم المقاييس في مجال جودة الصوت العامة، مع ضبط دقيق للنموذج الأساسي للموسيقى باستخدام LoRA
  2. استراتيجية تدريب مبتكرة: اقتراح هدف تدريب ضعيف الإشراف قائم على خسارة Rank-n-Contrast (RnC)، مع دمج علامات ViSQOL الوكيلة وعلامات معدل البت
  3. أداء متفوق: تحقيق أعلى ارتباط شامل في اختبارات سمعية متعددة (PCC: 0.918, SRCC: 0.889)
  4. قدرة تعميم قوية: أداء ممتاز في كشف أخطاء الترميز داخل المجال وتشوهات فصل المصدر خارج المجال
  5. وضع مرجع مزدوج: دعم أوضاع التقييم الكاملة المرجعية والمرجعية غير المتطابقة

شرح الطريقة

تعريف المهمة

بناء دالة التضمين f:XZf: X \rightarrow Z، التي تعيّن عينات الصوت xiRDx_i \in \mathbb{R}^D إلى فضاء تضمين الجودة ZZ، بحيث تكون الأصوات ذات الجودة الإدراكية المتشابهة قريبة في فضاء التضمين، والأصوات ذات الفروقات الكبيرة في الجودة بعيدة عن بعضها.

معمارية النموذج

النموذج الأساسي

  • MERT v1: نموذج أساسي للموسيقى بـ 95 مليون معامل، يستخدم EnCodec كطريقة توكنيزيشن أثناء التدريب المسبق
  • المعمارية: 12 طبقة محول، كل إطار زمني ينتج مصفوفة ميزات بحجم 13×768
  • معالجة الميزات: بعد حساب المتوسط على البعد الزمني وتسطيح المصفوفة إلى متجه 9,984 بعد، يتم إدخاله إلى رأس الإسقاط اللاحق

تصميم رأس الإسقاط

  • دالة تفعيل ReLU + طبقة خطية بـ 256 بعد للإخراج
  • تُستخدم لتعيين ميزات MERT إلى فضاء التضمين الحساس للجودة

هدف التدريب الضعيف الإشراف

بناء العلامات الوكيلة

  1. علامات ViSQOL: استخدام ViSQOL v3 لحساب درجة MOS لكل إشارة متدهورة بالنسبة للمرجع النظيف (1-5 درجات)
  2. علامات معدل البت: معدل البت الترميزي كمؤشر تقريبي لجودة الصوت، مع إسناد b=b = \infty للإشارات النظيفة

خسارة Rank-n-Contrast

يتم تعريف خسارة RnC للعينة الواحدة كالتالي:

LRNCp(xi)=1N1j=1,jiNlogexp(f(xi)f(xj)2)xkSi,jpexp(f(xi)f(xk)2)L^p_{RNC}(x_i) = -\frac{1}{N-1} \sum_{j=1,j \neq i}^{N} \log \frac{\exp(\|f(x_i) - f(x_j)\|_2)}{\sum_{x_k \in S^p_{i,j}} \exp(\|f(x_i) - f(x_k)\|_2)}

حيث Si,jp:={xkXki,yipykpyipyjp}S^p_{i,j} := \{x_k \in X | k \neq i, |y^p_i - y^p_k| \geq |y^p_i - y^p_j|\} تمثل مجموعة العينات التي تحتل مرتبة أعلى من xjx_j بالنسبة للنقطة المرجعية xix_i.

دالة الخسارة الكلية

LRNC=1N[i=1NLRNCViSQOL(xi)+xiXcodedLRNCp(xi)]L_{RNC} = \frac{1}{N}\left[\sum_{i=1}^{N} L^{ViSQOL}_{RNC}(x_i) + \sum_{x_i \in X_{coded}} L^p_{RNC}(x_i)\right]

استراتيجية التدريب

الضبط الدقيق باستخدام LoRA

  • إدراج مصفوفات LoRA في طبقات الاستعلام والقيمة للإسقاط في وحدات الانتباه
  • رتبة 8، مع عامل تحجيم 16
  • يتطلب فقط 2.93% من معاملات النموذج قابلة للتدريب، مما يخفف بشكل فعال من الإفراط في التدريب على مجموعات البيانات الصغيرة

إعدادات التدريب

  • معدل التعلم: 1×10⁻⁴، مع تحلل أسي بمعامل 0.99 بعد 10 حقب بدون تحسن
  • تحلل الأوزان: 0.01، معدل الإسقاط: 0.05
  • حجم الدفعة: 32

إعداد التجارب

مجموعات البيانات

بيانات التدريب

  • الحجم: حوالي 460 ساعة من موسيقى جودة CD (44.1 كيلوهرتز)
  • صيغ الترميز: Opus و mp3 و AAC
  • معدلات البت: 16, 32, 48, 64, 80, 96, 128 كيلوبت/ثانية
  • تقسيم البيانات: 122 ساعة صوت مرمز لكل برنامج ترميز، 45 ساعة إشارة نظيفة
  • مجموعة التحقق: 50 ساعة موسيقى (8 ساعات نظيفة + 14 ساعة مرمزة لكل برنامج ترميز)

مجموعات الاختبار

تتضمن 9 اختبارات سمعية، مقسمة إلى فئتين:

  1. ترميز الصوت: IgorC96Multiformat و ODAQ واختبارات التحقق من MPEG USAC (t1-t3)
  2. فصل المصدر: 4 مجموعات فرعية من مجموعة بيانات SEBASS (PEASS BAQ و SAOC DB و SASSEC و SiSEC08)

مؤشرات التقييم

  • PCC: معامل الارتباط الخطي لبيرسون
  • SRCC: معامل ارتباط رتبة سبيرمان

الطرق المقارنة

  • الطرق التقليدية: ViSQOL v3 و PEAQ ODG و 2f-model و HAAQI
  • طرق النموذج الأساسي: wav2vec 2.0 المضبوط بدقة و FAD (MERT-v1-95M)

نتائج التجارب

النتائج الرئيسية

الأداء الشامل

  • أعلى ارتباط: PCC = 0.918, SRCC = 0.889
  • الأداء المتسق: أداء عالية الارتباط والاتساق في معظم مجموعات الاختبار
  • نطاق الجودة: أداء ممتاز في نطاق الجودة العالية، مع نقص طفيف في نطاق الجودة المنخفضة بسبب ندرة بيانات التدريب

الأداء في الاختبارات المحددة

  1. IgorC96Multiformat: PCC = 0.954, SRCC = 0.848
  2. ODAQ الشامل: PCC = 0.916, SRCC = 0.868
  3. اختبارات USAC: تحقيق PCC أعلى من 0.9 في جميع اختبارات t1-t3
  4. فصل المصدر: PCC الشامل = 0.919, SRCC = 0.787

تجارب الاستئصال

مقارنة استراتيجيات التدريب

  • LoRA مقابل الضبط الدقيق الكامل: يظهر LoRA أداءً أفضل على مجموعات البيانات الصغيرة، مع تضاؤل الفجوة مع نمو البيانات
  • LoRA مقابل تجميد رأس الإسقاط: يتفوق LoRA بشكل كبير على طريقة تدريب رأس الإسقاط فقط

مقارنة النماذج الأساسية

  • MERT مقابل wav2vec 2.0: يظهر MERT توازناً أفضل بين الموسيقى والكلام، بينما يميل wav2vec 2.0 نحو الكلام

تحليل دالة الخسارة

  • إضافة حد خسارة RnC مع ترتيب معدل البت يحقق تحسناً بنسبة 1-3% في الأداء

دالة التعيين

  • يحقق التعيين متعدد الحدود من الدرجة الثالثة و MLP تحسناً كبيراً في PCC، مع بقاء SRCC دون تغيير تقريباً
  • يشير إلى وجود علاقة غير خطية بين مسافة التضمين والدرجات الذاتية

تحليل القدرة على التعميم

  • التعميم داخل المجال: أداء ممتاز في كشف أخطاء الترميز
  • التعميم خارج المجال: الحفاظ على أداء جيدة على أنواع التشوه غير المرئية مثل فصل المصدر
  • التعميم عبر المحتوى: أداء متسقة على محتوى الموسيقى والكلام والمحتوى المختلط

الأعمال ذات الصلة

تقييم جودة الكلام

  • تستخدم الطرق التمثيلية خسارة ثلاثية للتعلم المقارن
  • الاستفادة من النماذج الأساسية للكلام مثل wav2vec 2.0 لترميز الإشارات
  • عكس شدة التدهور الذاتي من خلال المسافة الإقليدية بين التضمينات

معايير جودة الصوت التقليدية

  • PEAQ: استخراج ميزات إدراكية وسيطة (MOVs)، مع دمجها من خلال شبكة عصبية لإنتاج ODG
  • 2f-model: الاستفادة من اثنين من MOVs من PEAQ Basic، مع ارتباط مثير للإعجاب بالدرجات الذاتية
  • HAAQI: تم تصميمه في الأصل لتطبيقات أجهزة السمع، يمكن استخدامه للسمع الطبيعي بتجاوز محاكاة فقدان السمع

تطبيقات النموذج الأساسي للموسيقى

  • FAD: يُستخدم لتقييم تضمينات نماذج الموسيقى المولدة، لكنه حساس لحجم العينة واختيار الإشارة المرجعية
  • MERT/CLAP: تركيز أساسي على تحسين مهام استرجاع معلومات الموسيقى

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. نجح DeePAQ في توسيع نموذج تعلم المقاييس من تقييم جودة الكلام إلى مجال الصوت العامة
  2. استراتيجية الضبط الدقيق باستخدام LoRA فعالة في منع الإفراط في التدريب على مجموعات البيانات الصغيرة
  3. تحسن العلامات الوكيلة متعددة المصادر (ViSQOL + معدل البت) من قوة النموذج
  4. تمكن القدرة على التعميم القوية من تطبيقها على أنواع تشوه متعددة

القيود

  1. نطاق الجودة المنخفضة: بسبب ندرة بيانات التدريب، الأداء في نطاق الجودة المنخفضة أقل من 2f-model
  2. تحديات فصل المصدر: تشكل مجموعة بيانات PEASS تحدياً لجميع معايير الجودة الموضوعية
  3. قيود بيانات التدريب: التركيز الأساسي على أخطاء الترميز، مع تغطية محدودة لأنواع التشوه الأخرى

الاتجاهات المستقبلية

  1. توسيع بيانات التدريب: تضمين أنواع تشوه أوسع لتحسين القدرة على التعميم
  2. تحسين نموذج المرجع غير المتطابق: تحسين الأداء من خلال تدريب أكثر تنوعاً
  3. التحسين من طرف إلى طرف: استكشاف طرق لتحسين التنبؤ المباشر بالدرجات الذاتية

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول تطبيق لـ LoRA والتعلم الضعيف الإشراف في تقييم جودة الصوت
  2. طريقة معقولة: تصميم خسارة RnC ذكي، مع الاستفادة الفعالة من العلامات الوكيلة متعددة المصادر
  3. تجارب شاملة: تقييم شامل على 9 اختبارات سمعية مختلفة
  4. قدرة تعميم قوية: أداء ممتاز على المهام خارج المجال، مما يثبت قوة الطريقة

أوجه القصور

  1. نقص التحليل النظري: غياب التحليل النظري العميق حول سبب ملاءمة MERT لتقييم جودة الصوت
  2. التعقيد الحسابي: عدم مناقشة النفقات الحسابية مقارنة بالطرق التقليدية
  3. محدودية أنواع التشوه: التركيز الأساسي على أخطاء الترميز، مع تغطية غير كافية لأنواع التشوه الأخرى

التأثير

  1. القيمة الأكاديمية: توفير مسار تقني جديد لمجال تقييم جودة الصوت
  2. القيمة العملية: قابلة للتطبيق في تطوير برامج ترميز الصوت ومراقبة الجودة
  3. قابلية التكرار: وصف الطريقة مفصل، وإعدادات التجارب واضحة

السيناريوهات القابلة للتطبيق

  1. تقييم برامج ترميز الصوت: مناسبة بشكل خاص لكشف أخطاء الترميز
  2. مراقبة جودة أنظمة معالجة الصوت: قابلة للاستخدام في التقييم الفوري للجودة
  3. التحكم في جودة محتوى الوسائط المتعددة: مناسبة لتقييم جودة محتوى الموسيقى والكلام

المراجع

تستشهد الورقة بـ 26 مرجعاً مهماً، تغطي تقييم جودة الكلام والنماذج الأساسية للموسيقى وتعلم المقاييس وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة عالية الجودة في مجال معالجة الصوت، تظهر أداءً ممتازاً من حيث الابتكار الطريقة وتصميم التجارب وتحليل النتائج. يحقق DeePAQ اختراقاً تقنياً جديداً في مجال تقييم جودة الصوت، مع قيمة أكاديمية وعملية مهمة.