2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.

Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.

academic

نحو استخراج مصادر الصوت المكاني القائم على الاستعلام متعدد الأنماط

المعلومات الأساسية

معرّف الورقة البحثية: 2510.13308
العنوان: Towards Multimodal Query-Based Spatial Audio Source Extraction
المؤلفون: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
التصنيف: eess.AS (معالجة الإشارات الصوتية)
تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة البحثية: https://arxiv.org/abs/2510.13308

الملخص

يهدف استخراج مصادر الصوت القائم على الاستعلام إلى استرجاع المصدر المستهدف من الصوت المختلط وفقاً لشروط الاستعلام. تقتصر الطرق الموجودة بشكل أساسي على الصوت أحادي القناة، ولا تستفيد بشكل كامل من المعلومات المكانية في التسجيلات متعددة القنوات. تقدم هذه الورقة إطار عمل لاستخراج مصادر الصوت المكاني القائم على الاستعلام لاستعادة الإشارات المستهدفة النظيفة من الصوت المختلط بصيغة الستيريو الكروي من الدرجة الأولى (FOA). تدعم الطريقة تلميحات صوتية أو تلميحات نصية كمدخلات شرطية، مما يحقق استخراجاً مرناً من طرف إلى طرف. يعتمد جوهر النموذج على محول ثلاثي المحاور يقوم بنمذجة مشتركة لعلاقات الاعتماد الزمنية والترددية والقنوات المكانية. يستخدم النموذج تضمينات التدريب المسبق للغة والصوت المتناقضة (CLAP)، مع تحقيق التشريط الموحد للصوت والنص من خلال تعديل الميزات الخطي (FiLM). لتقليل تكاليف التعليق المرتفعة وتحسين القدرة على التعميم، تم اقتراح خط أنابيب بيانات بدون تسميات يولد ديناميكياً الصوت المختلط المكاني والأهداف المقابلة للتدريب. تُظهر نتائج التجارب جودة عالية من الفصل، مما يثبت فعالية التشريط متعدد الأنماط والنمذجة ثلاثية المحاور.

خلفية البحث والدافع

تعريف المشكلة

فصل مصادر الصوت هو مشكلة أساسية في معالجة الإشارات الصوتية، وتهدف إلى استرجاع أحداث صوتية فردية من الصوت المختلط المعقد. مع تطور التطبيقات المغمورة والواقع المعزز والواقع الافتراضي والأجهزة السمعية والتفاعل بين الإنسان والآلة، يتزايد الطلب على معالجة الصوت المكاني.

حدود الطرق الموجودة

الاستفادة غير الكافية من المعلومات المكانية: تركز معظم الطرق الموجودة على النمذجة الزمنية أو التمثيل الزمني-الترددي، ولا تستفيد بشكل كامل من الإشارات المكانية الحاسمة في الإدراك السمعي البشري
التدريب الخاص بالفئة: تعتمد العديد من أنظمة الفصل على طرق تدريب خاصة بالفئة، مما يحد من القدرة على التعميم والقابلية للتطبيق في السيناريوهات الحقيقية المتنوعة
قيود القناة الواحدة: على الرغم من أن بعض الأبحاث تستكشف فصل الأصوات المستهدفة باستخدام إشارات متعددة الأنماط، إلا أنها لا تزال مقتصرة على الصوت أحادي القناة
تحديات البيئة المرجعية: تُظهر طرق التصفية المكانية التقليدية أو تشكيل الحزم أداءً ضعيفاً في بيئات الصدى المكاني القوية

دافع البحث

يظل تصميم إطار عمل قادر على التقاط المشترك للعلاقات الزمنية والمكانية، مع دعم الفصل من طرف إلى طرف والقائم على الاستعلام، تحدياً مفتوحاً. تهدف هذه الورقة إلى سد هذه الفجوة، وتقديم طرق قادرة على الفصل القوي والعالي الدقة في بيئات الصدى والتعقيد الصوتي.

المساهمات الأساسية

اقتراح إطار عمل BSAST: محول فصل الصوت المكاني ذو الشرائط (Band-split Spatial Audio Separation Transformer)، يقوم بنمذجة مشتركة للإشارات الزمنية والترددية والقنوات المكانية، لتحقيق استخراج قوي في ظروف الصدى
إدخال آلية التشريط القائمة على CLAP: آلية تشريط الاستعلام القائمة على CLAP، تدعم طرق الاستعلام الصوتية والنصية، متجاوزة الإعدادات الثابتة للفئات
تصميم خط أنابيب البيانات بدون تسميات: توليد ديناميكي للصوت المختلط المكاني والأهداف المقابلة، تحسين قابلية التوسع في التدريب، بدون الحاجة إلى تعليق يدوي مكلف
إنشاء نموذج جديد: إنشاء نموذج جديد لفصل الصوت المكاني عالي الدقة في التطبيقات المغمورة

شرح الطريقة

تعريف المهمة

بالنظر إلى الصوت المختلط متعدد القنوات بصيغة FOA $X \in \mathbb{R}^{C \times L}$ (حيث C هو عدد القنوات، و L هو عدد عينات الصوت)، تُولد عملية الصوت المختلط كما يلي:

$X = \sum_{i=1}^{M} s_i * H_i + N$

حيث M هو عدد المصادر، $s_i$ هو إشارة المصدر النظيفة، $H_i$ هو استجابة النبض متعددة القنوات المقابلة للغرفة، * يشير إلى الالتفاف، و N يشير إلى الضوضاء الخلفية غير الموجهة.

الهدف هو تقدير إشارة المصدر المستهدف النظيفة المقابلة من الصوت المختلط وفقاً للاستعلام q (عينة صوتية أو وصف نصي): $\hat{s}_q = f_\theta(X, q)$

معمارية النموذج

1. نظرة عامة على النظام

يتضمن إطار عمل BSAST أربع وحدات رئيسية:

مشفر تقسيم الشرائط: يقسم الطيف إلى عدة نطاقات فرعية ويستخرج تضمينات الكمون
وحدة التشريط القائمة على CLAP: حقن التوجيه الدلالي للاستعلام من خلال FiLM
محول RoPE ثلاثي المحاور: نمذجة العلاقات على طول الأبعاد الزمنية والترددية والقنوات
وحدة تقدير الطيف: التنبؤ المباشر بالطيف المستهدف

2. مشفر تقسيم الشرائط

يعتمد على استراتيجية تقسيم الشرائط لتقسيم طيف الإدخال إلى N نطاق تردد غير متداخل:

تحويل الطيف المعقد إلى المجال الحقيقي (فصل الأجزاء الحقيقية والخيالية)
التقسيم إلى N نطاق فرعي $B_n \in \mathbb{R}^{C \times T \times F_n}$
يولد كل نطاق فرعي تضمينات من خلال تطبيع RMS والإسقاط الخطي $Z_n \in \mathbb{R}^{C \times T \times D}$
التكديس على طول محور النطاق الفرعي للحصول على $Z \in \mathbb{R}^{C \times T \times N \times D}$

3. التشريط القائم على CLAP

استخدام آلية FiLM لحقن تضمينات CLAP:

يتم تعيين تضمين CLAP $e \in \mathbb{R}^d$ من خلال شبكة متصلة بطبقتين إلى متجه ثنائي الأبعاد
التقسيم إلى معامل التحجيم $\gamma$ ومعامل الإزاحة $\beta$
تعديل الميزات: $\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta$

4. محول RoPE ثلاثي المحاور

يطبق كل كتلة محول الانتباه المحوري بالتتابع على طول المحاور الزمنية والترددية والقنوات:

استخدام ترميز RoPE لعلاقات الاعتماد النسبية للموضع
آلية الانتباه متعددة الرؤوس لمعالجة التفاعلات على كل محور
الاتصالات المتبقية والشبكات الأمامية

5. وحدة تقدير الطيف

التنبؤ المباشر بطيف السعة للمصدر المستهدف:

يولد كل نطاق فرعي طيف التقدير $\hat{B}_n$ من خلال شبكة متعددة الطبقات
الربط على طول محور التردد لجميع النطاقات الفرعية
تجميع المعلومات متعددة القنوات من خلال وحدة دمج القنوات

نقاط الابتكار التقني

النمذجة ثلاثية المحاور: أول مرة يتم فيها نمذجة العلاقات على الأبعاد الزمنية والترددية والمكانية بشكل متزامن في فصل الصوت
الاستعلام متعدد الأنماط: دعم موحد للاستعلامات الصوتية والنصية، مما يوفر طرقاً تفاعلية مرنة
التدريب بدون تسميات: توليد استعلامات زائفة من خلال اضطراب تضمينات CLAP، بدون الحاجة إلى بيانات معلقة بالتوازي
الاستفادة من المعلومات المكانية: الاستفادة الكاملة من الإشارات المكانية بصيغة FOA لفصل المصادر

إعداد التجارب

مجموعات البيانات

استخدام مجموعة بيانات DCASE 2025 Task 4 الرسمية:

المصادر النظيفة: مجموعات Anechoic Sound Event 1K و FSD50K و EARS
استجابات النبض للغرفة: RIR مسجلة بصيغة FOA
الضوضاء الخلفية: FOA-MEIR و FSD50K و ESC-50 و DISCO
مواصفات الصوت: معدل العينة 32 كيلوهرتز، تكمية 16 بت
الصوت المختلط: مدة 10 ثوان، بحد أقصى 3 أحداث متزامنة

مؤشرات التقييم

SI-SDR (نسبة الإشارة إلى التشويه القابلة للتحجيم)
SDR (نسبة الإشارة إلى التشويه)

تفاصيل التنفيذ

معاملات STFT: طول نافذة هانينج 2048، طول القفزة 1024
تقسيم النطاقات الترددية: 25 نطاق فرعي غير متداخل
معاملات النموذج: بُعد الميزة 128، 8 كتل محول، 4 رؤوس انتباه
المحسّن: AdamW، معدل التعلم 3×10⁻⁴، تحلل الوزن 1×10⁻²
التدريب: بحد أقصى 300 حقبة، 2000 عينة لكل حقبة

الهدف التدريبي

الجمع بين خسارة SI-SDR وخسارة إعادة البناء L1: $L = L_{\text{SI-SDR}} + \lambda L_1$ حيث $\lambda = 100$

نتائج التجارب

النتائج الرئيسية

تكوين القناة	التشريط الصوتي		التشريط النصي
	SI-SDR	SDR	SI-SDR	SDR
wxyz (FOA كامل)	7.296	8.595	4.098	5.664
w (القناة الكروية فقط)	5.833	6.785	4.101	4.557

النتائج الرئيسية:

يتفوق تكوين قنوات FOA الكامل بشكل كبير على التكوين أحادي القناة، مما يتحقق من أهمية المعلومات المكانية
يتفوق أداء الاستعلام الصوتي على الاستعلام النصي
يمكن للنموذج التعامل بشكل جيد مع الاستعلامات النصية حتى عند التدريب فقط على الاستعلامات الصوتية

تجارب الاستئصال

عدد كتل المحول	التشريط الصوتي		التشريط النصي
	SI-SDR	SDR	SI-SDR	SDR
4	4.791	6.273	2.435	3.052
6	6.426	7.752	3.871	4.459
8	7.296	8.595	4.098	5.664

تحليل النتائج:

يحسن زيادة عدد كتل المحول الأداء بشكل مستمر
يحقق التكوين ذو 8 كتل أفضل نتيجة
يُظهر قابلية توسع جيدة للنموذج

تحليل الحالات

يعرض الشكل 2 أمثلة فصل باستخدام الاستعلام النصي، حيث يمكن للنموذج استخراج الأصوات المستهدفة بدقة مثل "الكتابة" و"الصب" من الصوت المختلط، مع الحفاظ على دقة عالية ووضوح.

الأعمال ذات الصلة

فصل مصادر الصوت

تركز الطرق التقليدية بشكل أساسي على فصل أحادي القناة أو ستيريو، مع تحقيق تقدم في النمذجة الزمنية والتمثيل الزمني-الترددي، لكن الاستفادة من الإشارات المكانية غير كافية.

الفصل القائم على الاستعلام الشرطي

تستكشف الأبحاث الحديثة فصل الأصوات المستهدفة باستخدام إشارات متعددة الأنماط، لكنها تقتصر بشكل أساسي على الصوت أحادي القناة، ولا تستفيد بشكل كامل من المعلومات المكانية.

معالجة الصوت المكاني

تتمتع طرق التصفية المكانية والموجهة التقليدية بأداء محدودة في بيئات الصدى القوية، وتحتاج إلى طرق تعلم عميق أقوى.

الخلاصة والنقاش

الاستنتاجات الرئيسية

يقوم محول ثلاثي المحاور بنمذجة فعالة لعلاقات الاعتماد الزمنية والترددية والمكانية
يحقق التشريط القائم على CLAP استعلامات متعددة الأنماط مرنة
يحسن خط أنابيب البيانات بدون تسميات كفاءة التدريب والقدرة على التعميم
المعلومات المكانية حاسمة للفصل الصوتي عالي الجودة

القيود

التحقق فقط على صيغة FOA، بدون توسيع إلى تنسيقات متعددة القنوات الأخرى
أداء الاستعلام النصي لا تزال أقل من الاستعلام الصوتي
التعقيد الحسابي مرتفع نسبياً، مما يتطلب تحسينات للتطبيقات في الوقت الفعلي
تحتاج الصلابة في بيئات الصدى الشديدة إلى مزيد من التحقق

الاتجاهات المستقبلية

التوسيع إلى تنسيقات صوتية مكانية أكثر
تحسين أداء فصل الاستعلام النصي
ضغط النموذج وتحسينات التسريع
التدريب على مجموعات بيانات أكبر

التقييم المتعمق

المزايا

الابتكار التقني قوي: أول إطار عمل لفصل الصوت المكاني يقوم بنمذجة ثلاثية المحاور
قيمة عملية عالية: دعم الاستعلامات متعددة الأنماط، مناسب للتطبيقات المغمورة
اكتمال الطريقة: تشكيل خط أنابيب كامل من توليد البيانات إلى تصميم النموذج
تجارب شاملة: تتضمن تجارب الاستئصال والتحليل المقارن

أوجه القصور

نطاق التقييم محدود: التحقق فقط على مجموعة بيانات واحدة
الكفاءة الحسابية: تزيد النمذجة ثلاثية المحاور من التعقيد الحسابي
نقص التحليل النظري: افتقار إلى التحليل النظري لتقارب وقدرة التعميم
اعتبارات الوقت الفعلي: عدم مناقشة جدوى المعالجة في الوقت الفعلي

التأثير

المساهمة الأكاديمية: إنشاء نموذج جديد لفصل الصوت المكاني
آفاق التطبيق: تطبيقات واسعة في الواقع المعزز والواقع الافتراضي والأجهزة السمعية وغيرها
قابلية الاستنساخ: توفير تفاصيل تنفيذ مفصلة
الإلهام: توفير أفكار جديدة لمعالجة الصوت متعددة الأنماط

السيناريوهات المناسبة

الوسائط المغمورة: معالجة الصوت في بيئات الواقع الافتراضي والواقع المعزز
المساعدة السمعية الذكية: تحسين الصوت الشخصي
أنظمة المؤتمرات: فصل الكلام في المؤتمرات متعددة الأشخاص
التفاعل مع الروبوتات: فهم الصوت في البيئات المعقدة

المراجع

تستشهد الورقة البحثية بـ 25 مرجعاً ذا صلة، تغطي فصل مصادر الصوت ومعالجة الصوت المكاني والتعلم العميق وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: تقدم هذه الورقة إطار عمل مبتكراً لفصل الصوت المكاني، مع خطة تقنية كاملة والتحقق التجريبي الشامل، وتحقيق تقدم مهم في الاستعلام متعدد الأنماط والاستفادة من المعلومات المكانية، مما يضع أساساً للتطبيقات الصوتية المغمورة. على الرغم من وجود بعض القيود، فإن المساهمة الإجمالية كبيرة، مع قيمة أكاديمية وآفاق تطبيقية مهمة.