2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: توسيع نطاق تحليل البنية الموسيقية بالإشراف غير المتجانس

المعلومات الأساسية

معرّف الورقة: 2510.02797
العنوان: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
المؤلفون: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
التصنيف: eess.AS (معالجة الصوت والكلام)
تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.02797

الملخص

يعتبر تحليل البنية الموسيقية (MSA) أساساً لفهم الموسيقى والتوليد القابل للتحكم، لكن تقدمه محدود بسبب مجموعات البيانات الصغيرة والمتناقضة. تقترح هذه الورقة SongFormer، وهو إطار عمل قابل للتوسع للتعلم بالإشراف غير المتجانس. يقوم SongFormer بـ: (i) دمج تمثيلات الصوت ذاتية الإشراف قصيرة وطويلة النافذة لالتقاط التبعيات الدقيقة والطويلة المدى، (ii) إدخال تضمينات مصدر معلمة لدعم التدريب على التسميات الجزئية والمشوشة وغير المتطابقة. لدعم التوسع والتقييم العادل، أصدر المؤلفون أكبر مجموعة بيانات MSA حتى الآن وهي SongFormDB (أكثر من 10,000 مسار متعدد اللغات والأنماط) وقياس معياري SongFormBench يضم 300 مسار تم التحقق منها من قبل الخبراء. على SongFormBench، حقق SongFormer أفضل نتيجة جديدة في كشف الحدود الصارمة (HR.5F) وأعلى دقة في تسميات الوظائف مع الحفاظ على الكفاءة الحسابية؛ متفوقاً على الخطوط الأساسية القوية و Gemini 2.5 Pro، مع الحفاظ على القدرة التنافسية تحت التسامح الفضفاض (HR3F).

الخلفية البحثية والدافع

تعريف المشكلة

يهدف تحليل البنية الموسيقية (MSA) إلى تقسيم الأغنية إلى أجزاء ذات معنى وظيفي (مثل المقدمة والآية والكورس وغيرها) والكشف عن حدودها، وهي مهمة أساسية لفهم الموسيقى والتوليد القابل للتحكم. مع التطور السريع لأنظمة توليد الموسيقى، أصبح استخدام MSA كأولوية هيكلية مهماً بشكل متزايد.

المشاكل الموجودة

ندرة البيانات: مجموعات البيانات العامة صغيرة وغير متجانسة، مثل HarmonixSet التي تحتوي على 912 أغنية فقط، مع أنماط وتنسيقات تسمية غير متسقة، والوصول محدود
قيود الطريقة: تدرب العديد من الأنظمة من الصفر بدلاً من الاستفادة من نماذج الصوت القوية ذاتية الإشراف/الأساسية، وتعتمد على معالجة مسبقة معقدة (تتبع النبض، فصل المصدر)
مشكلة الدقة الزمنية: قد تنتج نماذج LLM متعددة الأنماط العامة (مثل Gemini 2.5 Pro) تسميات هيكلية، لكن دقتها الزمنية خشنة جداً لكشف الحدود بدقة

الدافع البحثي

تهدف هذه الورقة إلى حل اختناق البيانات والقيود الطريقية في مجال MSA، واقتراح إطار عمل بسيط وقابل للتوسع يتعلم من الإشراف غير المتجانس مع الحفاظ على الدقة الزمنية.

المساهمات الأساسية

اقتراح إطار عمل SongFormer: دمج تمثيلات ذاتية الإشراف متعددة الدقة (نوافذ 30 ثانية و 420 ثانية)، التقاط التبعيات الدقيقة والطويلة المدى
استراتيجية الإشراف غير المتجانس: إدخال تضمينات مصدر معلمة، دعم التدريب على التسميات الجزئية والمشوشة وغير المتطابقة
بناء مجموعة بيانات واسعة النطاق: إصدار SongFormDB (أكثر من 10,000 مسار) و SongFormBench (300 مسار معياري تم التحقق منه من قبل الخبراء)
أداء متقدم جداً (SOTA): تحقيق سجلات جديدة في كشف الحدود الصارمة ودقة تسميات الوظائف، متفوقاً على الخطوط الأساسية القوية و Gemini 2.5 Pro

شرح الطريقة

تعريف المهمة

يتم نمذجة MSA كمهمة تسمية زمنية، حيث يكون الإدخال موجة صوتية والإخراج تسلسل تسمية منظم:

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

حيث يمثل tᵢ و lᵢ وقت البداية والتسمية لكل جزء على التوالي.

معمارية النموذج

1. دمج تمثيلات SSL متعددة الدقة

التمثيل المحلي: تقسيم الصوت إلى كتل متتالية مدتها 30 ثانية، الحصول على ميزات محلية دقيقة
التمثيل العام: معالجة نافذة عامة مدتها 420 ثانية، التقاط السياق العام الشامل
دمج الميزات: ربط زمني لـ 14 كتلة مدتها 30 ثانية مع تمثيل عام مدته 420 ثانية متوافق، دمج بعد الميزات لتمثيلات MuQ و MusicFM
الانخفاض: تقليل الدقة الزمنية من 25 هرتز إلى حوالي 8.33 هرتز من خلال وحدة الانخفاض المتبقية

2. استراتيجية الإشراف غير المتجانس

تضمينات مصدر البيانات: إضافة تضمينات مصدر معلمة إلى تسلسل الميزات المنخفضة، مما يشير إلى مصدر عينة التدريب
التعلم المشروط: يتعلم النموذج أنماط التسمية والضوضاء الخاصة بالمصدر
الاستدلال الثابت: تثبيت تضمينات مصدر البيانات على HarmonixSet عالي الجودة أثناء الاستدلال

3. مشفر Transformer

4 طبقات من مشفر Transformer، باستخدام ترميز موضع RoPE لالتقاط التبعيات الزمنية
بعد الطبقة المخفية 512، رأسان خاصان بالمهمة: كشف الحدود والتنبؤ بتسميات الوظائف

أهداف التدريب

دالة الخسارة الإجمالية هي:

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

حيث:

كشف الحدود: خسارة الإنتروبيا الثنائية المتقاطعة + خسارة التباين الكلي 1D الواعية للحدود (تجنب الإفراط في التنعيم عند الحدود الحقيقية)
التنبؤ الوظيفي: خسارة الإنتروبيا المتقاطعة على مستوى الإطار + خسارة البؤرة softmax (التركيز على الإطارات غير المؤكدة)
المعاملات الفائقة: λ=0.2, λ_TV=0.05, λ_Focal=0.2

إعداد التجربة

مجموعات البيانات

SongFormDB (مجموعة التدريب، >10,000)

SongForm-HX: 512 للتدريب، 200 للتحقق، إعادة بناء الصوت من HarmonixSet وتحسين التسميات
SongForm-Private: 4,314 أغنية، تسميات البنية المشتقة من الكلمات، استخدام محاذي SOFA لتصحيح الطوابع الزمنية
SongForm-Hook: 5,933 أغنية، تسميات بنية دقيقة للأجزاء الجزئية
SongForm-Gem: 4,387 أغنية، عبر 47 لغة، تسميات مولدة باستخدام Gemini 2.5 Pro API

SongFormBench (مجموعة الاختبار، 300 أغنية)

SongFormBench-HarmonixSet: 200 أغنية من HarmonixSet تم تعديلها من قبل الخبراء
SongFormBench-CN: 100 أغنية صينية، معالجة ندرة البيانات الصينية في MSA

مقاييس التقييم

HR.5F: قيمة F لمعدل كشف الحدود خلال 0.5 ثانية (كشف حدود صارم)
HR3F: قيمة F لمعدل كشف الحدود خلال 3 ثواني (كشف حدود فضفاض)
ACC: دقة تسميات الوظائف على مستوى الإطار

تفاصيل التنفيذ

أقصى مدة إدخال 420 ثانية، معدل العينة 8.33 هرتز
تنعيم الحدود باستخدام نواة غاوسية (نافذة 10 إطارات، حوالي 2.4 ثانية)
حجم الدفعة 8، جدولة معدل التعلم جيب التمام (القيمة الذروة 1×10⁻⁴)
وحدة معالجة رسومات NVIDIA L40 واحدة، متوسط ثلاث بذور عشوائية

نتائج التجربة

النتائج الرئيسية

SongFormBench-HarmonixSet

الطريقة	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780

SongFormBench-CN

الطريقة	ACC	HR.5F	HR3F
All-In-One	0.834	0.563	0.771
Gemini 2.5 Pro	0.806	0.412	0.833
SongFormer (HX+P+H)	0.890	0.690	0.852
SongFormer (HX+P+H+G)	0.891	0.688	0.851

تجارب الاستئصال

التمثيلات متعددة الدقة: الجمع بين نوافذ 30 ثانية و 420 ثانية يحقق أداء أفضل من النافذة الواحدة
تضمينات مصدر البيانات: الإزالة تقلل ACC من 0.848 إلى 0.825
Transformer مقابل الطبقة الخطية: نهاية Transformer متفوقة بشكل كبير على الطبقة الخطية البسيطة
استراتيجية الانخفاض: الانخفاض المعتدل يحقق أفضل توازن بين الكفاءة والدقة

النتائج التجريبية

أقوى في دقة التسميات: يحقق SongFormer أعلى ACC على كلا المعيارين
كشف حدود أكثر دقة: يوفر تنبؤات حدود أكثر حدة وموثوقية تحت التقييم الصارم
تأثير توسع البيانات: إضافة بيانات تدريب تحسن الثبات، لكن عدم دقة التسميات يؤثر قليلاً على دقة الحدود
متفوق على LLM: متفوق بشكل كبير على Gemini 2.5 Pro في مقاييس الدقة

الأعمال ذات الصلة

تطور طرق MSA

الطرق التقليدية: طرق قائمة على القواعد والتعلم الآلي بناءً على ميزات الصوت
التعلم العميق: CNN و RNN لكشف الحدود والتسمية الوظيفية
التعلم ذاتي الإشراف: الاستفادة من نماذج الصوت المدربة مسبقاً، لكن معظمها يدرب من الصفر

تطور مجموعات البيانات

HarmonixSet: 912 أغنية موسيقى شعبية غربية، جودة تسمية عالية لكن حجم صغير
مجموعات بيانات أخرى: حجم أصغر، تسميات غير متسقة، وصول محدود

الابتكار في هذه الورقة

مقارنة بالأعمال الموجودة، يقوم SongFormer بدمج تمثيلات SSL متعددة الدقة وإدخال استراتيجية إشراف غير متجانسة بشكل منهجي للمرة الأولى، مع بناء أكبر مجموعة بيانات MSA حتى الآن.

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحقق SongFormer أداء متقدمة جداً من خلال دمج SSL متعدد الدقة والإشراف غير المتجانس
تدفع مجموعات البيانات الكبيرة SongFormDB والمعيار عالي الجودة SongFormBench تطور المجال
تتفوق الطريقة بشكل كبير على الطرق الموجودة في كشف الحدود الصارمة ودقة تسميات الوظائف

القيود

المقايضة في جودة التسمية: إدخال مجموعات بيانات إضافية يحسن الأداء الإجمالية، لكن عدم دقة التسميات يؤثر على دقة الحدود
التعقيد الحسابي: يزيد دمج تمثيلات متعددة الدقة من التكلفة الحسابية لاستخراج الميزات
تغطية اللغة: على الرغم من تضمين البيانات الصينية، فإن التغطية لا تزال محدودة للغات غير الإنجليزية الأخرى

الاتجاهات المستقبلية

دمج MSA في أنظمة التوليد الموسيقي القابل للتحكم واسترجاع المعلومات الموسيقية
استكشاف تحليل البنية لمزيد من اللغات والأنماط الموسيقية
دراسة التحسين المشترك بين التوليد الموسيقي وتحليل البنية من طرف إلى طرف

التقييم المتعمق

المزايا

قوة الابتكار التقني: دمج SSL متعدد الدقة يحل بذكاء مشكلة التوازن بين السياق القصير والطويل
استراتيجية الإشراف غير المتجانس عملية: تضمينات المصدر تتعامل بفعالية مع مشكلة عدم اتساق جودة التسمية
مساهمة البيانات كبيرة: يملأ SongFormDB و SongFormBench فراغاً في المجال
التجارب شاملة وكافية: تجارب استئصال مفصلة تتحقق من فعالية كل مكون
صديقة للمصادر المفتوحة: الكود والبيانات والنماذج متاحة علناً قابلة للتكرار

أوجه القصور

تعقيد الطريقة: دمج نماذج SSL متعددة يزيد من تعقيد النظام
قيود التقييم: التقييم الرئيسي على الموسيقى الشعبية، تغطية غير كافية لأنماط أخرى مثل الموسيقى الكلاسيكية
تحليل الوقت الفعلي: لم يتم مناقشة القدرة على المعالجة في الوقت الفعلي، وملاءمتها للتطبيقات العملية غير واضحة

التأثير

القيمة الأكاديمية: توفير نموذج تقني جديد وموارد بيانات واسعة النطاق لمجال MSA
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة التوصية والتوليد والتحرير الموسيقي
قابلية التكرار: المصدر المفتوح الكامل يضمن تكرار البحث والتطور اللاحق

السيناريوهات المعمول بها

توصيات المنصات الموسيقية الذكية وتوليد قوائم التشغيل
تحليل البنية التلقائي والتحرير في برامج إنتاج الموسيقى
المساعدة التعليمية في تدريس نظرية البنية الموسيقية
قيود البنية في أنظمة التوليد الموسيقي القابل للتحكم

المراجع

تشمل المراجع الرئيسية:

مجموعة بيانات HarmonixSet (Nieto et al., 2019)
مسح تحليل البنية الموسيقية (Nieto et al., 2020)
نماذج MuQ و MusicFM ذاتية الإشراف (Zhu et al., 2025; Won et al., 2024)
طرق التعلم العميق ذات الصلة (Wang et al., 2022; Kim & Nam, 2023)

التقييم الشامل: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تحليل البنية الموسيقية. الحل التقني مبتكر وعملي، التصميم التجريبي صارم وشامل، ومساهمة مجموعة البيانات كبيرة، مما يوفر دفعة مهمة لتطور المجال. كما تعكس استراتيجية المصادر المفتوحة روح المشاركة الأكاديمية الجيدة.