SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: توسيع نطاق تحليل البنية الموسيقية بالإشراف غير المتجانس
يعتبر تحليل البنية الموسيقية (MSA) أساساً لفهم الموسيقى والتوليد القابل للتحكم، لكن تقدمه محدود بسبب مجموعات البيانات الصغيرة والمتناقضة. تقترح هذه الورقة SongFormer، وهو إطار عمل قابل للتوسع للتعلم بالإشراف غير المتجانس. يقوم SongFormer بـ: (i) دمج تمثيلات الصوت ذاتية الإشراف قصيرة وطويلة النافذة لالتقاط التبعيات الدقيقة والطويلة المدى، (ii) إدخال تضمينات مصدر معلمة لدعم التدريب على التسميات الجزئية والمشوشة وغير المتطابقة. لدعم التوسع والتقييم العادل، أصدر المؤلفون أكبر مجموعة بيانات MSA حتى الآن وهي SongFormDB (أكثر من 10,000 مسار متعدد اللغات والأنماط) وقياس معياري SongFormBench يضم 300 مسار تم التحقق منها من قبل الخبراء. على SongFormBench، حقق SongFormer أفضل نتيجة جديدة في كشف الحدود الصارمة (HR.5F) وأعلى دقة في تسميات الوظائف مع الحفاظ على الكفاءة الحسابية؛ متفوقاً على الخطوط الأساسية القوية و Gemini 2.5 Pro، مع الحفاظ على القدرة التنافسية تحت التسامح الفضفاض (HR3F).
يهدف تحليل البنية الموسيقية (MSA) إلى تقسيم الأغنية إلى أجزاء ذات معنى وظيفي (مثل المقدمة والآية والكورس وغيرها) والكشف عن حدودها، وهي مهمة أساسية لفهم الموسيقى والتوليد القابل للتحكم. مع التطور السريع لأنظمة توليد الموسيقى، أصبح استخدام MSA كأولوية هيكلية مهماً بشكل متزايد.
ندرة البيانات: مجموعات البيانات العامة صغيرة وغير متجانسة، مثل HarmonixSet التي تحتوي على 912 أغنية فقط، مع أنماط وتنسيقات تسمية غير متسقة، والوصول محدود
قيود الطريقة: تدرب العديد من الأنظمة من الصفر بدلاً من الاستفادة من نماذج الصوت القوية ذاتية الإشراف/الأساسية، وتعتمد على معالجة مسبقة معقدة (تتبع النبض، فصل المصدر)
مشكلة الدقة الزمنية: قد تنتج نماذج LLM متعددة الأنماط العامة (مثل Gemini 2.5 Pro) تسميات هيكلية، لكن دقتها الزمنية خشنة جداً لكشف الحدود بدقة
تهدف هذه الورقة إلى حل اختناق البيانات والقيود الطريقية في مجال MSA، واقتراح إطار عمل بسيط وقابل للتوسع يتعلم من الإشراف غير المتجانس مع الحفاظ على الدقة الزمنية.
مقارنة بالأعمال الموجودة، يقوم SongFormer بدمج تمثيلات SSL متعددة الدقة وإدخال استراتيجية إشراف غير متجانسة بشكل منهجي للمرة الأولى، مع بناء أكبر مجموعة بيانات MSA حتى الآن.
نماذج MuQ و MusicFM ذاتية الإشراف (Zhu et al., 2025; Won et al., 2024)
طرق التعلم العميق ذات الصلة (Wang et al., 2022; Kim & Nam, 2023)
التقييم الشامل: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تحليل البنية الموسيقية. الحل التقني مبتكر وعملي، التصميم التجريبي صارم وشامل، ومساهمة مجموعة البيانات كبيرة، مما يوفر دفعة مهمة لتطور المجال. كما تعكس استراتيجية المصادر المفتوحة روح المشاركة الأكاديمية الجيدة.