SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: विषमांगी पर्यवेक्षण के साथ संगीत संरचना विश्लेषण को स्केल करना
संगीत संरचना विश्लेषण (MSA) संगीत समझ और नियंत्रित पीढ़ी का आधार है, लेकिन छोटे पैमाने पर असंगत डेटासेट से सीमित है। यह पेपर SongFormer प्रस्तावित करता है, एक स्केलेबल विषमांगी पर्यवेक्षण सीखने की रूपरेखा। SongFormer (i) छोटी-विंडो और लंबी-विंडो स्व-पर्यवेक्षित ऑडियो प्रतिनिधित्व को एकीकृत करके सूक्ष्म-दानेदार और दीर्घ-श्रेणी निर्भरता को पकड़ता है, (ii) आंशिक, शोरपूर्ण और पैटर्न बेमेल लेबल के प्रशिक्षण का समर्थन करने के लिए सीखे गए स्रोत एम्बेडिंग का परिचय देता है। स्केलिंग और निष्पक्ष मूल्यांकन का समर्थन करने के लिए, लेखकों ने अब तक का सबसे बड़ा MSA कॉर्पस SongFormDB (10,000 से अधिक बहुभाषी और बहु-शैली ट्रैक) और 300 विशेषज्ञ-सत्यापित बेंचमार्क SongFormBench जारी किया है। SongFormBench पर, SongFormer सख्त सीमा पहचान (HR.5F) पर नया सर्वोत्तम रिकॉर्ड स्थापित करता है और उच्चतम कार्यात्मक लेबल सटीकता प्राप्त करता है, जबकि कम्प्यूटेशनल दक्षता बनाए रखता है; इन मेट्रिक्स पर मजबूत आधारभूत और Gemini 2.5 Pro को पार करता है, और शिथिल सहिष्णुता (HR3F) के तहत प्रतिस्पर्धी रहता है।
संगीत संरचना विश्लेषण (MSA) गीतों को कार्यात्मक रूप से अर्थपूर्ण भागों (जैसे intro, verse, chorus आदि) में विभाजित करने और उनकी सीमाओं का पता लगाने का लक्ष्य रखता है, जो संगीत समझ और नियंत्रित पीढ़ी का मूल कार्य है। संगीत पीढ़ी प्रणालियों के तीव्र विकास के साथ, MSA को संरचना पूर्वधारणा के रूप में उपयोग करना तेजी से महत्वपूर्ण हो गया है।
डेटा की कमी: सार्वजनिक कॉर्पस छोटे पैमाने पर और विषमांगी हैं, जैसे HarmonixSet में केवल 912 गीत हैं, लेबलिंग पैटर्न और प्रारूप असंगत हैं, पहुंच सीमित है
विधि सीमाएं: कई सिस्टम मजबूत स्व-पर्यवेक्षित/आधार ऑडियो मॉडल का उपयोग करने के बजाय शुरुआत से प्रशिक्षित होते हैं, जटिल पूर्व-प्रसंस्करण (बीट ट्रैकिंग, स्रोत पृथक्करण) पर निर्भर करते हैं
समय संकल्प समस्या: सामान्य बहुविध LLM (जैसे Gemini 2.5 Pro) संरचना लेबल उत्पन्न कर सकते हैं, लेकिन समय संकल्प बहुत मोटा है, सीमा सटीक पहचान नहीं कर सकता
यह पेपर MSA क्षेत्र में डेटा बाधा और विधि सीमाओं को संबोधित करने का लक्ष्य रखता है, एक सरल, स्केलेबल रूपरेखा प्रस्तावित करता है जो विषमांगी पर्यवेक्षण से सीखते समय समय सटीकता बनाए रखता है।
SongFormer रूपरेखा प्रस्तावित करना: बहु-संकल्प स्व-पर्यवेक्षित प्रतिनिधित्व (30s और 420s विंडो) को एकीकृत करना, सूक्ष्म-दानेदार और दीर्घ-श्रेणी निर्भरता को पकड़ना
विषमांगी पर्यवेक्षण रणनीति: सीखे गए डेटा स्रोत एम्बेडिंग का परिचय, आंशिक, शोरपूर्ण और पैटर्न बेमेल लेबल के प्रशिक्षण का समर्थन करना
बड़े पैमाने पर डेटासेट का निर्माण: SongFormDB (10,000 से अधिक ट्रैक) और SongFormBench (300 विशेषज्ञ-सत्यापित बेंचमार्क) जारी करना
SOTA प्रदर्शन: सख्त सीमा पहचान और कार्यात्मक लेबल सटीकता पर नए रिकॉर्ड स्थापित करना, मजबूत आधारभूत और Gemini 2.5 Pro को पार करना
स्थानीय प्रतिनिधित्व: ऑडियो को क्रमागत 30s ब्लॉक में विभाजित करना, सूक्ष्म-दानेदार स्थानीय विशेषताएं प्राप्त करना
वैश्विक प्रतिनिधित्व: 420s लंबी विंडो को संसाधित करना, समग्र वैश्विक संदर्भ को पकड़ना
विशेषता एकीकरण: समय आयाम में 14 30s ब्लॉक को 420s वैश्विक प्रतिनिधित्व के साथ संरेखित करना, विशेषता आयाम में MuQ और MusicFM प्रतिनिधित्व को एकीकृत करना
डाउनसैंपलिंग: अवशिष्ट डाउनसैंपलिंग मॉड्यूल के माध्यम से समय संकल्प को 25Hz से लगभग 8.33Hz तक कम करना
मौजूदा कार्य की तुलना में, SongFormer पहली बार बहु-संकल्प SSL प्रतिनिधित्व को व्यवस्थित रूप से एकीकृत करता है और विषमांगी पर्यवेक्षण रणनीति का परिचय देता है, साथ ही अब तक का सबसे बड़ा MSA डेटासेट बनाता है।
संगीत संरचना विश्लेषण समीक्षा (Nieto et al., 2020)
MuQ और MusicFM स्व-पर्यवेक्षित मॉडल (Zhu et al., 2025; Won et al., 2024)
संबंधित गहन शिक्षा विधियां (Wang et al., 2022; Kim & Nam, 2023)
समग्र मूल्यांकन: यह संगीत संरचना विश्लेषण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता पेपर है। तकनीकी समाधान नवीन और व्यावहारिक है, प्रयोगात्मक डिजाइन कठोर और व्यापक है, डेटासेट योगदान महत्वपूर्ण है, और क्षेत्र के विकास के लिए महत्वपूर्ण प्रेरणा प्रदान करता है। ओपन-सोर्स रणनीति अच्छी शैक्षणिक साझाकरण भावना को भी प्रदर्शित करती है।