2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic

SongFormer: विषमांगी पर्यवेक्षण के साथ संगीत संरचना विश्लेषण को स्केल करना

मूल जानकारी

  • पेपर ID: 2510.02797
  • शीर्षक: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
  • लेखक: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
  • वर्गीकरण: eess.AS (ऑडियो और वाक् प्रसंस्करण)
  • प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2510.02797

सारांश

संगीत संरचना विश्लेषण (MSA) संगीत समझ और नियंत्रित पीढ़ी का आधार है, लेकिन छोटे पैमाने पर असंगत डेटासेट से सीमित है। यह पेपर SongFormer प्रस्तावित करता है, एक स्केलेबल विषमांगी पर्यवेक्षण सीखने की रूपरेखा। SongFormer (i) छोटी-विंडो और लंबी-विंडो स्व-पर्यवेक्षित ऑडियो प्रतिनिधित्व को एकीकृत करके सूक्ष्म-दानेदार और दीर्घ-श्रेणी निर्भरता को पकड़ता है, (ii) आंशिक, शोरपूर्ण और पैटर्न बेमेल लेबल के प्रशिक्षण का समर्थन करने के लिए सीखे गए स्रोत एम्बेडिंग का परिचय देता है। स्केलिंग और निष्पक्ष मूल्यांकन का समर्थन करने के लिए, लेखकों ने अब तक का सबसे बड़ा MSA कॉर्पस SongFormDB (10,000 से अधिक बहुभाषी और बहु-शैली ट्रैक) और 300 विशेषज्ञ-सत्यापित बेंचमार्क SongFormBench जारी किया है। SongFormBench पर, SongFormer सख्त सीमा पहचान (HR.5F) पर नया सर्वोत्तम रिकॉर्ड स्थापित करता है और उच्चतम कार्यात्मक लेबल सटीकता प्राप्त करता है, जबकि कम्प्यूटेशनल दक्षता बनाए रखता है; इन मेट्रिक्स पर मजबूत आधारभूत और Gemini 2.5 Pro को पार करता है, और शिथिल सहिष्णुता (HR3F) के तहत प्रतिस्पर्धी रहता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संगीत संरचना विश्लेषण (MSA) गीतों को कार्यात्मक रूप से अर्थपूर्ण भागों (जैसे intro, verse, chorus आदि) में विभाजित करने और उनकी सीमाओं का पता लगाने का लक्ष्य रखता है, जो संगीत समझ और नियंत्रित पीढ़ी का मूल कार्य है। संगीत पीढ़ी प्रणालियों के तीव्र विकास के साथ, MSA को संरचना पूर्वधारणा के रूप में उपयोग करना तेजी से महत्वपूर्ण हो गया है।

मौजूदा समस्याएं

  1. डेटा की कमी: सार्वजनिक कॉर्पस छोटे पैमाने पर और विषमांगी हैं, जैसे HarmonixSet में केवल 912 गीत हैं, लेबलिंग पैटर्न और प्रारूप असंगत हैं, पहुंच सीमित है
  2. विधि सीमाएं: कई सिस्टम मजबूत स्व-पर्यवेक्षित/आधार ऑडियो मॉडल का उपयोग करने के बजाय शुरुआत से प्रशिक्षित होते हैं, जटिल पूर्व-प्रसंस्करण (बीट ट्रैकिंग, स्रोत पृथक्करण) पर निर्भर करते हैं
  3. समय संकल्प समस्या: सामान्य बहुविध LLM (जैसे Gemini 2.5 Pro) संरचना लेबल उत्पन्न कर सकते हैं, लेकिन समय संकल्प बहुत मोटा है, सीमा सटीक पहचान नहीं कर सकता

अनुसंधान प्रेरणा

यह पेपर MSA क्षेत्र में डेटा बाधा और विधि सीमाओं को संबोधित करने का लक्ष्य रखता है, एक सरल, स्केलेबल रूपरेखा प्रस्तावित करता है जो विषमांगी पर्यवेक्षण से सीखते समय समय सटीकता बनाए रखता है।

मुख्य योगदान

  1. SongFormer रूपरेखा प्रस्तावित करना: बहु-संकल्प स्व-पर्यवेक्षित प्रतिनिधित्व (30s और 420s विंडो) को एकीकृत करना, सूक्ष्म-दानेदार और दीर्घ-श्रेणी निर्भरता को पकड़ना
  2. विषमांगी पर्यवेक्षण रणनीति: सीखे गए डेटा स्रोत एम्बेडिंग का परिचय, आंशिक, शोरपूर्ण और पैटर्न बेमेल लेबल के प्रशिक्षण का समर्थन करना
  3. बड़े पैमाने पर डेटासेट का निर्माण: SongFormDB (10,000 से अधिक ट्रैक) और SongFormBench (300 विशेषज्ञ-सत्यापित बेंचमार्क) जारी करना
  4. SOTA प्रदर्शन: सख्त सीमा पहचान और कार्यात्मक लेबल सटीकता पर नए रिकॉर्ड स्थापित करना, मजबूत आधारभूत और Gemini 2.5 Pro को पार करना

विधि विवरण

कार्य परिभाषा

MSA को समय-श्रृंखला लेबलिंग कार्य के रूप में मॉडल किया जाता है, इनपुट ऑडियो तरंग है, आउटपुट संरचित लेबल अनुक्रम है:

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

जहां tᵢ और lᵢ क्रमशः प्रत्येक खंड के प्रारंभ समय और लेबल को दर्शाते हैं।

मॉडल आर्किटेक्चर

1. बहु-संकल्प SSL प्रतिनिधित्व एकीकरण

  • स्थानीय प्रतिनिधित्व: ऑडियो को क्रमागत 30s ब्लॉक में विभाजित करना, सूक्ष्म-दानेदार स्थानीय विशेषताएं प्राप्त करना
  • वैश्विक प्रतिनिधित्व: 420s लंबी विंडो को संसाधित करना, समग्र वैश्विक संदर्भ को पकड़ना
  • विशेषता एकीकरण: समय आयाम में 14 30s ब्लॉक को 420s वैश्विक प्रतिनिधित्व के साथ संरेखित करना, विशेषता आयाम में MuQ और MusicFM प्रतिनिधित्व को एकीकृत करना
  • डाउनसैंपलिंग: अवशिष्ट डाउनसैंपलिंग मॉड्यूल के माध्यम से समय संकल्प को 25Hz से लगभग 8.33Hz तक कम करना

2. विषमांगी पर्यवेक्षण रणनीति

  • डेटा स्रोत एम्बेडिंग: डाउनसैंपल की गई विशेषता अनुक्रम में सीखे गए डेटा स्रोत एम्बेडिंग जोड़ना, प्रशिक्षण नमूने के स्रोत को इंगित करना
  • सशर्त सीखना: मॉडल स्रोत-विशिष्ट लेबलिंग पैटर्न और शोर विशेषताओं को सीखता है
  • अनुमान निर्धारण: अनुमान के समय डेटा स्रोत एम्बेडिंग को उच्च-गुणवत्ता HarmonixSet पर निर्धारित करना

3. Transformer एनकोडर

  • 4-परत Transformer एनकोडर, RoPE स्थिति एन्कोडिंग का उपयोग करके समय निर्भरता को पकड़ना
  • छिपी परत आयाम 512, दो कार्य-विशिष्ट हेड: सीमा पहचान और कार्यात्मक लेबल भविष्यवाणी

प्रशिक्षण उद्देश्य

कुल हानि फ़ंक्शन है:

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

जहां:

  • सीमा पहचान: बाइनरी क्रॉस-एंट्रॉपी हानि + सीमा-जागरूक 1D कुल भिन्नता हानि (वास्तविक सीमाओं पर अत्यधिक चिकनाई से बचने के लिए)
  • कार्यात्मक भविष्यवाणी: फ्रेम-स्तर क्रॉस-एंट्रॉपी हानि + softmax फोकल हानि (अनिश्चित फ्रेम पर ध्यान केंद्रित करना)
  • हाइपरपैरामीटर: λ=0.2, λ_TV=0.05, λ_Focal=0.2

प्रयोगात्मक सेटअप

डेटासेट

SongFormDB (प्रशिक्षण सेट, >10k)

  1. SongForm-HX: 512 प्रशिक्षण, 200 सत्यापन, HarmonixSet से ऑडियो पुनर्निर्माण और लेबल परिशोधन
  2. SongForm-Private: 4,314, गीत-व्युत्पन्न संरचना लेबल, SOFA संरेखक का उपयोग करके समय मुहर सुधार
  3. SongForm-Hook: 5,933, आंशिक खंड की सटीक संरचना लेबलिंग
  4. SongForm-Gem: 4,387, 47 भाषाओं में, Gemini 2.5 Pro API का उपयोग करके लेबल उत्पन्न

SongFormBench (परीक्षण सेट, 300)

  • SongFormBench-HarmonixSet: 200 विशेषज्ञ-संशोधित HarmonixSet गीत
  • SongFormBench-CN: 100 चीनी गीत, MSA में चीनी डेटा की कमी को संबोधित करना

मूल्यांकन मेट्रिक्स

  1. HR.5F: 0.5 सेकंड के भीतर सीमा हिट दर का F मान (सख्त सीमा पहचान)
  2. HR3F: 3 सेकंड के भीतर सीमा हिट दर का F मान (शिथिल सीमा पहचान)
  3. ACC: फ्रेम-स्तर कार्यात्मक लेबल सटीकता

कार्यान्वयन विवरण

  • अधिकतम इनपुट अवधि 420s, नमूना दर 8.33Hz
  • गाऊसी कर्नल के साथ सीमा चिकनाई (10 फ्रेम विंडो, लगभग 2.4s)
  • बैच आकार 8, कोसाइन सीखने की दर शेड्यूलिंग (शिखर 1×10⁻⁴)
  • एकल NVIDIA L40 GPU, तीन यादृच्छिक बीज औसत

प्रयोगात्मक परिणाम

मुख्य परिणाम

SongFormBench-HarmonixSet

विधिACCHR.5FHR3F
All-In-One0.7400.5960.730
LinkSeg-7Labels0.7800.6300.762
TA (Zhang et al.)0.7870.6100.801
Gemini 2.5 Pro0.7480.4230.813
SongFormer (HX)0.7950.7030.784
SongFormer (HX+P+H+G)0.8070.6960.780

SongFormBench-CN

विधिACCHR.5FHR3F
All-In-One0.8340.5630.771
Gemini 2.5 Pro0.8060.4120.833
SongFormer (HX+P+H)0.8900.6900.852
SongFormer (HX+P+H+G)0.8910.6880.851

विलोपन प्रयोग

  1. बहु-संकल्प प्रतिनिधित्व: 30s और 420s विंडो को संयोजित करना एकल विंडो की तुलना में बेहतर प्रदर्शन करता है
  2. डेटा स्रोत एम्बेडिंग: हटाने के बाद ACC 0.848 से 0.825 तक गिरता है
  3. Transformer बनाम रैखिक परत: Transformer बैकएंड सरल रैखिक परत से काफी बेहतर है
  4. डाउनसैंपलिंग रणनीति: उचित डाउनसैंपलिंग दक्षता और सटीकता के बीच सर्वोत्तम संतुलन प्राप्त करता है

प्रयोगात्मक निष्कर्ष

  1. लेबल सटीकता सबसे मजबूत: SongFormer दोनों बेंचमार्क पर उच्चतम ACC प्राप्त करता है
  2. सीमा पहचान अधिक सटीक: सख्त मूल्यांकन के तहत तीव्र विश्वसनीय सीमा भविष्यवाणी प्रदान करता है
  3. डेटा विस्तार प्रभाव: प्रशिक्षण डेटा जोड़ना मजबूती में सुधार करता है, लेकिन अशुद्ध लेबलिंग के कारण सीमा सटीकता को थोड़ा प्रभावित करता है
  4. LLM से बेहतर: सटीकता मेट्रिक्स पर Gemini 2.5 Pro की तुलना में काफी बेहतर

संबंधित कार्य

MSA विधि विकास

  1. पारंपरिक विधियां: ऑडियो विशेषताओं पर आधारित नियम विधियां और मशीन लर्निंग
  2. गहन शिक्षा: सीमा पहचान और कार्यात्मक लेबलिंग के लिए CNN, RNN
  3. स्व-पर्यवेक्षित शिक्षा: पूर्व-प्रशिक्षित ऑडियो मॉडल का उपयोग, लेकिन अधिकांश अभी भी शुरुआत से प्रशिक्षित हैं

डेटासेट विकास

  • HarmonixSet: 912 पश्चिमी लोकप्रिय संगीत, उच्च लेबलिंग गुणवत्ता लेकिन छोटा पैमाना
  • अन्य डेटासेट: छोटा पैमाना, असंगत लेबलिंग, सीमित पहुंच

इस पेपर की नवीनता

मौजूदा कार्य की तुलना में, SongFormer पहली बार बहु-संकल्प SSL प्रतिनिधित्व को व्यवस्थित रूप से एकीकृत करता है और विषमांगी पर्यवेक्षण रणनीति का परिचय देता है, साथ ही अब तक का सबसे बड़ा MSA डेटासेट बनाता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. SongFormer बहु-संकल्प SSL एकीकरण और विषमांगी पर्यवेक्षण के माध्यम से SOTA प्रदर्शन प्राप्त करता है
  2. बड़े पैमाने पर डेटासेट SongFormDB और उच्च-गुणवत्ता बेंचमार्क SongFormBench क्षेत्र विकास को आगे बढ़ाते हैं
  3. विधि सख्त सीमा पहचान और कार्यात्मक लेबल सटीकता पर मौजूदा विधियों से काफी बेहतर है

सीमाएं

  1. लेबलिंग गुणवत्ता व्यापार: अतिरिक्त डेटासेट जोड़ना समग्र प्रदर्शन में सुधार करता है, लेकिन अशुद्ध लेबलिंग सीमा सटीकता को प्रभावित करता है
  2. कम्प्यूटेशनल जटिलता: बहु-संकल्प एकीकरण विशेषता निष्कर्षण की कम्प्यूटेशनल ओवरहेड बढ़ाता है
  3. भाषा कवरेज: हालांकि चीनी डेटा शामिल है, अन्य गैर-अंग्रेजी भाषाओं का कवरेज अभी भी सीमित है

भविष्य की दिशा

  1. MSA को नियंत्रित संगीत पीढ़ी और संगीत सूचना पुनर्प्राप्ति प्रणालियों में एकीकृत करना
  2. अधिक भाषाओं और संगीत शैलियों की संरचना विश्लेषण की खोज करना
  3. संगीत पीढ़ी और संरचना विश्लेषण के संयुक्त अनुकूलन का अध्ययन करना

गहन मूल्यांकन

शक्तियां

  1. तकनीकी नवीनता मजबूत: बहु-संकल्प SSL एकीकरण लंबी-छोटी संदर्भ संतुलन समस्या को चतुराई से हल करता है
  2. विषमांगी पर्यवेक्षण रणनीति व्यावहारिक: डेटा स्रोत एम्बेडिंग असंगत लेबलिंग गुणवत्ता समस्या को प्रभावी ढंग से संभालता है
  3. डेटा योगदान महत्वपूर्ण: SongFormDB और SongFormBench क्षेत्र अंतराल भरते हैं
  4. प्रयोग पूर्ण व्यापक: विस्तृत विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता को सत्यापित करते हैं
  5. ओपन-सोर्स अनुकूल: कोड, डेटा और मॉडल सार्वजनिक रूप से पुनरुत्पादन योग्य हैं

कमियां

  1. विधि जटिलता: कई SSL मॉडल एकीकरण प्रणाली जटिलता बढ़ाता है
  2. मूल्यांकन सीमाएं: मुख्य रूप से लोकप्रिय संगीत पर मूल्यांकन, शास्त्रीय संगीत आदि अन्य शैलियों का कवरेज अपर्याप्त है
  3. वास्तविक समय विश्लेषण: वास्तविक समय प्रसंस्करण क्षमता पर चर्चा नहीं की गई, व्यावहारिक अनुप्रयोग के लिए प्रयोज्यता स्पष्ट नहीं है

प्रभाव

  1. शैक्षणिक मूल्य: MSA क्षेत्र के लिए नई तकनीकी प्रतिमान और बड़े पैमाने पर डेटा संसाधन प्रदान करता है
  2. व्यावहारिक मूल्य: संगीत सिफारिश, पीढ़ी और संपादन प्रणालियों में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनीयता: पूर्ण ओपन-सोर्स अनुसंधान पुनरुत्पादन और बाद के विकास को सुनिश्चित करता है

लागू परिदृश्य

  1. संगीत स्ट्रीमिंग प्लेटफॉर्म की बुद्धिमान सिफारिश और प्लेलिस्ट पीढ़ी
  2. संगीत उत्पादन सॉफ्टवेयर की स्वचालित संरचना विश्लेषण और संपादन
  3. संगीत शिक्षा में संरचना सिद्धांत शिक्षण सहायता
  4. नियंत्रित संगीत पीढ़ी प्रणाली की संरचना बाधा

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

  • HarmonixSet डेटासेट (Nieto et al., 2019)
  • संगीत संरचना विश्लेषण समीक्षा (Nieto et al., 2020)
  • MuQ और MusicFM स्व-पर्यवेक्षित मॉडल (Zhu et al., 2025; Won et al., 2024)
  • संबंधित गहन शिक्षा विधियां (Wang et al., 2022; Kim & Nam, 2023)

समग्र मूल्यांकन: यह संगीत संरचना विश्लेषण क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता पेपर है। तकनीकी समाधान नवीन और व्यावहारिक है, प्रयोगात्मक डिजाइन कठोर और व्यापक है, डेटासेट योगदान महत्वपूर्ण है, और क्षेत्र के विकास के लिए महत्वपूर्ण प्रेरणा प्रदान करता है। ओपन-सोर्स रणनीति अच्छी शैक्षणिक साझाकरण भावना को भी प्रदर्शित करती है।