SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
Hao, Yuan, Yao et al.
Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.
academic
SongFormer: বিষমজাত তত্ত্ববধানের সাথে সঙ্গীত কাঠামো বিশ্লেষণ স্কেলিং
সঙ্গীত কাঠামো বিশ্লেষণ (MSA) সঙ্গীত বোঝা এবং নিয়ন্ত্রিত প্রজন্মের ভিত্তি, কিন্তু ছোট আকারের, অসামঞ্জস্যপূর্ণ ডেটাসেট দ্বারা সীমাবদ্ধ। এই পেপারটি SongFormer প্রস্তাব করে, একটি স্কেলেবল বিষমজাত তত্ত্ববধান শেখার কাঠামো। SongFormer (i) স্বল্প-উইন্ডো এবং দীর্ঘ-উইন্ডো স্ব-তত্ত্বাবধান অডিও প্রতিনিধিত্ব একীভূত করে সূক্ষ্ম-দানাদার এবং দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করতে, (ii) শেখা উৎস এম্বেডিং প্রবর্তন করে আংশিক, শব্দযুক্ত এবং প্যাটার্ন অমিল লেবেলের প্রশিক্ষণ সমর্থন করতে। স্কেলিং এবং ন্যায্য মূল্যায়ন সমর্থন করতে, লেখকরা এখন পর্যন্ত বৃহত্তম MSA কর্পাস SongFormDB (১০,০০০+ ক্রস-ভাষা ক্রস-শৈলী ট্র্যাক) এবং ৩০০টি বিশেষজ্ঞ-যাচাইকৃত বেঞ্চমার্ক SongFormBench প্রকাশ করেছেন। SongFormBench-এ, SongFormer কঠোর সীমানা সনাক্তকরণে (HR.5F) নতুন সর্বোত্তম রেকর্ড স্থাপন করে এবং সর্বোচ্চ কার্যকরী লেবেল নির্ভুলতা অর্জন করে, গণনাগত দক্ষতা বজায় রেখে; শক্তিশালী বেসলাইন এবং Gemini 2.5 Pro অতিক্রম করে এই মেট্রিক্সে, শিথিল সহনশীলতার অধীনে প্রতিযোগিতামূলক থাকে (HR3F)।
সঙ্গীত কাঠামো বিশ্লেষণ (MSA) গানগুলিকে কার্যকরীভাবে অর্থপূর্ণ অংশে বিভক্ত করার লক্ষ্য রাখে (যেমন intro, verse, chorus ইত্যাদি) এবং তাদের সীমানা সনাক্ত করে, যা সঙ্গীত বোঝা এবং নিয়ন্ত্রিত প্রজন্মের মূল কাজ।
ডেটা স্বল্পতা: জনসাধারণের কর্পাস ছোট এবং বিষমজাত, যেমন HarmonixSet মাত্র ৯১২টি গান, টীকা প্যাটার্ন এবং ফর্ম্যাট অসামঞ্জস্যপূর্ণ, অ্যাক্সেস সীমাবদ্ধ
পদ্ধতিগত সীমাবদ্ধতা: অনেক সিস্টেম শক্তিশালী স্ব-তত্ত্বাবধান/ভিত্তি অডিও মডেল ব্যবহার করার পরিবর্তে স্ক্র্যাচ থেকে প্রশিক্ষিত, জটিল প্রাক-প্রক্রিয়াকরণের উপর নির্ভর করে (বীট ট্র্যাকিং, উৎস বিচ্ছিন্নকরণ)
সময়ের রেজোলিউশন সমস্যা: সাধারণ মাল্টিমোডাল LLM (যেমন Gemini 2.5 Pro) কাঠামো টীকা তৈরি করতে পারে, কিন্তু সময়ের রেজোলিউশন খুব মোটা, সীমানা সনাক্তকরণে অনুপ্রবেশ করতে পারে না
এই পেপারটি MSA ক্ষেত্রে ডেটা বাধা এবং পদ্ধতিগত সীমাবদ্ধতা সমাধান করার লক্ষ্য রাখে, একটি সহজ, স্কেলেবল কাঠামো প্রস্তাব করে যা সময়ের নির্ভুলতা বজায় রেখে বিষমজাত তত্ত্ববধান থেকে শেখে।
SongFormer কাঠামো প্রস্তাব: মাল্টি-রেজোলিউশন স্ব-তত্ত্বাবধান প্রতিনিধিত্ব একীভূত করে (৩০s এবং ৪২০s উইন্ডো), সূক্ষ্ম-দানাদার এবং দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করে
বিষমজাত তত্ত্ববধান কৌশল: শেখা ডেটা উৎস এম্বেডিং প্রবর্তন করে, আংশিক, শব্দযুক্ত এবং প্যাটার্ন অমিল লেবেলের প্রশিক্ষণ সমর্থন করে
বড় আকারের ডেটাসেট নির্মাণ: SongFormDB (১০,০০০+ ট্র্যাক) এবং SongFormBench (৩০০টি বিশেষজ্ঞ-যাচাইকৃত বেঞ্চমার্ক) প্রকাশ করে
SOTA কর্মক্ষমতা: কঠোর সীমানা সনাক্তকরণ এবং কার্যকরী লেবেল নির্ভুলতায় নতুন রেকর্ড স্থাপন করে, শক্তিশালী বেসলাইন এবং Gemini 2.5 Pro অতিক্রম করে
বিদ্যমান কাজের তুলনায়, SongFormer প্রথমবারের মতো সিস্টেমেটিকভাবে মাল্টি-রেজোলিউশন SSL প্রতিনিধিত্ব একীভূত করে এবং বিষমজাত তত্ত্ববধান কৌশল প্রবর্তন করে, একই সাথে এখন পর্যন্ত বৃহত্তম MSA ডেটাসেট নির্মাণ করে।
সঙ্গীত কাঠামো বিশ্লেষণ সমীক্ষা (Nieto et al., 2020)
MuQ এবং MusicFM স্ব-তত্ত্বাবধান মডেল (Zhu et al., 2025; Won et al., 2024)
সম্পর্কিত গভীর শেখার পদ্ধতি (Wang et al., 2022; Kim & Nam, 2023)
সামগ্রিক মূল্যায়ন: এটি সঙ্গীত কাঠামো বিশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পেপার। প্রযুক্তিগত সমাধান উদ্ভাবনী এবং ব্যবহারিক, পরীক্ষামূলক ডিজাইন কঠোর এবং ব্যাপক, ডেটাসেট অবদান উল্লেখযোগ্য, ক্ষেত্র উন্নয়নে গুরুত্বপূর্ণ চালিকা শক্তি প্রদান করে। ওপেন-সোর্স কৌশল ভাল একাডেমিক ভাগাভাগি চেতনা প্রতিফলিত করে।