2025-11-20T07:43:14.963491

SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision

Hao, Yuan, Yao et al.

Music structure analysis (MSA) underpins music understanding and controllable generation, yet progress has been limited by small, inconsistent corpora. We present SongFormer, a scalable framework that learns from heterogeneous supervision. SongFormer (i) fuses short- and long-window self-supervised audio representations to capture both fine-grained and long-range dependencies, and (ii) introduces a learned source embedding to enable training with partial, noisy, and schema-mismatched labels. To support scaling and fair evaluation, we release SongFormDB, the largest MSA corpus to date (over 10k tracks spanning languages and genres), and SongFormBench, a 300-song expert-verified benchmark. On SongFormBench, SongFormer sets a new state of the art in strict boundary detection (HR.5F) and achieves the highest functional label accuracy, while remaining computationally efficient; it surpasses strong baselines and Gemini 2.5 Pro on these metrics and remains competitive under relaxed tolerance (HR3F). Code, datasets, and model are publicly available.

academic

SongFormer: বিষমজাত তত্ত্ববধানের সাথে সঙ্গীত কাঠামো বিশ্লেষণ স্কেলিং

মৌলিক তথ্য

পেপার আইডি: 2510.02797
শিরোনাম: SongFormer: Scaling Music Structure Analysis with Heterogeneous Supervision
লেখক: Chunbo Hao, Ruibin Yuan, Jixun Yao, Qixin Deng, Xinyi Bai, Wei Xue, Lei Xie
শ্রেণীবিভাগ: eess.AS (অডিও এবং বক্তৃতা প্রক্রিয়াকরণ)
প্রকাশনার সময়: ২৫ অক্টোবর ২০২৫ (arXiv v2)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.02797

সারসংক্ষেপ

সঙ্গীত কাঠামো বিশ্লেষণ (MSA) সঙ্গীত বোঝা এবং নিয়ন্ত্রিত প্রজন্মের ভিত্তি, কিন্তু ছোট আকারের, অসামঞ্জস্যপূর্ণ ডেটাসেট দ্বারা সীমাবদ্ধ। এই পেপারটি SongFormer প্রস্তাব করে, একটি স্কেলেবল বিষমজাত তত্ত্ববধান শেখার কাঠামো। SongFormer (i) স্বল্প-উইন্ডো এবং দীর্ঘ-উইন্ডো স্ব-তত্ত্বাবধান অডিও প্রতিনিধিত্ব একীভূত করে সূক্ষ্ম-দানাদার এবং দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করতে, (ii) শেখা উৎস এম্বেডিং প্রবর্তন করে আংশিক, শব্দযুক্ত এবং প্যাটার্ন অমিল লেবেলের প্রশিক্ষণ সমর্থন করতে। স্কেলিং এবং ন্যায্য মূল্যায়ন সমর্থন করতে, লেখকরা এখন পর্যন্ত বৃহত্তম MSA কর্পাস SongFormDB (১০,০০০+ ক্রস-ভাষা ক্রস-শৈলী ট্র্যাক) এবং ৩০০টি বিশেষজ্ঞ-যাচাইকৃত বেঞ্চমার্ক SongFormBench প্রকাশ করেছেন। SongFormBench-এ, SongFormer কঠোর সীমানা সনাক্তকরণে (HR.5F) নতুন সর্বোত্তম রেকর্ড স্থাপন করে এবং সর্বোচ্চ কার্যকরী লেবেল নির্ভুলতা অর্জন করে, গণনাগত দক্ষতা বজায় রেখে; শক্তিশালী বেসলাইন এবং Gemini 2.5 Pro অতিক্রম করে এই মেট্রিক্সে, শিথিল সহনশীলতার অধীনে প্রতিযোগিতামূলক থাকে (HR3F)।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

সঙ্গীত কাঠামো বিশ্লেষণ (MSA) গানগুলিকে কার্যকরীভাবে অর্থপূর্ণ অংশে বিভক্ত করার লক্ষ্য রাখে (যেমন intro, verse, chorus ইত্যাদি) এবং তাদের সীমানা সনাক্ত করে, যা সঙ্গীত বোঝা এবং নিয়ন্ত্রিত প্রজন্মের মূল কাজ।

বিদ্যমান সমস্যা

ডেটা স্বল্পতা: জনসাধারণের কর্পাস ছোট এবং বিষমজাত, যেমন HarmonixSet মাত্র ৯১২টি গান, টীকা প্যাটার্ন এবং ফর্ম্যাট অসামঞ্জস্যপূর্ণ, অ্যাক্সেস সীমাবদ্ধ
পদ্ধতিগত সীমাবদ্ধতা: অনেক সিস্টেম শক্তিশালী স্ব-তত্ত্বাবধান/ভিত্তি অডিও মডেল ব্যবহার করার পরিবর্তে স্ক্র্যাচ থেকে প্রশিক্ষিত, জটিল প্রাক-প্রক্রিয়াকরণের উপর নির্ভর করে (বীট ট্র্যাকিং, উৎস বিচ্ছিন্নকরণ)
সময়ের রেজোলিউশন সমস্যা: সাধারণ মাল্টিমোডাল LLM (যেমন Gemini 2.5 Pro) কাঠামো টীকা তৈরি করতে পারে, কিন্তু সময়ের রেজোলিউশন খুব মোটা, সীমানা সনাক্তকরণে অনুপ্রবেশ করতে পারে না

গবেষণা প্রেরণা

এই পেপারটি MSA ক্ষেত্রে ডেটা বাধা এবং পদ্ধতিগত সীমাবদ্ধতা সমাধান করার লক্ষ্য রাখে, একটি সহজ, স্কেলেবল কাঠামো প্রস্তাব করে যা সময়ের নির্ভুলতা বজায় রেখে বিষমজাত তত্ত্ববধান থেকে শেখে।

মূল অবদান

SongFormer কাঠামো প্রস্তাব: মাল্টি-রেজোলিউশন স্ব-তত্ত্বাবধান প্রতিনিধিত্ব একীভূত করে (৩০s এবং ৪২০s উইন্ডো), সূক্ষ্ম-দানাদার এবং দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করে
বিষমজাত তত্ত্ববধান কৌশল: শেখা ডেটা উৎস এম্বেডিং প্রবর্তন করে, আংশিক, শব্দযুক্ত এবং প্যাটার্ন অমিল লেবেলের প্রশিক্ষণ সমর্থন করে
বড় আকারের ডেটাসেট নির্মাণ: SongFormDB (১০,০০০+ ট্র্যাক) এবং SongFormBench (৩০০টি বিশেষজ্ঞ-যাচাইকৃত বেঞ্চমার্ক) প্রকাশ করে
SOTA কর্মক্ষমতা: কঠোর সীমানা সনাক্তকরণ এবং কার্যকরী লেবেল নির্ভুলতায় নতুন রেকর্ড স্থাপন করে, শক্তিশালী বেসলাইন এবং Gemini 2.5 Pro অতিক্রম করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

MSA সময়ের ক্রম টীকা কাজ হিসাবে মডেল করা হয়, ইনপুট অডিও তরঙ্গরূপ, আউটপুট কাঠামোগত টীকা ক্রম:

{(t₀, l₀), (t₁, l₁), ..., (tₙ₋₁, lₙ₋₁), (tₙ, end)}

যেখানে tᵢ এবং lᵢ যথাক্রমে প্রতিটি অংশের শুরুর সময় এবং লেবেল নির্দেশ করে।

মডেল আর্কিটেকচার

১. মাল্টি-রেজোলিউশন SSL প্রতিনিধিত্ব একীকরণ

স্থানীয় প্রতিনিধিত্ব: অডিওকে ক্রমাগত ৩০s ব্লকে বিভক্ত করে, সূক্ষ্ম-দানাদার স্থানীয় বৈশিষ্ট্য অর্জন করে
বৈশ্বিক প্রতিনিধিত্ব: ৪২০s দীর্ঘ উইন্ডো প্রক্রিয়া করে, সামগ্রিক বৈশ্বিক প্রসঙ্গ ক্যাপচার করে
বৈশিষ্ট্য একীকরণ: সময় মাত্রা সংযোগ ১৪টি ৩০s ব্লক ৪২০s বৈশ্বিক প্রতিনিধিত্বের সাথে সারিবদ্ধ, বৈশিষ্ট্য মাত্রা একীকরণ MuQ এবং MusicFM প্রতিনিধিত্ব
ডাউনসাম্পলিং: অবশিষ্ট ডাউনসাম্পলিং মডিউলের মাধ্যমে সময়ের রেজোলিউশন ২৫Hz থেকে প্রায় ৮.৩৩Hz-এ হ্রাস করে

২. বিষমজাত তত্ত্ববধান কৌশল

ডেটা উৎস এম্বেডিং: ডাউনসাম্পল করা বৈশিষ্ট্য ক্রমে শেখা ডেটা উৎস এম্বেডিং যোগ করে, প্রশিক্ষণ নমুনার উৎস নির্দেশ করে
শর্তাধীন শেখা: মডেল উৎস-নির্দিষ্ট টীকা প্যাটার্ন এবং শব্দ বৈশিষ্ট্য শেখে
অনুমান স্থির: অনুমানের সময় ডেটা উৎস এম্বেডিং উচ্চ-মানের HarmonixSet-এ স্থির করে

৩. Transformer এনকোডার

৪-স্তরীয় Transformer এনকোডার, RoPE অবস্থান এনকোডিং ব্যবহার করে সময়ের নির্ভরতা ক্যাপচার করে
লুকানো স্তর মাত্রা ৫১২, দুটি কাজ-নির্দিষ্ট হেড: সীমানা সনাক্তকরণ এবং কার্যকরী লেবেল পূর্বাভাস

প্রশিক্ষণ উদ্দেশ্য

মোট ক্ষতি ফাংশন:

L = λ(L_BCE + λ_TV L_TV) + (1-λ)(L_CE + λ_Focal L_Focal)

যেখানে:

সীমানা সনাক্তকরণ: বাইনারি ক্রস-এন্ট্রপি ক্ষতি + সীমানা-সচেতন ১D মোট পরিবর্তন ক্ষতি (প্রকৃত সীমানায় অত্যধিক মসৃণকরণ এড়াতে)
কার্যকরী পূর্বাভাস: ফ্রেম-স্তরীয় ক্রস-এন্ট্রপি ক্ষতি + softmax ফোকাল ক্ষতি (অনিশ্চিত ফ্রেমে ফোকাস করে)
হাইপারপ্যারামিটার: λ=0.2, λ_TV=0.05, λ_Focal=0.2

পরীক্ষামূলক সেটআপ

ডেটাসেট

SongFormDB (প্রশিক্ষণ সেট, >10k)

SongForm-HX: ৫১২টি প্রশিক্ষণ, ২০০টি যাচাইকরণ, HarmonixSet থেকে অডিও পুনর্নির্মাণ এবং টীকা পরিমার্জন
SongForm-Private: ৪,৩১৪টি, গীত-উদ্ভূত কাঠামো লেবেল, SOFA সারিবদ্ধকারী ব্যবহার করে সময় স্ট্যাম্প সংশোধন
SongForm-Hook: ৫,৯৩৩টি, আংশিক অংশের নির্ভুল কাঠামো টীকা
SongForm-Gem: ৪,৩৮৭টি, ৪৭টি ভাষা জুড়ে, Gemini 2.5 Pro API ব্যবহার করে টীকা উৎপন্ন

SongFormBench (পরীক্ষা সেট, ৩০০টি)

SongFormBench-HarmonixSet: ২০০টি বিশেষজ্ঞ-সংশোধিত HarmonixSet গান
SongFormBench-CN: ১০০টি চীনা গান, MSA-তে চীনা ডেটা স্বল্পতা সমাধান করে

মূল্যায়ন মেট্রিক্স

HR.5F: ০.৫ সেকেন্ডের মধ্যে সীমানা হিট রেটের F মান (কঠোর সীমানা সনাক্তকরণ)
HR3F: ৩ সেকেন্ডের মধ্যে সীমানা হিট রেটের F মান (শিথিল সীমানা সনাক্তকরণ)
ACC: ফ্রেম-স্তরীয় কার্যকরী লেবেল নির্ভুলতা

বাস্তবায়ন বিবরণ

সর্বাধিক ইনপুট সময়কাল ৪২০s, নমুনা হার ৮.৩৩Hz
গাউসিয়ান কার্নেল দিয়ে মসৃণ সীমানা (১০ ফ্রেম উইন্ডো, প্রায় ২.৪s)
ব্যাচ আকার ৮, কোসাইন শেখার হার সময়সূচী (শিখর ১×১০⁻⁴)
একক NVIDIA L40 GPU, তিনটি র্যান্ডম সিড গড়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

SongFormBench-HarmonixSet

পদ্ধতি	ACC	HR.5F	HR3F
All-In-One	0.740	0.596	0.730
LinkSeg-7Labels	0.780	0.630	0.762
TA (Zhang et al.)	0.787	0.610	0.801
Gemini 2.5 Pro	0.748	0.423	0.813
SongFormer (HX)	0.795	0.703	0.784
SongFormer (HX+P+H+G)	0.807	0.696	0.780

SongFormBench-CN

পদ্ধতি	ACC	HR.5F	HR3F
All-In-One	0.834	0.563	0.771
Gemini 2.5 Pro	0.806	0.412	0.833
SongFormer (HX+P+H)	0.890	0.690	0.852
SongFormer (HX+P+H+G)	0.891	0.688	0.851

বিলোপন পরীক্ষা

মাল্টি-রেজোলিউশন প্রতিনিধিত্ব: ৩০s এবং ৪২০s উইন্ডো একত্রিত করা একক উইন্ডোর চেয়ে ভাল কর্মক্ষমতা
ডেটা উৎস এম্বেডিং: অপসারণের পরে ACC ০.৮৪৮ থেকে ০.৮২৫-এ হ্রাস পায়
Transformer বনাম রৈখিক স্তর: Transformer ব্যাকএন্ড সহজ রৈখিক স্তরের চেয়ে উল্লেখযোগ্যভাবে উন্নত
ডাউনসাম্পলিং কৌশল: উপযুক্ত ডাউনসাম্পলিং দক্ষতা এবং নির্ভুলতার মধ্যে সর্বোত্তম ভারসাম্য অর্জন করে

পরীক্ষামূলক অনুসন্ধান

লেবেল নির্ভুলতায় শক্তিশালী: SongFormer উভয় বেঞ্চমার্কে সর্বোচ্চ ACC অর্জন করে
সীমানা সনাক্তকরণ আরও নির্ভুল: কঠোর মূল্যায়নে আরও তীক্ষ্ণ নির্ভরযোগ্য সীমানা পূর্বাভাস প্রদান করে
ডেটা সম্প্রসারণ প্রভাব: প্রশিক্ষণ ডেটা বৃদ্ধি স্থিতিস্থাপকতা উন্নত করে, কিন্তু টীকা অনির্ভুলতার কারণে সীমানা নির্ভুলতা সামান্য প্রভাবিত করে
LLM-এর চেয়ে উন্নত: Gemini 2.5 Pro-এর তুলনায় নির্ভুলতা মেট্রিক্সে উল্লেখযোগ্যভাবে উন্নত

উপসংহার এবং আলোচনা

প্রধান উপসংহার

SongFormer মাল্টি-রেজোলিউশন SSL একীকরণ এবং বিষমজাত তত্ত্ববধানের মাধ্যমে SOTA কর্মক্ষমতা অর্জন করে
বড় আকারের ডেটাসেট SongFormDB এবং উচ্চ-মানের বেঞ্চমার্ক SongFormBench ক্ষেত্র উন্নয়ন চালিত করে
পদ্ধতি কঠোর সীমানা সনাক্তকরণ এবং কার্যকরী লেবেল নির্ভুলতায় বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত

সীমাবদ্ধতা

টীকা গুণমান ট্রেডঅফ: অতিরিক্ত ডেটাসেট প্রবর্তন সামগ্রিক কর্মক্ষমতা উন্নত করে, কিন্তু টীকা অনির্ভুলতা সীমানা নির্ভুলতা প্রভাবিত করে
গণনাগত জটিলতা: মাল্টি-রেজোলিউশন একীকরণ বৈশিষ্ট্য নিষ্কাশনের গণনাগত ওভারহেড বৃদ্ধি করে
ভাষা কভারেজ: চীনা ডেটা অন্তর্ভুক্ত করা সত্ত্বেও, অন্যান্য অ-ইংরেজি ভাষার কভারেজ এখনও সীমাবদ্ধ

ভবিষ্যত দিকনির্দেশনা

নিয়ন্ত্রিত সঙ্গীত প্রজন্ম এবং সঙ্গীত তথ্য পুনরুদ্ধার সিস্টেমে MSA একীভূত করা
আরও ভাষা এবং সঙ্গীত শৈলীর কাঠামো বিশ্লেষণ অন্বেষণ করা
সঙ্গীত প্রজন্ম এবং কাঠামো বিশ্লেষণের সম্মিলিত অপ্টিমাইজেশন গবেষণা করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী প্রযুক্তিগত উদ্ভাবন: মাল্টি-রেজোলিউশন SSL একীকরণ দীর্ঘ-স্বল্প প্রসঙ্গ ভারসাম্য সমস্যা চতুরভাবে সমাধান করে
ব্যবহারিক বিষমজাত তত্ত্ববধান কৌশল: ডেটা উৎস এম্বেডিং টীকা গুণমান অসামঞ্জস্যতা কার্যকরভাবে পরিচালনা করে
উল্লেখযোগ্য ডেটা অবদান: SongFormDB এবং SongFormBench ক্ষেত্র শূন্যতা পূরণ করে
ব্যাপক পরীক্ষা: বিস্তারিত বিলোপন পরীক্ষা প্রতিটি উপাদানের কার্যকারিতা যাচাই করে
ওপেন-সোর্স-বান্ধব: কোড, ডেটা এবং মডেল পুনরুৎপাদনযোগ্যতা নিশ্চিত করতে জনসাধারণের জন্য উপলব্ধ

অপূর্ণতা

পদ্ধতি জটিলতা: একাধিক SSL মডেল একীকরণ সিস্টেম জটিলতা বৃদ্ধি করে
মূল্যায়ন সীমাবদ্ধতা: প্রধানত জনপ্রিয় সঙ্গীতে মূল্যায়ন, শাস্ত্রীয় সঙ্গীত ইত্যাদি অন্যান্য শৈলী কভারেজ অপর্যাপ্ত
রিয়েল-টাইম বিশ্লেষণ: রিয়েল-টাইম প্রক্রিয়াকরণ ক্ষমতা আলোচনা করা হয়নি, বাস্তব প্রয়োগের জন্য প্রযোজ্যতা অস্পষ্ট

প্রভাব

একাডেমিক মূল্য: MSA ক্ষেত্রে নতুন প্রযুক্তিগত প্যারাডাইম এবং বড় আকারের ডেটা সম্পদ প্রদান করে
ব্যবহারিক মূল্য: সঙ্গীত সুপারিশ, প্রজন্ম এবং সম্পাদনা সিস্টেমে সরাসরি প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন-সোর্স গবেষণা পুনরুৎপাদনযোগ্যতা এবং পরবর্তী উন্নয়ন নিশ্চিত করে

প্রযোজ্য পরিস্থিতি

সঙ্গীত স্ট্রিমিং প্ল্যাটফর্মের বুদ্ধিমান সুপারিশ এবং প্লেলিস্ট প্রজন্ম
সঙ্গীত উৎপাদন সফটওয়্যারের স্বয়ংক্রিয় কাঠামো বিশ্লেষণ এবং সম্পাদনা
সঙ্গীত শিক্ষায় কাঠামো তত্ত্ব শিক্ষা সহায়তা
নিয়ন্ত্রিত সঙ্গীত প্রজন্ম সিস্টেমের কাঠামো সীমাবদ্ধতা

সংদর্ভ

মূল সংদর্ভ অন্তর্ভুক্ত:

HarmonixSet ডেটাসেট (Nieto et al., 2019)
সঙ্গীত কাঠামো বিশ্লেষণ সমীক্ষা (Nieto et al., 2020)
MuQ এবং MusicFM স্ব-তত্ত্বাবধান মডেল (Zhu et al., 2025; Won et al., 2024)
সম্পর্কিত গভীর শেখার পদ্ধতি (Wang et al., 2022; Kim & Nam, 2023)

সামগ্রিক মূল্যায়ন: এটি সঙ্গীত কাঠামো বিশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পেপার। প্রযুক্তিগত সমাধান উদ্ভাবনী এবং ব্যবহারিক, পরীক্ষামূলক ডিজাইন কঠোর এবং ব্যাপক, ডেটাসেট অবদান উল্লেখযোগ্য, ক্ষেত্র উন্নয়নে গুরুত্বপূর্ণ চালিকা শক্তি প্রদান করে। ওপেন-সোর্স কৌশল ভাল একাডেমিক ভাগাভাগি চেতনা প্রতিফলিত করে।