2025-11-19T02:46:12.920144

Beat Detection as Object Detection

Ahn, Jung
Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
academic

تتبع النبض كمشكلة كشف الأجسام

المعلومات الأساسية

  • معرّف الورقة: 2510.14391
  • العنوان: تتبع النبض كمشكلة كشف الأجسام
  • المؤلفون: Jaehoon Ahn (جامعة Sogang)، Moon-Ryul Jung (جامعة Sogang)
  • التصنيف: cs.SD (الصوت)، cs.AI (الذكاء الاصطناعي)، cs.LG (التعلم الآلي)
  • تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.14391v1

الملخص

تُخرج نماذج تتبع النبض والنبض القوي الحديثة (مثل RNNs و TCNs و Transformers) قيم تفعيل على مستوى الإطار. تقترح هذه الورقة إعادة تعريف هذه المهمة كمشكلة كشف أجسام، حيث يتم نمذجة النبضات والنبضات القوية كـ"أجسام" زمنية. من خلال تكييف كاشف FCOS من رؤية الحاسوب إلى الصوت أحادي البعد، واستبدال العمود الفقري الأصلي باستخراج الميزات الزمنية من WaveBeat، وإضافة شبكة هرم الميزات لالتقاط أنماط زمنية متعددة المقاييس. يتنبأ النموذج بفترات النبض/النبض القوي المتداخلة ودرجات الثقة الخاصة بها، ثم يستخدم قمع الحد الأقصى غير الأقصى (NMS) لاختيار التنبؤات النهائية. تؤدي خطوة NMS هذه دوراً مشابهاً لـ DBN في المتتبعات التقليدية، لكنها أبسط وأقل استكشافية. يُظهر التقييم على مجموعات بيانات موسيقية قياسية نتائج تنافسية، مما يثبت أن تقنيات كشف الأجسام يمكنها نمذجة النبض الموسيقي بشكل فعال مع الحد الأدنى من التكييف.

الخلفية البحثية والدافع

تعريف المشكلة

يعتبر تتبع النبض اتجاهاً بحثياً مهماً في مجال استرجاع المعلومات الموسيقية (MIR)، ويشمل التنبؤ الحسابي لمواقع النبض والنبض القوي. تطورت الطرق التقليدية من الكشف المبكر عن نقاط البداية إلى تقنيات التعلم الآلي الحديثة، بما في ذلك RNNs و LSTMs و TCNs و Transformers وغيرها.

قيود الطرق الموجودة

  1. تعقيد المعالجة اللاحقة: تُنتج معظم شبكات كشف النبض الحديثة دوال تفعيل لكل إطار، مما يتطلب استخدام الشبكات البايزية الديناميكية (DBNs) للمعالجة اللاحقة لإنتاج مواقع النبض النهائية
  2. عيوب DBN: تفشل DBNs عند تغيير النبض وتغيير التوقيع الزمني، وهي استكشافية جداً
  3. صعوبة الكشف عن النبض القوي: يكون أداء الكشف عن النبض القوي أسوأ بشكل عام مقارنة بكشف النبض

الدافع البحثي

يعتقد المؤلفون أن تتبع النبض يمكن اعتباره شكلاً من أشكال كشف الأجسام للصوت، لذلك يحاولون استخدام الشبكات العصبية المصممة خصيصاً لكشف الأجسام لتحسين تتبع النبض، خاصة أداء تتبع النبض القوي.

المساهمات الأساسية

  1. ابتكار النموذج: إعادة تعريف تتبع النبض لأول مرة كمشكلة كشف أجسام زمنية ثنائية الأبعاد، حيث يتم نمذجة النبضات والنبضات القوية كأجسام فترة زمنية
  2. تكييف العمارة: تكييف ناجح لنموذج كشف الأجسام FCOS في مجال الصوت، واستبدال العمود الفقري الأصلي بـ WaveBeat
  3. تبسيط المعالجة اللاحقة: استبدال معالجة DBN التقليدية بـ NMS، مما يوفر حلاً أبسط وأقل استكشافية
  4. تحسن الأداء: تحقيق نتائج تنافسية على مجموعات البيانات الموسيقية القياسية، خاصة في الكشف عن النبض القوي

شرح الطريقة

تعريف المهمة

تحويل كشف النبض من نقطة زمنية ثنائية الأبعاد إلى مشكلة كشف فترة في صوت أحادي البعد. الإدخال عبارة عن موجة صوتية خام، والإخراج عبارة عن تنبؤات فترة نبض/نبض قوي مع درجات ثقة.

معمارية النموذج

التصميم الشامل

يتضمن نموذج BeatFCOS المكونات الرئيسية التالية:

  1. شبكة العمود الفقري WaveBeat: تحل محل ResNet-50 الأصلي في FCOS، وتعالج موجات الصوت الخام مباشرة
  2. شبكة هرم الميزات (FPN): التقاط أنماط زمنية متعددة المقاييس
  3. كاشف ثلاثي الرؤوس: يستخدم بشكل منفصل للتصنيف والانحدار والتنبؤ بـ leftness

تمثيل فترة النبض

  • فترة النبض: القطعة الزمنية بين نبضتين متتاليتين
  • فترة النبض القوي: القطعة الزمنية بين نبضتين قويتين متتاليتين
  • التمثيل المتكرر: يظهر النبض القوي كفترة نبض قوي وكفترة نبض عادية

تكامل WaveBeat و FPN

  • إزالة الطبقة الالتفافية النهائية وطبقة sigmoid من WaveBeat
  • تمرير مخرجات آخر كتلتي TCN (C7 و C8) إلى طبقات FPN P7 و P8
  • بسبب قيود الذاكرة، يتم استخدام مخرجات آخر كتلتي عمود فقري فقط بدلاً من ثلاث في FCOS الأصلي

نقاط الابتكار التقني

1. استراتيجية النقاط الثابتة

  • قيود الحجم: كل طبقة FPN مسؤولة عن فترات زمنية محددة
  • استراتيجية الإطار الفرعي: استخدام إطارات فرعية منحازة لليسار بدلاً من المناطق المركزية المتماثلة، مع التركيز على موقع بداية الفترة

2. آلية Leftness

استبدال centerness في FCOS، معرّف كـ:

leftness1D(r) = √(rright / (rleft + rright))

يؤكد على الحافة اليسرى لفترة النبض بدلاً من المركز، وهو ما يتوافق بشكل أفضل مع حدس تحديد موقع النبض.

3. دالة الخسارة

تتضمن الخسارة الإجمالية ثلاثة أجزاء:

Lpoint(k,n) = Lcls(ck,n, ĉk,n, n) + 1{ck,n>0}Lreg(rk,n, r̂k,n, n) + 1{ck,n>0}Llft(rk,n, r̂k,n, n)
  • خسارة التصنيف: focal loss
  • خسارة الانحدار: GIoU loss المكيفة للبعد الواحد
  • خسارة Leftness: خسارة الإنتروبيا الثنائية

إعداد التجارب

مجموعات البيانات

استخدام نفس مجموعات البيانات المستخدمة في WaveBeat:

  • مجموعة التدريب: Ballroom و Hainsworth و Beatles و RWC Popular
  • مجموعة الاختبار: GTZAN و SMC
  • تنسيق الصوت: معدل العينة 22.05 كيلو هرتز، طول العينة 2^21 (حوالي 1.6 دقيقة)

مقاييس التقييم

  • درجة F1: المتوسط التوافقي للدقة والاستدعاء
  • CMLt (مقياس الاستمرارية مع تسامح مستوى المقياس الموسيقي)
  • AMLt (مقياس الدقة مع تسامح مستوى المقياس الموسيقي)

طرق المقارنة

  • WaveBeat (اختيار القمة)
  • WaveBeat (DBN)
  • Spectral TCN
  • Hung et al. (قائم على Transformer)

تفاصيل التنفيذ

  • المُحسِّن: Adam (lr=1e-3, weight decay=1e-4)
  • جدول معدل التعلم: تقليل 10 مرات عند عدم وجود تحسن لمدة 3 حقب متتالية
  • حجم الدفعة: 16
  • بيئة التدريب: Google Colab، وحدة معالجة رسومات NVIDIA A100 بسعة 40 جيجابايت
  • استراتيجية التدريب: التحقق المتقاطع 8 أضعاف

نتائج التجارب

النتائج الرئيسية

يُظهر BeatFCOS أداءً ممتازاً عبر جميع متغيرات WaveBeat على عدة مجموعات بيانات:

أداء تتبع النبض

  • مجموعة بيانات Ballroom: F1=0.927, CMLt=0.873, AMLt=0.898
  • مجموعة بيانات Beatles: F1=0.903, CMLt=0.797, AMLt=0.866
  • مجموعة بيانات RWC Popular: F1=0.862, CMLt=0.763, AMLt=0.849

أداء تتبع النبض القوي

  • مجموعة بيانات Ballroom: F1=0.807, CMLt=0.697, AMLt=0.756
  • مجموعة بيانات Beatles: F1=0.762, CMLt=0.579, AMLt=0.659
  • مجموعة بيانات RWC Popular: F1=0.779, CMLt=0.691, AMLt=0.731

تجارب الاستئصال

Leftness مقابل Centerness

تتفوق آلية Leftness بشكل ملحوظ على centerness في جميع مجموعات البيانات والمقاييس تقريباً، خاصة في تتبع النبض القوي.

Soft-NMS مقابل NMS القياسي

يحسن Soft-NMS الأداء بشكل مستمر، مما يشير إلى أنه يساعد في الحفاظ على تنبؤات النبض الصحيحة القريبة التي قد يتم قمعها بشكل خاطئ بواسطة NMS القياسي.

استراتيجية ضبط العمود الفقري

تتفوق استراتيجية تجميد طبقات BatchNorm فقط مع السماح بتحديث أوزان الالتفاف بشكل ملحوظ على تجميد العمود الفقري بالكامل.

اختيار عتبة NMS

من خلال تحليل الرسم البياني لتوزيع IoU لفترات التنبؤ، تم اختيار عتبة IoU بقيمة 0.2 بطريقة تحكمها البيانات، مما يتجنب البحث الشامل المطلوب بواسطة DBN التقليدي.

الأعمال ذات الصلة

الطرق التقليدية

تستند الطرق المبكرة لتتبع النبض إلى كشف نقاط البداية، من خلال تحديد بدايات الملاحظات لتقدير سلسلة مواقع النبض.

طرق التعلم العميق

  • RNNs/LSTMs: توفر دعماً للاعتماد الزمني، مع تحسن كبير مقارنة بطرق التعلم الآلي غير التقليدية
  • TCNs: استخدام عدد كبير من طبقات الالتفاف الموسعة لتوفير سياق زمني كبير
  • Transformers: تعلم توزيع الأوزان على جوانب مهمة من بيانات التسلسل

تقنيات المعالجة اللاحقة

تستخدم الطرق التقليدية عموماً DBNs للمعالجة اللاحقة، لكنها تواجه مشاكل مثل تعقيد ضبط المعاملات والتكلفة الحسابية العالية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يمكن تطبيق نموذج كشف الأجسام بشكل فعال على مهمة تتبع النبض
  2. معالجة NMS اللاحقة أبسط وأقل استكشافية من DBN التقليدي
  3. يُظهر BeatFCOS أداءً استثنائياً خاصة في الكشف عن النبض القوي
  4. اختيار المعاملات الفائقة الذي تحكمه البيانات أكثر كفاءة من البحث الشامل

القيود

  1. حدود الأداء: على الرغم من أنها تنافسية قوية، إلا أنها لا تتفوق باستمرار على طرق SOTA في جميع المقاييس
  2. قيود الذاكرة: بسبب قيود الذاكرة، يمكن استخدام طبقتي FPN فقط بدلاً من ثلاث
  3. الاعتماد على البيانات: تتأثر فعالية الطريقة بشكل كبير بجودة بيانات التدريب

الاتجاهات المستقبلية

  1. دمج قيود الجوار الزمني لفرض مسافات نبض منتظمة بشكل أفضل
  2. استكشاف تعلم النماذج الزمنية القائمة على EM كاتجاه تكميلي
  3. تحسين العمارة بشكل أكبر لتقليل متطلبات الذاكرة

التقييم المتعمق

المزايا

  1. ابتكار قوي: إدخال نموذج كشف الأجسام لتتبع النبض لأول مرة، فكرة جديدة
  2. تقنية متينة: تصميم آلية leftness معقول، يتوافق مع حدس تحديد موقع النبض
  3. تجارب شاملة: تتضمن تجارب استئصال مفصلة والتحقق المتقاطع 8 أضعاف
  4. قيمة عملية: تبسيط تدفق المعالجة اللاحقة، تقليل تعقيد ضبط المعاملات

أوجه القصور

  1. تحسن الأداء محدود: الزيادة مقارنة بطرق SOTA الموجودة ليست كبيرة بما يكفي
  2. قيود التطبيق: التحقق الرئيسي على مجموعات بيانات محددة، القدرة على التعميم تحتاج إلى مزيد من الإثبات
  3. نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب ملاءمة كشف الأجسام لتتبع النبض

التأثير

  1. مساهمة منهجية: توفير فكرة نمذجة جديدة لمجال استرجاع المعلومات الموسيقية
  2. إلهام عابر للمجالات: توضيح إمكانية تطبيق تقنيات رؤية الحاسوب في معالجة الصوت
  3. القيمة الهندسية: لتدفق المعالجة اللاحقة المبسط قيمة تطبيقية عملية

السيناريوهات المناسبة

  1. تطبيقات الموسيقى التي تتطلب كشف النبض في الوقت الفعلي
  2. الأنظمة المدمجة الحساسة لتعقيد المعالجة اللاحقة
  3. مهام تحليل الموسيقى التي تتطلب دقة عالية في الكشف عن النبض القوي

المراجع

تستشهد الورقة بـ 34 مرجعاً ذا صلة، تغطي مجالات متعددة مثل تتبع النبض وكشف الأجسام والتعلم العميق، مما يوفر أساساً نظرياً متيناً للبحث.