The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
- معرّف الورقة: 2501.00067
- العنوان: مجموعة من المصنفات لتقييم الكلام
- المؤلفون: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
- التصنيف: cs.SD cs.AI eess.AS
- تاريخ النشر/المؤتمر: 2025 (نسخة أولية)
- رابط الورقة: https://arxiv.org/abs/2501.00067
تصف هذه الورقة محاولة تطبيق طرق مجموعة المصنفات الثنائية على مشكلة تقييم الكلام الطبي. تم تجميع مجموعة بيانات بناءً على التقييمات الكمية والخبيرة لجودة نطق المقاطع اللفظية. تم استخدام التقييم الكمي باستخدام 7 مؤشرات مختارة كميزات: مسافة الوقت الديناميكي المشروط (DTW)، مسافة مينكوفسكي، معامل الارتباط، أطول تسلسل فرعي مشترك (LCSS)، مسافة تحرير السلسلة الحقيقية (EDR)، مسافة تحرير السلسلة الحقيقية مع العقوبة (ERP)، والدمج والتقسيم (MSM). تم استخدام تقييم الخبراء لجودة النطق كتسميات الفئات: الفئة 1 تمثل الكلام عالي الجودة، والفئة 0 تمثل الكلام المشوه. تمت مقارنة نتائج التدريب لخمس طرق تصنيف: الانحدار اللوجستي (LR)، آلات المتجهات الداعمة (SVM)، بايز الساذج (NB)، أشجار القرار (DT)، وأقرب الجيران (KNN). كما تم عرض النتائج باستخدام طرق مختلطة لبناء مجموعة المصنفات. أظهرت طرق المجموعة تحسناً طفيفاً في دقة التصنيف مقارنة باستخدام مصنف ثنائي واحد على مجموعة البيانات المدروسة.
المشكلة الأساسية التي يعالجها هذا البحث هي أتمتة وتوحيد تقييم الكلام الطبي. بشكل محدد، في عملية إعادة تأهيل الكلام لدى المرضى الذين يعانون من أمراض الجهاز الصوتي، هناك حاجة لإجراء تقييم موضوعي ودقيق لجودة نطق المقاطع اللفظية للمريض.
- الحاجة الطبية: تُظهر إحصائيات أمراض الأورام في الجهاز الصوتي أهمية متزايدة لطرق تحليل الكلام في الطب
- احتياجات إعادة التأهيل: تتطلب تدابير إعادة التأهيل تعديلاً وفقاً للخصائص الفردية للمريض، والطرق التقليدية للتقييم الذاتي لها قيود
- متطلبات التوحيد: تحتاج طرق تقييم الكلام للخبراء الموصى بها رسمياً بناءً على معايير GOST إلى بدائل أكثر موضوعية
تعاني طرق تقييم الكلام التقليدية للخبراء من المشاكل التالية:
- قوة الذاتية وافتقار المعايير الكمية الموضوعية
- قد تختلف نتائج التقييم باختلاف المقيّم
- صعوبة التطبيق على نطاق واسع وموحد
- نقص التتبع الدقيق لعملية إعادة تأهيل المريض
بناءً على طرق التعلم الآلي، وخاصة تقنيات مجموعة المصنفات، يمكن تحقيق تحليل أكثر كفاءة لإشارات الكلام، مما يوفر تقييماً موضوعياً ومتسقاً لجودة الكلام، وبالتالي تحسين فعالية إعادة تأهيل الكلام.
- اقتراح طريقة تقييم الكلام بناءً على مجموعة المصنفات: تطبيق طريقة المزج (Blending) على مهام تقييم جودة الكلام الطبي
- بناء مجموعة بيانات لتقييم جودة الكلام متعدد الأصوات: بناءً على بيانات تسجيلات المرضى من معهد أبحاث الأورام بمركز توموسك الوطني للبحوث الطبية
- مقارنة منهجية لعدة خوارزميات تصنيف: تقييم شامل ومقارنة 5 طرق تصنيف رئيسية
- تحقيق تحسن في دقة التصنيف: حققت طرق المجموعة تحسناً في الأداء مقارنة بالمصنف الواحد على جميع الأصوات المختبرة
- توفير عملية معالجة بيانات كاملة: تتضمن طريقة منهجية لتنظيف الضوضاء وإعادة توازن البيانات
الإدخال: تسجيلات صوتية لنطق المقاطع اللفظية للمريض
الإخراج: نتيجة التصنيف الثنائي (0-كلام مشوه، 1-كلام عالي الجودة)
القيود: بيانات التدريب المستندة إلى 7 مؤشرات كمية وتعليقات الخبراء
استخدمت الدراسة 7 مؤشرات رئيسية لقياس التشابه والمسافة:
- مسافة DTW: تقدير تكلفة المسار في خوارزمية الوقت الديناميكي المشروط
- معامل الارتباط: قياس الارتباط الخطي بين التسلسلات
- مسافة مينكوفسكي: قياس مسافة معمم
- EDR: مسافة تحرير السلسلة الحقيقية
- ERP: مسافة تحرير السلسلة الحقيقية مع العقوبة
- LCSS: طول أطول تسلسل فرعي مشترك
- MSM: مسافة الدمج والتقسيم المتحرك، حساب عدد العمليات المطلوبة لتحويل التسلسل
تم اعتماد طرق المعالجة التالية لمعالجة عدم توازن مجموعة البيانات:
- تنظيف الضوضاء: استخدام خوارزمية تحليل الربيعيات
- إعادة توازن البيانات: استخدام طريقة KMeansSMOTE (مزيج من K-Means و SMOTE)
- بناء مجموعة البيانات: بناء 4 متغيرات من مجموعة البيانات لكل صوت مشكلة:
- مجموعة البيانات الأصلية
- مجموعة البيانات بعد تنظيف الضوضاء
- مجموعة البيانات المعاد توازنها
- مجموعة البيانات المعاد توازنها والمنظفة من الضوضاء
تم اختيار 5 طرق تصنيف ثنائية شائعة:
- أقرب الجيران (KNN)
- الغابة العشوائية (RF)
- آلات المتجهات الداعمة (SVC)
- الانحدار اللوجستي (LR)
- أشجار القرار (DT)
تم اعتماد طريقة النموذج المختلط (Blending) لبناء مجموعة المصنفات:
الخطوة 1: إنشاء عدة نماذج أساسية
الخطوة 2: تدريب النموذج المختلط
- تدريب النماذج الأساسية على مجموعة بيانات التدريب
- تدريب النموذج الفوقي على نتائج تنبؤات النماذج الأساسية
الخطوة 3: بناء مصفوفة الميزات الفوقية meta_X
- كل عمود يمثل إخراج نموذج أساسي واحد
- كل صف يمثل عينة واحدة في مجموعة البيانات المستقلة
الخطوة 4: تدريب النموذج الفوقي
الخطوة 5: التنبؤ بالمجموعة
- عملية من خطوتين: تنبؤ النموذج الأساسي → التنبؤ النهائي للنموذج الفوقي
- مصدر البيانات: تسجيلات المرضى من معهد أبحاث الأورام بمركز توموسك الوطني للبحوث الطبية
- حجم البيانات: لـ 3 أصوات مشكلة k، s، t، 1020 متجه ميزة لكل صوت
- طريقة التعليق: تعليق من قبل خبراء معالجي الكلام (0-غير واضح، 1-واضح)
- بُعد الميزة: متجه ميزة 7 أبعاد (يتوافق مع 7 مؤشرات مسافة)
- المؤشر الرئيسي: دقة التصنيف (Accuracy)
- طريقة التقييم: تقييم تأثير نموذج المجموعة على مجموعة اختبار مستقلة
- 5 مصنفات فردية كطرق أساسية
- طرق مجموعة مختلفة للمقارنة الداخلية
- استخدام مكتبات التعلم الآلي في Python
- معالجة مجموعات البيانات بشكل منفصل حسب الصوت
- اعتماد التقسيم القياسي للتدريب والتحقق والاختبار
- أفضل مصنف فردي: الغابة العشوائية، دقة 77.2%
- أفضل نتيجة مجموعة: دقة 78.6%
- أفضل مزيج: المصنف الرئيسي SVC + المصنفات المساعدة (KNN, SVC, RandomForest, DecisionTree)
- حجم التحسن: 1.4 نقطة مئوية
- أفضل مصنف فردي: شجرة القرار، دقة 86.3%
- أفضل نتيجة مجموعة: دقة 87.0%
- عدد الحالات المحسنة: تحسنت النتائج في 24 حالة
- عدد مرات الحصول على أفضل نتيجة: 5 مرات بدقة 87.0%
- حجم التحسن: 0.7 نقطة مئوية
- أفضل مصنف فردي: آلة المتجهات الداعمة، دقة 86.4%
- أفضل نتيجة مجموعة: دقة 87.0%
- أفضل مزيج:
- المصنف الرئيسي DecisionTree + المصنفات المساعدة (KNN, SVC, LogisticRegression)
- المصنف الرئيسي RandomForest + المصنفات المساعدة (KNN, SVC, LogisticRegression)
- حجم التحسن: 0.6 نقطة مئوية
- التحسن المتسق: حققت طرق المجموعة تحسناً في الأداء على جميع مجموعات البيانات الثلاث
- حجم التحسن المعتدل: نطاق تحسن الدقة بين 0.6-1.4 نقطة مئوية
- تنوع المزيج: توجد اختلافات في أفضل مزيج مجموعة لأصوات مختلفة، مما يشير إلى الحاجة إلى تحسين موجه
- تعزيز الاستقرار: توفر طرق المجموعة نتائج تنبؤية أكثر استقراراً من المصنفات الفردية
تذكر الورقة تطبيق المصنفات الجماعية في مجالات متعددة مثل الطب والاقتصاد وأمان المعلومات، مع التركيز بشكل خاص على أن مزيج مصنفين أو أكثر يمكن أن يحسن دقة الكشف عن هجمات DDoS بمتوسط 5%.
- الطرق التقليدية بناءً على تقييم الخبراء وفقاً لمعايير GOST
- التطبيق المتزايد لطرق التعلم الآلي في تحليل إشارات الكلام
- الدور المهم للخوارزميات مثل الوقت الديناميكي المشروط في معالجة الكلام
مقارنة بالأعمال الموجودة، تطبق هذه الورقة لأول مرة التعلم الجماعي بشكل منهجي على تقييم إعادة تأهيل الكلام الطبي، مما يوفر حلاً متكاملاً من استخراج الميزات إلى مجموعة المصنفات.
- فعالية الطريقة: تثبت طرق المجموعة فعاليتها في تحسين دقة التصنيف في مهام تقييم جودة الكلام
- القابلية للتعميم: لوحظ تأثير تحسن متسق على أصوات مختلفة
- القيمة العملية: توفر أداة تقييم موضوعية وآلية لإعادة التأهيل الكلامي الطبي
- حجم التحسن المحدود: تحسن الدقة نسبياً صغير (0.6-1.4 نقطة مئوية)
- حجم مجموعة البيانات: فقط 1020 عينة لكل صوت، قد يحد من قدرة النموذج على التعميم
- هندسة الميزات البسيطة: استخدام 7 مؤشرات مسافة تقليدية فقط، قد يكون هناك نقص في تمثيل الميزات
- طريقة مجموعة واحدة: تم اختبار طريقة المزج فقط، لم يتم استكشاف استراتيجيات مجموعة أخرى
تحدد الورقة بوضوح خطط استكشاف طرق بناء مجموعة أخرى لزيادة دقة التصنيف وتحسين تأثير تقييم جودة تحليل الكلام.
- قيمة تطبيقية عالية: معالجة احتياجات طبية حقيقية مع سيناريوهات تطبيق واضحة
- منهجية صارمة: مقارنة منهجية لعدة طرق تصنيف، اعتماد عملية معالجة بيانات قياسية
- تصميم تجريبي معقول: اعتماد طرق معالجة مناسبة لمشكلة عدم توازن البيانات
- قابلية إعادة الإنتاج: توفير إعدادات تجريبية وتكوينات معاملات مفصلة
- ابتكار محدود: في الأساس تطبيق تقنيات موجودة، يفتقر إلى ابتكار منهجي كبير
- تحسن أداء ضئيل: على الرغم من الاتساق الجيد، حجم التحسن صغير، القيمة العملية تحتاج إلى التحقق
- هندسة ميزات بسيطة: عدم الاستفادة الكاملة من طرق حديثة مثل التعلم العميق لاستخراج الميزات
- مؤشرات تقييم واحدة: استخدام الدقة فقط، نقص مؤشرات مهمة أخرى مثل الدقة والاستدعاء
- نقص اختبار الدلالة الإحصائية: عدم الإبلاغ عن الدلالة الإحصائية للنتائج
- مساهمة المجال: توفير مسار تقني جديد لتقييم الكلام الطبي
- القيمة العملية: يمكن تطبيقها مباشرة في الممارسة السريرية لإعادة التأهيل الكلامي
- القابلية للتكرار: وصف الطريقة واضح، سهل التكرار والتحسين
- القيود: قد يكون التأثير محدوداً بسبب حجم التحسن الصغير في الأداء
- إعادة التأهيل الكلامي الطبي: تقييم جودة الكلام ومتابعة إعادة التأهيل لمرضى أمراض الجهاز الصوتي
- العلاج الكلامي: توفير أداة تقييم موضوعية لمعالجي الكلام
- مراقبة جودة الكلام: تقييم جودة آلي واسع النطاق لبيانات الكلام
- منصة البحث: بمثابة منصة أساسية لمزيد من البحث في طرق تقييم الكلام
تستشهد الورقة بـ 12 مرجعاً ذا صلة، تغطي الاتجاهات المهمة التالية:
- إحصائيات أمراض الأورام ومعايير GOST
- تطبيق التعلم الآلي في تحليل الكلام
- تطبيق التعلم الجماعي في أمان الشبكات
- خوارزميات الوقت الديناميكي المشروط ومؤشرات المسافة المختلفة
- طرق محاذاة السلاسل الزمنية وقياس التشابه
توفر هذه المراجع أساساً نظرياً وتقنياً قوياً للبحث.
التقييم الإجمالي: هذه ورقة بحثية موجهة نحو التطبيق، على الرغم من أن الابتكار في الطريقة محدود نسبياً، إلا أنها توفر حلاً منهجياً لاحتياجات طبية حقيقية. الطريقة البحثية صارمة، التصميم التجريبي معقول، والنتائج لها قيمة عملية معينة. يُنصح بأن يركز العمل المستقبلي على استكشاف أعمق في هندسة الميزات وطرق المجموعة.