2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.

The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.

academic

مجموعة من المصنفات لتقييم الكلام

المعلومات الأساسية

معرّف الورقة: 2501.00067
العنوان: مجموعة من المصنفات لتقييم الكلام
المؤلفون: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
التصنيف: cs.SD cs.AI eess.AS
تاريخ النشر/المؤتمر: 2025 (نسخة أولية)
رابط الورقة: https://arxiv.org/abs/2501.00067

الملخص

تصف هذه الورقة محاولة تطبيق طرق مجموعة المصنفات الثنائية على مشكلة تقييم الكلام الطبي. تم تجميع مجموعة بيانات بناءً على التقييمات الكمية والخبيرة لجودة نطق المقاطع اللفظية. تم استخدام التقييم الكمي باستخدام 7 مؤشرات مختارة كميزات: مسافة الوقت الديناميكي المشروط (DTW)، مسافة مينكوفسكي، معامل الارتباط، أطول تسلسل فرعي مشترك (LCSS)، مسافة تحرير السلسلة الحقيقية (EDR)، مسافة تحرير السلسلة الحقيقية مع العقوبة (ERP)، والدمج والتقسيم (MSM). تم استخدام تقييم الخبراء لجودة النطق كتسميات الفئات: الفئة 1 تمثل الكلام عالي الجودة، والفئة 0 تمثل الكلام المشوه. تمت مقارنة نتائج التدريب لخمس طرق تصنيف: الانحدار اللوجستي (LR)، آلات المتجهات الداعمة (SVM)، بايز الساذج (NB)، أشجار القرار (DT)، وأقرب الجيران (KNN). كما تم عرض النتائج باستخدام طرق مختلطة لبناء مجموعة المصنفات. أظهرت طرق المجموعة تحسناً طفيفاً في دقة التصنيف مقارنة باستخدام مصنف ثنائي واحد على مجموعة البيانات المدروسة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يعالجها هذا البحث هي أتمتة وتوحيد تقييم الكلام الطبي. بشكل محدد، في عملية إعادة تأهيل الكلام لدى المرضى الذين يعانون من أمراض الجهاز الصوتي، هناك حاجة لإجراء تقييم موضوعي ودقيق لجودة نطق المقاطع اللفظية للمريض.

أهمية المشكلة

الحاجة الطبية: تُظهر إحصائيات أمراض الأورام في الجهاز الصوتي أهمية متزايدة لطرق تحليل الكلام في الطب
احتياجات إعادة التأهيل: تتطلب تدابير إعادة التأهيل تعديلاً وفقاً للخصائص الفردية للمريض، والطرق التقليدية للتقييم الذاتي لها قيود
متطلبات التوحيد: تحتاج طرق تقييم الكلام للخبراء الموصى بها رسمياً بناءً على معايير GOST إلى بدائل أكثر موضوعية

القيود في الطرق الحالية

تعاني طرق تقييم الكلام التقليدية للخبراء من المشاكل التالية:

قوة الذاتية وافتقار المعايير الكمية الموضوعية
قد تختلف نتائج التقييم باختلاف المقيّم
صعوبة التطبيق على نطاق واسع وموحد
نقص التتبع الدقيق لعملية إعادة تأهيل المريض

دافع البحث

بناءً على طرق التعلم الآلي، وخاصة تقنيات مجموعة المصنفات، يمكن تحقيق تحليل أكثر كفاءة لإشارات الكلام، مما يوفر تقييماً موضوعياً ومتسقاً لجودة الكلام، وبالتالي تحسين فعالية إعادة تأهيل الكلام.

المساهمات الأساسية

اقتراح طريقة تقييم الكلام بناءً على مجموعة المصنفات: تطبيق طريقة المزج (Blending) على مهام تقييم جودة الكلام الطبي
بناء مجموعة بيانات لتقييم جودة الكلام متعدد الأصوات: بناءً على بيانات تسجيلات المرضى من معهد أبحاث الأورام بمركز توموسك الوطني للبحوث الطبية
مقارنة منهجية لعدة خوارزميات تصنيف: تقييم شامل ومقارنة 5 طرق تصنيف رئيسية
تحقيق تحسن في دقة التصنيف: حققت طرق المجموعة تحسناً في الأداء مقارنة بالمصنف الواحد على جميع الأصوات المختبرة
توفير عملية معالجة بيانات كاملة: تتضمن طريقة منهجية لتنظيف الضوضاء وإعادة توازن البيانات

شرح الطريقة

تعريف المهمة

الإدخال: تسجيلات صوتية لنطق المقاطع اللفظية للمريض الإخراج: نتيجة التصنيف الثنائي (0-كلام مشوه، 1-كلام عالي الجودة) القيود: بيانات التدريب المستندة إلى 7 مؤشرات كمية وتعليقات الخبراء

طريقة استخراج الميزات

استخدمت الدراسة 7 مؤشرات رئيسية لقياس التشابه والمسافة:

مسافة DTW: تقدير تكلفة المسار في خوارزمية الوقت الديناميكي المشروط
معامل الارتباط: قياس الارتباط الخطي بين التسلسلات
مسافة مينكوفسكي: قياس مسافة معمم
EDR: مسافة تحرير السلسلة الحقيقية
ERP: مسافة تحرير السلسلة الحقيقية مع العقوبة
LCSS: طول أطول تسلسل فرعي مشترك
MSM: مسافة الدمج والتقسيم المتحرك، حساب عدد العمليات المطلوبة لتحويل التسلسل

استراتيجية معالجة البيانات

تم اعتماد طرق المعالجة التالية لمعالجة عدم توازن مجموعة البيانات:

تنظيف الضوضاء: استخدام خوارزمية تحليل الربيعيات
إعادة توازن البيانات: استخدام طريقة KMeansSMOTE (مزيج من K-Means و SMOTE)
بناء مجموعة البيانات: بناء 4 متغيرات من مجموعة البيانات لكل صوت مشكلة:
- مجموعة البيانات الأصلية
- مجموعة البيانات بعد تنظيف الضوضاء
- مجموعة البيانات المعاد توازنها
- مجموعة البيانات المعاد توازنها والمنظفة من الضوضاء

اختيار المصنف

تم اختيار 5 طرق تصنيف ثنائية شائعة:

أقرب الجيران (KNN)
الغابة العشوائية (RF)
آلات المتجهات الداعمة (SVC)
الانحدار اللوجستي (LR)
أشجار القرار (DT)

طريقة المجموعة: المزج (Blending)

تم اعتماد طريقة النموذج المختلط (Blending) لبناء مجموعة المصنفات:

الخطوة 1: إنشاء عدة نماذج أساسية الخطوة 2: تدريب النموذج المختلط

تدريب النماذج الأساسية على مجموعة بيانات التدريب
تدريب النموذج الفوقي على نتائج تنبؤات النماذج الأساسية

الخطوة 3: بناء مصفوفة الميزات الفوقية meta_X

كل عمود يمثل إخراج نموذج أساسي واحد
كل صف يمثل عينة واحدة في مجموعة البيانات المستقلة

الخطوة 4: تدريب النموذج الفوقي الخطوة 5: التنبؤ بالمجموعة

عملية من خطوتين: تنبؤ النموذج الأساسي → التنبؤ النهائي للنموذج الفوقي

إعداد التجربة

مجموعة البيانات

مصدر البيانات: تسجيلات المرضى من معهد أبحاث الأورام بمركز توموسك الوطني للبحوث الطبية
حجم البيانات: لـ 3 أصوات مشكلة k، s، t، 1020 متجه ميزة لكل صوت
طريقة التعليق: تعليق من قبل خبراء معالجي الكلام (0-غير واضح، 1-واضح)
بُعد الميزة: متجه ميزة 7 أبعاد (يتوافق مع 7 مؤشرات مسافة)

مؤشرات التقييم

المؤشر الرئيسي: دقة التصنيف (Accuracy)
طريقة التقييم: تقييم تأثير نموذج المجموعة على مجموعة اختبار مستقلة

طرق المقارنة

5 مصنفات فردية كطرق أساسية
طرق مجموعة مختلفة للمقارنة الداخلية

تفاصيل التنفيذ

استخدام مكتبات التعلم الآلي في Python
معالجة مجموعات البيانات بشكل منفصل حسب الصوت
اعتماد التقسيم القياسي للتدريب والتحقق والاختبار

نتائج التجربة

النتائج الرئيسية

مجموعة بيانات الصوت k

أفضل مصنف فردي: الغابة العشوائية، دقة 77.2%
أفضل نتيجة مجموعة: دقة 78.6%
أفضل مزيج: المصنف الرئيسي SVC + المصنفات المساعدة (KNN, SVC, RandomForest, DecisionTree)
حجم التحسن: 1.4 نقطة مئوية

مجموعة بيانات الصوت t

أفضل مصنف فردي: شجرة القرار، دقة 86.3%
أفضل نتيجة مجموعة: دقة 87.0%
عدد الحالات المحسنة: تحسنت النتائج في 24 حالة
عدد مرات الحصول على أفضل نتيجة: 5 مرات بدقة 87.0%
حجم التحسن: 0.7 نقطة مئوية

مجموعة بيانات الصوت s

أفضل مصنف فردي: آلة المتجهات الداعمة، دقة 86.4%
أفضل نتيجة مجموعة: دقة 87.0%
أفضل مزيج:
- المصنف الرئيسي DecisionTree + المصنفات المساعدة (KNN, SVC, LogisticRegression)
- المصنف الرئيسي RandomForest + المصنفات المساعدة (KNN, SVC, LogisticRegression)
حجم التحسن: 0.6 نقطة مئوية

النتائج التجريبية

التحسن المتسق: حققت طرق المجموعة تحسناً في الأداء على جميع مجموعات البيانات الثلاث
حجم التحسن المعتدل: نطاق تحسن الدقة بين 0.6-1.4 نقطة مئوية
تنوع المزيج: توجد اختلافات في أفضل مزيج مجموعة لأصوات مختلفة، مما يشير إلى الحاجة إلى تحسين موجه
تعزيز الاستقرار: توفر طرق المجموعة نتائج تنبؤية أكثر استقراراً من المصنفات الفردية

الأعمال ذات الصلة

تطبيق التعلم الجماعي في الطب

تذكر الورقة تطبيق المصنفات الجماعية في مجالات متعددة مثل الطب والاقتصاد وأمان المعلومات، مع التركيز بشكل خاص على أن مزيج مصنفين أو أكثر يمكن أن يحسن دقة الكشف عن هجمات DDoS بمتوسط 5%.

تطور تقنيات تحليل الكلام

الطرق التقليدية بناءً على تقييم الخبراء وفقاً لمعايير GOST
التطبيق المتزايد لطرق التعلم الآلي في تحليل إشارات الكلام
الدور المهم للخوارزميات مثل الوقت الديناميكي المشروط في معالجة الكلام

تحديد مساهمة هذه الورقة

مقارنة بالأعمال الموجودة، تطبق هذه الورقة لأول مرة التعلم الجماعي بشكل منهجي على تقييم إعادة تأهيل الكلام الطبي، مما يوفر حلاً متكاملاً من استخراج الميزات إلى مجموعة المصنفات.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الطريقة: تثبت طرق المجموعة فعاليتها في تحسين دقة التصنيف في مهام تقييم جودة الكلام
القابلية للتعميم: لوحظ تأثير تحسن متسق على أصوات مختلفة
القيمة العملية: توفر أداة تقييم موضوعية وآلية لإعادة التأهيل الكلامي الطبي

القيود

حجم التحسن المحدود: تحسن الدقة نسبياً صغير (0.6-1.4 نقطة مئوية)
حجم مجموعة البيانات: فقط 1020 عينة لكل صوت، قد يحد من قدرة النموذج على التعميم
هندسة الميزات البسيطة: استخدام 7 مؤشرات مسافة تقليدية فقط، قد يكون هناك نقص في تمثيل الميزات
طريقة مجموعة واحدة: تم اختبار طريقة المزج فقط، لم يتم استكشاف استراتيجيات مجموعة أخرى

الاتجاهات المستقبلية

تحدد الورقة بوضوح خطط استكشاف طرق بناء مجموعة أخرى لزيادة دقة التصنيف وتحسين تأثير تقييم جودة تحليل الكلام.

التقييم المتعمق

المميزات

قيمة تطبيقية عالية: معالجة احتياجات طبية حقيقية مع سيناريوهات تطبيق واضحة
منهجية صارمة: مقارنة منهجية لعدة طرق تصنيف، اعتماد عملية معالجة بيانات قياسية
تصميم تجريبي معقول: اعتماد طرق معالجة مناسبة لمشكلة عدم توازن البيانات
قابلية إعادة الإنتاج: توفير إعدادات تجريبية وتكوينات معاملات مفصلة

أوجه القصور

ابتكار محدود: في الأساس تطبيق تقنيات موجودة، يفتقر إلى ابتكار منهجي كبير
تحسن أداء ضئيل: على الرغم من الاتساق الجيد، حجم التحسن صغير، القيمة العملية تحتاج إلى التحقق
هندسة ميزات بسيطة: عدم الاستفادة الكاملة من طرق حديثة مثل التعلم العميق لاستخراج الميزات
مؤشرات تقييم واحدة: استخدام الدقة فقط، نقص مؤشرات مهمة أخرى مثل الدقة والاستدعاء
نقص اختبار الدلالة الإحصائية: عدم الإبلاغ عن الدلالة الإحصائية للنتائج

التأثير

مساهمة المجال: توفير مسار تقني جديد لتقييم الكلام الطبي
القيمة العملية: يمكن تطبيقها مباشرة في الممارسة السريرية لإعادة التأهيل الكلامي
القابلية للتكرار: وصف الطريقة واضح، سهل التكرار والتحسين
القيود: قد يكون التأثير محدوداً بسبب حجم التحسن الصغير في الأداء

السيناريوهات المطبقة

إعادة التأهيل الكلامي الطبي: تقييم جودة الكلام ومتابعة إعادة التأهيل لمرضى أمراض الجهاز الصوتي
العلاج الكلامي: توفير أداة تقييم موضوعية لمعالجي الكلام
مراقبة جودة الكلام: تقييم جودة آلي واسع النطاق لبيانات الكلام
منصة البحث: بمثابة منصة أساسية لمزيد من البحث في طرق تقييم الكلام

المراجع

تستشهد الورقة بـ 12 مرجعاً ذا صلة، تغطي الاتجاهات المهمة التالية:

إحصائيات أمراض الأورام ومعايير GOST
تطبيق التعلم الآلي في تحليل الكلام
تطبيق التعلم الجماعي في أمان الشبكات
خوارزميات الوقت الديناميكي المشروط ومؤشرات المسافة المختلفة
طرق محاذاة السلاسل الزمنية وقياس التشابه

توفر هذه المراجع أساساً نظرياً وتقنياً قوياً للبحث.

التقييم الإجمالي: هذه ورقة بحثية موجهة نحو التطبيق، على الرغم من أن الابتكار في الطريقة محدود نسبياً، إلا أنها توفر حلاً منهجياً لاحتياجات طبية حقيقية. الطريقة البحثية صارمة، التصميم التجريبي معقول، والنتائج لها قيمة عملية معينة. يُنصح بأن يركز العمل المستقبلي على استكشاف أعمق في هندسة الميزات وطرق المجموعة.