2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.

The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.

academic

वर्गीकरणकर्ताओं का समूह भाषण मूल्यांकन के लिए

बुनियादी जानकारी

पेपर ID: 2501.00067
शीर्षक: वर्गीकरणकर्ताओं का समूह भाषण मूल्यांकन के लिए
लेखक: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
वर्गीकरण: cs.SD cs.AI eess.AS
प्रकाशन समय/सम्मेलन: 2025 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00067

सारांश

यह पेपर चिकित्सा भाषण मूल्यांकन समस्या के लिए द्विआधारी वर्गीकरणकर्ता समूह विधि को लागू करने का वर्णन करता है। अक्षर उच्चारण गुणवत्ता के मात्रात्मक और विशेषज्ञ मूल्यांकन के आधार पर डेटासेट तैयार किया गया था। सात चयनित मेट्रिक्स का उपयोग करके मात्रात्मक मूल्यांकन विशेषताओं के रूप में किया गया: गतिशील समय विकृति दूरी, मिंकोव्स्की दूरी, सहसंबंध गुणांक, सबसे लंबा सामान्य अनुक्रम (LCSS), वास्तविक अनुक्रम संपादन दूरी (EDR), दंड के साथ वास्तविक अनुक्रम संपादन दूरी (ERP) और विलय विभाजन (MSM)। विशेषज्ञों द्वारा उच्चारण गुणवत्ता का मूल्यांकन वर्ग लेबल के रूप में उपयोग किया गया: वर्ग 1 उच्च गुणवत्ता वाले भाषण को दर्शाता है, वर्ग 0 विकृत भाषण को दर्शाता है। पाँच वर्गीकरण विधियों के प्रशिक्षण परिणामों की तुलना की गई: लॉजिस्टिक प्रतिगमन (LR), सहायक वेक्टर मशीन (SVM), भोली बेयस (NB), निर्णय वृक्ष (DT) और K-निकटतम पड़ोसी (KNN)। मिश्रित विधि का उपयोग करके वर्गीकरणकर्ता समूह के निर्माण के परिणाम भी प्रदर्शित किए गए। एकल द्विआधारी वर्गीकरणकर्ता के उपयोग की तुलना में, समूह विधि ने अध्ययन किए गए डेटासेट पर वर्गीकरण सटीकता में मामूली सुधार किया।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या चिकित्सा भाषण मूल्यांकन का स्वचालन और मानकीकरण है। विशेष रूप से, स्वरयंत्र ट्यूमर रोग वाले रोगियों के भाषण पुनर्वास प्रक्रिया में, रोगी के अक्षर उच्चारण गुणवत्ता का उद्देश्यपूर्ण और सटीक मूल्यांकन करने की आवश्यकता है।

समस्या की महत्ता

चिकित्सा आवश्यकता: स्वरयंत्र ट्यूमर रोग के सांख्यिकीय डेटा से पता चलता है कि चिकित्सा में भाषण विश्लेषण विधि की महत्ता बढ़ रही है
पुनर्वास आवश्यकता: पुनर्वास उपायों को रोगी की व्यक्तिगत विशेषताओं के अनुसार समायोजित करने की आवश्यकता है, पारंपरिक व्यक्तिपरक मूल्यांकन विधि में सीमाएँ हैं
मानकीकरण आवश्यकता: वर्तमान में GOST मानक पर आधारित आधिकारिक अनुशंसित विशेषज्ञ भाषण मूल्यांकन विधि को अधिक उद्देश्यपूर्ण विकल्प की आवश्यकता है

मौजूदा विधि की सीमाएँ

पारंपरिक विशेषज्ञ भाषण मूल्यांकन विधि में निम्नलिखित समस्याएँ हैं:

मजबूत व्यक्तिपरकता, उद्देश्यपूर्ण मात्रात्मक मानदंड की कमी
मूल्यांकन परिणाम मूल्यांकनकर्ता के अनुसार भिन्न हो सकते हैं
बड़े पैमाने पर मानकीकृत अनुप्रयोग में कठिनाई
रोगी के पुनर्वास प्रक्रिया की सटीक ट्रैकिंग की कमी

अनुसंधान प्रेरणा

मशीन लर्निंग विधि के आधार पर, विशेष रूप से वर्गीकरणकर्ता समूह तकनीक, भाषण संकेत विश्लेषण को अधिक कुशल बना सकता है, भाषण गुणवत्ता का उद्देश्यपूर्ण और सुसंगत मूल्यांकन प्रदान कर सकता है, जिससे भाषण पुनर्वास के प्रभाव में सुधार हो सकता है।

मुख्य योगदान

वर्गीकरणकर्ता समूह पर आधारित भाषण मूल्यांकन विधि प्रस्तावित की: चिकित्सा भाषण गुणवत्ता मूल्यांकन कार्य के लिए Blending समूह विधि को लागू किया
बहु-अक्षर भाषण गुणवत्ता मूल्यांकन डेटासेट का निर्माण: टोम्स्क राष्ट्रीय अनुसंधान चिकित्सा केंद्र ऑन्कोलॉजी संस्थान के रोगी रिकॉर्डिंग डेटा के आधार पर
कई वर्गीकरण एल्गोरिदम की व्यवस्थित तुलना: 5 मुख्यधारा वर्गीकरण विधियों का व्यापक मूल्यांकन और तुलना
वर्गीकरण सटीकता में सुधार का कार्यान्वयन: समूह विधि ने सभी परीक्षण अक्षरों पर एकल वर्गीकरणकर्ता की तुलना में प्रदर्शन में सुधार प्राप्त किया
पूर्ण डेटा पूर्व-प्रसंस्करण प्रवाह प्रदान किया: शोर सफाई और डेटा पुनः संतुलन की व्यवस्थित विधि सहित

विधि विवरण

कार्य परिभाषा

इनपुट: रोगी के अक्षर उच्चारण की ऑडियो रिकॉर्डिंग आउटपुट: द्विआधारी वर्गीकरण परिणाम (0-विकृत भाषण, 1-उच्च गुणवत्ता वाला भाषण) बाधा शर्तें: 7 मात्रात्मक मेट्रिक्स और विशेषज्ञ-चिह्नित प्रशिक्षण डेटा के आधार पर

विशेषता निष्कर्षण विधि

अनुसंधान ने 7 प्रमुख समानता और दूरी माप मेट्रिक्स का उपयोग किया:

DTW दूरी: गतिशील समय विकृति एल्गोरिदम में पथ लागत अनुमान
सहसंबंध गुणांक: अनुक्रमों के बीच रैखिक सहसंबंध को मापता है
मिंकोव्स्की दूरी: सामान्यीकृत दूरी माप
EDR: वास्तविक अनुक्रम संपादन दूरी
ERP: दंड के साथ वास्तविक अनुक्रम संपादन दूरी
LCSS: सबसे लंबी सामान्य अनुक्रम लंबाई
MSM: गतिशील विभाजन विलय दूरी, अनुक्रम परिवर्तन के लिए आवश्यक संचालन की संख्या की गणना करता है

डेटा पूर्व-प्रसंस्करण रणनीति

डेटासेट के असंतुलन समस्या के लिए, निम्नलिखित पूर्व-प्रसंस्करण विधि अपनाई गई:

शोर सफाई: चतुर्थक विश्लेषण एल्गोरिदम का उपयोग करके
डेटा पुनः संतुलन: KMeansSMOTE विधि (K-Means और SMOTE का संयोजन)
डेटासेट निर्माण: प्रत्येक समस्या अक्षर के लिए 4 डेटासेट वेरिएंट का निर्माण:
- मूल डेटासेट
- शोर सफाई के बाद डेटासेट
- पुनः संतुलित डेटासेट
- पुनः संतुलित और शोर सफाई किया गया डेटासेट

वर्गीकरणकर्ता चयन

5 सामान्य द्विआधारी वर्गीकरण विधियों का चयन किया गया:

K-निकटतम पड़ोसी (KNN)
यादृच्छिक वन (RF)
सहायक वेक्टर मशीन (SVC)
लॉजिस्टिक प्रतिगमन (LR)
निर्णय वृक्ष (DT)

समूह विधि: Blending

वर्गीकरणकर्ता समूह के निर्माण के लिए मिश्रित मॉडल (Blending) विधि अपनाई गई:

चरण 1: कई आधार मॉडल बनाएँ चरण 2: मिश्रित मॉडल प्रशिक्षण

आधार मॉडल को प्रशिक्षण डेटासेट पर प्रशिक्षित किया जाता है
मेटा मॉडल को आधार मॉडल के पूर्वानुमान परिणामों पर प्रशिक्षित किया जाता है

चरण 3: मेटा विशेषता मैट्रिक्स meta_X का निर्माण

प्रत्येक स्तंभ एक आधार मॉडल के आउटपुट का प्रतिनिधित्व करता है
प्रत्येक पंक्ति स्वतंत्र डेटासेट में एक नमूने का प्रतिनिधित्व करता है

चरण 4: मेटा मॉडल प्रशिक्षण चरण 5: समूह पूर्वानुमान

दो-चरणीय प्रक्रिया: आधार मॉडल पूर्वानुमान → मेटा मॉडल अंतिम पूर्वानुमान

प्रयोगात्मक सेटअप

डेटासेट

डेटा स्रोत: टोम्स्क राष्ट्रीय अनुसंधान चिकित्सा केंद्र ऑन्कोलॉजी संस्थान के रोगी रिकॉर्डिंग
डेटा आकार: 3 समस्या अक्षरों k, s, t के लिए, प्रत्येक अक्षर के लिए 1020 विशेषता वेक्टर
चिह्नांकन विधि: भाषण चिकित्सक विशेषज्ञ द्वारा चिह्नांकित (0-अस्पष्ट, 1-स्पष्ट)
विशेषता आयाम: 7-आयामी विशेषता वेक्टर (7 दूरी माप मेट्रिक्स के अनुरूप)

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: वर्गीकरण सटीकता (Accuracy)
मूल्यांकन विधि: स्वतंत्र परीक्षण सेट पर समूह मॉडल के प्रभाव का मूल्यांकन

तुलना विधि

5 एकल वर्गीकरणकर्ता आधार विधि के रूप में
समूह विधि के विभिन्न संयोजनों के लिए आंतरिक तुलना

कार्यान्वयन विवरण

Python मशीन लर्निंग लाइब्रेरी का उपयोग करके कार्यान्वयन
डेटासेट को अक्षर के अनुसार अलग से संसाधित किया जाता है
प्रशिक्षण-सत्यापन-परीक्षण के मानक विभाजन का उपयोग

प्रयोगात्मक परिणाम

मुख्य परिणाम

k अक्षर डेटासेट

सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: यादृच्छिक वन, 77.2% सटीकता
सर्वश्रेष्ठ समूह परिणाम: 78.6% सटीकता
सर्वश्रेष्ठ संयोजन: प्राथमिक वर्गीकरणकर्ता SVC + सहायक वर्गीकरणकर्ता (KNN, SVC, RandomForest, DecisionTree)
सुधार मार्जिन: 1.4 प्रतिशत बिंदु

t अक्षर डेटासेट

सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: निर्णय वृक्ष, 86.3% सटीकता
सर्वश्रेष्ठ समूह परिणाम: 87.0% सटीकता
सुधारे गए मामलों की संख्या: 24 मामलों में परिणाम में सुधार
सर्वश्रेष्ठ परिणाम प्राप्ति की संख्या: 87.0% उच्चतम सटीकता 5 बार प्राप्त
सुधार मार्जिन: 0.7 प्रतिशत बिंदु

s अक्षर डेटासेट

सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: सहायक वेक्टर मशीन, 86.4% सटीकता
सर्वश्रेष्ठ समूह परिणाम: 87.0% सटीकता
सर्वश्रेष्ठ संयोजन:
- प्राथमिक वर्गीकरणकर्ता DecisionTree + सहायक वर्गीकरणकर्ता (KNN, SVC, LogisticRegression)
- प्राथमिक वर्गीकरणकर्ता RandomForest + सहायक वर्गीकरणकर्ता (KNN, SVC, LogisticRegression)
सुधार मार्जिन: 0.6 प्रतिशत बिंदु

प्रयोगात्मक निष्कर्ष

सुसंगत सुधार: समूह विधि ने सभी 3 अक्षर डेटासेट पर प्रदर्शन में सुधार प्राप्त किया
उचित सुधार मार्जिन: सटीकता सुधार 0.6-1.4 प्रतिशत बिंदु की सीमा में है
संयोजन विविधता: विभिन्न अक्षरों के लिए सर्वश्रेष्ठ समूह संयोजन में अंतर है, जो लक्षित अनुकूलन की आवश्यकता को दर्शाता है
स्थिरता वृद्धि: समूह विधि एकल वर्गीकरणकर्ता की तुलना में अधिक स्थिर पूर्वानुमान परिणाम प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: समूह विधि भाषण गुणवत्ता मूल्यांकन कार्य पर वर्गीकरण सटीकता में सुधार कर सकता है
सार्वभौमिकता: कई विभिन्न अक्षरों पर सुसंगत सुधार प्रभाव देखा गया
व्यावहारिक मूल्य: चिकित्सा भाषण पुनर्वास के लिए उद्देश्यपूर्ण, स्वचालित मूल्यांकन उपकरण प्रदान करता है

सीमाएँ

सीमित सुधार मार्जिन: सटीकता सुधार अपेक्षाकृत छोटा है (0.6-1.4 प्रतिशत बिंदु)
डेटासेट आकार: प्रत्येक अक्षर के लिए केवल 1020 नमूने, जो मॉडल की सामान्यीकरण क्षमता को सीमित कर सकता है
विशेषता इंजीनियरिंग: केवल 7 पारंपरिक दूरी माप मेट्रिक्स का उपयोग किया गया, विशेषता प्रतिनिधित्व अपर्याप्त हो सकता है
एकल समूह विधि: केवल Blending विधि का परीक्षण किया गया, अन्य समूह रणनीतियों की खोज नहीं की गई

भविष्य की दिशा

पेपर स्पष्ट रूप से अन्य समूह निर्माण विधियों की खोज करने का प्रस्ताव करता है ताकि वर्गीकरण सटीकता और भाषण विश्लेषण गुणवत्ता मूल्यांकन प्रभाव को और बढ़ाया जा सके।

गहन मूल्यांकन

लाभ

उच्च व्यावहारिक अनुप्रयोग मूल्य: वास्तविक चिकित्सा आवश्यकता को संबोधित करता है, स्पष्ट अनुप्रयोग परिदृश्य है
कठोर पद्धति: कई वर्गीकरण विधियों की व्यवस्थित तुलना, मानक डेटा पूर्व-प्रसंस्करण प्रवाह अपनाया गया
उचित प्रयोगात्मक डिजाइन: डेटा असंतुलन समस्या के लिए उपयुक्त उपचार विधि अपनाई गई
परिणाम पुनरुत्पादनीय: विस्तृत प्रयोगात्मक सेटअप और पैरामीटर कॉन्फ़िगरेशन प्रदान किए गए

कमियाँ

सीमित नवीनता: मुख्य रूप से मौजूदा तकनीक का अनुप्रयोग, पद्धति में बड़ी नवीनता की कमी
सूक्ष्म प्रदर्शन सुधार: हालांकि सुसंगतता अच्छी है, सुधार मार्जिन छोटा है, व्यावहारिक मूल्य सत्यापन की प्रतीक्षा में है
सरल विशेषता इंजीनियरिंग: गहन शिक्षा जैसी आधुनिक विधियों का पूर्ण उपयोग नहीं किया गया
एकल मूल्यांकन मेट्रिक: केवल सटीकता का उपयोग किया गया, सटीकता, याद आदि जैसे अन्य महत्वपूर्ण मेट्रिक्स की कमी
सांख्यिकीय महत्व परीक्षण की कमी: परिणामों की सांख्यिकीय महत्ता की रिपोर्ट नहीं की गई

प्रभाव

क्षेत्र योगदान: चिकित्सा भाषण मूल्यांकन के लिए नई तकनीकी दिशा प्रदान करता है
व्यावहारिक मूल्य: नैदानिक भाषण पुनर्वास अभ्यास में सीधे अनुप्रयोग किया जा सकता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, पुनरुत्पादन और सुधार में आसान
सीमाएँ: प्रभाव प्रदर्शन सुधार के सूक्ष्म मार्जिन से सीमित हो सकता है

लागू परिदृश्य

चिकित्सा भाषण पुनर्वास: स्वरयंत्र रोग रोगियों की भाषण गुणवत्ता मूल्यांकन और पुनर्वास ट्रैकिंग
भाषण चिकित्सा: भाषण चिकित्सकों के लिए उद्देश्यपूर्ण मूल्यांकन उपकरण प्रदान करता है
भाषण गुणवत्ता निगरानी: बड़े पैमाने पर भाषण डेटा का स्वचालित गुणवत्ता मूल्यांकन
अनुसंधान मंच: भाषण मूल्यांकन विधि के आगे अनुसंधान के लिए आधार मंच

संदर्भ

पेपर 12 संबंधित संदर्भों का हवाला देता है, जिसमें निम्नलिखित महत्वपूर्ण दिशाएँ शामिल हैं:

ट्यूमर रोग सांख्यिकीय डेटा और GOST मानक
भाषण विश्लेषण में मशीन लर्निंग का अनुप्रयोग
नेटवर्क सुरक्षा में समूह शिक्षा का अनुप्रयोग
गतिशील समय विकृति और विभिन्न दूरी माप एल्गोरिदम
समय श्रृंखला संरेखण और समानता माप विधि

ये संदर्भ अनुसंधान के लिए ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।

समग्र मूल्यांकन: यह एक अनुप्रयोग-उन्मुख अनुसंधान पेपर है, हालांकि विधि नवीनता में अपेक्षाकृत सीमित है, लेकिन वास्तविक चिकित्सा आवश्यकता के लिए व्यवस्थित समाधान प्रदान करता है। अनुसंधान विधि कठोर है, प्रयोगात्मक डिजाइन उचित है, परिणामों में निश्चित व्यावहारिक मूल्य है। भविष्य के कार्य में विशेषता इंजीनियरिंग और समूह विधि में गहन अन्वेषण की सिफारिश की जाती है।