The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
- पेपर ID: 2501.00067
- शीर्षक: वर्गीकरणकर्ताओं का समूह भाषण मूल्यांकन के लिए
- लेखक: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
- वर्गीकरण: cs.SD cs.AI eess.AS
- प्रकाशन समय/सम्मेलन: 2025 (प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00067
यह पेपर चिकित्सा भाषण मूल्यांकन समस्या के लिए द्विआधारी वर्गीकरणकर्ता समूह विधि को लागू करने का वर्णन करता है। अक्षर उच्चारण गुणवत्ता के मात्रात्मक और विशेषज्ञ मूल्यांकन के आधार पर डेटासेट तैयार किया गया था। सात चयनित मेट्रिक्स का उपयोग करके मात्रात्मक मूल्यांकन विशेषताओं के रूप में किया गया: गतिशील समय विकृति दूरी, मिंकोव्स्की दूरी, सहसंबंध गुणांक, सबसे लंबा सामान्य अनुक्रम (LCSS), वास्तविक अनुक्रम संपादन दूरी (EDR), दंड के साथ वास्तविक अनुक्रम संपादन दूरी (ERP) और विलय विभाजन (MSM)। विशेषज्ञों द्वारा उच्चारण गुणवत्ता का मूल्यांकन वर्ग लेबल के रूप में उपयोग किया गया: वर्ग 1 उच्च गुणवत्ता वाले भाषण को दर्शाता है, वर्ग 0 विकृत भाषण को दर्शाता है। पाँच वर्गीकरण विधियों के प्रशिक्षण परिणामों की तुलना की गई: लॉजिस्टिक प्रतिगमन (LR), सहायक वेक्टर मशीन (SVM), भोली बेयस (NB), निर्णय वृक्ष (DT) और K-निकटतम पड़ोसी (KNN)। मिश्रित विधि का उपयोग करके वर्गीकरणकर्ता समूह के निर्माण के परिणाम भी प्रदर्शित किए गए। एकल द्विआधारी वर्गीकरणकर्ता के उपयोग की तुलना में, समूह विधि ने अध्ययन किए गए डेटासेट पर वर्गीकरण सटीकता में मामूली सुधार किया।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या चिकित्सा भाषण मूल्यांकन का स्वचालन और मानकीकरण है। विशेष रूप से, स्वरयंत्र ट्यूमर रोग वाले रोगियों के भाषण पुनर्वास प्रक्रिया में, रोगी के अक्षर उच्चारण गुणवत्ता का उद्देश्यपूर्ण और सटीक मूल्यांकन करने की आवश्यकता है।
- चिकित्सा आवश्यकता: स्वरयंत्र ट्यूमर रोग के सांख्यिकीय डेटा से पता चलता है कि चिकित्सा में भाषण विश्लेषण विधि की महत्ता बढ़ रही है
- पुनर्वास आवश्यकता: पुनर्वास उपायों को रोगी की व्यक्तिगत विशेषताओं के अनुसार समायोजित करने की आवश्यकता है, पारंपरिक व्यक्तिपरक मूल्यांकन विधि में सीमाएँ हैं
- मानकीकरण आवश्यकता: वर्तमान में GOST मानक पर आधारित आधिकारिक अनुशंसित विशेषज्ञ भाषण मूल्यांकन विधि को अधिक उद्देश्यपूर्ण विकल्प की आवश्यकता है
पारंपरिक विशेषज्ञ भाषण मूल्यांकन विधि में निम्नलिखित समस्याएँ हैं:
- मजबूत व्यक्तिपरकता, उद्देश्यपूर्ण मात्रात्मक मानदंड की कमी
- मूल्यांकन परिणाम मूल्यांकनकर्ता के अनुसार भिन्न हो सकते हैं
- बड़े पैमाने पर मानकीकृत अनुप्रयोग में कठिनाई
- रोगी के पुनर्वास प्रक्रिया की सटीक ट्रैकिंग की कमी
मशीन लर्निंग विधि के आधार पर, विशेष रूप से वर्गीकरणकर्ता समूह तकनीक, भाषण संकेत विश्लेषण को अधिक कुशल बना सकता है, भाषण गुणवत्ता का उद्देश्यपूर्ण और सुसंगत मूल्यांकन प्रदान कर सकता है, जिससे भाषण पुनर्वास के प्रभाव में सुधार हो सकता है।
- वर्गीकरणकर्ता समूह पर आधारित भाषण मूल्यांकन विधि प्रस्तावित की: चिकित्सा भाषण गुणवत्ता मूल्यांकन कार्य के लिए Blending समूह विधि को लागू किया
- बहु-अक्षर भाषण गुणवत्ता मूल्यांकन डेटासेट का निर्माण: टोम्स्क राष्ट्रीय अनुसंधान चिकित्सा केंद्र ऑन्कोलॉजी संस्थान के रोगी रिकॉर्डिंग डेटा के आधार पर
- कई वर्गीकरण एल्गोरिदम की व्यवस्थित तुलना: 5 मुख्यधारा वर्गीकरण विधियों का व्यापक मूल्यांकन और तुलना
- वर्गीकरण सटीकता में सुधार का कार्यान्वयन: समूह विधि ने सभी परीक्षण अक्षरों पर एकल वर्गीकरणकर्ता की तुलना में प्रदर्शन में सुधार प्राप्त किया
- पूर्ण डेटा पूर्व-प्रसंस्करण प्रवाह प्रदान किया: शोर सफाई और डेटा पुनः संतुलन की व्यवस्थित विधि सहित
इनपुट: रोगी के अक्षर उच्चारण की ऑडियो रिकॉर्डिंग
आउटपुट: द्विआधारी वर्गीकरण परिणाम (0-विकृत भाषण, 1-उच्च गुणवत्ता वाला भाषण)
बाधा शर्तें: 7 मात्रात्मक मेट्रिक्स और विशेषज्ञ-चिह्नित प्रशिक्षण डेटा के आधार पर
अनुसंधान ने 7 प्रमुख समानता और दूरी माप मेट्रिक्स का उपयोग किया:
- DTW दूरी: गतिशील समय विकृति एल्गोरिदम में पथ लागत अनुमान
- सहसंबंध गुणांक: अनुक्रमों के बीच रैखिक सहसंबंध को मापता है
- मिंकोव्स्की दूरी: सामान्यीकृत दूरी माप
- EDR: वास्तविक अनुक्रम संपादन दूरी
- ERP: दंड के साथ वास्तविक अनुक्रम संपादन दूरी
- LCSS: सबसे लंबी सामान्य अनुक्रम लंबाई
- MSM: गतिशील विभाजन विलय दूरी, अनुक्रम परिवर्तन के लिए आवश्यक संचालन की संख्या की गणना करता है
डेटासेट के असंतुलन समस्या के लिए, निम्नलिखित पूर्व-प्रसंस्करण विधि अपनाई गई:
- शोर सफाई: चतुर्थक विश्लेषण एल्गोरिदम का उपयोग करके
- डेटा पुनः संतुलन: KMeansSMOTE विधि (K-Means और SMOTE का संयोजन)
- डेटासेट निर्माण: प्रत्येक समस्या अक्षर के लिए 4 डेटासेट वेरिएंट का निर्माण:
- मूल डेटासेट
- शोर सफाई के बाद डेटासेट
- पुनः संतुलित डेटासेट
- पुनः संतुलित और शोर सफाई किया गया डेटासेट
5 सामान्य द्विआधारी वर्गीकरण विधियों का चयन किया गया:
- K-निकटतम पड़ोसी (KNN)
- यादृच्छिक वन (RF)
- सहायक वेक्टर मशीन (SVC)
- लॉजिस्टिक प्रतिगमन (LR)
- निर्णय वृक्ष (DT)
वर्गीकरणकर्ता समूह के निर्माण के लिए मिश्रित मॉडल (Blending) विधि अपनाई गई:
चरण 1: कई आधार मॉडल बनाएँ
चरण 2: मिश्रित मॉडल प्रशिक्षण
- आधार मॉडल को प्रशिक्षण डेटासेट पर प्रशिक्षित किया जाता है
- मेटा मॉडल को आधार मॉडल के पूर्वानुमान परिणामों पर प्रशिक्षित किया जाता है
चरण 3: मेटा विशेषता मैट्रिक्स meta_X का निर्माण
- प्रत्येक स्तंभ एक आधार मॉडल के आउटपुट का प्रतिनिधित्व करता है
- प्रत्येक पंक्ति स्वतंत्र डेटासेट में एक नमूने का प्रतिनिधित्व करता है
चरण 4: मेटा मॉडल प्रशिक्षण
चरण 5: समूह पूर्वानुमान
- दो-चरणीय प्रक्रिया: आधार मॉडल पूर्वानुमान → मेटा मॉडल अंतिम पूर्वानुमान
- डेटा स्रोत: टोम्स्क राष्ट्रीय अनुसंधान चिकित्सा केंद्र ऑन्कोलॉजी संस्थान के रोगी रिकॉर्डिंग
- डेटा आकार: 3 समस्या अक्षरों k, s, t के लिए, प्रत्येक अक्षर के लिए 1020 विशेषता वेक्टर
- चिह्नांकन विधि: भाषण चिकित्सक विशेषज्ञ द्वारा चिह्नांकित (0-अस्पष्ट, 1-स्पष्ट)
- विशेषता आयाम: 7-आयामी विशेषता वेक्टर (7 दूरी माप मेट्रिक्स के अनुरूप)
- मुख्य मेट्रिक: वर्गीकरण सटीकता (Accuracy)
- मूल्यांकन विधि: स्वतंत्र परीक्षण सेट पर समूह मॉडल के प्रभाव का मूल्यांकन
- 5 एकल वर्गीकरणकर्ता आधार विधि के रूप में
- समूह विधि के विभिन्न संयोजनों के लिए आंतरिक तुलना
- Python मशीन लर्निंग लाइब्रेरी का उपयोग करके कार्यान्वयन
- डेटासेट को अक्षर के अनुसार अलग से संसाधित किया जाता है
- प्रशिक्षण-सत्यापन-परीक्षण के मानक विभाजन का उपयोग
- सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: यादृच्छिक वन, 77.2% सटीकता
- सर्वश्रेष्ठ समूह परिणाम: 78.6% सटीकता
- सर्वश्रेष्ठ संयोजन: प्राथमिक वर्गीकरणकर्ता SVC + सहायक वर्गीकरणकर्ता (KNN, SVC, RandomForest, DecisionTree)
- सुधार मार्जिन: 1.4 प्रतिशत बिंदु
- सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: निर्णय वृक्ष, 86.3% सटीकता
- सर्वश्रेष्ठ समूह परिणाम: 87.0% सटीकता
- सुधारे गए मामलों की संख्या: 24 मामलों में परिणाम में सुधार
- सर्वश्रेष्ठ परिणाम प्राप्ति की संख्या: 87.0% उच्चतम सटीकता 5 बार प्राप्त
- सुधार मार्जिन: 0.7 प्रतिशत बिंदु
- सर्वश्रेष्ठ एकल वर्गीकरणकर्ता: सहायक वेक्टर मशीन, 86.4% सटीकता
- सर्वश्रेष्ठ समूह परिणाम: 87.0% सटीकता
- सर्वश्रेष्ठ संयोजन:
- प्राथमिक वर्गीकरणकर्ता DecisionTree + सहायक वर्गीकरणकर्ता (KNN, SVC, LogisticRegression)
- प्राथमिक वर्गीकरणकर्ता RandomForest + सहायक वर्गीकरणकर्ता (KNN, SVC, LogisticRegression)
- सुधार मार्जिन: 0.6 प्रतिशत बिंदु
- सुसंगत सुधार: समूह विधि ने सभी 3 अक्षर डेटासेट पर प्रदर्शन में सुधार प्राप्त किया
- उचित सुधार मार्जिन: सटीकता सुधार 0.6-1.4 प्रतिशत बिंदु की सीमा में है
- संयोजन विविधता: विभिन्न अक्षरों के लिए सर्वश्रेष्ठ समूह संयोजन में अंतर है, जो लक्षित अनुकूलन की आवश्यकता को दर्शाता है
- स्थिरता वृद्धि: समूह विधि एकल वर्गीकरणकर्ता की तुलना में अधिक स्थिर पूर्वानुमान परिणाम प्रदान करता है
पेपर चिकित्सा, अर्थशास्त्र और सूचना सुरक्षा सहित कई क्षेत्रों में समूह वर्गीकरणकर्ता के अनुप्रयोग का उल्लेख करता है, विशेष रूप से DDoS हमले की पहचान में, 2 या अधिक वर्गीकरणकर्ता का संयोजन औसतन 5% सटीकता में सुधार कर सकता है।
- GOST मानक पर आधारित पारंपरिक विशेषज्ञ मूल्यांकन विधि
- भाषण संकेत विश्लेषण में मशीन लर्निंग विधि का व्यापक अनुप्रयोग
- गतिशील समय विकृति जैसे एल्गोरिदम की भाषण प्रसंस्करण में महत्वपूर्ण भूमिका
मौजूदा कार्य की तुलना में, यह पेपर पहली बार चिकित्सा भाषण पुनर्वास मूल्यांकन के लिए समूह शिक्षा को व्यवस्थित रूप से लागू करता है, विशेषता निष्कर्षण से वर्गीकरणकर्ता समूह तक एक पूर्ण समाधान प्रदान करता है।
- विधि प्रभावशीलता: समूह विधि भाषण गुणवत्ता मूल्यांकन कार्य पर वर्गीकरण सटीकता में सुधार कर सकता है
- सार्वभौमिकता: कई विभिन्न अक्षरों पर सुसंगत सुधार प्रभाव देखा गया
- व्यावहारिक मूल्य: चिकित्सा भाषण पुनर्वास के लिए उद्देश्यपूर्ण, स्वचालित मूल्यांकन उपकरण प्रदान करता है
- सीमित सुधार मार्जिन: सटीकता सुधार अपेक्षाकृत छोटा है (0.6-1.4 प्रतिशत बिंदु)
- डेटासेट आकार: प्रत्येक अक्षर के लिए केवल 1020 नमूने, जो मॉडल की सामान्यीकरण क्षमता को सीमित कर सकता है
- विशेषता इंजीनियरिंग: केवल 7 पारंपरिक दूरी माप मेट्रिक्स का उपयोग किया गया, विशेषता प्रतिनिधित्व अपर्याप्त हो सकता है
- एकल समूह विधि: केवल Blending विधि का परीक्षण किया गया, अन्य समूह रणनीतियों की खोज नहीं की गई
पेपर स्पष्ट रूप से अन्य समूह निर्माण विधियों की खोज करने का प्रस्ताव करता है ताकि वर्गीकरण सटीकता और भाषण विश्लेषण गुणवत्ता मूल्यांकन प्रभाव को और बढ़ाया जा सके।
- उच्च व्यावहारिक अनुप्रयोग मूल्य: वास्तविक चिकित्सा आवश्यकता को संबोधित करता है, स्पष्ट अनुप्रयोग परिदृश्य है
- कठोर पद्धति: कई वर्गीकरण विधियों की व्यवस्थित तुलना, मानक डेटा पूर्व-प्रसंस्करण प्रवाह अपनाया गया
- उचित प्रयोगात्मक डिजाइन: डेटा असंतुलन समस्या के लिए उपयुक्त उपचार विधि अपनाई गई
- परिणाम पुनरुत्पादनीय: विस्तृत प्रयोगात्मक सेटअप और पैरामीटर कॉन्फ़िगरेशन प्रदान किए गए
- सीमित नवीनता: मुख्य रूप से मौजूदा तकनीक का अनुप्रयोग, पद्धति में बड़ी नवीनता की कमी
- सूक्ष्म प्रदर्शन सुधार: हालांकि सुसंगतता अच्छी है, सुधार मार्जिन छोटा है, व्यावहारिक मूल्य सत्यापन की प्रतीक्षा में है
- सरल विशेषता इंजीनियरिंग: गहन शिक्षा जैसी आधुनिक विधियों का पूर्ण उपयोग नहीं किया गया
- एकल मूल्यांकन मेट्रिक: केवल सटीकता का उपयोग किया गया, सटीकता, याद आदि जैसे अन्य महत्वपूर्ण मेट्रिक्स की कमी
- सांख्यिकीय महत्व परीक्षण की कमी: परिणामों की सांख्यिकीय महत्ता की रिपोर्ट नहीं की गई
- क्षेत्र योगदान: चिकित्सा भाषण मूल्यांकन के लिए नई तकनीकी दिशा प्रदान करता है
- व्यावहारिक मूल्य: नैदानिक भाषण पुनर्वास अभ्यास में सीधे अनुप्रयोग किया जा सकता है
- पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, पुनरुत्पादन और सुधार में आसान
- सीमाएँ: प्रभाव प्रदर्शन सुधार के सूक्ष्म मार्जिन से सीमित हो सकता है
- चिकित्सा भाषण पुनर्वास: स्वरयंत्र रोग रोगियों की भाषण गुणवत्ता मूल्यांकन और पुनर्वास ट्रैकिंग
- भाषण चिकित्सा: भाषण चिकित्सकों के लिए उद्देश्यपूर्ण मूल्यांकन उपकरण प्रदान करता है
- भाषण गुणवत्ता निगरानी: बड़े पैमाने पर भाषण डेटा का स्वचालित गुणवत्ता मूल्यांकन
- अनुसंधान मंच: भाषण मूल्यांकन विधि के आगे अनुसंधान के लिए आधार मंच
पेपर 12 संबंधित संदर्भों का हवाला देता है, जिसमें निम्नलिखित महत्वपूर्ण दिशाएँ शामिल हैं:
- ट्यूमर रोग सांख्यिकीय डेटा और GOST मानक
- भाषण विश्लेषण में मशीन लर्निंग का अनुप्रयोग
- नेटवर्क सुरक्षा में समूह शिक्षा का अनुप्रयोग
- गतिशील समय विकृति और विभिन्न दूरी माप एल्गोरिदम
- समय श्रृंखला संरेखण और समानता माप विधि
ये संदर्भ अनुसंधान के लिए ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।
समग्र मूल्यांकन: यह एक अनुप्रयोग-उन्मुख अनुसंधान पेपर है, हालांकि विधि नवीनता में अपेक्षाकृत सीमित है, लेकिन वास्तविक चिकित्सा आवश्यकता के लिए व्यवस्थित समाधान प्रदान करता है। अनुसंधान विधि कठोर है, प्रयोगात्मक डिजाइन उचित है, परिणामों में निश्चित व्यावहारिक मूल्य है। भविष्य के कार्य में विशेषता इंजीनियरिंग और समूह विधि में गहन अन्वेषण की सिफारिश की जाती है।