The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
- ID de l'article: 2501.00067
- Titre: Ensemble of classifiers for speech evaluation
- Auteurs: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
- Classification: cs.SD cs.AI eess.AS
- Date de publication/Conférence: 2025 (prépublication)
- Lien de l'article: https://arxiv.org/abs/2501.00067
Cet article décrit une tentative d'application de méthodes d'ensemble de classificateurs binaires au problème de l'évaluation médicale de la parole. Un ensemble de données a été compilé sur la base d'évaluations quantitatives et expertes de la qualité de prononciation syllabique. L'évaluation quantitative utilisant 7 métriques sélectionnées a servi de caractéristiques : distance de déformation temporelle dynamique (DTW), distance de Minkowski, coefficient de corrélation, plus longue sous-séquence commune (LCSS), distance d'édition de séquence réelle (EDR), distance d'édition de séquence réelle avec pénalité (ERP) et fusion-division (MSM). L'évaluation experte de la qualité de prononciation a été utilisée comme étiquettes de classe : la classe 1 représente la parole de haute qualité, la classe 0 représente la parole déformée. Les résultats d'entraînement de cinq méthodes de classification ont été comparés : régression logistique (LR), machine à vecteurs de support (SVM), naïve Bayes (NB), arbre de décision (DT) et K-plus proches voisins (KNN). Les résultats de la construction d'ensembles de classificateurs utilisant des méthodes hybrides sont également présentés. Les méthodes d'ensemble ont légèrement amélioré la précision de classification sur l'ensemble de données étudié par rapport à l'utilisation de classificateurs binaires individuels.
Le problème fondamental que cette recherche vise à résoudre est l'automatisation et la normalisation de l'évaluation médicale de la parole. Plus précisément, au cours du processus de réadaptation vocale des patients atteints de maladies tumorales du tractus vocal, il est nécessaire d'évaluer objectivement et précisément la qualité de prononciation syllabique des patients.
- Besoin médical: Les données statistiques sur les maladies tumorales du tractus vocal montrent l'importance croissante des méthodes d'analyse vocale en médecine
- Besoin de réadaptation: Les mesures de réadaptation doivent être adaptées aux caractéristiques individuelles des patients, et les méthodes d'évaluation subjectives traditionnelles présentent des limitations
- Besoin de normalisation: Les méthodes d'évaluation vocale experte actuelles basées sur la norme GOST nécessitent des alternatives plus objectives
Les méthodes traditionnelles d'évaluation vocale experte présentent les problèmes suivants :
- Forte subjectivité et manque de normes quantitatives objectives
- Les résultats d'évaluation peuvent varier selon l'évaluateur
- Difficultés à appliquer à grande échelle de manière normalisée
- Manque de suivi précis du processus de réadaptation des patients
Sur la base de méthodes d'apprentissage automatique, en particulier les techniques d'ensemble de classificateurs, il est possible de réaliser une analyse de signal vocal plus efficace, fournissant une évaluation objective et cohérente de la qualité vocale, améliorant ainsi l'efficacité de la réadaptation vocale.
- Proposition d'une méthode d'évaluation vocale basée sur l'ensemble de classificateurs: Application de la méthode d'ensemble Blending à la tâche d'évaluation de la qualité vocale médicale
- Construction d'un ensemble de données d'évaluation de qualité vocale multi-phonèmes: Basé sur les données d'enregistrement de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
- Comparaison systématique de plusieurs algorithmes de classification: Évaluation et comparaison complètes de 5 méthodes de classification principales
- Amélioration de la précision de classification: La méthode d'ensemble a obtenu des améliorations de performance sur tous les phonèmes testés par rapport aux classificateurs individuels
- Fourniture d'un processus complet de prétraitement des données: Incluant une approche systématique du nettoyage du bruit et du rééquilibrage des données
Entrée: Enregistrements audio de prononciation syllabique des patients
Sortie: Résultat de classification binaire (0-parole déformée, 1-parole de haute qualité)
Contraintes: Données d'entraînement basées sur 7 métriques quantitatives et annotations expertes
L'étude a utilisé 7 métriques clés de similarité et de distance :
- Distance DTW: Estimation du coût du chemin dans l'algorithme de déformation temporelle dynamique
- Coefficient de corrélation: Mesure de la corrélation linéaire entre les séquences
- Distance de Minkowski: Mesure de distance généralisée
- EDR: Distance d'édition de séquence réelle
- ERP: Distance d'édition de séquence réelle avec pénalité
- LCSS: Longueur de la plus longue sous-séquence commune
- MSM: Distance de fusion-division mobile, calculant le nombre d'opérations nécessaires pour transformer les séquences
Pour résoudre le problème du déséquilibre de l'ensemble de données, les méthodes de prétraitement suivantes ont été adoptées :
- Nettoyage du bruit: Utilisation de l'algorithme d'analyse des quartiles
- Rééquilibrage des données: Utilisation de la méthode KMeansSMOTE (combinaison de K-Means et SMOTE)
- Construction d'ensemble de données: Construction de 4 variantes d'ensemble de données pour chaque phonème problématique :
- Ensemble de données original
- Ensemble de données après nettoyage du bruit
- Ensemble de données rééquilibré
- Ensemble de données rééquilibré et nettoyé du bruit
Cinq méthodes de classification binaire courantes ont été sélectionnées :
- K-plus proches voisins (KNN)
- Forêt aléatoire (RF)
- Machine à vecteurs de support (SVC)
- Régression logistique (LR)
- Arbre de décision (DT)
La méthode de modèle hybride (Blending) a été adoptée pour construire l'ensemble de classificateurs :
Étape 1: Création de plusieurs modèles de base
Étape 2: Entraînement du modèle hybride
- Les modèles de base sont entraînés sur l'ensemble de données d'entraînement
- Le métamodèle est entraîné sur les résultats de prédiction des modèles de base
Étape 3: Construction de la matrice de métacaractéristiques meta_X
- Chaque colonne représente la sortie d'un modèle de base
- Chaque ligne représente un échantillon de l'ensemble de données indépendant
Étape 4: Entraînement du métamodèle
Étape 5: Prédiction d'ensemble
- Processus en deux étapes : prédiction du modèle de base → prédiction finale du métamodèle
- Source des données: Enregistrements de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
- Taille des données: Pour 3 phonèmes problématiques k, s, t, 1020 vecteurs de caractéristiques par phonème
- Méthode d'annotation: Annotation experte par des orthophonistes (0-peu clair, 1-clair)
- Dimension des caractéristiques: Vecteur de caractéristiques 7-dimensionnel (correspondant aux 7 métriques de distance)
- Métrique principale: Précision de classification (Accuracy)
- Méthode d'évaluation: Évaluation de l'effet du modèle d'ensemble sur un ensemble de test indépendant
- 5 classificateurs individuels comme méthodes de base
- Comparaison interne de différentes combinaisons de méthodes d'ensemble
- Implémentation utilisant des bibliothèques d'apprentissage automatique Python
- Traitement séparé des ensembles de données par phonème
- Utilisation de la division standard entraînement-validation-test
- Meilleur classificateur individuel: Forêt aléatoire, précision 77,2%
- Meilleur résultat d'ensemble: Précision 78,6%
- Meilleure combinaison: Classificateur principal SVC + classificateurs auxiliaires (KNN, SVC, RandomForest, DecisionTree)
- Amplitude d'amélioration: 1,4 point de pourcentage
- Meilleur classificateur individuel: Arbre de décision, précision 86,3%
- Meilleur résultat d'ensemble: Précision 87,0%
- Nombre de cas améliorés: Résultats améliorés dans 24 cas
- Nombre de fois où le meilleur résultat est obtenu: 5 fois avec la précision maximale de 87,0%
- Amplitude d'amélioration: 0,7 point de pourcentage
- Meilleur classificateur individuel: Machine à vecteurs de support, précision 86,4%
- Meilleur résultat d'ensemble: Précision 87,0%
- Meilleure combinaison:
- Classificateur principal DecisionTree + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
- Classificateur principal RandomForest + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
- Amplitude d'amélioration: 0,6 point de pourcentage
- Amélioration cohérente: La méthode d'ensemble a réalisé des améliorations de performance sur les 3 ensembles de données de phonèmes
- Amplitude d'amélioration modérée: L'amélioration de précision se situe dans la plage de 0,6-1,4 point de pourcentage
- Diversité des combinaisons: Les meilleures combinaisons d'ensemble varient selon les phonèmes, indiquant le besoin d'optimisation ciblée
- Stabilité accrue: La méthode d'ensemble fournit des résultats de prédiction plus stables que les classificateurs individuels
L'article mentionne l'application des classificateurs d'ensemble dans plusieurs domaines tels que la médecine, l'économie et la sécurité de l'information, soulignant en particulier que dans la détection d'attaques DDoS, la combinaison de 2 classificateurs ou plus peut améliorer en moyenne la précision de 5%.
- Méthodes traditionnelles basées sur l'évaluation experte selon la norme GOST
- Application croissante des méthodes d'apprentissage automatique dans l'analyse de signal vocal
- Rôle important des algorithmes tels que la déformation temporelle dynamique dans le traitement de la parole
Par rapport aux travaux existants, cet article applique pour la première fois systématiquement l'apprentissage d'ensemble à l'évaluation de la réadaptation vocale médicale, fournissant une solution complète allant de l'extraction de caractéristiques à l'ensemble de classificateurs.
- Efficacité de la méthode: La méthode d'ensemble peut effectivement améliorer la précision de classification dans la tâche d'évaluation de la qualité vocale
- Universalité: Des améliorations cohérentes ont été observées sur plusieurs phonèmes différents
- Valeur pratique: Fournit un outil d'évaluation objectif et automatisé pour la réadaptation vocale médicale
- Amplitude d'amélioration limitée: L'amélioration de précision est relativement faible (0,6-1,4 point de pourcentage)
- Taille de l'ensemble de données: Seulement 1020 échantillons par phonème, ce qui peut limiter la capacité de généralisation du modèle
- Ingénierie des caractéristiques: Utilisation de seulement 7 métriques de distance traditionnelles, ce qui peut entraîner une représentation insuffisante des caractéristiques
- Méthode d'ensemble unique: Seule la méthode Blending a été testée, sans exploration d'autres stratégies d'ensemble
L'article propose explicitement d'explorer d'autres méthodes de construction d'ensemble pour améliorer davantage la précision de classification et l'efficacité de l'évaluation de la qualité de l'analyse vocale.
- Valeur d'application pratique élevée: Répond à des besoins médicaux réels avec des scénarios d'application clairs
- Méthodologie rigoureuse: Comparaison systématique de plusieurs méthodes de classification, adoption d'un processus standard de prétraitement des données
- Conception expérimentale raisonnable: Adoption de méthodes appropriées pour traiter le problème du déséquilibre des données
- Résultats reproductibles: Fourniture de paramètres de configuration et de configuration expérimentale détaillés
- Innovation limitée: Principalement l'application de techniques existantes, manque d'innovation majeure en méthodologie
- Amélioration de performance mineure: Bien que la cohérence soit bonne, l'amplitude d'amélioration est faible, la valeur pratique reste à vérifier
- Ingénierie des caractéristiques simple: N'a pas pleinement exploité les méthodes modernes telles que l'apprentissage profond pour l'extraction de caractéristiques
- Métriques d'évaluation uniques: Utilisation uniquement de la précision, manque d'autres métriques importantes telles que la précision et le rappel
- Absence de test de signification statistique: Pas de rapport sur la signification statistique des résultats
- Contribution au domaine: Fournit une nouvelle voie technologique pour l'évaluation vocale médicale
- Valeur pratique: Peut être directement appliquée à la pratique clinique de réadaptation vocale
- Reproductibilité: Description claire de la méthode, facile à reproduire et améliorer
- Limitations: L'impact peut être limité par la faible amplitude d'amélioration de performance
- Réadaptation vocale médicale: Évaluation de la qualité vocale et suivi de la réadaptation des patients atteints de maladies du tractus vocal
- Orthophonie: Fournir aux orthophonistes un outil d'évaluation objectif
- Surveillance de la qualité vocale: Évaluation automatisée de la qualité de grandes quantités de données vocales
- Plateforme de recherche: Servir de base pour la recherche ultérieure sur les méthodes d'évaluation vocale
L'article cite 12 références pertinentes, couvrant les domaines importants suivants :
- Données statistiques sur les maladies tumorales et norme GOST
- Application de l'apprentissage automatique dans l'analyse vocale
- Application de l'apprentissage d'ensemble en sécurité réseau
- Algorithmes de déformation temporelle dynamique et diverses métriques de distance
- Méthodes d'alignement de séries temporelles et de mesure de similarité
Ces références fournissent une base théorique et un soutien technique solides à la recherche.
Évaluation générale: Cet article est une recherche orientée vers l'application qui, bien que relativement limitée en innovation méthodologique, fournit une solution systématique aux besoins médicaux réels. La méthodologie de recherche est rigoureuse, la conception expérimentale est raisonnable et les résultats ont une certaine valeur pratique. Il est recommandé que les travaux futurs explorent plus profondément l'ingénierie des caractéristiques et les méthodes d'ensemble.