2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.

The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.

academic

Ensemble de classificateurs pour l'évaluation de la parole

Informations de base

ID de l'article: 2501.00067
Titre: Ensemble of classifiers for speech evaluation
Auteurs: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
Classification: cs.SD cs.AI eess.AS
Date de publication/Conférence: 2025 (prépublication)
Lien de l'article: https://arxiv.org/abs/2501.00067

Résumé

Cet article décrit une tentative d'application de méthodes d'ensemble de classificateurs binaires au problème de l'évaluation médicale de la parole. Un ensemble de données a été compilé sur la base d'évaluations quantitatives et expertes de la qualité de prononciation syllabique. L'évaluation quantitative utilisant 7 métriques sélectionnées a servi de caractéristiques : distance de déformation temporelle dynamique (DTW), distance de Minkowski, coefficient de corrélation, plus longue sous-séquence commune (LCSS), distance d'édition de séquence réelle (EDR), distance d'édition de séquence réelle avec pénalité (ERP) et fusion-division (MSM). L'évaluation experte de la qualité de prononciation a été utilisée comme étiquettes de classe : la classe 1 représente la parole de haute qualité, la classe 0 représente la parole déformée. Les résultats d'entraînement de cinq méthodes de classification ont été comparés : régression logistique (LR), machine à vecteurs de support (SVM), naïve Bayes (NB), arbre de décision (DT) et K-plus proches voisins (KNN). Les résultats de la construction d'ensembles de classificateurs utilisant des méthodes hybrides sont également présentés. Les méthodes d'ensemble ont légèrement amélioré la précision de classification sur l'ensemble de données étudié par rapport à l'utilisation de classificateurs binaires individuels.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est l'automatisation et la normalisation de l'évaluation médicale de la parole. Plus précisément, au cours du processus de réadaptation vocale des patients atteints de maladies tumorales du tractus vocal, il est nécessaire d'évaluer objectivement et précisément la qualité de prononciation syllabique des patients.

Importance du problème

Besoin médical: Les données statistiques sur les maladies tumorales du tractus vocal montrent l'importance croissante des méthodes d'analyse vocale en médecine
Besoin de réadaptation: Les mesures de réadaptation doivent être adaptées aux caractéristiques individuelles des patients, et les méthodes d'évaluation subjectives traditionnelles présentent des limitations
Besoin de normalisation: Les méthodes d'évaluation vocale experte actuelles basées sur la norme GOST nécessitent des alternatives plus objectives

Limitations des méthodes existantes

Les méthodes traditionnelles d'évaluation vocale experte présentent les problèmes suivants :

Forte subjectivité et manque de normes quantitatives objectives
Les résultats d'évaluation peuvent varier selon l'évaluateur
Difficultés à appliquer à grande échelle de manière normalisée
Manque de suivi précis du processus de réadaptation des patients

Motivation de la recherche

Sur la base de méthodes d'apprentissage automatique, en particulier les techniques d'ensemble de classificateurs, il est possible de réaliser une analyse de signal vocal plus efficace, fournissant une évaluation objective et cohérente de la qualité vocale, améliorant ainsi l'efficacité de la réadaptation vocale.

Contributions principales

Proposition d'une méthode d'évaluation vocale basée sur l'ensemble de classificateurs: Application de la méthode d'ensemble Blending à la tâche d'évaluation de la qualité vocale médicale
Construction d'un ensemble de données d'évaluation de qualité vocale multi-phonèmes: Basé sur les données d'enregistrement de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
Comparaison systématique de plusieurs algorithmes de classification: Évaluation et comparaison complètes de 5 méthodes de classification principales
Amélioration de la précision de classification: La méthode d'ensemble a obtenu des améliorations de performance sur tous les phonèmes testés par rapport aux classificateurs individuels
Fourniture d'un processus complet de prétraitement des données: Incluant une approche systématique du nettoyage du bruit et du rééquilibrage des données

Détails de la méthode

Définition de la tâche

Entrée: Enregistrements audio de prononciation syllabique des patients Sortie: Résultat de classification binaire (0-parole déformée, 1-parole de haute qualité) Contraintes: Données d'entraînement basées sur 7 métriques quantitatives et annotations expertes

Méthode d'extraction de caractéristiques

L'étude a utilisé 7 métriques clés de similarité et de distance :

Distance DTW: Estimation du coût du chemin dans l'algorithme de déformation temporelle dynamique
Coefficient de corrélation: Mesure de la corrélation linéaire entre les séquences
Distance de Minkowski: Mesure de distance généralisée
EDR: Distance d'édition de séquence réelle
ERP: Distance d'édition de séquence réelle avec pénalité
LCSS: Longueur de la plus longue sous-séquence commune
MSM: Distance de fusion-division mobile, calculant le nombre d'opérations nécessaires pour transformer les séquences

Stratégie de prétraitement des données

Pour résoudre le problème du déséquilibre de l'ensemble de données, les méthodes de prétraitement suivantes ont été adoptées :

Nettoyage du bruit: Utilisation de l'algorithme d'analyse des quartiles
Rééquilibrage des données: Utilisation de la méthode KMeansSMOTE (combinaison de K-Means et SMOTE)
Construction d'ensemble de données: Construction de 4 variantes d'ensemble de données pour chaque phonème problématique :
- Ensemble de données original
- Ensemble de données après nettoyage du bruit
- Ensemble de données rééquilibré
- Ensemble de données rééquilibré et nettoyé du bruit

Sélection des classificateurs

Cinq méthodes de classification binaire courantes ont été sélectionnées :

K-plus proches voisins (KNN)
Forêt aléatoire (RF)
Machine à vecteurs de support (SVC)
Régression logistique (LR)
Arbre de décision (DT)

Méthode d'ensemble : Blending

La méthode de modèle hybride (Blending) a été adoptée pour construire l'ensemble de classificateurs :

Étape 1: Création de plusieurs modèles de base Étape 2: Entraînement du modèle hybride

Les modèles de base sont entraînés sur l'ensemble de données d'entraînement
Le métamodèle est entraîné sur les résultats de prédiction des modèles de base

Étape 3: Construction de la matrice de métacaractéristiques meta_X

Chaque colonne représente la sortie d'un modèle de base
Chaque ligne représente un échantillon de l'ensemble de données indépendant

Étape 4: Entraînement du métamodèle Étape 5: Prédiction d'ensemble

Processus en deux étapes : prédiction du modèle de base → prédiction finale du métamodèle

Configuration expérimentale

Ensemble de données

Source des données: Enregistrements de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
Taille des données: Pour 3 phonèmes problématiques k, s, t, 1020 vecteurs de caractéristiques par phonème
Méthode d'annotation: Annotation experte par des orthophonistes (0-peu clair, 1-clair)
Dimension des caractéristiques: Vecteur de caractéristiques 7-dimensionnel (correspondant aux 7 métriques de distance)

Métriques d'évaluation

Métrique principale: Précision de classification (Accuracy)
Méthode d'évaluation: Évaluation de l'effet du modèle d'ensemble sur un ensemble de test indépendant

Méthodes de comparaison

5 classificateurs individuels comme méthodes de base
Comparaison interne de différentes combinaisons de méthodes d'ensemble

Détails de mise en œuvre

Implémentation utilisant des bibliothèques d'apprentissage automatique Python
Traitement séparé des ensembles de données par phonème
Utilisation de la division standard entraînement-validation-test

Résultats expérimentaux

Résultats principaux

Ensemble de données du phonème k

Meilleur classificateur individuel: Forêt aléatoire, précision 77,2%
Meilleur résultat d'ensemble: Précision 78,6%
Meilleure combinaison: Classificateur principal SVC + classificateurs auxiliaires (KNN, SVC, RandomForest, DecisionTree)
Amplitude d'amélioration: 1,4 point de pourcentage

Ensemble de données du phonème t

Meilleur classificateur individuel: Arbre de décision, précision 86,3%
Meilleur résultat d'ensemble: Précision 87,0%
Nombre de cas améliorés: Résultats améliorés dans 24 cas
Nombre de fois où le meilleur résultat est obtenu: 5 fois avec la précision maximale de 87,0%
Amplitude d'amélioration: 0,7 point de pourcentage

Ensemble de données du phonème s

Meilleur classificateur individuel: Machine à vecteurs de support, précision 86,4%
Meilleur résultat d'ensemble: Précision 87,0%
Meilleure combinaison:
- Classificateur principal DecisionTree + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
- Classificateur principal RandomForest + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
Amplitude d'amélioration: 0,6 point de pourcentage

Découvertes expérimentales

Amélioration cohérente: La méthode d'ensemble a réalisé des améliorations de performance sur les 3 ensembles de données de phonèmes
Amplitude d'amélioration modérée: L'amélioration de précision se situe dans la plage de 0,6-1,4 point de pourcentage
Diversité des combinaisons: Les meilleures combinaisons d'ensemble varient selon les phonèmes, indiquant le besoin d'optimisation ciblée
Stabilité accrue: La méthode d'ensemble fournit des résultats de prédiction plus stables que les classificateurs individuels

Travaux connexes

Application de l'apprentissage d'ensemble en médecine

L'article mentionne l'application des classificateurs d'ensemble dans plusieurs domaines tels que la médecine, l'économie et la sécurité de l'information, soulignant en particulier que dans la détection d'attaques DDoS, la combinaison de 2 classificateurs ou plus peut améliorer en moyenne la précision de 5%.

Développement des techniques d'analyse vocale

Méthodes traditionnelles basées sur l'évaluation experte selon la norme GOST
Application croissante des méthodes d'apprentissage automatique dans l'analyse de signal vocal
Rôle important des algorithmes tels que la déformation temporelle dynamique dans le traitement de la parole

Positionnement de la contribution de cet article

Par rapport aux travaux existants, cet article applique pour la première fois systématiquement l'apprentissage d'ensemble à l'évaluation de la réadaptation vocale médicale, fournissant une solution complète allant de l'extraction de caractéristiques à l'ensemble de classificateurs.

Conclusions et discussion

Conclusions principales

Efficacité de la méthode: La méthode d'ensemble peut effectivement améliorer la précision de classification dans la tâche d'évaluation de la qualité vocale
Universalité: Des améliorations cohérentes ont été observées sur plusieurs phonèmes différents
Valeur pratique: Fournit un outil d'évaluation objectif et automatisé pour la réadaptation vocale médicale

Limitations

Amplitude d'amélioration limitée: L'amélioration de précision est relativement faible (0,6-1,4 point de pourcentage)
Taille de l'ensemble de données: Seulement 1020 échantillons par phonème, ce qui peut limiter la capacité de généralisation du modèle
Ingénierie des caractéristiques: Utilisation de seulement 7 métriques de distance traditionnelles, ce qui peut entraîner une représentation insuffisante des caractéristiques
Méthode d'ensemble unique: Seule la méthode Blending a été testée, sans exploration d'autres stratégies d'ensemble

Directions futures

L'article propose explicitement d'explorer d'autres méthodes de construction d'ensemble pour améliorer davantage la précision de classification et l'efficacité de l'évaluation de la qualité de l'analyse vocale.

Évaluation approfondie

Avantages

Valeur d'application pratique élevée: Répond à des besoins médicaux réels avec des scénarios d'application clairs
Méthodologie rigoureuse: Comparaison systématique de plusieurs méthodes de classification, adoption d'un processus standard de prétraitement des données
Conception expérimentale raisonnable: Adoption de méthodes appropriées pour traiter le problème du déséquilibre des données
Résultats reproductibles: Fourniture de paramètres de configuration et de configuration expérimentale détaillés

Insuffisances

Innovation limitée: Principalement l'application de techniques existantes, manque d'innovation majeure en méthodologie
Amélioration de performance mineure: Bien que la cohérence soit bonne, l'amplitude d'amélioration est faible, la valeur pratique reste à vérifier
Ingénierie des caractéristiques simple: N'a pas pleinement exploité les méthodes modernes telles que l'apprentissage profond pour l'extraction de caractéristiques
Métriques d'évaluation uniques: Utilisation uniquement de la précision, manque d'autres métriques importantes telles que la précision et le rappel
Absence de test de signification statistique: Pas de rapport sur la signification statistique des résultats

Impact

Contribution au domaine: Fournit une nouvelle voie technologique pour l'évaluation vocale médicale
Valeur pratique: Peut être directement appliquée à la pratique clinique de réadaptation vocale
Reproductibilité: Description claire de la méthode, facile à reproduire et améliorer
Limitations: L'impact peut être limité par la faible amplitude d'amélioration de performance

Scénarios applicables

Réadaptation vocale médicale: Évaluation de la qualité vocale et suivi de la réadaptation des patients atteints de maladies du tractus vocal
Orthophonie: Fournir aux orthophonistes un outil d'évaluation objectif
Surveillance de la qualité vocale: Évaluation automatisée de la qualité de grandes quantités de données vocales
Plateforme de recherche: Servir de base pour la recherche ultérieure sur les méthodes d'évaluation vocale

Références

L'article cite 12 références pertinentes, couvrant les domaines importants suivants :

Données statistiques sur les maladies tumorales et norme GOST
Application de l'apprentissage automatique dans l'analyse vocale
Application de l'apprentissage d'ensemble en sécurité réseau
Algorithmes de déformation temporelle dynamique et diverses métriques de distance
Méthodes d'alignement de séries temporelles et de mesure de similarité

Ces références fournissent une base théorique et un soutien technique solides à la recherche.

Évaluation générale: Cet article est une recherche orientée vers l'application qui, bien que relativement limitée en innovation méthodologique, fournit une solution systématique aux besoins médicaux réels. La méthodologie de recherche est rigoureuse, la conception expérimentale est raisonnable et les résultats ont une certaine valeur pratique. Il est recommandé que les travaux futurs explorent plus profondément l'ingénierie des caractéristiques et les méthodes d'ensemble.