2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.
The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
academic

Ensemble de classificateurs pour l'évaluation de la parole

Informations de base

  • ID de l'article: 2501.00067
  • Titre: Ensemble of classifiers for speech evaluation
  • Auteurs: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
  • Classification: cs.SD cs.AI eess.AS
  • Date de publication/Conférence: 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2501.00067

Résumé

Cet article décrit une tentative d'application de méthodes d'ensemble de classificateurs binaires au problème de l'évaluation médicale de la parole. Un ensemble de données a été compilé sur la base d'évaluations quantitatives et expertes de la qualité de prononciation syllabique. L'évaluation quantitative utilisant 7 métriques sélectionnées a servi de caractéristiques : distance de déformation temporelle dynamique (DTW), distance de Minkowski, coefficient de corrélation, plus longue sous-séquence commune (LCSS), distance d'édition de séquence réelle (EDR), distance d'édition de séquence réelle avec pénalité (ERP) et fusion-division (MSM). L'évaluation experte de la qualité de prononciation a été utilisée comme étiquettes de classe : la classe 1 représente la parole de haute qualité, la classe 0 représente la parole déformée. Les résultats d'entraînement de cinq méthodes de classification ont été comparés : régression logistique (LR), machine à vecteurs de support (SVM), naïve Bayes (NB), arbre de décision (DT) et K-plus proches voisins (KNN). Les résultats de la construction d'ensembles de classificateurs utilisant des méthodes hybrides sont également présentés. Les méthodes d'ensemble ont légèrement amélioré la précision de classification sur l'ensemble de données étudié par rapport à l'utilisation de classificateurs binaires individuels.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est l'automatisation et la normalisation de l'évaluation médicale de la parole. Plus précisément, au cours du processus de réadaptation vocale des patients atteints de maladies tumorales du tractus vocal, il est nécessaire d'évaluer objectivement et précisément la qualité de prononciation syllabique des patients.

Importance du problème

  1. Besoin médical: Les données statistiques sur les maladies tumorales du tractus vocal montrent l'importance croissante des méthodes d'analyse vocale en médecine
  2. Besoin de réadaptation: Les mesures de réadaptation doivent être adaptées aux caractéristiques individuelles des patients, et les méthodes d'évaluation subjectives traditionnelles présentent des limitations
  3. Besoin de normalisation: Les méthodes d'évaluation vocale experte actuelles basées sur la norme GOST nécessitent des alternatives plus objectives

Limitations des méthodes existantes

Les méthodes traditionnelles d'évaluation vocale experte présentent les problèmes suivants :

  • Forte subjectivité et manque de normes quantitatives objectives
  • Les résultats d'évaluation peuvent varier selon l'évaluateur
  • Difficultés à appliquer à grande échelle de manière normalisée
  • Manque de suivi précis du processus de réadaptation des patients

Motivation de la recherche

Sur la base de méthodes d'apprentissage automatique, en particulier les techniques d'ensemble de classificateurs, il est possible de réaliser une analyse de signal vocal plus efficace, fournissant une évaluation objective et cohérente de la qualité vocale, améliorant ainsi l'efficacité de la réadaptation vocale.

Contributions principales

  1. Proposition d'une méthode d'évaluation vocale basée sur l'ensemble de classificateurs: Application de la méthode d'ensemble Blending à la tâche d'évaluation de la qualité vocale médicale
  2. Construction d'un ensemble de données d'évaluation de qualité vocale multi-phonèmes: Basé sur les données d'enregistrement de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
  3. Comparaison systématique de plusieurs algorithmes de classification: Évaluation et comparaison complètes de 5 méthodes de classification principales
  4. Amélioration de la précision de classification: La méthode d'ensemble a obtenu des améliorations de performance sur tous les phonèmes testés par rapport aux classificateurs individuels
  5. Fourniture d'un processus complet de prétraitement des données: Incluant une approche systématique du nettoyage du bruit et du rééquilibrage des données

Détails de la méthode

Définition de la tâche

Entrée: Enregistrements audio de prononciation syllabique des patients Sortie: Résultat de classification binaire (0-parole déformée, 1-parole de haute qualité) Contraintes: Données d'entraînement basées sur 7 métriques quantitatives et annotations expertes

Méthode d'extraction de caractéristiques

L'étude a utilisé 7 métriques clés de similarité et de distance :

  1. Distance DTW: Estimation du coût du chemin dans l'algorithme de déformation temporelle dynamique
  2. Coefficient de corrélation: Mesure de la corrélation linéaire entre les séquences
  3. Distance de Minkowski: Mesure de distance généralisée
  4. EDR: Distance d'édition de séquence réelle
  5. ERP: Distance d'édition de séquence réelle avec pénalité
  6. LCSS: Longueur de la plus longue sous-séquence commune
  7. MSM: Distance de fusion-division mobile, calculant le nombre d'opérations nécessaires pour transformer les séquences

Stratégie de prétraitement des données

Pour résoudre le problème du déséquilibre de l'ensemble de données, les méthodes de prétraitement suivantes ont été adoptées :

  1. Nettoyage du bruit: Utilisation de l'algorithme d'analyse des quartiles
  2. Rééquilibrage des données: Utilisation de la méthode KMeansSMOTE (combinaison de K-Means et SMOTE)
  3. Construction d'ensemble de données: Construction de 4 variantes d'ensemble de données pour chaque phonème problématique :
    • Ensemble de données original
    • Ensemble de données après nettoyage du bruit
    • Ensemble de données rééquilibré
    • Ensemble de données rééquilibré et nettoyé du bruit

Sélection des classificateurs

Cinq méthodes de classification binaire courantes ont été sélectionnées :

  1. K-plus proches voisins (KNN)
  2. Forêt aléatoire (RF)
  3. Machine à vecteurs de support (SVC)
  4. Régression logistique (LR)
  5. Arbre de décision (DT)

Méthode d'ensemble : Blending

La méthode de modèle hybride (Blending) a été adoptée pour construire l'ensemble de classificateurs :

Étape 1: Création de plusieurs modèles de base Étape 2: Entraînement du modèle hybride

  • Les modèles de base sont entraînés sur l'ensemble de données d'entraînement
  • Le métamodèle est entraîné sur les résultats de prédiction des modèles de base

Étape 3: Construction de la matrice de métacaractéristiques meta_X

  • Chaque colonne représente la sortie d'un modèle de base
  • Chaque ligne représente un échantillon de l'ensemble de données indépendant

Étape 4: Entraînement du métamodèle Étape 5: Prédiction d'ensemble

  • Processus en deux étapes : prédiction du modèle de base → prédiction finale du métamodèle

Configuration expérimentale

Ensemble de données

  • Source des données: Enregistrements de patients de l'Institut de recherche en oncologie du Centre national de recherche médicale de Tomsk
  • Taille des données: Pour 3 phonèmes problématiques k, s, t, 1020 vecteurs de caractéristiques par phonème
  • Méthode d'annotation: Annotation experte par des orthophonistes (0-peu clair, 1-clair)
  • Dimension des caractéristiques: Vecteur de caractéristiques 7-dimensionnel (correspondant aux 7 métriques de distance)

Métriques d'évaluation

  • Métrique principale: Précision de classification (Accuracy)
  • Méthode d'évaluation: Évaluation de l'effet du modèle d'ensemble sur un ensemble de test indépendant

Méthodes de comparaison

  • 5 classificateurs individuels comme méthodes de base
  • Comparaison interne de différentes combinaisons de méthodes d'ensemble

Détails de mise en œuvre

  • Implémentation utilisant des bibliothèques d'apprentissage automatique Python
  • Traitement séparé des ensembles de données par phonème
  • Utilisation de la division standard entraînement-validation-test

Résultats expérimentaux

Résultats principaux

Ensemble de données du phonème k

  • Meilleur classificateur individuel: Forêt aléatoire, précision 77,2%
  • Meilleur résultat d'ensemble: Précision 78,6%
  • Meilleure combinaison: Classificateur principal SVC + classificateurs auxiliaires (KNN, SVC, RandomForest, DecisionTree)
  • Amplitude d'amélioration: 1,4 point de pourcentage

Ensemble de données du phonème t

  • Meilleur classificateur individuel: Arbre de décision, précision 86,3%
  • Meilleur résultat d'ensemble: Précision 87,0%
  • Nombre de cas améliorés: Résultats améliorés dans 24 cas
  • Nombre de fois où le meilleur résultat est obtenu: 5 fois avec la précision maximale de 87,0%
  • Amplitude d'amélioration: 0,7 point de pourcentage

Ensemble de données du phonème s

  • Meilleur classificateur individuel: Machine à vecteurs de support, précision 86,4%
  • Meilleur résultat d'ensemble: Précision 87,0%
  • Meilleure combinaison:
    • Classificateur principal DecisionTree + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
    • Classificateur principal RandomForest + classificateurs auxiliaires (KNN, SVC, LogisticRegression)
  • Amplitude d'amélioration: 0,6 point de pourcentage

Découvertes expérimentales

  1. Amélioration cohérente: La méthode d'ensemble a réalisé des améliorations de performance sur les 3 ensembles de données de phonèmes
  2. Amplitude d'amélioration modérée: L'amélioration de précision se situe dans la plage de 0,6-1,4 point de pourcentage
  3. Diversité des combinaisons: Les meilleures combinaisons d'ensemble varient selon les phonèmes, indiquant le besoin d'optimisation ciblée
  4. Stabilité accrue: La méthode d'ensemble fournit des résultats de prédiction plus stables que les classificateurs individuels

Travaux connexes

Application de l'apprentissage d'ensemble en médecine

L'article mentionne l'application des classificateurs d'ensemble dans plusieurs domaines tels que la médecine, l'économie et la sécurité de l'information, soulignant en particulier que dans la détection d'attaques DDoS, la combinaison de 2 classificateurs ou plus peut améliorer en moyenne la précision de 5%.

Développement des techniques d'analyse vocale

  • Méthodes traditionnelles basées sur l'évaluation experte selon la norme GOST
  • Application croissante des méthodes d'apprentissage automatique dans l'analyse de signal vocal
  • Rôle important des algorithmes tels que la déformation temporelle dynamique dans le traitement de la parole

Positionnement de la contribution de cet article

Par rapport aux travaux existants, cet article applique pour la première fois systématiquement l'apprentissage d'ensemble à l'évaluation de la réadaptation vocale médicale, fournissant une solution complète allant de l'extraction de caractéristiques à l'ensemble de classificateurs.

Conclusions et discussion

Conclusions principales

  1. Efficacité de la méthode: La méthode d'ensemble peut effectivement améliorer la précision de classification dans la tâche d'évaluation de la qualité vocale
  2. Universalité: Des améliorations cohérentes ont été observées sur plusieurs phonèmes différents
  3. Valeur pratique: Fournit un outil d'évaluation objectif et automatisé pour la réadaptation vocale médicale

Limitations

  1. Amplitude d'amélioration limitée: L'amélioration de précision est relativement faible (0,6-1,4 point de pourcentage)
  2. Taille de l'ensemble de données: Seulement 1020 échantillons par phonème, ce qui peut limiter la capacité de généralisation du modèle
  3. Ingénierie des caractéristiques: Utilisation de seulement 7 métriques de distance traditionnelles, ce qui peut entraîner une représentation insuffisante des caractéristiques
  4. Méthode d'ensemble unique: Seule la méthode Blending a été testée, sans exploration d'autres stratégies d'ensemble

Directions futures

L'article propose explicitement d'explorer d'autres méthodes de construction d'ensemble pour améliorer davantage la précision de classification et l'efficacité de l'évaluation de la qualité de l'analyse vocale.

Évaluation approfondie

Avantages

  1. Valeur d'application pratique élevée: Répond à des besoins médicaux réels avec des scénarios d'application clairs
  2. Méthodologie rigoureuse: Comparaison systématique de plusieurs méthodes de classification, adoption d'un processus standard de prétraitement des données
  3. Conception expérimentale raisonnable: Adoption de méthodes appropriées pour traiter le problème du déséquilibre des données
  4. Résultats reproductibles: Fourniture de paramètres de configuration et de configuration expérimentale détaillés

Insuffisances

  1. Innovation limitée: Principalement l'application de techniques existantes, manque d'innovation majeure en méthodologie
  2. Amélioration de performance mineure: Bien que la cohérence soit bonne, l'amplitude d'amélioration est faible, la valeur pratique reste à vérifier
  3. Ingénierie des caractéristiques simple: N'a pas pleinement exploité les méthodes modernes telles que l'apprentissage profond pour l'extraction de caractéristiques
  4. Métriques d'évaluation uniques: Utilisation uniquement de la précision, manque d'autres métriques importantes telles que la précision et le rappel
  5. Absence de test de signification statistique: Pas de rapport sur la signification statistique des résultats

Impact

  1. Contribution au domaine: Fournit une nouvelle voie technologique pour l'évaluation vocale médicale
  2. Valeur pratique: Peut être directement appliquée à la pratique clinique de réadaptation vocale
  3. Reproductibilité: Description claire de la méthode, facile à reproduire et améliorer
  4. Limitations: L'impact peut être limité par la faible amplitude d'amélioration de performance

Scénarios applicables

  1. Réadaptation vocale médicale: Évaluation de la qualité vocale et suivi de la réadaptation des patients atteints de maladies du tractus vocal
  2. Orthophonie: Fournir aux orthophonistes un outil d'évaluation objectif
  3. Surveillance de la qualité vocale: Évaluation automatisée de la qualité de grandes quantités de données vocales
  4. Plateforme de recherche: Servir de base pour la recherche ultérieure sur les méthodes d'évaluation vocale

Références

L'article cite 12 références pertinentes, couvrant les domaines importants suivants :

  1. Données statistiques sur les maladies tumorales et norme GOST
  2. Application de l'apprentissage automatique dans l'analyse vocale
  3. Application de l'apprentissage d'ensemble en sécurité réseau
  4. Algorithmes de déformation temporelle dynamique et diverses métriques de distance
  5. Méthodes d'alignement de séries temporelles et de mesure de similarité

Ces références fournissent une base théorique et un soutien technique solides à la recherche.


Évaluation générale: Cet article est une recherche orientée vers l'application qui, bien que relativement limitée en innovation méthodologique, fournit une solution systématique aux besoins médicaux réels. La méthodologie de recherche est rigoureuse, la conception expérimentale est raisonnable et les résultats ont une certaine valeur pratique. Il est recommandé que les travaux futurs explorent plus profondément l'ingénierie des caractéristiques et les méthodes d'ensemble.