2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.
The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
academic

Insieme di classificatori per la valutazione del linguaggio

Informazioni di base

  • ID articolo: 2501.00067
  • Titolo: Ensemble of classifiers for speech evaluation
  • Autori: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
  • Classificazione: cs.SD cs.AI eess.AS
  • Data di pubblicazione/Conferenza: 2025 (preprint)
  • Link articolo: https://arxiv.org/abs/2501.00067

Riassunto

Questo articolo descrive l'applicazione di metodi di insieme di classificatori binari al problema della valutazione medica del linguaggio. Un dataset è stato compilato sulla base di valutazioni quantitative e di esperti sulla qualità della pronuncia sillabica. La valutazione quantitativa utilizzando 7 metriche selezionate è stata utilizzata come caratteristiche: distanza di allineamento temporale dinamico, distanza di Minkowski, coefficiente di correlazione, sottosequenza comune più lunga (LCSS), distanza di modifica della sequenza reale (EDR), distanza di modifica della sequenza reale con penalità (ERP) e fusione di segmentazione (MSM). La valutazione degli esperti sulla qualità della pronuncia è stata utilizzata come etichette di classe: la classe 1 rappresenta il linguaggio di alta qualità, la classe 0 rappresenta il linguaggio distorto. Sono stati confrontati i risultati di addestramento di cinque metodi di classificazione: regressione logistica (LR), macchine a vettori di supporto (SVM), naive Bayes (NB), alberi decisionali (DT) e K-vicini più prossimi (KNN). Sono stati inoltre presentati i risultati della costruzione di insiemi di classificatori utilizzando metodi ibridi. I metodi di insieme hanno mostrato un leggero miglioramento della precisione di classificazione rispetto all'utilizzo di singoli classificatori binari sul dataset studiato.

Contesto e motivazione della ricerca

Definizione del problema

Il problema centrale affrontato da questa ricerca è l'automazione e la standardizzazione della valutazione medica del linguaggio. Nello specifico, durante il processo di riabilitazione del linguaggio per i pazienti affetti da malattie tumorali del tratto vocale, è necessario effettuare una valutazione oggettiva e accurata della qualità della pronuncia sillabica dei pazienti.

Importanza del problema

  1. Necessità medica: I dati statistici sulle malattie tumorali del tratto vocale dimostrano l'importanza crescente dei metodi di analisi del linguaggio in medicina
  2. Esigenza di riabilitazione: Le misure di riabilitazione devono essere adattate alle caratteristiche individuali del paziente, e i metodi tradizionali di valutazione soggettiva presentano limitazioni
  3. Necessità di standardizzazione: I metodi attuali di valutazione del linguaggio da parte di esperti, raccomandati ufficialmente sulla base dello standard GOST, richiedono alternative più obiettive

Limitazioni dei metodi esistenti

I metodi tradizionali di valutazione del linguaggio da parte di esperti presentano i seguenti problemi:

  • Forte soggettività e mancanza di standard quantitativi oggettivi
  • I risultati della valutazione possono variare a seconda dell'esperto
  • Difficoltà nell'applicazione standardizzata su larga scala
  • Mancanza di tracciamento preciso del processo di riabilitazione del paziente

Motivazione della ricerca

Sulla base di metodi di apprendimento automatico, in particolare tecniche di insieme di classificatori, è possibile realizzare un'analisi più efficiente dei segnali vocali, fornendo una valutazione della qualità del linguaggio oggettiva e coerente, migliorando così l'efficacia della riabilitazione del linguaggio.

Contributi principali

  1. Proposta di un metodo di valutazione del linguaggio basato su insieme di classificatori: Applicazione del metodo di insieme Blending al compito di valutazione della qualità del linguaggio medico
  2. Costruzione di un dataset di valutazione della qualità del linguaggio multi-fonetico: Basato su dati di registrazioni di pazienti dell'Istituto di ricerca oncologica del Centro medico nazionale di ricerca di Tomsk
  3. Confronto sistematico di molteplici algoritmi di classificazione: Valutazione e confronto completo di 5 metodi di classificazione principali
  4. Realizzazione del miglioramento della precisione di classificazione: Il metodo di insieme ha ottenuto miglioramenti delle prestazioni rispetto ai singoli classificatori su tutti i fonemi testati
  5. Fornitura di un processo completo di pre-elaborazione dei dati: Metodo sistematico che include pulizia del rumore e ribilanciamento dei dati

Spiegazione dettagliata del metodo

Definizione del compito

Input: Registrazioni audio della pronuncia sillabica del paziente Output: Risultato di classificazione binaria (0-linguaggio distorto, 1-linguaggio di alta qualità) Vincoli: Dati di addestramento basati su 7 metriche quantitative e annotazioni di esperti

Metodo di estrazione delle caratteristiche

Lo studio ha utilizzato 7 metriche chiave di somiglianza e distanza:

  1. Distanza DTW: Stima del costo del percorso nell'algoritmo di allineamento temporale dinamico
  2. Coefficiente di correlazione: Misura della correlazione lineare tra sequenze
  3. Distanza di Minkowski: Misura di distanza generalizzata
  4. EDR: Distanza di modifica della sequenza reale
  5. ERP: Distanza di modifica della sequenza reale con penalità
  6. LCSS: Lunghezza della sottosequenza comune più lunga
  7. MSM: Distanza di fusione di segmentazione mobile, calcola il numero di operazioni necessarie per la trasformazione della sequenza

Strategia di pre-elaborazione dei dati

Per affrontare il problema dello squilibrio del dataset, sono stati adottati i seguenti metodi di pre-elaborazione:

  1. Pulizia del rumore: Utilizzo dell'algoritmo di analisi dei quartili
  2. Ribilanciamento dei dati: Utilizzo del metodo KMeansSMOTE (combinazione di K-Means e SMOTE)
  3. Costruzione del dataset: Per ogni fonema problematico sono stati costruiti 4 varianti di dataset:
    • Dataset originale
    • Dataset dopo pulizia del rumore
    • Dataset ribilanciato
    • Dataset ribilanciato e pulito dal rumore

Selezione dei classificatori

Sono stati selezionati 5 metodi di classificazione binaria comuni:

  1. K-vicini più prossimi (KNN)
  2. Foresta casuale (RF)
  3. Macchine a vettori di supporto (SVC)
  4. Regressione logistica (LR)
  5. Alberi decisionali (DT)

Metodo di insieme: Blending

È stato adottato il metodo di modello misto (Blending) per costruire l'insieme di classificatori:

Fase 1: Creazione di molteplici modelli di base Fase 2: Addestramento del modello misto

  • I modelli di base vengono addestrati sul dataset di addestramento
  • Il meta-modello viene addestrato sui risultati di previsione dei modelli di base

Fase 3: Costruzione della matrice di meta-caratteristiche meta_X

  • Ogni colonna rappresenta l'output di un modello di base
  • Ogni riga rappresenta un campione nel dataset indipendente

Fase 4: Addestramento del meta-modello Fase 5: Previsione dell'insieme

  • Processo in due fasi: previsione del modello di base → previsione finale del meta-modello

Configurazione sperimentale

Dataset

  • Fonte dei dati: Registrazioni di pazienti dell'Istituto di ricerca oncologica del Centro medico nazionale di ricerca di Tomsk
  • Scala dei dati: Per 3 fonemi problematici k, s, t, 1020 vettori di caratteristiche per ogni fonema
  • Metodo di annotazione: Annotazione da parte di esperti logopedisti (0-non chiaro, 1-chiaro)
  • Dimensionalità delle caratteristiche: Vettore di caratteristiche a 7 dimensioni (corrispondente a 7 metriche di distanza)

Metriche di valutazione

  • Metrica principale: Precisione di classificazione (Accuracy)
  • Metodo di valutazione: Valutazione dell'effetto del modello di insieme su un set di test indipendente

Metodi di confronto

  • 5 singoli classificatori come metodi di base
  • Confronto interno di diverse combinazioni di metodi di insieme

Dettagli di implementazione

  • Implementazione utilizzando librerie di apprendimento automatico Python
  • Elaborazione separata del dataset per fonema
  • Utilizzo della divisione standard addestramento-validazione-test

Risultati sperimentali

Risultati principali

Dataset del fonema k

  • Miglior classificatore singolo: Foresta casuale, precisione 77,2%
  • Miglior risultato di insieme: Precisione 78,6%
  • Miglior combinazione: Classificatore principale SVC + classificatori ausiliari (KNN, SVC, RandomForest, DecisionTree)
  • Entità del miglioramento: 1,4 punti percentuali

Dataset del fonema t

  • Miglior classificatore singolo: Albero decisionale, precisione 86,3%
  • Miglior risultato di insieme: Precisione 87,0%
  • Numero di casi migliorati: Risultati migliorati in 24 casi
  • Numero di volte del miglior risultato: 5 volte raggiunta la massima precisione del 87,0%
  • Entità del miglioramento: 0,7 punti percentuali

Dataset del fonema s

  • Miglior classificatore singolo: Macchina a vettori di supporto, precisione 86,4%
  • Miglior risultato di insieme: Precisione 87,0%
  • Miglior combinazione:
    • Classificatore principale DecisionTree + classificatori ausiliari (KNN, SVC, LogisticRegression)
    • Classificatore principale RandomForest + classificatori ausiliari (KNN, SVC, LogisticRegression)
  • Entità del miglioramento: 0,6 punti percentuali

Scoperte sperimentali

  1. Miglioramento coerente: Il metodo di insieme ha realizzato miglioramenti delle prestazioni su tutti e 3 i dataset di fonemi
  2. Entità del miglioramento moderata: L'intervallo di miglioramento della precisione è compreso tra 0,6 e 1,4 punti percentuali
  3. Diversità della combinazione: Le migliori combinazioni di insieme differiscono per i diversi fonemi, indicando la necessità di ottimizzazione mirata
  4. Stabilità aumentata: Il metodo di insieme fornisce risultati di previsione più stabili rispetto ai singoli classificatori

Lavori correlati

Applicazione dell'apprendimento di insieme in medicina

L'articolo menziona l'applicazione di classificatori di insieme in medicina, economia e sicurezza informatica, sottolineando in particolare che nel rilevamento di attacchi DDoS, la combinazione di 2 o più classificatori può migliorare la precisione media del 5%.

Sviluppo della tecnologia di analisi del linguaggio

  • Metodi tradizionali basati sulla valutazione di esperti secondo lo standard GOST
  • Applicazione sempre più diffusa di metodi di apprendimento automatico nell'analisi dei segnali vocali
  • Ruolo importante di algoritmi come l'allineamento temporale dinamico nell'elaborazione del linguaggio

Posizionamento del contributo di questo articolo

Rispetto ai lavori esistenti, questo articolo applica sistematicamente l'apprendimento di insieme per la prima volta alla valutazione medica della riabilitazione del linguaggio, fornendo una soluzione completa dall'estrazione delle caratteristiche all'insieme di classificatori.

Conclusioni e discussione

Conclusioni principali

  1. Efficacia del metodo: Il metodo di insieme può effettivamente migliorare la precisione di classificazione nel compito di valutazione della qualità del linguaggio
  2. Universalità: Sono stati osservati miglioramenti coerenti su più fonemi diversi
  3. Valore pratico: Fornisce uno strumento di valutazione oggettivo e automatizzato per la riabilitazione medica del linguaggio

Limitazioni

  1. Entità del miglioramento limitata: L'aumento della precisione è relativamente piccolo (0,6-1,4 punti percentuali)
  2. Scala del dataset: Solo 1020 campioni per fonema, che potrebbe limitare la capacità di generalizzazione del modello
  3. Ingegneria delle caratteristiche: Sono state utilizzate solo 7 metriche di distanza tradizionali, che potrebbero presentare rappresentazione insufficiente delle caratteristiche
  4. Metodo di insieme singolo: È stato testato solo il metodo Blending, senza esplorare altre strategie di insieme

Direzioni future

L'articolo propone esplicitamente di ricercare altri metodi di costruzione di insiemi per migliorare ulteriormente la precisione di classificazione e l'efficacia della valutazione della qualità dell'analisi del linguaggio.

Valutazione approfondita

Punti di forza

  1. Valore di applicazione pratica elevato: Affronta esigenze mediche reali con scenari di applicazione chiari
  2. Metodologia rigorosa: Confronto sistematico di molteplici metodi di classificazione, adozione di processi standard di pre-elaborazione dei dati
  3. Progettazione sperimentale ragionevole: Adozione di metodi appropriati per affrontare il problema dello squilibrio dei dati
  4. Risultati riproducibili: Fornitura di configurazioni sperimentali e parametri dettagliati

Insufficienze

  1. Innovazione limitata: Principalmente applicazione di tecnologie esistenti, mancanza di innovazione significativa nella metodologia
  2. Miglioramento delle prestazioni minimo: Sebbene la coerenza sia buona, l'entità del miglioramento è piccola, il valore pratico rimane da verificare
  3. Ingegneria delle caratteristiche semplice: Utilizzo insufficiente di metodi moderni come l'apprendimento profondo per l'estrazione delle caratteristiche
  4. Metriche di valutazione singole: Utilizzo solo della precisione, mancanza di altre metriche importanti come precisione e richiamo
  5. Mancanza di test di significatività statistica: Non è stata riportata la significatività statistica dei risultati

Impatto

  1. Contributo al settore: Fornisce un nuovo percorso tecnologico per la valutazione medica del linguaggio
  2. Valore pratico: Può essere applicato direttamente alla pratica clinica di riabilitazione del linguaggio
  3. Riproducibilità: La descrizione del metodo è chiara, facile da riprodurre e migliorare
  4. Limitazioni: L'impatto potrebbe essere limitato dalla piccola entità del miglioramento delle prestazioni

Scenari applicabili

  1. Riabilitazione medica del linguaggio: Valutazione della qualità del linguaggio e tracciamento della riabilitazione per pazienti con malattie del tratto vocale
  2. Terapia del linguaggio: Fornitura di strumenti di valutazione oggettivi per i logopedisti
  3. Monitoraggio della qualità del linguaggio: Valutazione automatizzata della qualità per grandi volumi di dati vocali
  4. Piattaforma di ricerca: Come base per ulteriori ricerche sui metodi di valutazione del linguaggio

Bibliografia

L'articolo cita 12 articoli correlati, che coprono i seguenti importanti ambiti:

  1. Dati statistici sulle malattie tumorali e standard GOST
  2. Applicazione dell'apprendimento automatico nell'analisi del linguaggio
  3. Applicazione dell'apprendimento di insieme nella sicurezza informatica
  4. Allineamento temporale dinamico e vari algoritmi di misurazione della distanza
  5. Metodi di allineamento di serie temporali e misurazione della somiglianza

Questi riferimenti forniscono una base teorica e un supporto tecnico solidi per la ricerca.


Valutazione complessiva: Questo è un articolo di ricerca orientato all'applicazione che, sebbene relativamente limitato nell'innovazione metodologica, fornisce una soluzione sistematica a esigenze mediche reali. La metodologia di ricerca è rigorosa, la progettazione sperimentale è ragionevole e i risultati hanno un certo valore pratico. Si consiglia che i lavori futuri esplorino più a fondo l'ingegneria delle caratteristiche e i metodi di insieme.