2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.

The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.

academic

Conjunto de clasificadores para evaluación del habla

Información Básica

ID del artículo: 2501.00067
Título: Ensemble of classifiers for speech evaluation
Autores: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
Clasificación: cs.SD cs.AI eess.AS
Fecha de publicación/Conferencia: 2025 (preimpresión)
Enlace del artículo: https://arxiv.org/abs/2501.00067

Resumen

Este artículo describe un intento de aplicar métodos de conjunto de clasificadores binarios al problema de evaluación médica del habla. Se compiló un conjunto de datos basado en evaluaciones cuantitativas y de expertos de la calidad de pronunciación silábica. Se utilizó la evaluación cuantitativa de siete métricas seleccionadas como características: distancia de deformación temporal dinámica, distancia de Minkowski, coeficiente de correlación, subsecuencia común más larga (LCSS), distancia de edición de secuencia real (EDR), distancia de edición de secuencia real con penalización (ERP) y fusión de segmentación (MSM). La evaluación de expertos sobre la calidad de pronunciación se utilizó como etiquetas de clase: la clase 1 representa habla de alta calidad y la clase 0 representa habla distorsionada. Se compararon los resultados de entrenamiento de cinco métodos de clasificación: regresión logística (LR), máquinas de vectores de soporte (SVM), Bayes ingenuo (NB), árboles de decisión (DT) y K vecinos más cercanos (KNN). También se presentaron resultados de construcción de conjuntos de clasificadores utilizando métodos híbridos. Los métodos de conjunto mejoraron ligeramente la precisión de clasificación en el conjunto de datos estudiado en comparación con el uso de clasificadores binarios individuales.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es la automatización y estandarización de la evaluación médica del habla. Específicamente, durante el proceso de rehabilitación del habla en pacientes con enfermedades tumorales del tracto vocal, es necesario realizar una evaluación objetiva y precisa de la calidad de pronunciación silábica del paciente.

Importancia del Problema

Necesidad médica: Los datos estadísticos sobre enfermedades tumorales del tracto vocal demuestran la creciente importancia de los métodos de análisis del habla en medicina
Necesidad de rehabilitación: Las medidas de rehabilitación deben ajustarse a las características individuales del paciente, y los métodos tradicionales de evaluación subjetiva tienen limitaciones
Necesidad de estandarización: Los métodos de evaluación del habla por expertos recomendados oficialmente basados en estándares GOST requieren alternativas más objetivas

Limitaciones de los Métodos Existentes

Los métodos tradicionales de evaluación del habla por expertos presentan los siguientes problemas:

Alta subjetividad, falta de estándares cuantitativos objetivos
Los resultados de evaluación pueden variar según el evaluador
Difícil de aplicar a gran escala de manera estandarizada
Falta de seguimiento preciso del proceso de rehabilitación del paciente

Motivación de la Investigación

Basándose en métodos de aprendizaje automático, particularmente técnicas de conjunto de clasificadores, es posible lograr un análisis de señales de habla más eficiente, proporcionando evaluaciones de calidad de habla objetivas y consistentes, mejorando así la efectividad de la rehabilitación del habla.

Contribuciones Principales

Propuesta de método de evaluación del habla basado en conjunto de clasificadores: Aplicación del método de conjunto Blending a la tarea de evaluación de calidad de habla médica
Construcción de conjunto de datos de evaluación de calidad de habla multifónica: Basado en datos de grabaciones de pacientes del Instituto de Investigación de Oncología del Centro Médico Nacional de Investigación de Tomsk
Comparación sistemática de múltiples algoritmos de clasificación: Evaluación y comparación exhaustiva de 5 métodos de clasificación principales
Logro de mejora en precisión de clasificación: El método de conjunto logró mejoras de rendimiento en todos los fonemas de prueba en comparación con clasificadores individuales
Provisión de proceso completo de preprocesamiento de datos: Método sistemático que incluye limpieza de ruido y reequilibrio de datos

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Grabaciones de audio de pronunciación silábica del paciente Salida: Resultado de clasificación binaria (0-habla distorsionada, 1-habla de alta calidad) Restricciones: Datos de entrenamiento basados en 7 métricas cuantitativas y anotaciones de expertos

Método de Extracción de Características

La investigación utilizó 7 métricas clave de similitud y distancia:

Distancia DTW: Estimación del costo de ruta en el algoritmo de deformación temporal dinámica
Coeficiente de correlación: Mide la correlación lineal entre secuencias
Distancia de Minkowski: Medida de distancia generalizada
EDR: Distancia de edición de secuencia real
ERP: Distancia de edición de secuencia real con penalización
LCSS: Longitud de subsecuencia común más larga
MSM: Distancia de fusión de segmentación móvil, calcula el número de operaciones necesarias para transformar secuencias

Estrategia de Preprocesamiento de Datos

Para abordar el problema del desequilibrio del conjunto de datos, se adoptaron los siguientes métodos de preprocesamiento:

Limpieza de ruido: Uso del algoritmo de análisis de cuartiles
Reequilibrio de datos: Adopción del método KMeansSMOTE (combinación de K-Means y SMOTE)
Construcción del conjunto de datos: Construcción de 4 variantes de conjunto de datos para cada fonema problemático:
- Conjunto de datos original
- Conjunto de datos después de limpieza de ruido
- Conjunto de datos reequilibrado
- Conjunto de datos reequilibrado y con limpieza de ruido

Selección de Clasificadores

Se seleccionaron 5 métodos de clasificación binaria comúnmente utilizados:

K vecinos más cercanos (KNN)
Bosque aleatorio (RF)
Máquinas de vectores de soporte (SVC)
Regresión logística (LR)
Árboles de decisión (DT)

Método de Conjunto: Blending

Se adoptó el método de modelo mixto (Blending) para construir el conjunto de clasificadores:

Paso 1: Creación de múltiples modelos base Paso 2: Entrenamiento del modelo mixto

Los modelos base se entrenan en el conjunto de datos de entrenamiento
El metamodelo se entrena en los resultados de predicción de los modelos base

Paso 3: Construcción de matriz de metacaracterísticas meta_X

Cada columna representa la salida de un modelo base
Cada fila representa una muestra en el conjunto de datos independiente

Paso 4: Entrenamiento del metamodelo Paso 5: Predicción del conjunto

Proceso de dos pasos: predicción del modelo base → predicción final del metamodelo

Configuración Experimental

Conjunto de Datos

Fuente de datos: Grabaciones de pacientes del Instituto de Investigación de Oncología del Centro Médico Nacional de Investigación de Tomsk
Escala de datos: Para 3 fonemas problemáticos k, s, t, 1020 vectores de características por fonema
Método de anotación: Anotación por expertos logopedas (0-poco claro, 1-claro)
Dimensión de características: Vector de características de 7 dimensiones (correspondiente a 7 métricas de distancia)

Métricas de Evaluación

Métrica principal: Precisión de clasificación (Accuracy)
Método de evaluación: Evaluación del modelo de conjunto en conjunto de prueba independiente

Métodos de Comparación

5 clasificadores individuales como métodos de referencia
Comparación interna de diferentes combinaciones de métodos de conjunto

Detalles de Implementación

Implementación utilizando bibliotecas de aprendizaje automático de Python
Procesamiento separado del conjunto de datos por fonema
Adopción de división estándar entrenamiento-validación-prueba

Resultados Experimentales

Resultados Principales

Conjunto de datos del fonema k

Mejor clasificador individual: Bosque aleatorio, precisión del 77,2%
Mejor resultado de conjunto: Precisión del 78,6%
Mejor combinación: Clasificador principal SVC + clasificadores auxiliares (KNN, SVC, RandomForest, DecisionTree)
Magnitud de mejora: 1,4 puntos porcentuales

Conjunto de datos del fonema t

Mejor clasificador individual: Árbol de decisión, precisión del 86,3%
Mejor resultado de conjunto: Precisión del 87,0%
Casos con mejora: Resultados mejorados en 24 casos
Número de veces con mejor resultado: 5 veces alcanzando la máxima precisión del 87,0%
Magnitud de mejora: 0,7 puntos porcentuales

Conjunto de datos del fonema s

Mejor clasificador individual: Máquina de vectores de soporte, precisión del 86,4%
Mejor resultado de conjunto: Precisión del 87,0%
Mejor combinación:
- Clasificador principal DecisionTree + clasificadores auxiliares (KNN, SVC, LogisticRegression)
- Clasificador principal RandomForest + clasificadores auxiliares (KNN, SVC, LogisticRegression)
Magnitud de mejora: 0,6 puntos porcentuales

Hallazgos Experimentales

Mejora consistente: El método de conjunto logró mejoras de rendimiento en los 3 conjuntos de datos de fonemas
Magnitud de mejora moderada: El rango de mejora de precisión está entre 0,6-1,4 puntos porcentuales
Diversidad de combinaciones: Existen diferencias en las mejores combinaciones de conjuntos para diferentes fonemas, indicando la necesidad de optimización específica
Estabilidad mejorada: El método de conjunto proporciona resultados de predicción más estables que clasificadores individuales

Trabajo Relacionado

Aplicación de Aprendizaje de Conjunto en Medicina

El artículo menciona la aplicación de clasificadores de conjunto en múltiples campos como medicina, economía y seguridad de la información, señalando particularmente que en la detección de ataques DDoS, la combinación de 2 o más clasificadores puede mejorar la precisión en un promedio del 5%.

Desarrollo de Tecnología de Análisis del Habla

Métodos tradicionales basados en evaluación de expertos según estándares GOST
Aplicación cada vez más generalizada de métodos de aprendizaje automático en análisis de señales de habla
Papel importante de algoritmos como deformación temporal dinámica en procesamiento del habla

Posicionamiento de la Contribución del Artículo

En comparación con trabajos existentes, este artículo aplica sistemáticamente el aprendizaje de conjunto a la evaluación médica de rehabilitación del habla por primera vez, proporcionando una solución completa desde extracción de características hasta conjunto de clasificadores.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del método: El método de conjunto efectivamente puede mejorar la precisión de clasificación en tareas de evaluación de calidad de habla
Universalidad: Se observaron efectos de mejora consistentes en múltiples fonemas diferentes
Valor práctico: Proporciona una herramienta de evaluación objetiva y automatizada para rehabilitación del habla médica

Limitaciones

Magnitud de mejora limitada: La mejora de precisión es relativamente pequeña (0,6-1,4 puntos porcentuales)
Escala del conjunto de datos: Solo 1020 muestras por fonema, lo que puede limitar la capacidad de generalización del modelo
Ingeniería de características: Solo se utilizaron 7 métricas de distancia tradicionales, posiblemente con representación de características insuficiente
Método de conjunto único: Solo se probó el método Blending, sin explorar otras estrategias de conjunto

Direcciones Futuras

El artículo explícitamente propone investigar otros métodos de construcción de conjuntos para mejorar aún más la precisión de clasificación y la efectividad de la evaluación de análisis de calidad del habla.

Evaluación Profunda

Fortalezas

Alto valor de aplicación práctica: Aborda necesidades médicas reales con escenarios de aplicación claros
Metodología rigurosa: Comparación sistemática de múltiples métodos de clasificación, adopción de proceso estándar de preprocesamiento de datos
Diseño experimental razonable: Adopción de métodos apropiados para abordar el problema del desequilibrio de datos
Reproducibilidad de resultados: Proporciona configuración experimental detallada y parámetros

Deficiencias

Innovación limitada: Principalmente aplicación de técnicas existentes, falta de innovación importante en metodología
Mejora de rendimiento mínima: Aunque la consistencia es buena, la magnitud de mejora es pequeña, el valor práctico requiere verificación
Ingeniería de características simple: No aprovecha plenamente métodos modernos como aprendizaje profundo para extracción de características
Métrica de evaluación única: Solo se utiliza precisión, falta de otras métricas importantes como precisión y exhaustividad
Falta de prueba de significancia estadística: No se reporta la significancia estadística de los resultados

Impacto

Contribución al campo: Proporciona nueva ruta tecnológica para evaluación de habla médica
Valor práctico: Puede aplicarse directamente a práctica clínica de rehabilitación del habla
Reproducibilidad: Descripción de método clara, fácil de reproducir y mejorar
Limitaciones: El impacto puede estar limitado por la pequeña magnitud de mejora de rendimiento

Escenarios Aplicables

Rehabilitación del habla médica: Evaluación de calidad de habla y seguimiento de rehabilitación en pacientes con enfermedades del tracto vocal
Terapia del habla: Proporciona herramienta de evaluación objetiva para logopedas
Monitoreo de calidad de habla: Evaluación de calidad automatizada de datos de habla a gran escala
Plataforma de investigación: Como base para investigación adicional de métodos de evaluación del habla

Referencias

El artículo cita 12 referencias relacionadas, cubriendo los siguientes direcciones importantes:

Datos estadísticos de enfermedades tumorales y estándares GOST
Aplicación de aprendizaje automático en análisis del habla
Aplicación de aprendizaje de conjunto en seguridad de redes
Algoritmos de deformación temporal dinámica y varios métodos de medida de distancia
Métodos de alineación de series temporales y medidas de similitud

Estas referencias proporcionan una base teórica sólida y apoyo técnico para la investigación.

Evaluación general: Este es un artículo de investigación orientado a aplicaciones que, aunque relativamente limitado en innovación de métodos, proporciona una solución sistemática para necesidades médicas reales. La metodología de investigación es rigurosa, el diseño experimental es razonable y los resultados tienen cierto valor práctico. Se recomienda que trabajos futuros realicen exploración más profunda en ingeniería de características y métodos de conjunto.