The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
- ID del artículo: 2501.00067
- Título: Ensemble of classifiers for speech evaluation
- Autores: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
- Clasificación: cs.SD cs.AI eess.AS
- Fecha de publicación/Conferencia: 2025 (preimpresión)
- Enlace del artículo: https://arxiv.org/abs/2501.00067
Este artículo describe un intento de aplicar métodos de conjunto de clasificadores binarios al problema de evaluación médica del habla. Se compiló un conjunto de datos basado en evaluaciones cuantitativas y de expertos de la calidad de pronunciación silábica. Se utilizó la evaluación cuantitativa de siete métricas seleccionadas como características: distancia de deformación temporal dinámica, distancia de Minkowski, coeficiente de correlación, subsecuencia común más larga (LCSS), distancia de edición de secuencia real (EDR), distancia de edición de secuencia real con penalización (ERP) y fusión de segmentación (MSM). La evaluación de expertos sobre la calidad de pronunciación se utilizó como etiquetas de clase: la clase 1 representa habla de alta calidad y la clase 0 representa habla distorsionada. Se compararon los resultados de entrenamiento de cinco métodos de clasificación: regresión logística (LR), máquinas de vectores de soporte (SVM), Bayes ingenuo (NB), árboles de decisión (DT) y K vecinos más cercanos (KNN). También se presentaron resultados de construcción de conjuntos de clasificadores utilizando métodos híbridos. Los métodos de conjunto mejoraron ligeramente la precisión de clasificación en el conjunto de datos estudiado en comparación con el uso de clasificadores binarios individuales.
El problema central que aborda esta investigación es la automatización y estandarización de la evaluación médica del habla. Específicamente, durante el proceso de rehabilitación del habla en pacientes con enfermedades tumorales del tracto vocal, es necesario realizar una evaluación objetiva y precisa de la calidad de pronunciación silábica del paciente.
- Necesidad médica: Los datos estadísticos sobre enfermedades tumorales del tracto vocal demuestran la creciente importancia de los métodos de análisis del habla en medicina
- Necesidad de rehabilitación: Las medidas de rehabilitación deben ajustarse a las características individuales del paciente, y los métodos tradicionales de evaluación subjetiva tienen limitaciones
- Necesidad de estandarización: Los métodos de evaluación del habla por expertos recomendados oficialmente basados en estándares GOST requieren alternativas más objetivas
Los métodos tradicionales de evaluación del habla por expertos presentan los siguientes problemas:
- Alta subjetividad, falta de estándares cuantitativos objetivos
- Los resultados de evaluación pueden variar según el evaluador
- Difícil de aplicar a gran escala de manera estandarizada
- Falta de seguimiento preciso del proceso de rehabilitación del paciente
Basándose en métodos de aprendizaje automático, particularmente técnicas de conjunto de clasificadores, es posible lograr un análisis de señales de habla más eficiente, proporcionando evaluaciones de calidad de habla objetivas y consistentes, mejorando así la efectividad de la rehabilitación del habla.
- Propuesta de método de evaluación del habla basado en conjunto de clasificadores: Aplicación del método de conjunto Blending a la tarea de evaluación de calidad de habla médica
- Construcción de conjunto de datos de evaluación de calidad de habla multifónica: Basado en datos de grabaciones de pacientes del Instituto de Investigación de Oncología del Centro Médico Nacional de Investigación de Tomsk
- Comparación sistemática de múltiples algoritmos de clasificación: Evaluación y comparación exhaustiva de 5 métodos de clasificación principales
- Logro de mejora en precisión de clasificación: El método de conjunto logró mejoras de rendimiento en todos los fonemas de prueba en comparación con clasificadores individuales
- Provisión de proceso completo de preprocesamiento de datos: Método sistemático que incluye limpieza de ruido y reequilibrio de datos
Entrada: Grabaciones de audio de pronunciación silábica del paciente
Salida: Resultado de clasificación binaria (0-habla distorsionada, 1-habla de alta calidad)
Restricciones: Datos de entrenamiento basados en 7 métricas cuantitativas y anotaciones de expertos
La investigación utilizó 7 métricas clave de similitud y distancia:
- Distancia DTW: Estimación del costo de ruta en el algoritmo de deformación temporal dinámica
- Coeficiente de correlación: Mide la correlación lineal entre secuencias
- Distancia de Minkowski: Medida de distancia generalizada
- EDR: Distancia de edición de secuencia real
- ERP: Distancia de edición de secuencia real con penalización
- LCSS: Longitud de subsecuencia común más larga
- MSM: Distancia de fusión de segmentación móvil, calcula el número de operaciones necesarias para transformar secuencias
Para abordar el problema del desequilibrio del conjunto de datos, se adoptaron los siguientes métodos de preprocesamiento:
- Limpieza de ruido: Uso del algoritmo de análisis de cuartiles
- Reequilibrio de datos: Adopción del método KMeansSMOTE (combinación de K-Means y SMOTE)
- Construcción del conjunto de datos: Construcción de 4 variantes de conjunto de datos para cada fonema problemático:
- Conjunto de datos original
- Conjunto de datos después de limpieza de ruido
- Conjunto de datos reequilibrado
- Conjunto de datos reequilibrado y con limpieza de ruido
Se seleccionaron 5 métodos de clasificación binaria comúnmente utilizados:
- K vecinos más cercanos (KNN)
- Bosque aleatorio (RF)
- Máquinas de vectores de soporte (SVC)
- Regresión logística (LR)
- Árboles de decisión (DT)
Se adoptó el método de modelo mixto (Blending) para construir el conjunto de clasificadores:
Paso 1: Creación de múltiples modelos base
Paso 2: Entrenamiento del modelo mixto
- Los modelos base se entrenan en el conjunto de datos de entrenamiento
- El metamodelo se entrena en los resultados de predicción de los modelos base
Paso 3: Construcción de matriz de metacaracterísticas meta_X
- Cada columna representa la salida de un modelo base
- Cada fila representa una muestra en el conjunto de datos independiente
Paso 4: Entrenamiento del metamodelo
Paso 5: Predicción del conjunto
- Proceso de dos pasos: predicción del modelo base → predicción final del metamodelo
- Fuente de datos: Grabaciones de pacientes del Instituto de Investigación de Oncología del Centro Médico Nacional de Investigación de Tomsk
- Escala de datos: Para 3 fonemas problemáticos k, s, t, 1020 vectores de características por fonema
- Método de anotación: Anotación por expertos logopedas (0-poco claro, 1-claro)
- Dimensión de características: Vector de características de 7 dimensiones (correspondiente a 7 métricas de distancia)
- Métrica principal: Precisión de clasificación (Accuracy)
- Método de evaluación: Evaluación del modelo de conjunto en conjunto de prueba independiente
- 5 clasificadores individuales como métodos de referencia
- Comparación interna de diferentes combinaciones de métodos de conjunto
- Implementación utilizando bibliotecas de aprendizaje automático de Python
- Procesamiento separado del conjunto de datos por fonema
- Adopción de división estándar entrenamiento-validación-prueba
- Mejor clasificador individual: Bosque aleatorio, precisión del 77,2%
- Mejor resultado de conjunto: Precisión del 78,6%
- Mejor combinación: Clasificador principal SVC + clasificadores auxiliares (KNN, SVC, RandomForest, DecisionTree)
- Magnitud de mejora: 1,4 puntos porcentuales
- Mejor clasificador individual: Árbol de decisión, precisión del 86,3%
- Mejor resultado de conjunto: Precisión del 87,0%
- Casos con mejora: Resultados mejorados en 24 casos
- Número de veces con mejor resultado: 5 veces alcanzando la máxima precisión del 87,0%
- Magnitud de mejora: 0,7 puntos porcentuales
- Mejor clasificador individual: Máquina de vectores de soporte, precisión del 86,4%
- Mejor resultado de conjunto: Precisión del 87,0%
- Mejor combinación:
- Clasificador principal DecisionTree + clasificadores auxiliares (KNN, SVC, LogisticRegression)
- Clasificador principal RandomForest + clasificadores auxiliares (KNN, SVC, LogisticRegression)
- Magnitud de mejora: 0,6 puntos porcentuales
- Mejora consistente: El método de conjunto logró mejoras de rendimiento en los 3 conjuntos de datos de fonemas
- Magnitud de mejora moderada: El rango de mejora de precisión está entre 0,6-1,4 puntos porcentuales
- Diversidad de combinaciones: Existen diferencias en las mejores combinaciones de conjuntos para diferentes fonemas, indicando la necesidad de optimización específica
- Estabilidad mejorada: El método de conjunto proporciona resultados de predicción más estables que clasificadores individuales
El artículo menciona la aplicación de clasificadores de conjunto en múltiples campos como medicina, economía y seguridad de la información, señalando particularmente que en la detección de ataques DDoS, la combinación de 2 o más clasificadores puede mejorar la precisión en un promedio del 5%.
- Métodos tradicionales basados en evaluación de expertos según estándares GOST
- Aplicación cada vez más generalizada de métodos de aprendizaje automático en análisis de señales de habla
- Papel importante de algoritmos como deformación temporal dinámica en procesamiento del habla
En comparación con trabajos existentes, este artículo aplica sistemáticamente el aprendizaje de conjunto a la evaluación médica de rehabilitación del habla por primera vez, proporcionando una solución completa desde extracción de características hasta conjunto de clasificadores.
- Efectividad del método: El método de conjunto efectivamente puede mejorar la precisión de clasificación en tareas de evaluación de calidad de habla
- Universalidad: Se observaron efectos de mejora consistentes en múltiples fonemas diferentes
- Valor práctico: Proporciona una herramienta de evaluación objetiva y automatizada para rehabilitación del habla médica
- Magnitud de mejora limitada: La mejora de precisión es relativamente pequeña (0,6-1,4 puntos porcentuales)
- Escala del conjunto de datos: Solo 1020 muestras por fonema, lo que puede limitar la capacidad de generalización del modelo
- Ingeniería de características: Solo se utilizaron 7 métricas de distancia tradicionales, posiblemente con representación de características insuficiente
- Método de conjunto único: Solo se probó el método Blending, sin explorar otras estrategias de conjunto
El artículo explícitamente propone investigar otros métodos de construcción de conjuntos para mejorar aún más la precisión de clasificación y la efectividad de la evaluación de análisis de calidad del habla.
- Alto valor de aplicación práctica: Aborda necesidades médicas reales con escenarios de aplicación claros
- Metodología rigurosa: Comparación sistemática de múltiples métodos de clasificación, adopción de proceso estándar de preprocesamiento de datos
- Diseño experimental razonable: Adopción de métodos apropiados para abordar el problema del desequilibrio de datos
- Reproducibilidad de resultados: Proporciona configuración experimental detallada y parámetros
- Innovación limitada: Principalmente aplicación de técnicas existentes, falta de innovación importante en metodología
- Mejora de rendimiento mínima: Aunque la consistencia es buena, la magnitud de mejora es pequeña, el valor práctico requiere verificación
- Ingeniería de características simple: No aprovecha plenamente métodos modernos como aprendizaje profundo para extracción de características
- Métrica de evaluación única: Solo se utiliza precisión, falta de otras métricas importantes como precisión y exhaustividad
- Falta de prueba de significancia estadística: No se reporta la significancia estadística de los resultados
- Contribución al campo: Proporciona nueva ruta tecnológica para evaluación de habla médica
- Valor práctico: Puede aplicarse directamente a práctica clínica de rehabilitación del habla
- Reproducibilidad: Descripción de método clara, fácil de reproducir y mejorar
- Limitaciones: El impacto puede estar limitado por la pequeña magnitud de mejora de rendimiento
- Rehabilitación del habla médica: Evaluación de calidad de habla y seguimiento de rehabilitación en pacientes con enfermedades del tracto vocal
- Terapia del habla: Proporciona herramienta de evaluación objetiva para logopedas
- Monitoreo de calidad de habla: Evaluación de calidad automatizada de datos de habla a gran escala
- Plataforma de investigación: Como base para investigación adicional de métodos de evaluación del habla
El artículo cita 12 referencias relacionadas, cubriendo los siguientes direcciones importantes:
- Datos estadísticos de enfermedades tumorales y estándares GOST
- Aplicación de aprendizaje automático en análisis del habla
- Aplicación de aprendizaje de conjunto en seguridad de redes
- Algoritmos de deformación temporal dinámica y varios métodos de medida de distancia
- Métodos de alineación de series temporales y medidas de similitud
Estas referencias proporcionan una base teórica sólida y apoyo técnico para la investigación.
Evaluación general: Este es un artículo de investigación orientado a aplicaciones que, aunque relativamente limitado en innovación de métodos, proporciona una solución sistemática para necesidades médicas reales. La metodología de investigación es rigurosa, el diseño experimental es razonable y los resultados tienen cierto valor práctico. Se recomienda que trabajos futuros realicen exploración más profunda en ingeniería de características y métodos de conjunto.