2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

Detección de Enfermedad de Parkinson Multiclase Basada en Golpeteo de Dedos Utilizando CNN-BiLSTM Mejorado con Atención

Información Básica

ID del Artículo: 2510.10121
Título: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
Autores: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 11 de octubre de 2025 (Preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10121

Resumen

La gestión clínica efectiva y el desarrollo de intervenciones para la enfermedad de Parkinson (EP) dependen de la evaluación precisa de la gravedad de la enfermedad. Este estudio propone un sistema de detección multiclase de la enfermedad de Parkinson basado en el golpeteo de dedos, utilizando una arquitectura CNN-BiLSTM mejorada con atención. El estudio extrae características temporales, de frecuencia y amplitud de videos de golpeteo de dedos, construyendo un marco de aprendizaje profundo híbrido que integra CNN, BiLSTM y mecanismos de atención. El modelo captura dependencias espaciales locales mediante bloques Conv1D-MaxPooling, las capas BiLSTM modelan dinámicas temporales, y el mecanismo de atención se enfoca en las características temporales más informativas. Finalmente, logra una precisión de clasificación del 93%, mostrando un desempeño excelente en la diferenciación de cinco niveles de gravedad.

Antecedentes y Motivación de la Investigación

Definición del Problema

La enfermedad de Parkinson es una enfermedad neurodegenerativa progresiva que afecta a más de 10 millones de personas en todo el mundo, manifestándose principalmente con síntomas motores como temblor, rigidez, bradicinesia e inestabilidad postural. La evaluación tradicional de la gravedad de la EP se basa principalmente en escalas clínicas como la UPDRS (Escala Unificada de Evaluación de la Enfermedad de Parkinson) y MDS-UPDRS.

Limitaciones de los Métodos Existentes

Alta Subjetividad: La evaluación clínica tradicional depende del juicio subjetivo del médico, con variabilidad entre evaluadores
Consumo de Tiempo: El proceso de evaluación clínica es complejo y consume muchos recursos de tiempo y personal
Falta de Consistencia: Ausencia de métodos de evaluación objetivos y estandarizados, afectando el seguimiento de la progresión de la enfermedad
Precisión Insuficiente: Los sistemas existentes de reconocimiento de EP basados en gestos no logran una precisión de rendimiento ideal

Motivación de la Investigación

Desarrollar métodos automáticos no invasivos, objetivos y accesibles para la evaluación de la gravedad de la EP basados en análisis de video, utilizando técnicas de visión por computadora y aprendizaje automático para lograr una clasificación precisa de la enfermedad, proporcionando a los médicos una herramienta confiable de diagnóstico asistido.

Contribuciones Principales

Se propone una arquitectura híbrida CNN-BiLSTM mejorada con atención, que combina efectivamente la extracción de características espaciales y el modelado de series temporales
Se implementa la clasificación multiclase de la gravedad de la EP, capaz de distinguir cinco niveles diferentes de gravedad
Se integra un mecanismo de atención, mejorando la capacidad del modelo para enfocarse en características temporales críticas
Se logra una precisión de clasificación del 93%, significativamente superior a los métodos de referencia
Se proporciona una herramienta de monitoreo no invasiva de la EP, apoyando a los médicos en el seguimiento de la progresión de la enfermedad

Explicación Detallada del Método

Definición de la Tarea

Entrada: Vector de características de 57 dimensiones derivado de videos de golpeteo de dedos, que contiene características temporales, de frecuencia y amplitud Salida: Resultado de clasificación de la gravedad de la EP en cinco clases (Clase 0-4) Restricciones: Datos anotados por expertos basados en el estándar MDS-UPDRS

Arquitectura del Modelo

Diseño General

El modelo adopta un proceso de procesamiento multietapa:

Remodelado de Entrada: Remodelar características de 57 dimensiones en formato de secuencia
Extracción de Características CNN: Conv1D + MaxPooling1D capturan patrones espaciales locales
Modelado Temporal BiLSTM: LSTM bidireccional modela relaciones de dependencia temporal
Mecanismo de Atención: Se enfoca en las características temporales más importantes
Fusión de Características: Conecta características CNN y BiLSTM mejoradas con atención
Salida de Clasificación: Capas completamente conectadas + Softmax para clasificación en cinco clases

Fórmulas Matemáticas

Representación de Entrada:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Procesamiento Convolucional:

X_remodelado = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_remodelado)
X_pool = MaxPooling1D(X_conv)

Modelado BiLSTM:

hₜ = BiLSTM(X_pool)

Mecanismo de Atención:

puntuación(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(puntuación(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Fusión de Características y Salida:

X_combinado = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combinado))

Puntos de Innovación Técnica

Fusión de Características Multimodales: Utiliza simultáneamente características espaciales extraídas por CNN y características temporales modeladas por BiLSTM
Diseño BiLSTM de Doble Capa: La primera capa BiLSTM modela dependencias temporales básicas, la segunda capa procesa características mejoradas con atención
Pesos de Atención Adaptativos: Calcula dinámicamente pesos de atención, enfocándose automáticamente en segmentos temporales críticos
Optimización Extremo a Extremo: Toda la arquitectura puede entrenarse extremo a extremo, evitando ingeniería de características manual

Configuración Experimental

Conjunto de Datos

Fuente de Datos: Conjunto de datos público ParkTest
Escala de Datos: Videos de golpeteo de dedos de 250 participantes globales
Recopilación de Datos: Principalmente recopilados en el hogar de los participantes mediante cámara web, 48 personas completadas en clínica
Método de Anotación: Anotado por neurólogos expertos y evaluadores certificados en MDS-UPDRS
Dimensión de Características: Características de 57 dimensiones, incluyendo velocidad de golpeteo de dedos, aceleración, frecuencia, período, amplitud y desplazamiento de muñeca

Métricas de Evaluación

Precisión (Accuracy): Precisión general de clasificación
Precisión (Precision): Precisión de predicción de cada clase
Sensibilidad (Recall): Tasa de detección de cada clase
Puntuación F1: Media armónica de precisión y sensibilidad
Promedio Macro: Promedio de métricas de cada clase

Métodos de Comparación

Método de Referencia: Método original propuesto por Islam et al. 1
Estudio de Ablación: Análisis de la contribución de cada componente (CNN, BiLSTM, mecanismo de atención)

Detalles de Implementación

Optimizador: Optimizador Adam
Función de Pérdida: Entropía cruzada de clasificación dispersa
Épocas de Entrenamiento: 100 épocas
Tasa de Dropout: 0.2
Capas Completamente Conectadas: 250 unidades
Tiempo de Entrenamiento: 31.82 segundos (100 épocas)

Resultados Experimentales

Resultados Principales

Clase	Precisión	Sensibilidad	Puntuación F1
0	95.00%	95.00%	95.00%
1	92.00%	92.00%	92.00%
2	90.00%	97.00%	93.00%
3	100.00%	83.00%	91.00%
4	100.00%	100.00%	100.00%
Promedio Macro	95.40%	93.40%	94.20%
Precisión General			93.00%

Hallazgos Clave

Desempeño General Excelente: Precisión del 93% significativamente superior a los métodos de referencia
Identificación de Casos Graves: La Clase 4 (grave) logra 100% de precisión, sensibilidad y puntuación F1
Desempeño Equilibrado de Clases: Buen desempeño en todos los niveles de gravedad
Entrenamiento Eficiente: Solo requiere 31.82 segundos para completar 100 épocas de entrenamiento
Análisis de Matriz de Confusión: Alta concentración en la diagonal, con pocas clasificaciones erróneas

Análisis del Desempeño del Modelo

Desempeño de la Clase 2: Sensibilidad más alta (97%), precisión del 90%, indicando fuerte sensibilidad del modelo a esta clase
Clases 3-4: Identificación precisa de casos graves, con significado clínico importante
Efecto de Atención: Captura exitosamente patrones temporales relevantes en características de marcha
Ventaja de Arquitectura: La combinación de CNN y BiLSTM mejora efectivamente la capacidad de distinción entre niveles de gravedad adyacentes

Trabajos Relacionados

Métodos de Aprendizaje Automático Tradicional

Ingeniería de Características: Algoritmos SVM, árboles de decisión, bosques aleatorios combinados con características manuales
Fusión Multimodal: Combinación de datos de imágenes y datos clínicos para mejorar el desempeño diagnóstico
Interpretabilidad: Métodos como EBM proporcionan explicaciones globales y locales transparentes

Avances en Aprendizaje Profundo

Aplicación de CNN: Arquitecturas ResNet18 logran 98.66% de precisión en datos de MRI
Mecanismo de Atención: AttentionLUNet integra LeNet y U-Net, logrando 99.58% de precisión
Modelado Temporal: CNN-LSTM logra 93.51% de precisión en datos de voz
Atención 3D: Red residual de atención multiencabezada para reconocimiento de cambios de movimiento

Ventajas de Este Artículo

En comparación con trabajos existentes, este artículo integra por primera vez CNN, BiLSTM y mecanismo de atención de manera completa para la clasificación multiclase de la gravedad de la EP, logrando mejor desempeño en características de movimiento derivadas de video.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: La arquitectura CNN-BiLSTM mejorada con atención puede detectar efectivamente la gravedad multiclase de la EP
Importancia de Características: La combinación de características temporales, de frecuencia y amplitud es crucial para la clasificación de EP
Valor Clínico: Proporciona una herramienta de evaluación de enfermedad objetiva y reproducible
Ventaja Técnica: La integración de representación espacio-temporal y mecanismo de atención mejora significativamente el desempeño de la detección automática de la gravedad de la EP

Limitaciones

Escala del Conjunto de Datos: 250 muestras son relativamente pequeñas, lo que puede afectar la capacidad de generalización del modelo
Dependencia de Características: Depende de características extraídas manualmente, sin lograr procesamiento extremo a extremo de video sin procesar
Modalidad Única: Basado únicamente en golpeteo de dedos, sin fusionar otras modalidades de movimiento
Validación Entre Conjuntos de Datos: Falta validación en otros conjuntos de datos independientes

Direcciones Futuras

Fusión Multimodal: Integrar datos de múltiples modalidades como marcha, voz y expresión facial
Aprendizaje Extremo a Extremo: Aprender directamente representaciones de características de video sin procesar
Validación a Gran Escala: Validar en conjuntos de datos más grandes y multicéntricos
Aplicación en Tiempo Real: Desarrollar sistemas de monitoreo de EP en tiempo real
Interpretabilidad: Mejorar la interpretabilidad y credibilidad clínica del modelo

Evaluación Profunda

Fortalezas

Innovación de Arquitectura: Primera integración completa de CNN, BiLSTM y mecanismo de atención para clasificación de EP
Desempeño Excelente: Precisión del 93% representa un nivel relativamente alto en este campo
Valor Práctico: Proporciona una herramienta de evaluación de EP no invasiva y objetiva
Completitud Técnica: Cadena técnica completa desde extracción de características hasta clasificación
Relevancia Clínica: Basado en evaluación estándar MDS-UPDRS, con credibilidad clínica

Deficiencias

Limitación de Escala de Datos: 250 muestras pueden ser insuficientes para entrenar completamente modelos profundos
Dependencia de Ingeniería de Características: Aún requiere características diseñadas manualmente, sin lograr aprendizaje extremo a extremo
Tarea Única: Se enfoca solo en golpeteo de dedos, sin considerar otros síntomas motores de la EP
Falta de Estudios de Ablación: No analiza detalladamente la contribución específica de cada componente
Verificación de Generalización: Falta validación entre conjuntos de datos y entre poblaciones

Impacto

Contribución Académica: Proporciona una nueva ruta técnica para la detección automática de EP
Aplicación Clínica: Tiene potencial para convertirse en una herramienta de diagnóstico asistido para médicos
Promoción Tecnológica: La arquitectura híbrida mejorada con atención puede generalizarse a otras aplicaciones médicas
Valor Social: Proporciona a los pacientes con EP un medio conveniente para automonitoreo

Escenarios de Aplicación

Diagnóstico Asistido Clínico: Apoya a neurólogos en la evaluación de la gravedad de la EP
Monitoreo en el Hogar: Los pacientes pueden realizar pruebas de automonitoreo periódicas en casa
Evaluación de Eficacia de Medicamentos: Monitorea cambios en la condición durante el tratamiento
Cribado a Gran Escala: Utilizado para cribado de EP en comunidades o centros de examen médico
Telemedicina: Apoya necesidades de monitoreo de EP en medicina remota

Referencias

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

Evaluación General: Este es un artículo de investigación técnicamente sólido con valor de aplicación claro. Los autores proponen una arquitectura CNN-BiLSTM mejorada con atención que logra buenos resultados en la tarea de detección multiclase de EP, proporcionando una contribución técnica valiosa para este campo. Aunque existen limitaciones en la escala de datos y generalización, la calidad general de la investigación es alta, con buenas perspectivas de aplicación clínica.