2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

Rilevamento Multi-Classe della Malattia di Parkinson Basato sul Tapping delle Dita Utilizzando CNN-BiLSTM Potenziato da Attenzione

Informazioni Fondamentali

ID Articolo: 2510.10121
Titolo: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
Autori: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
Classificazione: cs.CV (Computer Vision)
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.10121

Riassunto

La gestione clinica efficace e lo sviluppo di interventi per la malattia di Parkinson (PD) dipendono dalla valutazione accurata della gravità della malattia. Questo studio propone un sistema di rilevamento multi-classe della malattia di Parkinson basato sul tapping delle dita, utilizzando un'architettura CNN-BiLSTM potenziata da attenzione. Lo studio estrae caratteristiche temporali, di frequenza e di ampiezza dai video di tapping delle dita, costruendo un framework di apprendimento profondo ibrido che integra CNN, BiLSTM e meccanismi di attenzione. Il modello cattura le dipendenze spaziali locali attraverso blocchi Conv1D-MaxPooling, modella la dinamica temporale con strati BiLSTM e focalizza le caratteristiche temporali più informative tramite meccanismi di attenzione. Raggiunge un'accuratezza di classificazione del 93%, mostrando prestazioni eccellenti nella distinzione tra cinque livelli di gravità.

Contesto di Ricerca e Motivazione

Definizione del Problema

La malattia di Parkinson è una malattia neurodegenerativa progressiva che colpisce oltre 10 milioni di persone a livello mondiale, caratterizzata principalmente da tremore, rigidità, bradicinesia e instabilità posturale. La valutazione tradizionale della gravità della PD si basa principalmente su scale cliniche come l'UPDRS (Unified Parkinson's Disease Rating Scale) e la MDS-UPDRS.

Limitazioni dei Metodi Esistenti

Forte Soggettività: La valutazione clinica tradizionale dipende dal giudizio soggettivo del medico, con variabilità tra i valutatori
Consumo di Tempo e Risorse: Il processo di valutazione clinica è complesso e richiede notevoli risorse temporali e umane
Scarsa Coerenza: Mancanza di metodi di valutazione oggettivi e standardizzati, che influisce sul monitoraggio della progressione della malattia
Accuratezza Insufficiente: I sistemi attuali di riconoscimento della PD basati su gesti mostrano prestazioni di accuratezza non ideali

Motivazione della Ricerca

Sviluppare metodi automatici non invasivi, oggettivi e accessibili per la valutazione della gravità della PD basati sull'analisi video, utilizzando tecniche di visione artificiale e apprendimento automatico per ottenere una classificazione precisa della malattia e fornire ai clinici uno strumento affidabile di supporto diagnostico.

Contributi Principali

Propone un'architettura ibrida CNN-BiLSTM potenziata da attenzione, che combina efficacemente l'estrazione di caratteristiche spaziali e la modellazione di sequenze temporali
Implementa la classificazione multi-classe della gravità della PD, in grado di distinguere cinque diversi livelli di gravità
Integra meccanismi di attenzione, migliorando la capacità del modello di focalizzarsi su caratteristiche temporali critiche
Raggiunge un'accuratezza di classificazione del 93%, significativamente superiore ai metodi di base
Fornisce uno strumento di monitoraggio non invasivo della PD, supportando i clinici nel monitoraggio della progressione della malattia

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Vettore di caratteristiche a 57 dimensioni derivato da video di tapping delle dita, contenente caratteristiche temporali, di frequenza e di ampiezza Output: Risultato di classificazione multi-classe della gravità della PD (Classe 0-4) Vincoli: Dati annotati da esperti basati sullo standard MDS-UPDRS

Architettura del Modello

Progettazione Generale

Il modello adotta un processo di elaborazione multi-stadio:

Rimodellamento dell'Input: Rimodella le caratteristiche a 57 dimensioni in formato sequenziale
Estrazione di Caratteristiche CNN: Conv1D + MaxPooling1D catturano i modelli spaziali locali
Modellazione Temporale BiLSTM: LSTM bidirezionale modella le relazioni di dipendenza temporale
Meccanismo di Attenzione: Focalizza le caratteristiche temporali più importanti
Fusione di Caratteristiche: Concatena le caratteristiche CNN e BiLSTM potenziate da attenzione
Output di Classificazione: Strato completamente connesso + Softmax per classificazione a cinque classi

Formule Matematiche

Rappresentazione dell'Input:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Elaborazione Convoluzionale:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

Modellazione BiLSTM:

hₜ = BiLSTM(X_pool)

Meccanismo di Attenzione:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Fusione di Caratteristiche e Output:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

Punti di Innovazione Tecnica

Fusione Multi-Modale di Caratteristiche: Sfrutta simultaneamente le caratteristiche spaziali estratte da CNN e le caratteristiche temporali modellate da BiLSTM
Progettazione BiLSTM a Doppio Strato: Il primo strato BiLSTM modella le dipendenze temporali di base, il secondo strato elabora le caratteristiche potenziate da attenzione
Pesi di Attenzione Adattivi: Calcola dinamicamente i pesi di attenzione, focalizzandosi automaticamente su segmenti temporali critici
Ottimizzazione End-to-End: L'intera architettura può essere addestrata end-to-end, evitando l'ingegneria manuale delle caratteristiche

Configurazione Sperimentale

Dataset

Fonte dei Dati: Dataset pubblico ParkTest
Scala dei Dati: Video di tapping delle dita di 250 partecipanti globali
Raccolta dei Dati: Principalmente raccolta presso i domicili dei partecipanti tramite webcam, 48 persone completate in clinica
Metodo di Annotazione: Annotazione da parte di neurologi esperti e valutatori certificati MDS-UPDRS
Dimensionalità delle Caratteristiche: 57 caratteristiche, incluse velocità di tapping delle dita, accelerazione, frequenza, periodo, ampiezza e spostamento del polso

Metriche di Valutazione

Accuratezza (Accuracy): Accuratezza di classificazione complessiva
Precisione (Precision): Precisione della previsione per ogni classe
Richiamo (Recall): Tasso di rilevamento per ogni classe
Punteggio F1: Media armonica di precisione e richiamo
Media Macro: Media dei metriche per ogni classe

Metodi di Confronto

Metodo di Base: Metodo originale proposto da Islam et al. 1
Studio di Ablazione: Analizza il contributo di ciascun componente (CNN, BiLSTM, meccanismo di attenzione)

Dettagli di Implementazione

Ottimizzatore: Ottimizzatore Adam
Funzione di Perdita: Entropia incrociata di classificazione sparsa
Numero di Epoche: 100 epoche
Tasso di Dropout: 0.2
Strato Completamente Connesso: 250 unità
Tempo di Addestramento: 31.82 secondi (100 epoche)

Risultati Sperimentali

Risultati Principali

Classe	Precisione	Richiamo	Punteggio F1
0	95.00%	95.00%	95.00%
1	92.00%	92.00%	92.00%
2	90.00%	97.00%	93.00%
3	100.00%	83.00%	91.00%
4	100.00%	100.00%	100.00%
Media Macro	95.40%	93.40%	94.20%
Accuratezza Complessiva			93.00%

Scoperte Chiave

Prestazioni Eccellenti Complessive: L'accuratezza del 93% è significativamente superiore al metodo di base
Rilevamento di Casi Gravi: La Classe 4 (grave) raggiunge il 100% di precisione, richiamo e punteggio F1
Prestazioni Bilanciate tra Classi: Buone prestazioni su tutti i livelli di gravità
Addestramento Efficiente: Richiede solo 31.82 secondi per completare 100 epoche di addestramento
Analisi della Matrice di Confusione: Alta concentrazione sulla diagonale, con poche classificazioni errate

Analisi delle Prestazioni del Modello

Prestazioni della Classe 2: Richiamo più alto (97%), precisione 90%, indicando forte sensibilità del modello per questa classe
Classi 3-4: Rilevamento accurato dei casi gravi, di grande significato clinico
Effetto dell'Attenzione: Cattura con successo i modelli temporali rilevanti nelle caratteristiche del movimento
Vantaggi dell'Architettura: La combinazione di CNN e BiLSTM migliora efficacemente la capacità di distinzione tra livelli di gravità adiacenti

Lavori Correlati

Metodi di Apprendimento Automatico Tradizionali

Ingegneria delle Caratteristiche: Algoritmi SVM, alberi decisionali, foreste casuali combinati con caratteristiche manuali
Fusione Multi-Modale: Combinazione di dati di imaging e clinici per migliorare le prestazioni diagnostiche
Interpretabilità: Metodi come EBM forniscono spiegazioni globali e locali trasparenti

Progressi dell'Apprendimento Profondo

Applicazioni CNN: Architetture ResNet18 raggiungono il 98.66% di accuratezza su dati MRI
Meccanismi di Attenzione: AttentionLUNet integra LeNet e U-Net, raggiungendo il 99.58% di accuratezza
Modellazione Temporale: CNN-LSTM raggiunge il 93.51% di accuratezza su dati vocali
Attenzione 3D: Rete residuale multi-testa di attenzione per il riconoscimento dei cambiamenti di movimento

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo integra per la prima volta CNN, BiLSTM e meccanismi di attenzione per la classificazione multi-classe della gravità della PD, ottenendo prestazioni migliori su caratteristiche di movimento derivate da video.

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Metodo: L'architettura CNN-BiLSTM potenziata da attenzione può rilevare efficacemente la gravità multi-classe della PD
Importanza delle Caratteristiche: La combinazione di caratteristiche temporali, di frequenza e di ampiezza è cruciale per la classificazione della PD
Valore Clinico: Fornisce uno strumento di valutazione della malattia oggettivo e riproducibile
Vantaggi Tecnici: L'integrazione di rappresentazione spazio-temporale e meccanismi di attenzione migliora significativamente le prestazioni del rilevamento automatico della gravità della PD

Limitazioni

Dimensione del Dataset: 250 campioni sono relativamente piccoli e potrebbero influire sulla capacità di generalizzazione del modello
Dipendenza dalle Caratteristiche: Dipende da caratteristiche pre-estratte manuali, senza realizzare l'elaborazione end-to-end del video grezzo
Modalità Singola: Basato solo sul tapping delle dita, senza fusione di altre modalità di movimento
Validazione Cross-Dataset: Manca la validazione su altri dataset indipendenti

Direzioni Future

Fusione Multi-Modale: Integrazione di dati da più modalità come andatura, voce ed espressione facciale
Apprendimento End-to-End: Apprendimento diretto delle rappresentazioni di caratteristiche dal video grezzo
Validazione su Larga Scala: Validazione su dataset più grandi e multi-centrici
Applicazioni in Tempo Reale: Sviluppo di sistemi di monitoraggio della PD in tempo reale
Interpretabilità: Miglioramento dell'interpretabilità e della credibilità clinica del modello

Valutazione Approfondita

Punti di Forza

Innovazione Architetturale: Prima integrazione completa di CNN, BiLSTM e meccanismi di attenzione per la classificazione della PD
Prestazioni Eccellenti: L'accuratezza del 93% è a livello elevato in questo campo
Valore Pratico: Fornisce uno strumento di valutazione della PD non invasivo e oggettivo
Completezza Tecnica: Catena tecnologica completa dall'estrazione delle caratteristiche alla classificazione
Rilevanza Clinica: Basato sulla valutazione standard MDS-UPDRS, con credibilità clinica

Punti Deboli

Limitazione della Dimensione dei Dati: 250 campioni potrebbero essere insufficienti per addestrare completamente modelli profondi
Dipendenza dall'Ingegneria delle Caratteristiche: Richiede ancora caratteristiche progettate manualmente, senza realizzare l'apprendimento end-to-end
Compito Singolo: Focalizzato solo sul tapping delle dita, senza considerare altri sintomi motori della PD
Mancanza di Studi di Ablazione Dettagliati: Non analizza in dettaglio il contributo specifico di ciascun componente
Verifica della Generalizzazione: Manca la validazione cross-dataset e cross-popolazione

Impatto

Contributo Accademico: Fornisce un nuovo percorso tecnologico per il rilevamento automatico della PD
Applicazione Clinica: Potrebbe diventare uno strumento di supporto diagnostico per i medici
Promozione Tecnologica: L'architettura ibrida potenziata da attenzione può essere estesa ad altre applicazioni mediche
Valore Sociale: Fornisce ai pazienti con PD un mezzo conveniente per l'auto-monitoraggio

Scenari di Applicazione

Supporto Diagnostico Clinico: Supporta i neurologi nella valutazione della gravità della PD
Monitoraggio Domestico: I pazienti possono eseguire test di auto-monitoraggio regolari a casa
Valutazione dell'Efficacia Terapeutica: Monitora i cambiamenti della malattia durante il trattamento
Screening su Larga Scala: Utilizzato per lo screening della PD in comunità o centri di controllo sanitario
Telemedicina: Supporta le esigenze di monitoraggio della PD nella medicina a distanza

Bibliografia

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

Valutazione Complessiva: Questo è un articolo di ricerca tecnicamente solido con valore applicativo evidente. Gli autori propongono un'architettura CNN-BiLSTM potenziata da attenzione che raggiunge buoni risultati nel compito di rilevamento multi-classe della PD, fornendo un contributo tecnologico prezioso a questo campo. Nonostante le limitazioni relative alla dimensione dei dati e alla generalizzazione, la qualità complessiva della ricerca è elevata e ha buone prospettive di applicazione clinica.