2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

Mehrklassen-Parkinson-Erkrankungserkennung basierend auf Fingerklopfen unter Verwendung von Attention-Enhanced CNN-BiLSTM

Grundlegende Informationen

Papier-ID: 2510.10121
Titel: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
Autoren: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.10121

Zusammenfassung

Die wirksame klinische Behandlung und Interventionsentwicklung der Parkinson-Erkrankung (PD) hängt von einer genauen Bewertung des Krankheitsschweregrad ab. Diese Forschung schlägt ein Mehrklassen-PD-Erkennungssystem basierend auf Fingerklopfen vor, das eine aufmerksamkeitsgesteuerte CNN-BiLSTM-Architektur verwendet. Die Studie extrahiert zeitliche, Frequenz- und Amplitudenmerkmale aus Fingerklopf-Videos und konstruiert ein hybrides Deep-Learning-Framework, das CNN, BiLSTM und Aufmerksamkeitsmechanismen integriert. Das Modell erfasst lokale räumliche Abhängigkeiten durch Conv1D-MaxPooling-Blöcke, modelliert zeitliche Dynamiken durch BiLSTM-Schichten und konzentriert sich durch Aufmerksamkeitsmechanismen auf die informativsten zeitlichen Merkmale. Letztendlich wird eine Klassifizierungsgenauigkeit von 93% erreicht, mit hervorragender Leistung bei der Unterscheidung von fünf Schweregrad-Ebenen.

Forschungshintergrund und Motivation

Problemdefinition

Die Parkinson-Erkrankung ist eine progressive neurodegenerative Erkrankung, die weltweit über 10 Millionen Menschen betrifft und sich hauptsächlich durch Tremor, Steifheit, Bradykinesie und Haltungsinstabilität manifestiert. Die traditionelle PD-Schweregradbeurteilung beruht hauptsächlich auf klinischen Skalen wie der UPDRS (Unified Parkinson's Disease Rating Scale) und MDS-UPDRS.

Einschränkungen bestehender Methoden

Hohe Subjektivität: Traditionelle klinische Bewertungen hängen von subjektiven ärztlichen Urteilen ab und weisen Variabilität zwischen Bewertern auf
Zeitaufwändig: Der klinische Bewertungsprozess ist komplex und erfordert erhebliche Zeit- und Personalressourcen
Mangelnde Konsistenz: Fehlende objektive, standardisierte Bewertungsmethoden beeinträchtigen die Verfolgung des Krankheitsverlaufs
Unzureichende Genauigkeit: Bestehende gesturebasierte PD-Erkennungssysteme zeigen suboptimale Leistung

Forschungsmotivation

Entwicklung einer nicht-invasiven, objektiven und zugänglichen Methode zur automatischen Bewertung des PD-Schweregrades basierend auf Videoanalyse, unter Verwendung von Computervisionstechniken und maschinellem Lernen zur Erreichung präziser Krankheitsklassifizierung und Bereitstellung zuverlässiger Hilfsmittel für die klinische Diagnose.

Kernbeiträge

Vorschlag einer aufmerksamkeitsgesteuerten CNN-BiLSTM-Hybrid-Architektur, die räumliche Merkmalsextraktion und Zeitreihenmodellierung effektiv kombiniert
Realisierung einer Mehrklassen-PD-Schweregradklassifizierung, die fünf verschiedene Schweregrad-Ebenen unterscheiden kann
Integration eines Aufmerksamkeitsmechanismus, der die Fähigkeit des Modells zur Fokussierung auf kritische zeitliche Merkmale verbessert
Erreichung einer Klassifizierungsgenauigkeit von 93%, deutlich besser als Baseline-Methoden
Bereitstellung eines nicht-invasiven PD-Überwachungswerkzeugs, das Kliniker bei der Verfolgung des Krankheitsverlaufs unterstützt

Methodische Erläuterung

Aufgabendefinition

Eingabe: 57-dimensionale Merkmalsvektoren aus Fingerklopf-Videos, einschließlich zeitlicher, Frequenz- und Amplitudenmerkmale Ausgabe: Fünf-Klassen-PD-Schweregradklassifizierungsergebnisse (Klasse 0-4) Einschränkungen: Expertenbeschriftete Daten basierend auf MDS-UPDRS-Standards

Modellarchitektur

Gesamtdesign

Das Modell verwendet einen mehrstufigen Verarbeitungsprozess:

Eingabeumformung: Umformung von 57-dimensionalen Merkmalen in Sequenzformat
CNN-Merkmalsextraktion: Conv1D + MaxPooling1D erfasst lokale räumliche Muster
BiLSTM-Zeitmodellierung: Bidirektionales LSTM modelliert zeitliche Abhängigkeiten
Aufmerksamkeitsmechanismus: Konzentriert sich auf die wichtigsten zeitlichen Merkmale
Merkmalsfusion: Verbindet CNN- und aufmerksamkeitsgesteuerte BiLSTM-Merkmale
Klassifizierungsausgabe: Vollständig verbundene Schicht + Softmax für Fünf-Klassen-Klassifizierung

Mathematische Formeln

Eingabedarstellung:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Faltungsverarbeitung:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

BiLSTM-Modellierung:

hₜ = BiLSTM(X_pool)

Aufmerksamkeitsmechanismus:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Merkmalsfusion und Ausgabe:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

Technische Innovationen

Multimodale Merkmalsfusion: Nutzt gleichzeitig räumliche Merkmale aus CNN-Extraktion und zeitliche Merkmale aus BiLSTM-Modellierung
Zweischichtiges BiLSTM-Design: Erste Schicht modelliert grundlegende zeitliche Abhängigkeiten, zweite Schicht verarbeitet aufmerksamkeitsgesteuerte Merkmale
Adaptive Aufmerksamkeitsgewichte: Dynamische Berechnung von Aufmerksamkeitsgewichten mit automatischer Fokussierung auf kritische Zeitabschnitte
End-to-End-Optimierung: Die gesamte Architektur kann end-to-end trainiert werden, vermeidet manuelle Merkmalsengineering

Experimentelle Einrichtung

Datensatz

Datenquelle: Öffentlicher ParkTest-Datensatz
Datengröße: Fingerklopf-Videos von 250 globalen Teilnehmern
Datenerfassung: Hauptsächlich in Teilnehmerhäusern über Webcam erfasst, 48 Personen in Kliniken abgeschlossen
Beschriftungsmethode: Von Experten-Neurologen und MDS-UPDRS-zertifizierten Bewertern beschriftet
Merkmalsdimension: 57-dimensionale Merkmale, einschließlich Fingerklopfgeschwindigkeit, Beschleunigung, Frequenz, Periode, Amplitude und Handgelenkversatz

Bewertungsmetriken

Genauigkeit (Accuracy): Gesamte Klassifizierungsgenauigkeit
Präzision (Precision): Präzision der Vorhersagen pro Klasse
Recall: Erkennungsrate pro Klasse
F1-Score: Harmonisches Mittel von Präzision und Recall
Makro-Durchschnitt: Durchschnitt der Metriken pro Klasse

Vergleichsmethoden

Baseline-Methode: Von Islam et al. 1 vorgeschlagene ursprüngliche Methode
Ablationsstudien: Analyse des Beitrags jeder Komponente (CNN, BiLSTM, Aufmerksamkeitsmechanismus)

Implementierungsdetails

Optimierer: Adam-Optimierer
Verlustfunktion: Sparse Categorical Crossentropy
Trainings-Epochen: 100 Epochen
Dropout-Rate: 0,2
Vollständig verbundene Schicht: 250 Einheiten
Trainingszeit: 31,82 Sekunden (100 Epochen)

Experimentelle Ergebnisse

Hauptergebnisse

Klasse	Präzision	Recall	F1-Score
0	95,00%	95,00%	95,00%
1	92,00%	92,00%	92,00%
2	90,00%	97,00%	93,00%
3	100,00%	83,00%	91,00%
4	100,00%	100,00%	100,00%
Makro-Durchschnitt	95,40%	93,40%	94,20%
Gesamtgenauigkeit			93,00%

Wichtigste Erkenntnisse

Hervorragende Gesamtleistung: 93% Genauigkeit deutlich besser als Baseline-Methoden
Erkennung schwerer Fälle: Klasse 4 (schwer) erreicht 100% Präzision, Recall und F1-Score
Ausgewogene Klassenleistung: Alle Schweregrad-Ebenen zeigen gute Leistung
Effizientes Training: Nur 31,82 Sekunden für 100 Trainings-Epochen erforderlich
Verwirrungs-Matrix-Analyse: Hohe Diagonalkonzentration, wenige Fehlklassifizierungen

Modellleistungsanalyse

Klasse-2-Leistung: Höchster Recall (97%), Präzision 90%, zeigt starke Modellempfindlichkeit für diese Klasse
Klasse 3-4: Genaue Erkennung schwerer Fälle, klinisch bedeutsam
Aufmerksamkeitseffekt: Erfolgreiches Erfassen relevanter zeitlicher Muster in Gangmerkmalen
Architektur-Vorteile: Die Kombination von CNN und BiLSTM verbessert effektiv die Unterscheidung zwischen benachbarten Schweregrad-Ebenen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Methodische Effektivität: Die aufmerksamkeitsgesteuerte CNN-BiLSTM-Architektur kann effektiv Mehrklassen-PD-Schweregrad erkennen
Merkmalsbedeutung: Die Kombination zeitlicher, Frequenz- und Amplitudenmerkmale ist für die PD-Klassifizierung entscheidend
Klinischer Wert: Bietet objektive, wiederholbare Werkzeuge zur Krankheitsbewertung
Technische Vorteile: Die Integration räumlich-zeitlicher Darstellung mit Aufmerksamkeitsmechanismen verbessert signifikant die automatisierte PD-Schweregradererkennung

Einschränkungen

Datensatzgröße: 250 Stichproben sind relativ klein und können die Modellverallgemeinerung beeinträchtigen
Merkmalsabhängigkeit: Abhängig von vorextrahierten handgefertigten Merkmalen, keine End-to-End-Verarbeitung von Rohvideos
Unimodale Daten: Basiert nur auf Fingerklopfen, integriert keine anderen Bewegungsmodalitäten
Datensatzübergreifende Validierung: Fehlende Validierung auf anderen unabhängigen Datensätzen

Zukünftige Richtungen

Multimodale Fusion: Integration von Ganganalyse, Sprache, Gesichtsausdruck und anderen Modalitäten
End-to-End-Lernen: Direktes Lernen von Merkmalsdarstellungen aus Rohvideos
Großflächige Validierung: Validierung auf größeren, multizentrisch erfassten Datensätzen
Echtzeitanwendung: Entwicklung von Echtzeit-PD-Überwachungssystemen
Interpretierbarkeit: Verbesserung der Modellinterpretierbarkeit und klinischen Glaubwürdigkeit

Tiefgreifende Bewertung

Stärken

Architektur-Innovation: Erstmalige vollständige Integration von CNN, BiLSTM und Aufmerksamkeitsmechanismen für PD-Klassifizierung
Hervorragende Leistung: 93% Genauigkeit ist auf diesem Gebiet relativ hoch
Praktischer Wert: Bietet nicht-invasive, objektive PD-Bewertungswerkzeuge
Technische Vollständigkeit: Vollständige technische Kette von Merkmalsextraktion bis Klassifizierung
Klinische Relevanz: Basiert auf standardisierter MDS-UPDRS-Bewertung mit klinischer Glaubwürdigkeit

Mängel

Datensatzgröße-Einschränkung: 250 Stichproben möglicherweise unzureichend für tiefes Modelltraining
Merkmalsengineering-Abhängigkeit: Erfordert weiterhin handwerklich gestaltete Merkmale, keine End-to-End-Lösung
Einzelne Aufgabe: Konzentriert sich nur auf Fingerklopfen, berücksichtigt nicht andere PD-Bewegungssymptome
Fehlende Ablationsstudien: Keine detaillierte Analyse des spezifischen Beitrags jeder Komponente
Generalisierungsvalidierung: Fehlende datensatzübergreifende und bevölkerungsübergreifende Validierung

Auswirkungen

Akademischer Beitrag: Bietet neue technische Wege für automatische PD-Erkennung
Klinische Anwendung: Könnte zum Hilfsmittel für klinische Diagnosen werden
Technologietransfer: Aufmerksamkeitsgesteuerte Hybrid-Architektur kann auf andere medizinische Anwendungen übertragen werden
Gesellschaftlicher Wert: Bietet PD-Patienten bequeme Selbstüberwachungsmittel

Anwendungsszenarien

Klinische Hilfsdiagnose: Unterstützt Neurologen bei der Bewertung des PD-Schweregrades
Häusliche Überwachung: Patienten können regelmäßige Selbsttests zu Hause durchführen
Bewertung der Arzneimittelwirksamkeit: Überwachung von Krankheitsveränderungen während der Behandlung
Großflächiges Screening: Einsatz in Gemeinden oder Gesundheitszentren zum PD-Screening
Telemedizin: Unterstützt PD-Überwachung in Telemedizin-Anwendungen

Literaturverzeichnis

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

Gesamtbewertung: Dies ist ein technisch solides Forschungspapier mit klarem Anwendungswert. Die von den Autoren vorgeschlagene aufmerksamkeitsgesteuerte CNN-BiLSTM-Architektur erreicht gute Ergebnisse bei der Mehrklassen-PD-Erkennungsaufgabe und leistet wertvolle technische Beiträge zu diesem Gebiet. Trotz Einschränkungen bei der Datensatzgröße und Generalisierung ist die Gesamtforschungsqualität hoch mit guten klinischen Anwendungsaussichten.