2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

ध्यान-संवर्धित CNN-BiLSTM का उपयोग करके उंगली टैपिंग के आधार पर बहु-वर्गीय पार्किंसन रोग का पता लगाना

मूल जानकारी

पेपर ID: 2510.10121
शीर्षक: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
लेखक: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10121

सारांश

पार्किंसन रोग (PD) के प्रभावी नैदानिक प्रबंधन और हस्तक्षेप विकास रोग की गंभीरता के सटीक मूल्यांकन पर निर्भर करता है। यह अनुसंधान उंगली टैपिंग के आधार पर बहु-वर्गीय पार्किंसन रोग का पता लगाने के लिए एक प्रणाली प्रस्तावित करता है, जो ध्यान-संवर्धित CNN-BiLSTM आर्किटेक्चर का उपयोग करता है। अनुसंधान उंगली टैपिंग वीडियो से अस्थायी, आवृत्ति और आयाम विशेषताओं को निकालता है, CNN, BiLSTM और ध्यान तंत्र को एकीकृत करने वाली एक संकर गहन शिक्षण रूपरेखा का निर्माण करता है। यह मॉडल Conv1D-MaxPooling ब्लॉक के माध्यम से स्थानीय स्थानिक निर्भरता को कैप्चर करता है, BiLSTM परत अस्थायी गतिशीलता को मॉडल करती है, और ध्यान तंत्र सबसे सूचनात्मक अस्थायी विशेषताओं पर ध्यान केंद्रित करता है। अंततः 93% वर्गीकरण सटीकता प्राप्त की गई, जो पाँच गंभीरता स्तरों के भेदभाव में उत्कृष्ट प्रदर्शन करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पार्किंसन रोग एक प्रगतिशील न्यूरोडीजेनेरेटिव रोग है जो विश्व स्तर पर 10 मिलियन से अधिक लोगों को प्रभावित करता है, जिसमें मुख्य रूप से कंपन, कठोरता, गतिविधि मंदता और मुद्रा अस्थिरता जैसे गतिविधि लक्षण प्रदर्शित होते हैं। PD गंभीरता का पारंपरिक मूल्यांकन मुख्य रूप से UPDRS (एकीकृत पार्किंसन रोग रेटिंग स्केल) और MDS-UPDRS जैसे नैदानिक पैमानों पर निर्भर करता है।

मौजूदा विधियों की सीमाएं

उच्च व्यक्तिपरकता: पारंपरिक नैदानिक मूल्यांकन चिकित्सक के व्यक्तिपरक निर्णय पर निर्भर करता है, जिसमें मूल्यांकनकर्ताओं के बीच परिवर्तनशीलता होती है
समय-गहन: नैदानिक मूल्यांकन प्रक्रिया जटिल है, जिसमें बहुत समय और मानव संसाधन खर्च होते हैं
कम सामंजस्य: उद्देश्यपूर्ण, मानकीकृत मूल्यांकन विधियों की कमी, जो रोग प्रगति ट्रैकिंग को प्रभावित करती है
अपर्याप्त सटीकता: मौजूदा इशारा-आधारित PD पहचान प्रणालियों की सटीकता अपर्याप्त है

अनुसंधान प्रेरणा

वीडियो विश्लेषण के आधार पर गैर-आक्रामक, उद्देश्यपूर्ण, सुलभ PD गंभीरता स्वचालित मूल्यांकन विधि विकसित करना, कंप्यूटर विजन और मशीन लर्निंग तकनीकों का उपयोग करके सटीक रोग वर्गीकरण प्राप्त करना, और नैदानिक चिकित्सकों को विश्वसनीय सहायक निदान उपकरण प्रदान करना।

मुख्य योगदान

ध्यान-संवर्धित CNN-BiLSTM संकर आर्किटेक्चर प्रस्तावित किया, जो स्थानिक विशेषता निष्कर्षण और अस्थायी अनुक्रम मॉडलिंग को प्रभावी ढंग से जोड़ता है
बहु-वर्गीय PD गंभीरता वर्गीकरण लागू किया, जो पाँच विभिन्न गंभीरता स्तरों को अलग कर सकता है
ध्यान तंत्र को एकीकृत किया, जो महत्वपूर्ण अस्थायी विशेषताओं पर मॉडल के ध्यान को बढ़ाता है
93% वर्गीकरण सटीकता प्राप्त की, जो आधारभूत विधियों से काफी बेहतर है
गैर-आक्रामक PD निगरानी उपकरण प्रदान किया, जो नैदानिक चिकित्सकों को रोग प्रगति ट्रैकिंग में समर्थन करता है

विधि विवरण

कार्य परिभाषा

इनपुट: उंगली टैपिंग वीडियो से प्राप्त 57-आयामी विशेषता वेक्टर, जिसमें अस्थायी, आवृत्ति और आयाम विशेषताएं शामिल हैं आउटपुट: पाँच-वर्गीय PD गंभीरता वर्गीकरण परिणाम (Class 0-4) बाधाएं: MDS-UPDRS मानक के आधार पर विशेषज्ञ-एनोटेटेड डेटा

मॉडल आर्किटेक्चर

समग्र डिजाइन

मॉडल बहु-चरणीय प्रसंस्करण प्रवाह अपनाता है:

इनपुट पुनर्आकार: 57-आयामी विशेषता को अनुक्रम प्रारूप में पुनर्आकार देना
CNN विशेषता निष्कर्षण: Conv1D + MaxPooling1D स्थानीय स्थानिक पैटर्न कैप्चर करता है
BiLSTM अस्थायी मॉडलिंग: द्विदिशात्मक LSTM अस्थायी निर्भरता को मॉडल करता है
ध्यान तंत्र: सबसे महत्वपूर्ण अस्थायी विशेषताओं पर ध्यान केंद्रित करता है
विशेषता संलयन: CNN और ध्यान-संवर्धित BiLSTM विशेषताओं को जोड़ता है
वर्गीकरण आउटपुट: पूरी तरह से जुड़ी परत + Softmax पाँच-वर्गीकरण के लिए

गणितीय सूत्र

इनपुट प्रतिनिधित्व:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

कनवल्शन प्रसंस्करण:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

BiLSTM मॉडलिंग:

hₜ = BiLSTM(X_pool)

ध्यान तंत्र:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

विशेषता संलयन और आउटपुट:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

तकनीकी नवाचार बिंदु

बहु-मोडल विशेषता संलयन: CNN द्वारा निकाली गई स्थानिक विशेषताओं और BiLSTM द्वारा मॉडल की गई अस्थायी विशेषताओं का एक साथ उपयोग
दोहरी-परत BiLSTM डिजाइन: पहली परत मूल अस्थायी निर्भरता को मॉडल करती है, दूसरी परत ध्यान-संवर्धित विशेषताओं को संसाधित करती है
अनुकूली ध्यान भार: ध्यान भार को गतिशील रूप से गणना करता है, स्वचालित रूप से महत्वपूर्ण अस्थायी खंडों पर ध्यान केंद्रित करता है
अंत-से-अंत अनुकूलन: संपूर्ण आर्किटेक्चर अंत-से-अंत प्रशिक्षण के लिए सक्षम है, हाथ से बनाई गई विशेषता इंजीनियरिंग से बचता है

प्रायोगिक सेटअप

डेटासेट

डेटा स्रोत: ParkTest सार्वजनिक डेटासेट
डेटा स्केल: 250 वैश्विक प्रतिभागियों की उंगली टैपिंग वीडियो
डेटा संग्रह: मुख्य रूप से प्रतिभागियों के घर में वेबकैम के माध्यम से संग्रहीत, 48 लोगों ने क्लिनिक में पूरा किया
एनोटेशन विधि: विशेषज्ञ न्यूरोलॉजिस्ट और MDS-UPDRS प्रमाणित मूल्यांकनकर्ता द्वारा एनोटेट किया गया
विशेषता आयाम: 57-आयामी विशेषता, जिसमें उंगली टैपिंग गति, त्वरण, आवृत्ति, अवधि, आयाम और कलाई विस्थापन शामिल हैं

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy): समग्र वर्गीकरण सटीकता
परिशुद्धता (Precision): प्रत्येक वर्ग की भविष्यवाणी की परिशुद्धता
पुनरावृत्ति (Recall): प्रत्येक वर्ग की पहचान दर
F1 स्कोर: परिशुद्धता और पुनरावृत्ति का हार्मोनिक माध्य
मैक्रो औसत: प्रत्येक वर्ग मेट्रिक्स का औसत

तुलनात्मक विधियां

आधारभूत विधि: Islam आदि 1 द्वारा प्रस्तावित मूल विधि
विलोपन अध्ययन: CNN, BiLSTM, ध्यान तंत्र के प्रत्येक घटक के योगदान का विश्लेषण

कार्यान्वयन विवरण

अनुकूलक: Adam अनुकूलक
हानि फ़ंक्शन: विरल वर्गीय क्रॉस-एंट्रॉपी
प्रशिक्षण राउंड: 100 epoch
Dropout दर: 0.2
पूरी तरह से जुड़ी परत: 250 इकाइयां
प्रशिक्षण समय: 31.82 सेकंड (100 राउंड)

प्रायोगिक परिणाम

मुख्य परिणाम

वर्ग	परिशुद्धता	पुनरावृत्ति	F1 स्कोर
0	95.00%	95.00%	95.00%
1	92.00%	92.00%	92.00%
2	90.00%	97.00%	93.00%
3	100.00%	83.00%	91.00%
4	100.00%	100.00%	100.00%
मैक्रो औसत	95.40%	93.40%	94.20%
समग्र सटीकता			93.00%

मुख्य निष्कर्ष

उत्कृष्ट समग्र प्रदर्शन: 93% की सटीकता आधारभूत विधि से काफी बेहतर है
गंभीर रोग के मामलों की पहचान: Class 4 (गंभीर) 100% परिशुद्धता, पुनरावृत्ति और F1 स्कोर प्राप्त करता है
संतुलित वर्ग प्रदर्शन: प्रत्येक गंभीरता स्तर अच्छा प्रदर्शन करता है
कुशल प्रशिक्षण: 100 राउंड प्रशिक्षण के लिए केवल 31.82 सेकंड की आवश्यकता है
भ्रम मैट्रिक्स विश्लेषण: विकर्ण पर उच्च एकाग्रता, कम गलत वर्गीकरण

मॉडल प्रदर्शन विश्लेषण

Class 2 प्रदर्शन: उच्चतम पुनरावृत्ति (97%), 90% परिशुद्धता, यह दर्शाता है कि मॉडल इस वर्ग के प्रति संवेदनशील है
Class 3-4: गंभीर रोग के मामलों की सटीक पहचान, नैदानिक महत्व के साथ
ध्यान प्रभाव: चाल विशेषताओं में संबंधित अस्थायी पैटर्न को सफलतापूर्वक कैप्चर करता है
आर्किटेक्चर लाभ: CNN और BiLSTM का संयोजन आसन्न गंभीरता स्तरों के भेदभाव को प्रभावी ढंग से बढ़ाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: ध्यान-संवर्धित CNN-BiLSTM आर्किटेक्चर बहु-वर्गीय PD गंभीरता का प्रभावी ढंग से पता लगा सकता है
विशेषता महत्व: अस्थायी, आवृत्ति और आयाम विशेषताओं का संयोजन PD वर्गीकरण के लिए महत्वपूर्ण है
नैदानिक मूल्य: उद्देश्यपूर्ण, पुनरावृत्ति योग्य रोग मूल्यांकन उपकरण प्रदान करता है
तकनीकी लाभ: स्थानिक-अस्थायी प्रतिनिधित्व और ध्यान तंत्र का एकीकरण स्वचालित PD गंभीरता पहचान प्रदर्शन को काफी बढ़ाता है

सीमाएं

डेटासेट आकार: 250 नमूने अपेक्षाकृत छोटे हैं, जो मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
विशेषता निर्भरता: पूर्व-निकाली गई हाथ से बनाई गई विशेषताओं पर निर्भर, अंत-से-अंत कच्ची वीडियो प्रसंस्करण प्राप्त नहीं की गई
एकल मोडल: केवल उंगली टैपिंग पर आधारित, अन्य गतिविधि मोडल को एकीकृत नहीं किया गया
क्रॉस-डेटासेट सत्यापन: अन्य स्वतंत्र डेटासेट पर सत्यापन की कमी

भविष्य की दिशाएं

बहु-मोडल संलयन: चाल, भाषण, चेहरे की अभिव्यक्ति आदि कई मोडल डेटा को एकीकृत करना
अंत-से-अंत शिक्षण: कच्ची वीडियो से सीधे विशेषता प्रतिनिधित्व सीखना
बड़े पैमाने पर सत्यापन: बड़े पैमाने पर, बहु-केंद्र डेटासेट पर सत्यापन
वास्तविक समय अनुप्रयोग: वास्तविक समय PD निगरानी प्रणाली विकसित करना
व्याख्यात्मकता: मॉडल की व्याख्यात्मकता और नैदानिक विश्वसनीयता को बढ़ाना

गहन मूल्यांकन

शक्तियां

आर्किटेक्चर नवाचार: पहली बार CNN, BiLSTM और ध्यान तंत्र को PD वर्गीकरण के लिए पूरी तरह से एकीकृत किया गया
उत्कृष्ट प्रदर्शन: 93% की सटीकता इस क्षेत्र में उच्च स्तर की है
व्यावहारिक मूल्य: गैर-आक्रामक, उद्देश्यपूर्ण PD मूल्यांकन उपकरण प्रदान करता है
तकनीकी पूर्णता: विशेषता निष्कर्षण से वर्गीकरण तक पूर्ण तकनीकी श्रृंखला
नैदानिक प्रासंगिकता: मानक MDS-UPDRS मूल्यांकन पर आधारित, नैदानिक विश्वसनीयता है

कमियां

डेटा आकार सीमा: 250 नमूने गहन मॉडल को पर्याप्त रूप से प्रशिक्षित करने के लिए अपर्याप्त हो सकते हैं
विशेषता इंजीनियरिंग निर्भरता: अभी भी हाथ से डिजाइन की गई विशेषताओं पर निर्भर, अंत-से-अंत शिक्षा प्राप्त नहीं की गई
एकल कार्य: केवल उंगली टैपिंग पर ध्यान केंद्रित, PD के अन्य गतिविधि लक्षणों पर विचार नहीं किया गया
विलोपन प्रयोगों की कमी: प्रत्येक घटक के विशिष्ट योगदान का विस्तार से विश्लेषण नहीं किया गया
सामान्यीकरण सत्यापन: क्रॉस-डेटासेट, क्रॉस-जनसंख्या सत्यापन की कमी

प्रभाव

शैक्षणिक योगदान: PD स्वचालित पहचान के लिए नई तकनीकी पथ प्रदान करता है
नैदानिक अनुप्रयोग: नैदानिक चिकित्सकों के लिए सहायक निदान उपकरण बनने की संभावना है
तकनीकी प्रचार: ध्यान-संवर्धित संकर आर्किटेक्चर अन्य चिकित्सा अनुप्रयोगों में प्रचारित किया जा सकता है
सामाजिक मूल्य: PD रोगियों को सुविधाजनक स्व-निगरानी साधन प्रदान करता है

लागू परिदृश्य

नैदानिक सहायक निदान: तंत्रिका विज्ञान चिकित्सकों को PD गंभीरता मूल्यांकन में समर्थन करता है
घर पर निगरानी: रोगी घर में नियमित स्व-परीक्षण कर सकते हैं
दवा चिकित्सा प्रभावकारिता मूल्यांकन: उपचार प्रक्रिया में रोग परिवर्तन की निगरानी करता है
बड़े पैमाने पर स्क्रीनिंग: सामुदायिक या स्वास्थ्य परीक्षा केंद्रों में PD स्क्रीनिंग के लिए उपयोग किया जाता है
दूरस्थ चिकित्सा: दूरस्थ चिकित्सा में PD निगरानी आवश्यकताओं को समर्थन करता है

संदर्भ

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और अनुप्रयोग मूल्य स्पष्ट अनुसंधान पेपर है। लेखकों द्वारा प्रस्तावित ध्यान-संवर्धित CNN-BiLSTM आर्किटेक्चर PD बहु-वर्गीय पहचान कार्य पर अच्छे परिणाम प्राप्त करता है, जो इस क्षेत्र को मूल्यवान तकनीकी योगदान प्रदान करता है। हालांकि डेटा आकार और सामान्यीकरण जैसी सीमाएं हैं, लेकिन समग्र अनुसंधान गुणवत्ता अच्छी है और इसमें अच्छी नैदानिक अनुप्रयोग संभावनाएं हैं।

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

ध्यान-संवर्धित CNN-BiLSTM का उपयोग करके उंगली टैपिंग के आधार पर बहु-वर्गीय पार्किंसन रोग का पता लगाना

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा विधियों की सीमाएं

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

समग्र डिजाइन

गणितीय सूत्र

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

मॉडल प्रदर्शन विश्लेषण

संबंधित कार्य

पारंपरिक मशीन लर्निंग विधियां

गहन शिक्षण प्रगति

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ