This article explores the application of various artificial intelligence techniques to the analysis of near-infrared (NIR) spectra of paracetamol, within the spectral range of 900 nm to 1800 nm. The main objective is to evaluate the performance of several dimensionality reduction algorithms; namely, Principal Component Analysis (PCA), Kernel PCA (KPCA), Sparse Kernel PCA, t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP) in modeling and interpreting spectral features. These techniques, derived from data science and machine learning, are evaluated for their ability to simplify analysis and enhance the visualization of NIR spectra in pharmaceutical applications.
- पेपर आईडी: 2510.10638
- शीर्षक: कृत्रिम बुद्धिमत्ता तकनीकें निकट-अवरक्त स्पेक्ट्रा पर लागू
- लेखक: अमिनाता सो (माली बामाको विज्ञान और प्रौद्योगिकी विश्वविद्यालय, भौतिकी विभाग), तिडियान डियालो (माली बामाको विज्ञान और प्रौद्योगिकी विश्वविद्यालय, फार्मेसी विभाग)
- वर्गीकरण: physics.optics
- प्रकाशन तिथि: 12 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.10638v1
यह पेपर एसिटामिनोफेन के निकट-अवरक्त (NIR) स्पेक्ट्रा विश्लेषण में कृत्रिम बुद्धिमत्ता तकनीकों के अनुप्रयोग की खोज करता है, जिसमें 900-1800 nm की स्पेक्ट्रल श्रेणी शामिल है। मुख्य उद्देश्य कई आयाम-न्यूनीकरण एल्गोरिदम के प्रदर्शन का मूल्यांकन करना है, जिनमें प्रमुख घटक विश्लेषण (PCA), कर्नल प्रमुख घटक विश्लेषण (KPCA), विरल कर्नल प्रमुख घटक विश्लेषण, t-वितरण स्टोकेस्टिक पड़ोसी एम्बेडिंग (t-SNE) और समान मैनिफोल्ड सन्निकटन प्रक्षेपण (UMAP) शामिल हैं। ये डेटा विज्ञान और मशीन लर्निंग से प्राप्त तकनीकें स्पेक्ट्रल विशेषताओं को मॉडल करने और व्याख्या करने की क्षमता का मूल्यांकन करती हैं। विश्लेषण को सरल बनाने और फार्मास्यूटिकल अनुप्रयोगों में NIR स्पेक्ट्रा दृश्य को बढ़ाने में इन तकनीकों की क्षमता का मूल्यांकन किया गया है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है कि उच्च-आयामी निकट-अवरक्त स्पेक्ट्रा डेटा को प्रभावी ढंग से कैसे संसाधित और विश्लेषण किया जाए, विशेष रूप से फार्मास्यूटिकल अनुप्रयोगों में जटिल स्पेक्ट्रा डेटा के आयाम-न्यूनीकरण और दृश्य की चुनौतियों के संदर्भ में।
- फार्मास्यूटिकल उद्योग की आवश्यकता: NIR स्पेक्ट्रोस्कोपी तकनीक फार्मास्यूटिकल क्षेत्र में गैर-विनाशकारी, तेजी से विश्लेषण, जटिल मिश्रण को संभालने की क्षमता जैसे लाभ प्रदान करती है, और गुणवत्ता नियंत्रण और घटक विश्लेषण के लिए एक महत्वपूर्ण उपकरण है।
- आयाम की श्राप समस्या: NIR स्पेक्ट्रा माप आमतौर पर उच्च-आयामी डेटा उत्पन्न करते हैं, जिनमें अनावश्यक या अत्यधिक सहसंबद्ध विशेषताएं होती हैं, जो अंतर्निहित संरचना को छुपाती हैं और मशीन लर्निंग एल्गोरिदम के प्रदर्शन को प्रभावित करती हैं।
- क्रॉस-डोमेन अनुप्रयोग: फार्मास्यूटिकल्स के अलावा, NIR स्पेक्ट्रोस्कोपी का खाद्य उद्योग, कृषि और पर्यावरण विज्ञान में व्यापक अनुप्रयोग है।
- PCA जैसी पारंपरिक रैखिक विधियां केवल रैखिक संबंधों को पकड़ सकती हैं, जटिल गैर-रैखिक संरचनाओं को प्रभावी ढंग से संभाल नहीं सकती हैं।
- NIR स्पेक्ट्रा विश्लेषण में विभिन्न आयाम-न्यूनीकरण तकनीकों की व्यवस्थित तुलनात्मक अनुसंधान की कमी है।
- उच्च-आयामी स्पेक्ट्रा डेटा का दृश्य और व्याख्या अभी भी एक चुनौती है।
लेखकों के एसिटामिनोफेन NIR स्पेक्ट्रा के रासायनिक मेट्रिक्स विश्लेषण पर पूर्व कार्य के आधार पर, यह अनुसंधान उन्नत अनुपर्यवेक्षित मशीन लर्निंग तकनीकों, विशेष रूप से आयाम-न्यूनीकरण विधियों की खोज करने का लक्ष्य रखता है, ताकि स्पेक्ट्रा व्यवहार और डेटासेट में अंतर्निहित पैटर्न को आगे प्रकट किया जा सके।
- व्यवस्थित तुलनात्मक अनुसंधान: पांच विभिन्न आयाम-न्यूनीकरण एल्गोरिदम (PCA, KPCA, विरल KPCA, t-SNE, UMAP) के प्रदर्शन का पहली बार एसिटामिनोफेन NIR स्पेक्ट्रा विश्लेषण में व्यवस्थित मूल्यांकन।
- गैर-रैखिक संरचना की खोज: रैखिक और गैर-रैखिक विधियों की तुलना के माध्यम से, NIR स्पेक्ट्रा डेटा में गैर-रैखिक संरचना के अस्तित्व की पुष्टि।
- दृश्य प्रभाव मूल्यांकन: स्पेक्ट्रा डेटा क्लस्टरिंग और दृश्य में विभिन्न आयाम-न्यूनीकरण तकनीकों की विस्तृत तुलना।
- पूर्व-प्रसंस्करण रणनीति अनुकूलन: मानक सामान्य वेरिएट सुधार (SNV), विसंरचना और गुणक बिखरने वाले सुधार (MSC) जैसी पूर्व-प्रसंस्करण विधियों के प्रभाव को प्रदर्शित।
- क्लस्टरिंग प्रदर्शन में सुधार: आयाम-न्यूनीकरण के बाद के स्थान में क्लस्टरिंग मूल उच्च-आयामी स्थान की तुलना में बेहतर प्रभाव प्रदान करती है।
इस अनुसंधान का कार्य उच्च-आयामी NIR स्पेक्ट्रा डेटा (900-1800 nm श्रेणी में स्पेक्ट्रा विशेषताएं) को निम्न-आयामी स्थान (2D या 3D) में मैप करना है, जबकि डेटा की महत्वपूर्ण संरचना जानकारी को बनाए रखते हुए, दृश्य और बाद की क्लस्टरिंग विश्लेषण की सुविधा के लिए।
- सिद्धांत: डेटा को नए ऑर्थोगोनल अक्षों के समूह (प्रमुख घटक) में प्रक्षेपित करता है, जो कब्जा किए गए विचरण की मात्रा के अनुसार क्रमबद्ध होते हैं।
- गणितीय आधार: सहप्रसरण मैट्रिक्स के eigenvalue अपघटन पर आधारित।
- लाभ: उच्च कम्प्यूटेशनल दक्षता, मजबूत व्याख्या क्षमता।
- सीमा: केवल रैखिक संबंधों को पकड़ सकता है।
- नवाचार बिंदु: कर्नल फ़ंक्शन (जैसे गॉसियन RBF कर्नल) का उपयोग करके डेटा को उच्च-आयामी विशेषता स्थान में मैप करता है।
- कार्यान्वयन: रूपांतरित विशेषता स्थान में रैखिक PCA निष्पादित करता है।
- लाभ: गैर-रैखिक संरचना निकाल सकता है।
- अनुप्रयोग: एसिटामिनोफेन NIR स्पेक्ट्रा में गैर-रैखिक पैटर्न विश्लेषण के लिए।
- तकनीकी विशेषता: KPCA के आधार पर विरलता बाधा का परिचय देता है।
- लाभ: समर्थन वेक्टर संख्या को कम करता है, कम्प्यूटेशनल दक्षता और व्याख्या क्षमता में सुधार करता है।
- लागू परिदृश्य: बड़े या उच्च-आयामी डेटासेट।
- डिजाइन विचार: संभाव्यता वितरण का उपयोग करके डेटा बिंदुओं के बीच जोड़ीदार समानता को मॉडल करता है।
- अनुकूलन उद्देश्य: मूल स्थान और आयाम-न्यूनीकरण स्थान में वितरण के KL विचलन को कम करता है।
- विशेषता: स्थानीय संरचना को बनाए रखता है, डेटा में क्लस्टरिंग को प्रकट करता है।
- पैरामीटर संवेदनशीलता: कन्फ्यूजन और सीखने की दर जैसे पैरामीटर के लिए संवेदनशील।
- सैद्धांतिक आधार: मैनिफोल्ड लर्निंग और टोपोलॉजिकल डेटा विश्लेषण पर आधारित।
- कार्यान्वयन विधि: उच्च-आयामी ग्राफ प्रतिनिधित्व का निर्माण करता है और निम्न-आयामी ग्राफ की संरचना समानता को अनुकूलित करता है।
- लाभ: t-SNE की तुलना में स्थानीय और वैश्विक संरचना को बेहतर तरीके से बनाए रखता है, उच्च कम्प्यूटेशनल दक्षता।
- बहु-एल्गोरिदम एकीकृत मूल्यांकन: NIR स्पेक्ट्रा विश्लेषण में कई आयाम-न्यूनीकरण तकनीकों की पहली बार व्यवस्थित तुलना।
- गैर-रैखिक विशेषता खनन: कर्नल विधियों और मैनिफोल्ड लर्निंग तकनीकों के माध्यम से स्पेक्ट्रा डेटा में गैर-रैखिक संबंधों को प्रकट करता है।
- पूर्व-प्रसंस्करण और आयाम-न्यूनीकरण का संयोजन: स्पेक्ट्रा पूर्व-प्रसंस्करण तकनीकों को आधुनिक आयाम-न्यूनीकरण विधियों के साथ जैविक रूप से जोड़ता है।
- क्लस्टरिंग प्रदर्शन अनुकूलन: आयाम-न्यूनीकरण पूर्व-प्रसंस्करण के क्लस्टरिंग प्रभाव में सुधार के महत्व को प्रदर्शित करता है।
- नमूना प्रकार: एसिटामिनोफेन NIR स्पेक्ट्रा डेटा
- स्पेक्ट्रल श्रेणी: 900-1800 nm
- नमूना वर्गीकरण: सामग्री मान के अनुसार दो श्रेणियों में विभाजित
- श्रेणी 1: सामग्री >95 और <1015 वाले नमूने
- श्रेणी 2: अन्य नमूने
- डेटा विशेषता: उच्च-आयामी स्पेक्ट्रा डेटा, तरंग दैर्ध्य संख्या नमूना संख्या से अधिक है।
- मानक सामान्य वेरिएट सुधार (SNV): प्रकाश बिखरने के प्रभाव को समाप्त करता है।
- विसंरचना: आधारभूत बहाव को हटाता है।
- गुणक बिखरने वाला सुधार (MSC): बिखरने वाले परिवर्तन को सुधारता है।
- दृश्य गुणवत्ता: 2D और 3D एम्बेडिंग ग्राफ के माध्यम से क्लस्टरिंग अलगाव प्रभाव का मूल्यांकन।
- विचरण संरक्षण: PCA में पहले कुछ प्रमुख घटकों का संचयी विचरण योगदान दर।
- क्लस्टरिंग प्रदर्शन: विभिन्न स्थानों में क्लस्टरिंग प्रभाव की तुलना।
- K-means: मूल उच्च-आयामी डेटा पर लागू।
- PAM (Partitioning Around Medoids): t-SNE आयाम-न्यूनीकरण के बाद डेटा पर लागू।
- PCA परिणाम:
- पहले दो प्रमुख घटक कुल विचरण का लगभग 100% कब्जा करते हैं।
- नमूनों को विभिन्न क्लस्टर में स्पष्ट रूप से अलग नहीं कर सकते।
- गैर-रैखिक संबंधों को पकड़ने में इसकी सीमा को उजागर करता है।
- KPCA और विरल KPCA:
- रैखिक PCA की तुलना में अतिव्यापी स्पेक्ट्रा क्षेत्रों के अलगाव में सुधार प्रदान करता है।
- विरल KPCA कम समर्थन वेक्टर का उपयोग करते हुए इस लक्ष्य को प्राप्त करता है।
- अधिक व्याख्यात्मक और कम्प्यूटेशनल रूप से कुशल प्रतिनिधित्व प्रदान करता है।
- t-SNE प्रदर्शन:
- स्पष्ट और अच्छी तरह से अलग किए गए क्लस्टर उत्पन्न करता है।
- स्थानीय पड़ोस संरचना को प्रभावी ढंग से बनाए रखता है।
- कन्फ्यूजन जैसे पैरामीटर सेटिंग के लिए संवेदनशील।
- वैश्विक क्लस्टरिंग व्यवस्था संगति कमजोर है।
- UMAP प्रदर्शन:
- मजबूत प्रदर्शन प्रदर्शित करता है, कॉम्पैक्ट और अच्छी तरह से अलग किए गए क्लस्टर उत्पन्न करता है।
- स्थानीय और वैश्विक संबंधों को एक साथ बनाए रखता है।
- उच्च कम्प्यूटेशनल दक्षता, विशेष रूप से अन्वेषणात्मक डेटा विश्लेषण के लिए उपयुक्त।
- मूल डेटा पर K-means: क्लस्टरिंग प्रभाव खराब, सीमाएं अस्पष्ट।
- t-SNE आयाम-न्यूनीकरण के बाद PAM: अधिक स्पष्ट और अर्थपूर्ण क्लस्टरिंग उत्पन्न करता है।
- मुख्य खोज: आयाम-न्यूनीकरण पूर्व-प्रसंस्करण क्लस्टरिंग प्रदर्शन में महत्वपूर्ण सुधार करता है।
- गैर-रैखिक संरचना की पुष्टि: रैखिक PCA और गैर-रैखिक KPCA के क्लस्टरिंग पैटर्न में अंतर डेटासेट में गैर-रैखिक संरचना के अस्तित्व की पुष्टि करता है।
- आयाम-न्यूनीकरण की आवश्यकता: उच्च-आयामी स्थान में सीधी क्लस्टरिंग खराब प्रभाव देती है, आयाम-न्यूनीकरण के बाद क्लस्टरिंग प्रभाव में महत्वपूर्ण सुधार होता है।
- एल्गोरिदम प्रयोज्यता: UMAP और t-SNE NIR स्पेक्ट्रा में अर्थपूर्ण संरचना प्रकट करने में सबसे प्रभावी हैं।
- पूर्व-प्रसंस्करण महत्व: उचित स्पेक्ट्रा पूर्व-प्रसंस्करण बाद के विश्लेषण परिणामों पर महत्वपूर्ण प्रभाव डालता है।
- फार्मास्यूटिकल क्षेत्र में NIR स्पेक्ट्रा का अनुप्रयोग:
- नई मनोसक्रिय पदार्थों की प्रारंभिक पहचान
- जैव चिकित्सा और फार्मास्यूटिकल अनुप्रयोगों में नवीनतम प्रगति
- खाद्य और कृषि अनुप्रयोग:
- खाद्य गुणवत्ता नियंत्रण और घटक विश्लेषण
- मिट्टी घटक अनुसंधान और पारिस्थितिकी तंत्र स्वास्थ्य निगरानी
- स्पेक्ट्रा विश्लेषण में मशीन लर्निंग का अनुप्रयोग:
- पूर्वानुमान मॉडलिंग के लिए पर्यवेक्षित लर्निंग विधियां
- पैटर्न खोज और क्लस्टरिंग के लिए अनुपर्यवेक्षित लर्निंग तकनीकें
- निरंतरता: लेखकों के पूर्व रासायनिक मेट्रिक्स विश्लेषण कार्य पर आधारित।
- विस्तार: पारंपरिक रासायनिक मेट्रिक्स विधियों से आधुनिक मशीन लर्निंग तकनीकों तक विस्तार।
- व्यवस्थितता: NIR स्पेक्ट्रा विश्लेषण में कई आयाम-न्यूनीकरण तकनीकों की पहली बार व्यवस्थित तुलना।
मौजूदा कार्य की तुलना में, यह पेपर विशेष रूप से फार्मास्यूटिकल NIR स्पेक्ट्रा विश्लेषण क्षेत्र में आयाम-न्यूनीकरण तकनीकों की अधिक व्यापक तुलना और व्यवस्थित मूल्यांकन प्रदान करता है।
- विधि प्रभावकारिता: मूल्यांकन की गई आयाम-न्यूनीकरण तकनीकें उच्च-आयामी स्पेक्ट्रा डेटा को सरल बनाने और अंतर्निहित संरचना को प्रकट करने में प्रभावी साबित हुई हैं।
- रैखिक बनाम गैर-रैखिक: PCA जैसी रैखिक विधियां तेजी से और व्याख्यात्मक विचरण सारांश प्रदान करती हैं, लेकिन गैर-रैखिक संबंधों को पकड़ने में सीमित हैं।
- इष्टतम विधि: t-SNE और UMAP जैसी गैर-रैखिक विधियां स्पेक्ट्रा में अर्थपूर्ण क्लस्टरिंग और स्थानीय पैटर्न को अधिक प्रभावी ढंग से खोजती हैं।
- अनुप्रयोग मूल्य: NIR स्पेक्ट्रा और आधुनिक मशीन लर्निंग तकनीकों का संयोजन फार्मास्यूटिकल अनुसंधान में डेटा अन्वेषण और व्याख्या को बढ़ा सकता है।
- डेटासेट आकार: केवल एसिटामिनोफेन के NIR स्पेक्ट्रा डेटा का उपयोग, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है।
- पैरामीटर संवेदनशीलता: कुछ विधियां (जैसे t-SNE) पैरामीटर सेटिंग के लिए संवेदनशील हैं, सावधानीपूर्वक ट्यूनिंग की आवश्यकता है।
- परिमाणात्मक विश्लेषण की कमी: मुख्य रूप से गुणात्मक दृश्य प्रभाव पर ध्यान केंद्रित करता है, परिमाणात्मक प्रदर्शन संकेतकों की कमी है।
- कम्प्यूटेशनल जटिलता: विभिन्न विधियों की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं किया गया है।
- अनुप्रयोग विस्तार: विधि को अन्य दवाओं के NIR स्पेक्ट्रा विश्लेषण में लागू करना।
- एल्गोरिदम अनुकूलन: NIR स्पेक्ट्रा विशेषताओं के अनुरूप विशेष आयाम-न्यूनीकरण एल्गोरिदम विकसित करना।
- वास्तविक समय अनुप्रयोग: ऑनलाइन गुणवत्ता नियंत्रण और प्रक्रिया निगरानी में व्यावहारिक अनुप्रयोग की खोज।
- बहु-मोडल संलयन: अन्य विश्लेषणात्मक तकनीकों के साथ संयोजन करके विश्लेषण सटीकता में सुधार।
- अनुसंधान व्यवस्थितता: NIR स्पेक्ट्रा विश्लेषण में कई आयाम-न्यूनीकरण तकनीकों की पहली बार व्यवस्थित तुलना, अनुसंधान अंतराल को भरता है।
- विधि विविधता: शास्त्रीय रैखिक विधियों से आधुनिक गैर-रैखिक तकनीकों तक पूर्ण स्पेक्ट्रम शामिल करता है।
- व्यावहारिक अनुप्रयोग मूल्य: फार्मास्यूटिकल गुणवत्ता नियंत्रण क्षेत्र में सीधा अनुप्रयोग मूल्य।
- दृश्य प्रभाव: स्पष्ट दृश्य परिणाम, विभिन्न विधियों की विशेषताओं को समझने में सहायता।
- तकनीकी सत्यापन: तुलनात्मक प्रयोगों के माध्यम से गैर-रैखिक संरचना के अस्तित्व की पुष्टि।
- सैद्धांतिक गहराई: कुछ विधियां NIR स्पेक्ट्रा डेटा पर बेहतर प्रदर्शन क्यों करती हैं, इसके गहन सैद्धांतिक विश्लेषण की कमी।
- परिमाणात्मक मूल्यांकन: मुख्य रूप से दृश्य मूल्यांकन पर निर्भर, उद्देश्य परिमाणात्मक संकेतकों की कमी।
- डेटा सीमा: केवल एक दवा के डेटा का उपयोग, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है।
- पैरामीटर ट्यूनिंग: मुख्य पैरामीटर चयन और ट्यूनिंग प्रक्रिया का विवरण पर्याप्त नहीं है।
- कम्प्यूटेशनल दक्षता: विभिन्न विधियों के कम्प्यूटेशनल समय और संसाधन खपत की तुलना प्रदान नहीं की गई है।
- शैक्षणिक योगदान: NIR स्पेक्ट्रा विश्लेषण क्षेत्र में आधुनिक मशीन लर्निंग विधियों का व्यवस्थित अनुसंधान प्रस्तुत करता है।
- व्यावहारिक मूल्य: फार्मास्यूटिकल उद्योग के गुणवत्ता नियंत्रण के लिए नई तकनीकी पसंद प्रदान करता है।
- विधि प्रचार: NIR स्पेक्ट्रा विश्लेषण में आयाम-न्यूनीकरण तकनीकों के अनुप्रयोग को बढ़ावा देने में सहायता करता है।
- अंतःविषय संलयन: प्रकाशिकी, रसायन विज्ञान और मशीन लर्निंग क्षेत्रों के बीच क्रॉस-डोमेन सहयोग को बढ़ावा देता है।
- फार्मास्यूटिकल गुणवत्ता नियंत्रण: दवा घटक विश्लेषण और गुणवत्ता पहचान।
- खाद्य सुरक्षा पहचान: खाद्य घटक और गुणवत्ता विश्लेषण।
- रासायनिक प्रक्रिया निगरानी: वास्तविक समय प्रक्रिया नियंत्रण और उत्पाद गुणवत्ता निगरानी।
- सामग्री विज्ञान अनुसंधान: सामग्री घटक और गुणों का तेजी से विश्लेषण।
पेपर में 20 महत्वपूर्ण संदर्भ उद्धृत हैं, जो NIR स्पेक्ट्रोस्कोपी तकनीक, मशीन लर्निंग विधियों और संबंधित अनुप्रयोग क्षेत्रों के शास्त्रीय और अग्रणी कार्य को शामिल करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह पेपर व्यावहारिक अनुप्रयोग मूल्य वाला एक अंतःविषय अनुसंधान कार्य है, जो NIR स्पेक्ट्रा विश्लेषण में कई आयाम-न्यूनीकरण तकनीकों के अनुप्रयोग प्रभाव का व्यवस्थित मूल्यांकन करता है। हालांकि सैद्धांतिक गहराई और परिमाणात्मक विश्लेषण में सुधार की गुंजाइश है, लेकिन इसकी व्यवस्थित तुलनात्मक अनुसंधान और स्पष्ट दृश्य परिणाम संबंधित क्षेत्रों के शोधकर्ताओं और व्यावहारिकों के लिए मूल्यवान संदर्भ प्रदान करते हैं। यह कार्य NIR स्पेक्ट्रोस्कोपी तकनीक और आधुनिक मशीन लर्निंग विधियों के संयोजन को आगे बढ़ाने में सहायता करता है, और फार्मास्यूटिकल्स जैसे अनुप्रयोग क्षेत्रों में अच्छी अनुप्रयोग संभावनाएं हैं।