2025-11-21T21:28:15.928836

Techniques of Artificial Intelligence Applied to Near-Infrared Spectra

Sow, Diallo
This article explores the application of various artificial intelligence techniques to the analysis of near-infrared (NIR) spectra of paracetamol, within the spectral range of 900 nm to 1800 nm. The main objective is to evaluate the performance of several dimensionality reduction algorithms; namely, Principal Component Analysis (PCA), Kernel PCA (KPCA), Sparse Kernel PCA, t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP) in modeling and interpreting spectral features. These techniques, derived from data science and machine learning, are evaluated for their ability to simplify analysis and enhance the visualization of NIR spectra in pharmaceutical applications.
academic

تقنيات الذكاء الاصطناعي المطبقة على أطياف الأشعة تحت الحمراء القريبة

المعلومات الأساسية

  • معرّف الورقة: 2510.10638
  • العنوان: تقنيات الذكاء الاصطناعي المطبقة على أطياف الأشعة تحت الحمراء القريبة
  • المؤلفون: أمينتا ساو (قسم الفيزياء، جامعة العلوم والتكنولوجيا في باماكو، مالي)، تيديان ديالو (كلية الصيدلة، جامعة العلوم والتكنولوجيا في باماكو، مالي)
  • التصنيف: physics.optics
  • تاريخ النشر: 12 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.10638v1

الملخص

تستكشف هذه الورقة تطبيق تقنيات متعددة من الذكاء الاصطناعي في تحليل أطياف الأشعة تحت الحمراء القريبة (NIR) للأسيتامينوفين في نطاق طيفي يتراوح بين 900-1800 نانومتر. الهدف الرئيسي هو تقييم أداء عدة خوارزميات لتقليل الأبعاد، بما في ذلك تحليل المكونات الرئيسية (PCA)، وتحليل المكونات الرئيسية النواتي (KPCA)، وتحليل المكونات الرئيسية النواتي المتفرق، والتضمين العشوائي للجيران الموزع بتوزيع t (t-SNE)، والإسقاط الموحد لتقريب المتشعبات (UMAP) في نمذجة وتفسير الخصائص الطيفية. تم تقييم قدرة هذه التقنيات المستمدة من علوم البيانات وتعلم الآلة في تبسيط التحليل وتعزيز تصور أطياف NIR في التطبيقات الصيدلانية.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية للبحث حول كيفية معالجة وتحليل بيانات أطياف الأشعة تحت الحمراء القريبة عالية الأبعاد بفعالية، خاصة في التطبيقات الصيدلانية والتحديات المتعلقة بتقليل الأبعاد وتصور البيانات الطيفية المعقدة.

تحليل الأهمية

  1. احتياجات الصناعة الصيدلانية: تتمتع تقنية أطياف NIR في المجال الصيدلاني بمزايا عديدة منها عدم التدمير والسرعة التحليلية والقدرة على التعامل مع المخاليط المعقدة، مما يجعلها أداة مهمة للتحكم في الجودة وتحليل المكونات
  2. مشكلة لعنة الأبعاد: عادة ما تنتج قياسات أطياف NIR بيانات عالية الأبعاد تحتوي على خصائص زائدة أو مترابطة بشدة، مما يخفي البنى الكامنة ويؤثر على أداء خوارزميات تعلم الآلة
  3. التطبيقات متعددة المجالات: بالإضافة إلى الصيدلة، يوجد تطبيقات واسعة لأطياف NIR في الصناعات الغذائية والزراعة والعلوم البيئية

قيود الطرق الموجودة

  • الطرق الخطية التقليدية مثل PCA لا تستطيع التقاط سوى العلاقات الخطية، وتفشل في التعامل الفعال مع البنى غير الخطية المعقدة
  • نقص الدراسات المقارنة المنهجية لتقنيات تقليل الأبعاد المختلفة في تحليل أطياف NIR
  • لا تزال تصور وتفسير بيانات الأطياف عالية الأبعاد تحديًا قائمًا

دافع البحث

بناءً على الأعمال السابقة للمؤلفين في التحليل الكيميائي الحسابي لأطياف NIR للأسيتامينوفين، يهدف هذا البحث إلى استكشاف تقنيات متقدمة من تعلم الآلة غير الموجه، خاصة طرق تقليل الأبعاد، لكشف المزيد عن السلوك الطيفي والأنماط الكامنة في مجموعة البيانات.

المساهمات الأساسية

  1. دراسة مقارنة منهجية: أول تقييم منهجي لخمس خوارزميات تقليل أبعاد مختلفة (PCA، KPCA، SKPCA، t-SNE، UMAP) في تحليل أطياف NIR للأسيتامينوفين
  2. اكتشاف البنى غير الخطية: من خلال المقارنة بين الطرق الخطية وغير الخطية، تم إثبات وجود بنى غير خطية في بيانات أطياف NIR
  3. تقييم فعالية التصور: توفير مقارنة مفصلة لتقنيات تقليل الأبعاد المختلفة في تجميع وتصور بيانات الأطياف
  4. تحسين استراتيجيات المعالجة المسبقة: إظهار تأثير طرق المعالجة المسبقة مثل تصحيح المتغيرات الطبيعية المعيارية (SNV) وإزالة الاتجاه والتصحيح المضاعف للتشتت (MSC)
  5. تحسين أداء التجميع: إثبات أن التجميع في الفضاء المختزل يحقق نتائج أفضل مقارنة بالفضاء الأصلي عالي الأبعاد

شرح الطريقة

تعريف المهمة

تتمثل مهمة هذا البحث في تعيين بيانات أطياف NIR عالية الأبعاد (الخصائص الطيفية في نطاق 900-1800 نانومتر) إلى فضاء منخفض الأبعاد (ثنائي أو ثلاثي الأبعاد)، مع الحفاظ على معلومات البنية المهمة في البيانات، لتسهيل التصور والتحليل التجميعي اللاحق.

معمارية خوارزميات تقليل الأبعاد

1. تحليل المكونات الرئيسية (PCA)

  • المبدأ: إسقاط البيانات على مجموعة جديدة من المحاور المتعامدة (المكونات الرئيسية)، مرتبة حسب كمية التباين المحتوى
  • الأساس الرياضي: يعتمد على تحليل القيم الذاتية لمصفوفة التغاير
  • المزايا: كفاءة حسابية عالية، قابلية تفسير قوية
  • القيود: يمكنه فقط التقاط العلاقات الخطية

2. تحليل المكونات الرئيسية النواتي (KPCA)

  • نقطة الابتكار: استخدام دوال نواتية (مثل نواة RBF الغاوسية) لتعيين البيانات إلى فضاء خصائص عالي الأبعاد
  • التنفيذ: تنفيذ PCA خطي في فضاء الخصائص المحول
  • المزايا: القدرة على استخراج البنى غير الخطية
  • التطبيق: استخدام لتحليل الأنماط غير الخطية في أطياف NIR للأسيتامينوفين

3. تحليل المكونات الرئيسية النواتي المتفرق (SKPCA)

  • الخصائص التقنية: إدخال قيود التفرق على أساس KPCA
  • المزايا: تقليل عدد متجهات الدعم، تحسين الكفاءة الحسابية والقابلية للتفسير
  • السيناريوهات المناسبة: مجموعات البيانات الكبيرة أو عالية الأبعاد

4. التضمين العشوائي للجيران الموزع بتوزيع t (t-SNE)

  • فكرة التصميم: استخدام التوزيعات الاحتمالية لنمذجة التشابه الثنائي بين نقاط البيانات
  • هدف التحسين: تقليل اختلاف Kullback-Leibler بين التوزيعات في الفضاء الأصلي والفضاء المختزل
  • المميزات: الحفاظ على البنية المحلية، كشف التجميعات في البيانات
  • حساسية المعاملات: حساس لمعاملات مثل الارتباك (perplexity) ومعدل التعلم

5. الإسقاط الموحد لتقريب المتشعبات (UMAP)

  • الأساس النظري: يعتمد على تعلم المتشعبات وتحليل البيانات الطوبولوجي
  • طريقة التنفيذ: بناء تمثيل رسم بياني عالي الأبعاد وتحسين تشابه البنية للرسم البياني منخفض الأبعاد
  • المزايا: الحفاظ على البنى المحلية والعالمية بشكل أفضل من t-SNE، كفاءة حسابية أعلى

نقاط الابتكار التقنية

  1. تقييم متكامل متعدد الخوارزميات: أول مقارنة منهجية لتقنيات تقليل أبعاد متعددة في تحليل أطياف NIR
  2. استخراج الخصائص غير الخطية: كشف العلاقات غير الخطية في بيانات الأطياف من خلال طرق النوى وتقنيات تعلم المتشعبات
  3. دمج المعالجة المسبقة مع تقليل الأبعاد: دمج تقنيات معالجة الأطياف المسبقة مع طرق تقليل الأبعاد الحديثة
  4. تحسين أداء التجميع: إثبات أهمية معالجة تقليل الأبعاد المسبقة في تحسين فعالية التجميع

إعداد التجربة

مجموعة البيانات

  • نوع العينات: بيانات أطياف NIR للأسيتامينوفين
  • النطاق الطيفي: 900-1800 نانومتر
  • تصنيف العينات: مقسمة إلى فئتين بناءً على قيم المحتوى
    • الفئة 1: العينات ذات المحتوى >95 و<1015
    • الفئة 2: العينات المتبقية
  • خصائص البيانات: بيانات طيفية عالية الأبعاد، حيث يتجاوز عدد الأطوال الموجية عدد العينات

طرق المعالجة المسبقة

  1. تصحيح المتغيرات الطبيعية المعيارية (SNV): إزالة تأثيرات تشتت الضوء
  2. إزالة الاتجاه: إزالة انجراف خط الأساس
  3. التصحيح المضاعف للتشتت (MSC): تصحيح تغييرات التشتت

طرق التقييم

  • جودة التصور: تقييم فعالية فصل التجميع من خلال رسوم التضمين ثنائية وثلاثية الأبعاد
  • الحفاظ على التباين: معدل المساهمة التراكمية للتباين للمكونات الرئيسية الأولى في PCA
  • أداء التجميع: مقارنة فعالية التجميع في الفضاءات المختلفة

خوارزميات التجميع

  • K-means: التطبيق على البيانات الأصلية عالية الأبعاد
  • PAM (التقسيم حول الوسطاء): التطبيق على البيانات المختزلة بواسطة t-SNE

نتائج التجربة

النتائج الرئيسية

مقارنة فعالية تقليل الأبعاد

  1. نتائج PCA:
    • المكونان الرئيسيان الأولان يحتويان على حوالي 100% من إجمالي التباين
    • عدم القدرة على فصل العينات بوضوح إلى تجميعات مختلفة
    • إبراز القيود في التقاط العلاقات غير الخطية
  2. أداء KPCA والـ SKPCA:
    • توفير فصل محسّن للمناطق الطيفية المتداخلة مقارنة بـ PCA الخطي
    • تحقيق هذا الهدف باستخدام عدد أقل من متجهات الدعم في حالة SKPCA
    • توفير تمثيل أكثر قابلية للتفسير وكفاءة حسابية
  3. أداء t-SNE:
    • إنتاج تجميعات واضحة وجيدة الفصل
    • الحفاظ الفعال على بنية الجوار المحلي
    • الحساسية تجاه إعدادات المعاملات مثل الارتباك
    • اتساق أقل في ترتيب التجميع العام
  4. أداء UMAP:
    • إظهار أداء قوية، مع إنتاج تجميعات مضغوطة وجيدة الفصل
    • الحفاظ على العلاقات المحلية والعالمية في نفس الوقت
    • كفاءة حسابية عالية، مناسبة بشكل خاص للتحليل الاستكشافي للبيانات

مقارنة أداء التجميع

  • K-means على البيانات الأصلية: أداء تجميع ضعيفة، حدود غير واضحة
  • PAM على البيانات المختزلة بـ t-SNE: إنتاج تجميعات أكثر وضوحًا وذات معنى
  • الاكتشاف الرئيسي: معالجة تقليل الأبعاد المسبقة تحسن بشكل كبير من أداء التجميع

النتائج التجريبية الرئيسية

  1. تأكيد البنى غير الخطية: الاختلافات في أنماط التجميع بين PCA الخطي و KPCA غير الخطي تؤكد وجود بنى غير خطية في مجموعة البيانات
  2. ضرورة تقليل الأبعاد: التجميع المباشر في الفضاء عالي الأبعاد يعطي نتائج سيئة، بينما يحسن التجميع بعد تقليل الأبعاد بشكل كبير
  3. قابلية تطبيق الخوارزميات: UMAP و t-SNE هما الأكثر فعالية في كشف البنى ذات المعنى في أطياف NIR
  4. أهمية المعالجة المسبقة: المعالجة المسبقة المناسبة للأطياف لها تأثير مهم على نتائج التحليل اللاحقة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. تطبيقات أطياف NIR في المجال الصيدلاني:
    • الكشف المبكر عن المواد النفسية النشطة الجديدة
    • آخر التطورات في التطبيقات الطبية الحيوية والصيدلانية
  2. التطبيقات في الغذاء والزراعة:
    • التحكم في جودة الغذاء وتحليل المكونات
    • أبحاث مكونات التربة ومراقبة صحة النظم البيئية
  3. تطبيقات تعلم الآلة في تحليل الأطياف:
    • طرق التعلم الموجهة للنمذجة التنبؤية
    • تقنيات التعلم غير الموجهة لاكتشاف الأنماط والتجميع

العلاقة بين هذه الورقة والأعمال ذات الصلة

  • الاستمرارية: بناءً على الأعمال السابقة للمؤلفين في التحليل الكيميائي الحسابي
  • التوسع: التوسع من طرق الكيمياء الحسابية التقليدية إلى تقنيات تعلم الآلة الحديثة
  • المنهجية: أول مقارنة منهجية لتقنيات تقليل أبعاد متعددة في تطبيقات أطياف NIR

المزايا التقنية

توفر هذه الورقة مقارنة أكثر شمولاً لتقنيات تقليل الأبعاد، خاصة التقييم المنهجي في مجال تحليل أطياف NIR الصيدلاني، مقارنة بالأعمال الموجودة.

الخلاصات والنقاش

الاستنتاجات الرئيسية

  1. فعالية الطريقة: أثبتت تقنيات تقليل الأبعاد المقيّمة فعاليتها في تبسيط بيانات الأطياف عالية الأبعاد والكشف عن البنى الكامنة
  2. الخطي مقابل غير الخطي: توفر الطرق الخطية مثل PCA ملخصًا سريعًا وقابلاً للتفسير للتباين، لكنها محدودة في التقاط العلاقات غير الخطية
  3. الطريقة المثلى: الطرق غير الخطية مثل t-SNE و UMAP أكثر فعالية في اكتشاف التجميعات والأنماط المحلية ذات المعنى في الأطياف
  4. قيمة التطبيق: الجمع بين أطياف NIR وتقنيات تعلم الآلة الحديثة يمكن أن يعزز استكشاف البيانات والتفسير في البحث الصيدلاني

القيود

  1. حجم مجموعة البيانات: استخدام بيانات أطياف NIR للأسيتامينوفين فقط، تحتاج القابلية للتعميم إلى التحقق
  2. حساسية المعاملات: بعض الطرق (مثل t-SNE) حساسة لإعدادات المعاملات، تتطلب ضبطًا دقيقًا
  3. نقص التحليل الكمي: التركيز الأساسي على التأثيرات البصرية النوعية، مع نقص المقاييس الكمية للأداء
  4. التعقيد الحسابي: لم يتم تحليل تكاليف الحساب والموارد لطرق مختلفة بالتفصيل

الاتجاهات المستقبلية

  1. توسيع التطبيقات: تطبيق الطرق على تحليل أطياف NIR لأدوية أخرى
  2. تحسين الخوارزميات: تطوير خوارزميات متخصصة لتقليل الأبعاد تناسب خصائص أطياف NIR
  3. التطبيقات في الوقت الفعلي: استكشاف التطبيقات العملية في التحكم في الجودة عبر الإنترنت ومراقبة العمليات
  4. دمج متعدد الأنماط: الجمع مع تقنيات تحليلية أخرى لتحسين دقة التحليل

التقييم المتعمق

المزايا

  1. منهجية البحث: أول مقارنة منهجية لتقنيات تقليل أبعاد متعددة في تطبيقات أطياف NIR، ملء فجوة بحثية
  2. تنوع الطرق: تغطية الطيف الكامل من الطرق الخطية الكلاسيكية إلى التقنيات غير الخطية الحديثة
  3. القيمة العملية: قيمة تطبيقية مباشرة في مجال التحكم في جودة الأدوية
  4. فعالية التصور: توفير نتائج تصور واضحة، تسهل فهم خصائص الطرق المختلفة
  5. التحقق التقني: التحقق من خلال التجارب المقارنة من وجود بنى غير خطية

أوجه القصور

  1. العمق النظري: نقص التحليل النظري العميق لسبب أداء بعض الطرق بشكل أفضل على بيانات أطياف NIR
  2. التقييم الكمي: الاعتماد الأساسي على التقييم البصري، مع نقص المقاييس الموضوعية الكمية
  3. قيود البيانات: استخدام بيانات دواء واحد فقط، تحتاج القابلية للتعميم إلى التحقق الإضافي
  4. ضبط المعاملات: وصف غير كافٍ لعملية اختيار وضبط المعاملات الحرجة
  5. الكفاءة الحسابية: عدم توفير مقارنة لأوقات الحساب واستهلاك الموارد للطرق المختلفة

التأثير

  1. المساهمة الأكاديمية: إدخال دراسة منهجية لطرق تعلم الآلة الحديثة في مجال تحليل أطياف NIR
  2. القيمة العملية: توفير خيارات تقنية جديدة للتحكم في جودة الصناعة الصيدلانية
  3. نشر الطريقة: المساعدة في نشر تطبيقات تقنيات تقليل الأبعاد في تحليل الأطياف
  4. الدمج متعدد التخصصات: تعزيز الدمج بين مجالات البصريات والكيمياء وتعلم الآلة

السيناريوهات المناسبة

  1. التحكم في جودة الأدوية: تحليل مكونات الأدوية والكشف عن جودة المنتجات
  2. كشف سلامة الغذاء: تحليل مكونات الغذاء وجودته
  3. مراقبة العمليات الكيميائية: التحكم في العمليات في الوقت الفعلي ومراقبة جودة المنتجات
  4. أبحاث العلوم المادية: التحليل السريع لمكونات المواد وخصائصها

المراجع

تستشهد الورقة بـ 20 مرجعًا مهمًا، تغطي تقنية أطياف NIR وطرق تعلم الآلة والأعمال ذات الصلة في المجالات التطبيقية، مما يوفر أساسًا نظريًا متينًا للبحث.


التقييم الشامل: هذه ورقة بحثية متعددة التخصصات ذات قيمة تطبيقية عملية، تقيّم بشكل منهجي فعالية تقنيات تقليل أبعاد متعددة في تطبيقات تحليل أطياف NIR. على الرغم من وجود مجال للتحسن في العمق النظري والتحليل الكمي، فإن دراستها المقارنة المنهجية ونتائج التصور الواضحة توفر مرجعًا قيمًا للباحثين والممارسين في المجالات ذات الصلة. يساهم هذا العمل في تعزيز الجمع بين تقنية أطياف NIR وطرق تعلم الآلة الحديثة، مع آفاق تطبيقية جيدة في مجالات مثل الصيدلة.