This article explores the application of various artificial intelligence techniques to the analysis of near-infrared (NIR) spectra of paracetamol, within the spectral range of 900 nm to 1800 nm. The main objective is to evaluate the performance of several dimensionality reduction algorithms; namely, Principal Component Analysis (PCA), Kernel PCA (KPCA), Sparse Kernel PCA, t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP) in modeling and interpreting spectral features. These techniques, derived from data science and machine learning, are evaluated for their ability to simplify analysis and enhance the visualization of NIR spectra in pharmaceutical applications.
- Papier-ID: 2510.10638
- Titel: Techniken der Künstlichen Intelligenz angewendet auf Nahinfrarot-Spektren
- Autoren: Aminata Sow (Fachbereich Physik, Universität für Wissenschaft und Technologie Bamako, Mali), Tidiane Diallo (Fakultät für Pharmazie, Universität für Wissenschaft und Technologie Bamako, Mali)
- Klassifizierung: physics.optics
- Veröffentlichungsdatum: 12. Oktober 2025
- Papierlink: https://arxiv.org/abs/2510.10638v1
Dieses Papier untersucht die Anwendung verschiedener Techniken der Künstlichen Intelligenz auf die Nahinfrarot-(NIR-)Spektralanalyse von Paracetamol im Spektralbereich von 900–1800 nm. Das Hauptziel besteht darin, die Leistung mehrerer Dimensionsreduktionsalgorithmen zu bewerten, einschließlich Hauptkomponentenanalyse (PCA), Kern-Hauptkomponentenanalyse (KPCA), spärliche Kern-Hauptkomponentenanalyse, t-verteilte stochastische Nachbareinbettung (t-SNE) und einheitliche Mannigfaltigkeitsapproximation und Projektion (UMAP) hinsichtlich ihrer Fähigkeit zur Modellierung und Interpretation von Spektralmerkmalen. Diese aus Datenwissenschaft und maschinellem Lernen stammenden Techniken wurden hinsichtlich ihrer Fähigkeit zur Vereinfachung der Analyse und Verbesserung der Visualisierung von NIR-Spektren in pharmazeutischen Anwendungen bewertet.
Das Kernproblem dieser Forschung besteht darin, wie hochdimensionale Nahinfrarot-Spektraldaten effektiv verarbeitet und analysiert werden können, insbesondere die Herausforderungen der Dimensionsreduktion und Visualisierung komplexer Spektraldaten in pharmazeutischen Anwendungen.
- Anforderungen der Pharmaindustrie: Die NIR-Spektroskopie bietet in der Pharmazie Vorteile wie Zerstörungsfreiheit, schnelle Analyseergebnisse und die Fähigkeit, komplexe Gemische zu verarbeiten. Sie ist ein wichtiges Werkzeug für Qualitätskontrolle und Komponentenanalyse.
- Problem der Dimensionalitätsfluch: NIR-Spektralmessungen erzeugen typischerweise hochdimensionale Daten mit redundanten oder stark korrelierten Merkmalen, die zugrunde liegende Strukturen verdecken und die Leistung von Algorithmen des maschinellen Lernens beeinträchtigen.
- Anwendungen über Fachgrenzen hinweg: Neben der Pharmazie findet die NIR-Spektroskopie breite Anwendung in der Lebensmittelindustrie, Landwirtschaft und Umweltwissenschaften.
- Traditionelle lineare Methoden wie PCA können nur lineare Beziehungen erfassen und können komplexe nichtlineare Strukturen nicht effektiv verarbeiten.
- Es fehlt eine systematische Vergleichsstudie verschiedener Dimensionsreduktionsmethoden in der NIR-Spektralanalyse.
- Die Visualisierung und Interpretation hochdimensionaler Spektraldaten bleibt eine Herausforderung.
Basierend auf früheren chemometrischen Analysen von Paracetamol-NIR-Spektren durch die Autoren zielt diese Forschung darauf ab, fortgeschrittene unüberwachte Techniken des maschinellen Lernens, insbesondere Dimensionsreduktionsmethoden, zu erkunden, um Spektralverhalten und latente Muster im Datensatz weiter zu enthüllen.
- Systematische Vergleichsstudie: Erstmalige systematische Bewertung der Leistung von fünf verschiedenen Dimensionsreduktionsalgorithmen (PCA, KPCA, spärliche KPCA, t-SNE, UMAP) in der Paracetamol-NIR-Spektralanalyse.
- Entdeckung nichtlinearer Strukturen: Durch Gegenüberstellung linearer und nichtlinearer Methoden wird bestätigt, dass nichtlineare Strukturen in NIR-Spektraldaten vorhanden sind.
- Bewertung der Visualisierungseffektivität: Detaillierter Vergleich verschiedener Dimensionsreduktionsmethoden hinsichtlich Spektraldaten-Clustering und Visualisierung.
- Optimierung der Vorverarbeitungsstrategie: Demonstration der Wirksamkeit von Vorverarbeitungsmethoden wie Standard Normal Variate (SNV), Detrending und Multiplicative Scatter Correction (MSC).
- Verbesserung der Clustering-Leistung: Nachweis, dass Clustering im reduzierten Raum bessere Ergebnisse liefert als im ursprünglichen hochdimensionalen Raum.
Die Aufgabe dieser Forschung besteht darin, hochdimensionale NIR-Spektraldaten (Spektralmerkmale im Bereich von 900–1800 nm) in einen niedrigdimensionalen Raum (2D oder 3D) abzubilden, während wichtige Strukturinformationen der Daten erhalten bleiben, um Visualisierung und nachfolgende Clusteranalyse zu ermöglichen.
- Prinzip: Projektion von Daten auf einen neuen Satz orthogonaler Achsen (Hauptkomponenten), geordnet nach der erfassten Varianzgröße.
- Mathematische Grundlage: Basiert auf Eigenwertzerlegung der Kovarianzmatrix.
- Vorteile: Hohe Recheneffizienz, starke Interpretierbarkeit.
- Einschränkungen: Kann nur lineare Beziehungen erfassen.
- Innovationspunkt: Verwendung von Kernfunktionen (z. B. Gaußscher RBF-Kern) zur Abbildung von Daten in einen hochdimensionalen Merkmalsraum.
- Implementierung: Durchführung linearer PCA im transformierten Merkmalsraum.
- Vorteile: Kann nichtlineare Strukturen extrahieren.
- Anwendung: Analyse nichtlinearer Muster in Paracetamol-NIR-Spektren.
- Technische Merkmale: Einführung von Sparsity-Beschränkungen auf Basis von KPCA.
- Vorteile: Reduziert die Anzahl der Stützvektoren, verbessert Recheneffizienz und Interpretierbarkeit.
- Anwendungsszenarien: Große oder hochdimensionale Datensätze.
- Designidee: Verwendung von Wahrscheinlichkeitsverteilungen zur Modellierung paarweiser Ähnlichkeiten zwischen Datenpunkten.
- Optimierungsziel: Minimierung der Kullback-Leibler-Divergenz zwischen Verteilungen im ursprünglichen und reduzierten Raum.
- Stärken: Erhalt lokaler Strukturen, Enthüllung von Clustern in Daten.
- Parameterempfindlichkeit: Empfindlich gegenüber Parametern wie Perplexität und Lernrate.
- Theoretische Grundlage: Basiert auf Mannigfaltigkeitslernens und topologischer Datenanalyse.
- Implementierungsweise: Konstruktion einer hochdimensionalen Graphdarstellung und Optimierung der Strukturähnlichkeit des niedrigdimensionalen Graphen.
- Vorteile: Bessere Beibehaltung lokaler und globaler Strukturen im Vergleich zu t-SNE, höhere Recheneffizienz.
- Integrierte Mehralgoritmus-Bewertung: Erstmalige systematische Vergleichung mehrerer Dimensionsreduktionsmethoden in der NIR-Spektralanalyse.
- Abbau nichtlinearer Merkmale: Enthüllung nichtlinearer Beziehungen in Spektraldaten durch Kernmethoden und Mannigfaltigkeitslernmethoden.
- Kombination von Vorverarbeitung und Dimensionsreduktion: Organische Integration von Spektralvorverarbeitungsmethoden mit modernen Dimensionsreduktionsmethoden.
- Optimierung der Clustering-Leistung: Nachweis der Bedeutung der Dimensionsreduktionsvorverarbeitung zur Verbesserung der Clustering-Effektivität.
- Probentyp: NIR-Spektraldaten von Paracetamol
- Spektralbereich: 900–1800 nm
- Probenklassifizierung: Klassifizierung in zwei Kategorien nach Gehaltwerten
- Kategorie 1: Proben mit Gehalt > 95 und < 1015
- Kategorie 2: Übrige Proben
- Datenmerkmale: Hochdimensionale Spektraldaten, Wellenlängenzahl übersteigt Probenanzahl.
- Standard Normal Variate (SNV): Beseitigung von Lichtstreuungseffekten.
- Detrending: Entfernung von Baseline-Drift.
- Multiplicative Scatter Correction (MSC): Korrektur von Streuungsänderungen.
- Visualisierungsqualität: Bewertung der Cluster-Trennungseffektivität durch 2D- und 3D-Einbettungsgraphiken.
- Varianzerhalt: Kumulative Varianzbeträge der ersten Hauptkomponenten in PCA.
- Clustering-Leistung: Vergleich der Clustering-Effektivität in verschiedenen Räumen.
- K-means: Anwendung auf ursprüngliche hochdimensionale Daten.
- PAM (Partitioning Around Medoids): Anwendung auf t-SNE-reduzierte Daten.
- PCA-Ergebnisse:
- Die ersten zwei Hauptkomponenten erfassen etwa 100 % der Gesamtvarianz.
- Können Proben nicht klar in verschiedene Cluster trennen.
- Unterstreichen die Einschränkungen bei der Erfassung nichtlinearer Beziehungen.
- KPCA und spärliche KPCA:
- Bieten verbesserte Trennung überlappender Spektralbereiche im Vergleich zu linearer PCA.
- Spärliche KPCA erreicht dies mit weniger Stützvektoren.
- Bieten interpretierbarere und rechnerisch effizientere Darstellungen.
- t-SNE-Leistung:
- Erzeugt deutliche und gut getrennte Cluster.
- Erhält effektiv lokale Nachbarschaftsstrukturen.
- Empfindlich gegenüber Parametereinstellungen wie Perplexität.
- Konsistenz der globalen Cluster-Anordnung ist schwächer.
- UMAP-Leistung:
- Zeigt starke Leistung mit kompakten und gut getrennten Clustern.
- Erhält gleichzeitig lokale und globale Beziehungen.
- Hohe Recheneffizienz, besonders geeignet für explorative Datenanalyse.
- K-means auf ursprünglichen Daten: Schwache Clustering-Effektivität, verschwommene Grenzen.
- PAM nach t-SNE-Reduktion: Erzeugt deutlichere und aussagekräftigere Cluster.
- Hauptfeststellung: Dimensionsreduktionsvorverarbeitung verbessert die Clustering-Leistung erheblich.
- Bestätigung nichtlinearer Strukturen: Unterschiede in Clustering-Mustern zwischen linearer PCA und nichtlinearer KPCA bestätigen das Vorhandensein nichtlinearer Strukturen im Datensatz.
- Notwendigkeit der Dimensionsreduktion: Direktes Clustering im hochdimensionalen Raum ist ineffektiv; nach Dimensionsreduktion verbessert sich die Clustering-Effektivität erheblich.
- Algorithmuseignung: UMAP und t-SNE sind am wirksamsten bei der Enthüllung aussagekräftiger Strukturen in NIR-Spektren.
- Bedeutung der Vorverarbeitung: Angemessene Spektralvorverarbeitung hat wichtige Auswirkungen auf nachfolgende Analyseergebnisse.
- Anwendung von NIR-Spektroskopie in der Pharmazie:
- Früherkennung neuer psychoaktiver Substanzen
- Neueste Fortschritte in biomedizinischen und pharmazeutischen Anwendungen
- Anwendungen in Lebensmittel- und Landwirtschaft:
- Qualitätskontrolle und Komponentenanalyse von Lebensmitteln
- Bodenkomponentenforschung und Überwachung der Ökosystemgesundheit
- Anwendung des maschinellen Lernens in der Spektralanalyse:
- Überwachte Lernmethoden für Vorhersagemodellierung
- Unüberwachte Lernmethoden für Mustererkennung und Clustering
- Kontinuität: Basiert auf früheren chemometrischen Analysearbeiten der Autoren.
- Erweiterung: Erweiterung von traditionellen Chemometrie-Methoden auf moderne Techniken des maschinellen Lernens.
- Systematik: Erstmalige systematische Vergleichung mehrerer Dimensionsreduktionsmethoden in der NIR-Spektralanalyse.
Im Vergleich zu bestehenden Arbeiten bietet dieses Papier einen umfassenderen Vergleich von Dimensionsreduktionsmethoden, insbesondere eine systematische Bewertung im Bereich der pharmazeutischen NIR-Spektralanalyse.
- Methodeneffektivität: Die bewerteten Dimensionsreduktionsmethoden erweisen sich als wirksam bei der Vereinfachung hochdimensionaler Spektraldaten und der Enthüllung zugrunde liegender Strukturen.
- Linear vs. Nichtlinear: Lineare Methoden wie PCA bieten schnelle und interpretierbare Varianzübersichten, sind aber bei der Erfassung nichtlinearer Beziehungen begrenzt.
- Optimale Methoden: Nichtlineare Methoden wie t-SNE und UMAP sind effektiver bei der Entdeckung aussagekräftiger Cluster und lokaler Muster in Spektren.
- Anwendungswert: Die Kombination von NIR-Spektroskopie mit modernen Techniken des maschinellen Lernens kann die Datenexploration und Interpretation in der pharmazeutischen Forschung verbessern.
- Datensatzgröße: Nur NIR-Spektraldaten von Paracetamol verwendet; Verallgemeinerbarkeit muss noch überprüft werden.
- Parameterempfindlichkeit: Einige Methoden (z. B. t-SNE) sind empfindlich gegenüber Parametereinstellungen und erfordern sorgfältige Optimierung.
- Mangel an quantitativer Analyse: Konzentriert sich hauptsächlich auf qualitative Visualisierungseffekte; quantitative Leistungsindikatoren fehlen.
- Rechenkomplexität: Rechenkomplexität verschiedener Methoden wurde nicht detailliert analysiert.
- Erweiterte Anwendungen: Anwendung der Methoden auf NIR-Spektralanalyse anderer Arzneistoffe.
- Algorithmusoptimierung: Entwicklung spezialisierter Dimensionsreduktionsalgorithmen, die den Merkmalen von NIR-Spektren entsprechen.
- Echtzeitanwendungen: Erkundung praktischer Anwendungen in der Online-Qualitätskontrolle und Prozessüberwachung.
- Multimodale Fusion: Kombination mit anderen Analysetechniken zur Verbesserung der Analysepräzision.
- Systematik der Forschung: Erstmalige systematische Vergleichung mehrerer Dimensionsreduktionsmethoden in der NIR-Spektralanalyse, füllt Forschungslücken.
- Methodenvielfalt: Umfasst das gesamte Spektrum von klassischen linearen Methoden bis zu modernen nichtlinearen Techniken.
- Praktischer Anwendungswert: Hat direkten Anwendungswert in der pharmazeutischen Qualitätskontrolle.
- Visualisierungseffektivität: Bietet klare Visualisierungsergebnisse, die das Verständnis der Merkmale verschiedener Methoden erleichtern.
- Technische Validierung: Validiert durch Vergleichsexperimente das Vorhandensein nichtlinearer Strukturen.
- Theoretische Tiefe: Mangel an tieferer theoretischer Analyse, warum bestimmte Methoden bei NIR-Spektraldaten besser abschneiden.
- Quantitative Bewertung: Hauptsächlich auf visuelle Bewertung angewiesen; objektive quantitative Indikatoren fehlen.
- Datenbeschränkungen: Nur Daten eines einzelnen Arzneistoffs verwendet; Verallgemeinerbarkeit muss weiter überprüft werden.
- Parameteroptimierung: Beschreibung des Auswahlprozesses und der Optimierung kritischer Parameter ist nicht ausreichend detailliert.
- Recheneffizienz: Keine Bereitstellung von Vergleichen der Rechenzeit und des Ressourcenverbrauchs verschiedener Methoden.
- Akademischer Beitrag: Führt systematische Forschung moderner Techniken des maschinellen Lernens in das Feld der NIR-Spektralanalyse ein.
- Praktischer Wert: Bietet neue technische Optionen für die Qualitätskontrolle in der Pharmaindustrie.
- Methodenförderung: Trägt zur Förderung der Anwendung von Dimensionsreduktionsmethoden in der Spektralanalyse bei.
- Interdisziplinäre Fusion: Fördert die Querfachintegration von Optik, Chemie und maschinellem Lernen.
- Pharmazeutische Qualitätskontrolle: Analyse von Arzneistoffkomponenten und Qualitätsprüfung.
- Lebensmittelsicherheitserkennung: Analyse von Lebensmittelkomponenten und Qualität.
- Überwachung chemischer Prozesse: Echtzeitkontrolle und Produktqualitätsüberwachung.
- Materialwissenschaftliche Forschung: Schnelle Analyse von Materialkomponenten und -eigenschaften.
Das Papier zitiert 20 wichtige Referenzen, die klassische und aktuelle Arbeiten in den Bereichen NIR-Spektroskopie, Techniken des maschinellen Lernens und verwandten Anwendungsfeldern abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dieses Papier ist eine interdisziplinäre Forschungsarbeit mit praktischem Anwendungswert, die systematisch die Anwendungseffektivität mehrerer Dimensionsreduktionsmethoden in der NIR-Spektralanalyse bewertet. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und quantitativer Analyse gibt, bieten seine systematische Vergleichsforschung und klaren Visualisierungsergebnisse wertvolle Referenzen für Forscher und Praktiker in verwandten Bereichen. Diese Arbeit trägt dazu bei, die Kombination von NIR-Spektroskopie und modernen Techniken des maschinellen Lernens voranzutreiben und hat gute Anwendungsaussichten in Bereichen wie der Pharmazie.