2025-11-21T21:28:15.928836

Techniques of Artificial Intelligence Applied to Near-Infrared Spectra

Sow, Diallo
This article explores the application of various artificial intelligence techniques to the analysis of near-infrared (NIR) spectra of paracetamol, within the spectral range of 900 nm to 1800 nm. The main objective is to evaluate the performance of several dimensionality reduction algorithms; namely, Principal Component Analysis (PCA), Kernel PCA (KPCA), Sparse Kernel PCA, t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP) in modeling and interpreting spectral features. These techniques, derived from data science and machine learning, are evaluated for their ability to simplify analysis and enhance the visualization of NIR spectra in pharmaceutical applications.
academic

Técnicas de Inteligencia Artificial Aplicadas a Espectros de Infrarrojo Cercano

Información Básica

  • ID del Artículo: 2510.10638
  • Título: Técnicas de Inteligencia Artificial Aplicadas a Espectros de Infrarrojo Cercano
  • Autores: Aminata Sow (Departamento de Física, Universidad de Ciencia y Tecnología de Bamako, Mali), Tidiane Diallo (Facultad de Farmacia, Universidad de Ciencia y Tecnología de Bamako, Mali)
  • Clasificación: physics.optics
  • Fecha de Publicación: 12 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.10638v1

Resumen

Este artículo explora la aplicación de múltiples técnicas de inteligencia artificial en el análisis espectroscópico de infrarrojo cercano (NIR) del paracetamol, en el rango espectral de 900-1800 nm. El objetivo principal es evaluar el desempeño de varios algoritmos de reducción de dimensionalidad, incluyendo análisis de componentes principales (PCA), análisis de componentes principales con núcleo (KPCA), análisis de componentes principales con núcleo disperso, incrustación estocástica de vecinos con distribución t (t-SNE) e incrustación de proyección de aproximación de variedad uniforme (UMAP) en la capacidad de modelar e interpretar características espectrales. Se evaluó la capacidad de estas técnicas, derivadas de la ciencia de datos y el aprendizaje automático, para simplificar el análisis y mejorar la visualización de espectros NIR en aplicaciones farmacéuticas.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es cómo procesar y analizar efectivamente datos espectrales de infrarrojo cercano de alta dimensionalidad, particularmente los desafíos de reducción de dimensionalidad y visualización de datos espectrales complejos en aplicaciones farmacéuticas.

Análisis de Importancia

  1. Demanda de la Industria Farmacéutica: La tecnología espectroscópica NIR posee ventajas en el campo farmacéutico tales como no destructividad, velocidad de análisis rápida y capacidad para procesar mezclas complejas, siendo una herramienta importante para control de calidad y análisis de componentes
  2. Problema de la Maldición de la Dimensionalidad: Las mediciones espectrales NIR típicamente generan datos de alta dimensionalidad que contienen características redundantes o altamente correlacionadas, lo que puede enmascarar estructuras subyacentes e impactar el desempeño de algoritmos de aprendizaje automático
  3. Aplicaciones Interdisciplinarias: Más allá de la farmacéutica, la espectroscopia NIR tiene aplicaciones extensas en industria alimentaria, agricultura y ciencias ambientales

Limitaciones de Métodos Existentes

  • Los métodos lineales tradicionales como PCA solo pueden capturar relaciones lineales, siendo incapaces de procesar efectivamente estructuras no lineales complejas
  • Falta de estudios de comparación sistemática de diferentes técnicas de reducción de dimensionalidad en análisis espectral NIR
  • La visualización e interpretación de datos espectrales de alta dimensionalidad sigue siendo un desafío

Motivación de la Investigación

Basándose en trabajos previos de los autores sobre análisis quimiométrico de espectros NIR de paracetamol, esta investigación tiene como objetivo explorar técnicas avanzadas de aprendizaje automático no supervisado, particularmente métodos de reducción de dimensionalidad, para revelar aún más el comportamiento espectral y patrones latentes en el conjunto de datos.

Contribuciones Principales

  1. Estudio Comparativo Sistemático: Primera evaluación sistemática del desempeño de cinco algoritmos de reducción de dimensionalidad diferentes (PCA, KPCA, KPCA disperso, t-SNE, UMAP) en análisis espectral NIR de paracetamol
  2. Descubrimiento de Estructuras No Lineales: Mediante contraste de métodos lineales y no lineales, se confirmó la existencia de estructuras no lineales en datos espectrales NIR
  3. Evaluación de Efectos de Visualización: Proporciona comparación detallada de diferentes técnicas de reducción de dimensionalidad en agrupamiento y visualización de datos espectrales
  4. Optimización de Estrategias de Preprocesamiento: Demuestra la efectividad de métodos de preprocesamiento como corrección de variables normales estándar (SNV), destendenciación y corrección de dispersión multiplicativa (MSC)
  5. Mejora del Desempeño de Agrupamiento: Demuestra que el agrupamiento en espacios reducidos tiene mejor desempeño comparado con espacios originales de alta dimensionalidad

Explicación Detallada de Métodos

Definición de Tareas

La tarea de esta investigación es mapear datos espectrales NIR de alta dimensionalidad (características espectrales en el rango de 900-1800 nm) a espacios de baja dimensionalidad (2D o 3D), mientras se preserva información estructural importante de los datos para facilitar visualización y análisis de agrupamiento subsecuente.

Arquitectura de Algoritmos de Reducción de Dimensionalidad

1. Análisis de Componentes Principales (PCA)

  • Principio: Proyecta datos en un nuevo conjunto de ejes ortogonales (componentes principales), ordenados por la cantidad de varianza capturada
  • Fundamento Matemático: Basado en descomposición de valores propios de matriz de covarianza
  • Ventajas: Alta eficiencia computacional, fuerte interpretabilidad
  • Limitaciones: Solo puede capturar relaciones lineales

2. Análisis de Componentes Principales con Núcleo (KPCA)

  • Punto de Innovación: Utiliza funciones núcleo (como núcleo RBF gaussiano) para mapear datos a espacios de características de alta dimensionalidad
  • Implementación: Ejecuta PCA lineal en el espacio de características transformado
  • Ventajas: Puede extraer estructuras no lineales
  • Aplicación: Utilizado para analizar patrones no lineales en espectros NIR de paracetamol

3. Análisis de Componentes Principales con Núcleo Disperso (SKPCA)

  • Características Técnicas: Introduce restricciones de dispersidad basadas en KPCA
  • Ventajas: Reduce cantidad de vectores de soporte, mejora eficiencia computacional e interpretabilidad
  • Escenarios Aplicables: Conjuntos de datos grandes o de alta dimensionalidad

4. Incrustación Estocástica de Vecinos con Distribución t (t-SNE)

  • Idea de Diseño: Utiliza distribuciones de probabilidad para modelar similitud de pares de puntos de datos
  • Objetivo de Optimización: Minimiza divergencia KL entre distribuciones en espacios original y reducido
  • Fortaleza Especial: Preserva estructura local, revela agrupamientos en datos
  • Sensibilidad de Parámetros: Sensible a parámetros como perplejidad y tasa de aprendizaje

5. Incrustación de Proyección de Aproximación de Variedad Uniforme (UMAP)

  • Fundamento Teórico: Basado en aprendizaje de variedades y análisis topológico de datos
  • Método de Implementación: Construye representación gráfica de alta dimensionalidad y optimiza similitud estructural de gráfico de baja dimensionalidad
  • Ventajas: Preserva mejor estructuras locales y globales comparado con t-SNE, mayor eficiencia computacional

Puntos de Innovación Técnica

  1. Evaluación Integrada de Múltiples Algoritmos: Primera comparación sistemática de múltiples técnicas de reducción de dimensionalidad en análisis espectral NIR
  2. Extracción de Características No Lineales: Revela relaciones no lineales en datos espectrales mediante métodos de núcleo y técnicas de aprendizaje de variedades
  3. Combinación de Preprocesamiento y Reducción de Dimensionalidad: Integra orgánicamente técnicas de preprocesamiento espectral con métodos modernos de reducción de dimensionalidad
  4. Optimización del Desempeño de Agrupamiento: Demuestra importancia del preprocesamiento de reducción de dimensionalidad para mejorar efectos de agrupamiento

Configuración Experimental

Conjunto de Datos

  • Tipo de Muestra: Datos espectrales NIR de paracetamol
  • Rango Espectral: 900-1800 nm
  • Clasificación de Muestras: Divididas en dos categorías según valores de contenido
    • Categoría 1: Muestras con contenido >95 y <1015
    • Categoría 2: Muestras restantes
  • Características de Datos: Datos espectrales de alta dimensionalidad, cantidad de longitudes de onda superior a cantidad de muestras

Métodos de Preprocesamiento

  1. Corrección de Variables Normales Estándar (SNV): Elimina efectos de dispersión de luz
  2. Destendenciación: Elimina desviación de línea base
  3. Corrección de Dispersión Multiplicativa (MSC): Corrige variaciones de dispersión

Métodos de Evaluación

  • Calidad de Visualización: Evalúa efectos de separación de agrupamiento mediante incrustaciones 2D y 3D
  • Preservación de Varianza: Tasa de contribución de varianza acumulada de primeros componentes principales en PCA
  • Desempeño de Agrupamiento: Compara efectos de agrupamiento en espacios diferentes

Algoritmos de Agrupamiento

  • K-means: Aplicado a datos originales de alta dimensionalidad
  • PAM (Particionamiento Alrededor de Medoides): Aplicado a datos reducidos por t-SNE

Resultados Experimentales

Resultados Principales

Comparación de Efectos de Reducción de Dimensionalidad

  1. Resultados de PCA:
    • Los dos primeros componentes principales capturan aproximadamente 100% de varianza total
    • Incapaz de separar claramente muestras en diferentes agrupamientos
    • Destaca limitaciones en captura de relaciones no lineales
  2. Desempeño de KPCA y KPCA Disperso:
    • Proporciona separación mejorada de regiones espectrales superpuestas comparado con PCA lineal
    • KPCA disperso logra este objetivo utilizando menos vectores de soporte
    • Proporciona representación más interpretable y computacionalmente eficiente
  3. Desempeño de t-SNE:
    • Produce agrupamientos claramente separados y bien definidos
    • Preserva efectivamente estructura de vecindario local
    • Sensible a configuraciones de parámetros como perplejidad
    • Consistencia de disposición de agrupamiento global relativamente pobre
  4. Desempeño de UMAP:
    • Demuestra desempeño robusto, generando agrupamientos compactos y bien separados
    • Simultáneamente preserva relaciones locales y globales
    • Alta eficiencia computacional, particularmente adecuado para análisis exploratorio de datos

Comparación de Desempeño de Agrupamiento

  • K-means en Datos Originales: Desempeño de agrupamiento pobre, límites borrosos
  • PAM en Datos Reducidos por t-SNE: Produce agrupamientos más claros y significativos
  • Hallazgo Principal: Preprocesamiento de reducción de dimensionalidad mejora significativamente desempeño de agrupamiento

Hallazgos Experimentales Clave

  1. Confirmación de Estructura No Lineal: Diferencias en patrones de agrupamiento entre PCA lineal y KPCA no lineal confirman existencia de estructuras no lineales en conjunto de datos
  2. Necesidad de Reducción de Dimensionalidad: Agrupamiento directo en espacio de alta dimensionalidad tiene desempeño pobre, mejora significativamente después de reducción de dimensionalidad
  3. Aplicabilidad de Algoritmos: UMAP y t-SNE son más efectivos en revelar estructuras significativas en espectros NIR
  4. Importancia de Preprocesamiento: Preprocesamiento espectral apropiado tiene impacto importante en resultados de análisis subsecuente

Trabajos Relacionados

Direcciones Principales de Investigación

  1. Aplicaciones de Espectroscopia NIR en Campo Farmacéutico:
    • Detección temprana de sustancias psicoactivas novedosas
    • Avances recientes en aplicaciones biomédicas y farmacéuticas
  2. Aplicaciones en Alimentos y Agricultura:
    • Control de calidad alimentaria y análisis de componentes
    • Investigación de composición de suelos y monitoreo de salud de ecosistemas
  3. Aplicaciones de Aprendizaje Automático en Análisis Espectral:
    • Métodos de aprendizaje supervisado para modelado predictivo
    • Técnicas de aprendizaje no supervisado para descubrimiento de patrones y agrupamiento

Relación de Este Artículo con Trabajos Relacionados

  • Continuidad: Basado en trabajos previos de los autores sobre análisis quimiométrico
  • Extensión: Expande de métodos quimiométricos tradicionales a técnicas modernas de aprendizaje automático
  • Sistematicidad: Primera comparación sistemática de múltiples técnicas de reducción de dimensionalidad en análisis espectral NIR

Ventajas Técnicas

Comparado con trabajos existentes, este artículo proporciona comparación más completa de técnicas de reducción de dimensionalidad, particularmente evaluación sistemática en campo de análisis espectral NIR farmacéutico.

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de Métodos: Las técnicas de reducción de dimensionalidad evaluadas demuestran ser efectivas en simplificar datos espectrales de alta dimensionalidad y revelar estructuras latentes
  2. Lineal vs No Lineal: Métodos lineales como PCA proporcionan resumen rápido e interpretable de varianza, pero tienen limitaciones en captura de relaciones no lineales
  3. Método Óptimo: Métodos no lineales como t-SNE y UMAP descubren más efectivamente agrupamientos significativos y patrones locales en espectros
  4. Valor de Aplicación: La combinación de espectroscopia NIR con técnicas modernas de aprendizaje automático puede mejorar exploración e interpretación de datos en investigación farmacéutica

Limitaciones

  1. Escala de Conjunto de Datos: Utiliza solo datos espectrales NIR de paracetamol, generalización requiere verificación
  2. Sensibilidad de Parámetros: Ciertos métodos (como t-SNE) son sensibles a configuración de parámetros, requieren ajuste cuidadoso
  3. Falta de Análisis Cuantitativo: Enfoque principal en efectos de visualización cualitativa, carece de métricas de desempeño cuantitativas
  4. Complejidad Computacional: No analiza detalladamente costos computacionales de diferentes métodos

Direcciones Futuras

  1. Extensión de Aplicaciones: Aplicar métodos a análisis espectral NIR de otros fármacos
  2. Optimización de Algoritmos: Desarrollar algoritmos de reducción de dimensionalidad especializados adaptados a características de espectros NIR
  3. Aplicaciones en Tiempo Real: Explorar aplicaciones prácticas en control de calidad en línea y monitoreo de procesos
  4. Fusión Multimodal: Combinar con otras técnicas analíticas para mejorar precisión analítica

Evaluación Profunda

Fortalezas

  1. Sistematicidad de Investigación: Primera comparación sistemática de múltiples técnicas de reducción de dimensionalidad en análisis espectral NIR, llenando vacío de investigación
  2. Diversidad de Métodos: Abarca espectro completo desde métodos lineales clásicos hasta técnicas no lineales modernas
  3. Valor de Aplicación Práctica: Posee valor de aplicación directa en campo de control de calidad farmacéutico
  4. Efectos de Visualización: Proporciona resultados de visualización claros, facilitando comprensión de características de diferentes métodos
  5. Verificación Técnica: Verifica existencia de estructuras no lineales mediante experimentos comparativos

Insuficiencias

  1. Profundidad Teórica: Carece de análisis teórico profundo sobre por qué ciertos métodos tienen mejor desempeño en datos espectrales NIR
  2. Evaluación Cuantitativa: Depende principalmente de evaluación visual, carece de métricas objetivas cuantitativas
  3. Limitaciones de Datos: Utiliza solo datos de un fármaco único, necesita verificación adicional de generalización
  4. Ajuste de Parámetros: Descripción insuficiente de proceso de selección y ajuste de parámetros clave
  5. Eficiencia Computacional: No proporciona comparación de tiempo computacional y consumo de recursos de diferentes métodos

Impacto

  1. Contribución Académica: Introduce investigación sistemática de métodos modernos de aprendizaje automático al campo de análisis espectral NIR
  2. Valor Práctico: Proporciona nuevas opciones técnicas para control de calidad en industria farmacéutica
  3. Promoción de Métodos: Facilita promoción de aplicación de técnicas de reducción de dimensionalidad en análisis espectral
  4. Fusión Interdisciplinaria: Promueve fusión interdisciplinaria de campos de óptica, química y aprendizaje automático

Escenarios Aplicables

  1. Control de Calidad Farmacéutico: Análisis de componentes de fármacos y detección de calidad
  2. Detección de Seguridad Alimentaria: Análisis de componentes y calidad de alimentos
  3. Monitoreo de Procesos Químicos: Control de procesos en tiempo real y monitoreo de calidad de productos
  4. Investigación en Ciencia de Materiales: Análisis rápido de componentes y propiedades de materiales

Referencias Bibliográficas

El artículo cita 20 referencias importantes que abarcan trabajos clásicos y de vanguardia en tecnología espectroscópica NIR, métodos de aprendizaje automático y campos de aplicación relacionados, proporcionando fundamento teórico sólido para la investigación.


Evaluación General: Este artículo es un trabajo de investigación interdisciplinaria con valor de aplicación práctica que evalúa sistemáticamente la efectividad de aplicación de múltiples técnicas de reducción de dimensionalidad en análisis espectral NIR. Aunque hay espacio para mejora en profundidad teórica y análisis cuantitativo, su investigación comparativa sistemática y resultados de visualización claros proporcionan referencias valiosas para investigadores y profesionales en campos relacionados. Este trabajo contribuye a avanzar la combinación de tecnología espectroscópica NIR con métodos modernos de aprendizaje automático, con buenas perspectivas de aplicación en campos como farmacéutica.