2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

Un Enfoque Novedoso Utilizando CapsNet y Red de Creencias Profundas para la Detección e Identificación del Cáncer Oral

Información Básica

  • ID del Artículo: 2501.00876
  • Título: Clasificación Mejorada del Cáncer Oral Utilizando Técnicas de Aprendizaje Profundo
  • Autores: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
  • Clasificación: eess.IV cs.CV cs.LG
  • Área de Investigación: Procesamiento de Imágenes Médicas, Aprendizaje Profundo, Visión por Computadora
  • Enlace del Artículo: https://arxiv.org/abs/2501.00876

Resumen

El cáncer oral es un problema de salud global significativo que causó 277,484 muertes en 2023, con la mayor incidencia en países de ingresos bajos y medios. Este estudio propone un método novedoso que combina CapsNet y Red de Creencias Profundas (DBN) para la detección y clasificación automática de lesiones orales. La investigación recopiló datos de imágenes de expertos clínicos globales y los equipó con herramientas de anotación para un etiquetado integral. El método alcanzó una puntuación F1 del 94.23% en tareas de clasificación de imágenes para detectar imágenes de lesiones, 93.46% de puntuación F1 para identificar imágenes que requieren derivación, y 89.34% de puntuación F1 en tareas de detección de objetos.

Antecedentes de Investigación y Motivación

Importancia del Problema

  1. Carga Global de Salud: El cáncer oral es un problema de salud significativo a nivel mundial, con predicciones de GLOBOCAN 2021 de 387,864 nuevos casos y 234,384 muertes
  2. Variaciones Geográficas: Tres cuartas partes de los casos ocurren en países de bajos ingresos, con África e India representando la mitad de los casos globales
  3. Diagnóstico Retrasado: En países de ingresos bajos y medios (PIBM), más de dos tercios de los casos se detectan en etapas avanzadas, resultando en tasas de supervivencia más bajas
  4. Carga Económica: Los costos del tratamiento del cáncer son extremadamente altos, especialmente en casos de diagnóstico tardío

Limitaciones de Métodos Existentes

  1. Escasez de Profesionales: Falta de médicos especialistas y recursos médicos, particularmente en regiones PIBM
  2. Subjetividad del Diagnóstico: El diagnóstico tradicional depende de la experiencia del clínico, careciendo de métodos estandarizados
  3. Requisitos de Equipamiento: Los métodos de aprendizaje profundo existentes requieren equipos costosos o plataformas de cribado especialmente diseñadas
  4. Problemas de Accesibilidad: Los requisitos de examen con aumento de alta potencia de la región de interés limitan la aplicación generalizada

Motivación de la Investigación

  1. Desarrollar sistemas de automatización de diagnóstico temprano rentables
  2. Utilizar imágenes de dispositivos móviles para cribado de telemedicina
  3. Mejorar la precisión de derivación de programas de cribado
  4. Reducir la dependencia de equipos especializados y personal

Contribuciones Principales

  1. Arquitectura Innovadora: Se propone un marco híbrido de aprendizaje profundo que combina CapsNet y Red de Creencias Profundas (DBN)
  2. Fusión de Anotaciones Multimédico: Se desarrolló un método novedoso para integrar anotaciones de cuadros delimitadores de múltiples médicos
  3. Detección de Alto Rendimiento: Se logró un rendimiento excepcional en tareas de detección y clasificación de lesiones orales
  4. Diseño Práctico: Diseñado para escenarios de aplicación práctica con imágenes de dispositivos móviles

Explicación Detallada del Método

Definición de Tareas

  • Entrada: Imágenes de la cavidad oral (provenientes de dispositivos móviles o equipos clínicos)
  • Salida: Resultados de detección de lesiones, etiquetas de clasificación, recomendaciones de derivación
  • Objetivo: Identificar automáticamente lesiones orales y clasificarlas según el grado de malignidad

Arquitectura del Modelo

1. Diseño de Arquitectura Híbrida

El modelo híbrido propuesto en esta investigación combina dos componentes principales:

  • CapsNet: Utilizado para tareas de clasificación de imágenes
  • Red de Creencias Profundas (DBN): Utilizada para extracción de características y reconocimiento de patrones

2. Componente CapsNet

Idea Central: Simula unidades de procesamiento de "cápsulas" en el cerebro humano

  • Estructura de Cápsulas: Cada cápsula representa una entidad específica en la imagen, con el estado neuronal codificando características de la entidad
  • Salida Vectorial: La longitud del vector de salida representa la probabilidad de existencia de la entidad, mientras que la dirección refleja atributos de la entidad
  • Enrutamiento Dinámico: Reemplaza el agrupamiento máximo tradicional mediante el mecanismo de "enrutamiento por acuerdo"
  • Función de Compresión: Aplica transformación no lineal a la salida vectorial, asegurando representación de escala apropiada

Ventajas Técnicas:

CNN Tradicional: Apilamiento capa por capa → Pérdida de características
CapsNet: Anidamiento jerárquico → Preservación de relaciones espaciales

3. Red de Creencias Profundas (DBN)

Flujo de Preprocesamiento:

  1. Blanqueamiento de Imagen: Reduce la correlación entre píxeles adyacentes, normaliza la varianza a 0
  2. Procesamiento en Minilotes: Divide aleatoriamente los datos de entrada, reduce el impacto del ruido

Estructura de Red:

  • Arquitectura DBN de Tres Capas: Utilizada para extracción de características de imágenes histológicas de neuroblastoma
  • Apilamiento CRBM: Máquinas de Boltzmann Restringidas Convolucionales apiladas verticalmente
  • Estructura Jerárquica: Capa visible (RK×RK) → Capa oculta (N grupos de unidades MQ×MQ) → Capa de agrupamiento

Parámetros Clave:

  • Número total de neuronas
  • Número de grupos de capas ocultas
  • Tamaño de minilote

Puntos de Innovación Técnica

  1. Aplicación de Red de Cápsulas: Primera aplicación de CapsNet en detección de cáncer oral, preservando información jerárquica espacial
  2. Arquitectura Híbrida: Combinación efectiva de DBN y CapsNet, aprovechando las ventajas de cada uno
  3. Anotación Multimédico: Estrategia innovadora de fusión de anotaciones de cuadros delimitadores
  4. Aprendizaje Extremo a Extremo: Proceso completo desde imagen sin procesar hasta recomendación de diagnóstico final

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: Imágenes orales recopiladas por expertos clínicos globales
  • Método de Anotación: Anotación de cuadros delimitadores multimédico
  • Aumento de Datos: Aplicación de técnicas de rotación, volteo, etc. para expandir el conjunto de entrenamiento
  • Preprocesamiento:
    • Normalización de color para eliminar variaciones de tinción
    • Filtrado de mediana para reducción de ruido
    • Mejora de imagen para reducir sobreajuste

Métricas de Evaluación

  • Puntuación F1: Media armónica de precisión y recuperación
  • Precisión (Precision): Proporción de ejemplos positivos predichos correctamente entre todos los ejemplos positivos predichos
  • Recuperación (Recall): Proporción de ejemplos positivos predichos correctamente entre todos los ejemplos positivos reales
  • Precisión (Accuracy): Proporción de predicciones correctas en general

Estrategia de Entrenamiento

  • Épocas de Entrenamiento: 10 épocas iniciales, posteriormente extendidas a 30 épocas
  • Parada Temprana: Se detiene después de alcanzar la mejor precisión de validación del 97.1% en la época 12
  • Función de Pérdida: Tanto la pérdida de entrenamiento como la de validación muestran tendencia decreciente y se estabilizan

Resultados Experimentales

Resultados Principales

Indicadores de Rendimiento General

  • Clasificación de Imágenes:
    • Detección de lesiones: Puntuación F1 94.23%
    • Identificación de derivación: Puntuación F1 93.46%
  • Detección de Objetos:
    • Identificación de lesiones que requieren derivación: Puntuación F1 89.34%

Resultados de Clasificación Detallados

Categoría de ImagenPrecisión (%)Recuperación (%)Puntuación F1 (%)
Sin lesión detectada90.8691.2380.65
Imagen sin necesidad de derivación93.2690.2194.52
Consulta por otras razones89.3291.2480.15
Riesgo bajo de cáncer90.8889.2387.21
Riesgo alto de cáncer94.2490.2184.21

Análisis del Proceso de Entrenamiento

  • Cambio de Precisión: Crecimiento exponencial en las primeras 12 épocas, posteriormente se estabiliza
  • Precisión de Entrenamiento Final: 94.28%
  • Precisión de Validación Final: 94.55%
  • Valores de Pérdida: Pérdida de entrenamiento 0.18432, pérdida de validación 0.16543

Hallazgos Experimentales

  1. Características de Convergencia: El modelo converge efectivamente dentro de 30 épocas
  2. Capacidad de Generalización: Las tendencias de curvas de entrenamiento y validación son consistentes, mostrando buena generalización
  3. Estabilidad: La función de pérdida disminuye suavemente, el entrenamiento del modelo es estable
  4. Rendimiento Estratificado: Existen diferencias en el rendimiento de detección entre diferentes niveles de riesgo

Trabajo Relacionado

Evolución de Métodos Tradicionales

  1. Características de Textura: La investigación temprana se concentró en características de escala de grises y textura
  2. Técnicas Avanzadas: Investigaciones posteriores introdujeron técnicas de imagen de orden superior y leyes de energía de textura
  3. Aprendizaje Profundo: Las CNN se aplicaron ampliamente en imágenes médicas después de la competencia ImageNet

Métodos Existentes de Aprendizaje Profundo

  1. Métodos Multimodales: Marco de aprendizaje profundo multimodal que combina metadatos de pacientes (precisión 87%)
  2. Ada Boosting: Método que utiliza cinco espacios de color (precisión 97.25%)
  3. Aprendizaje por Ensamble: Modelo de ensamble CNN preentrenado (precisión 97.88%)
  4. Aprendizaje por Transferencia: Aplicación de modelos preentrenados como ResNet50

Ventajas de Este Trabajo

  1. Requisitos de Equipamiento Bajos: Aplicable a imágenes de dispositivos móviles, sin necesidad de equipos especializados
  2. Innovación Arquitectónica: Combinación única de CapsNet + DBN
  3. Fortaleza Práctica: Diseñado para escenarios de aplicación clínica real

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: El aprendizaje profundo tiene la capacidad de resolver el complejo problema de detección de cáncer oral
  2. Rendimiento Excepcional: Alcanza rendimiento superior al 90% en múltiples métricas de evaluación
  3. Valor Clínico: Puede apoyar decisiones de diagnóstico temprano y derivación

Limitaciones

  1. Escala del Conjunto de Datos: No se especifica claramente el tamaño específico del conjunto de datos
  2. Validación Transétnica: Falta de resultados de validación en diferentes poblaciones
  3. Rendimiento en Tiempo Real: No se reportan tiempos de inferencia del modelo ni complejidad computacional
  4. Inconsistencia de Título: El título del artículo menciona "Leucopenia Oral" pero el contenido se enfoca principalmente en cáncer oral

Direcciones Futuras

  1. Fusión Multimodal: Integración de más tipos de datos clínicos
  2. Expansión Poblacional: Validación del rendimiento del modelo en poblaciones más amplias
  3. Despliegue en Tiempo Real: Optimización del modelo para apoyar inferencia en tiempo real en dispositivos móviles
  4. Estandarización: Establecimiento de estándares de evaluación unificados y conjuntos de datos

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: La combinación de CapsNet y DBN posee novedad
  2. Necesidad Práctica: Aplicación importante dirigida a problemas de salud global
  3. Rendimiento Excelente: Alcanza niveles altos en múltiples indicadores
  4. Diseño Práctico: Considera la viabilidad del despliegue real

Deficiencias

  1. Análisis Teórico: Falta análisis teórico profundo de la arquitectura híbrida
  2. Experimentos Comparativos: Comparación insuficiente con otros métodos SOTA
  3. Experimentos de Ablación: Validación insuficiente de la contribución independiente de cada componente
  4. Validación de Generalización: Falta de resultados de validación entre conjuntos de datos

Impacto

  1. Valor Académico: Proporciona nuevas rutas técnicas para análisis de imágenes médicas
  2. Valor Práctico: Tiene potencial para aplicación en cribado en regiones con recursos limitados
  3. Reproducibilidad: Requiere detalles de implementación más detallados para apoyar la reproducción

Escenarios Aplicables

  1. Telemedicina: Aplicable en regiones que carecen de médicos especialistas
  2. Cribado Inicial: Puede servir como herramienta auxiliar para examen clínico
  3. Capacitación Educativa: Puede utilizarse para capacitación de estudiantes de medicina y médicos generales
  4. Cribado a Gran Escala: Apoya programas de cribado de cáncer oral a nivel poblacional

Referencias

El artículo cita 15 investigaciones relacionadas, cubriendo múltiples aspectos incluyendo detección de cáncer oral, aplicaciones de aprendizaje profundo, métodos multimodales, etc., proporcionando una base teórica sólida y comparación técnica para esta investigación.


Evaluación General: Esta investigación propone un marco innovador de aprendizaje profundo híbrido para la detección de cáncer oral, con importante valor de aplicación clínica. Aunque hay espacio para mejora en análisis teórico y verificación experimental, su enfoque de diseño orientado a necesidades prácticas y su rendimiento excepcional la convierten en una contribución valiosa en este campo.