2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

Un Enfoque Novedoso Utilizando CapsNet y Red de Creencias Profundas para la Detección e Identificación del Cáncer Oral

Información Básica

ID del Artículo: 2501.00876
Título: Clasificación Mejorada del Cáncer Oral Utilizando Técnicas de Aprendizaje Profundo
Autores: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
Clasificación: eess.IV cs.CV cs.LG
Área de Investigación: Procesamiento de Imágenes Médicas, Aprendizaje Profundo, Visión por Computadora
Enlace del Artículo: https://arxiv.org/abs/2501.00876

Resumen

El cáncer oral es un problema de salud global significativo que causó 277,484 muertes en 2023, con la mayor incidencia en países de ingresos bajos y medios. Este estudio propone un método novedoso que combina CapsNet y Red de Creencias Profundas (DBN) para la detección y clasificación automática de lesiones orales. La investigación recopiló datos de imágenes de expertos clínicos globales y los equipó con herramientas de anotación para un etiquetado integral. El método alcanzó una puntuación F1 del 94.23% en tareas de clasificación de imágenes para detectar imágenes de lesiones, 93.46% de puntuación F1 para identificar imágenes que requieren derivación, y 89.34% de puntuación F1 en tareas de detección de objetos.

Antecedentes de Investigación y Motivación

Importancia del Problema

Carga Global de Salud: El cáncer oral es un problema de salud significativo a nivel mundial, con predicciones de GLOBOCAN 2021 de 387,864 nuevos casos y 234,384 muertes
Variaciones Geográficas: Tres cuartas partes de los casos ocurren en países de bajos ingresos, con África e India representando la mitad de los casos globales
Diagnóstico Retrasado: En países de ingresos bajos y medios (PIBM), más de dos tercios de los casos se detectan en etapas avanzadas, resultando en tasas de supervivencia más bajas
Carga Económica: Los costos del tratamiento del cáncer son extremadamente altos, especialmente en casos de diagnóstico tardío

Limitaciones de Métodos Existentes

Escasez de Profesionales: Falta de médicos especialistas y recursos médicos, particularmente en regiones PIBM
Subjetividad del Diagnóstico: El diagnóstico tradicional depende de la experiencia del clínico, careciendo de métodos estandarizados
Requisitos de Equipamiento: Los métodos de aprendizaje profundo existentes requieren equipos costosos o plataformas de cribado especialmente diseñadas
Problemas de Accesibilidad: Los requisitos de examen con aumento de alta potencia de la región de interés limitan la aplicación generalizada

Motivación de la Investigación

Desarrollar sistemas de automatización de diagnóstico temprano rentables
Utilizar imágenes de dispositivos móviles para cribado de telemedicina
Mejorar la precisión de derivación de programas de cribado
Reducir la dependencia de equipos especializados y personal

Contribuciones Principales

Arquitectura Innovadora: Se propone un marco híbrido de aprendizaje profundo que combina CapsNet y Red de Creencias Profundas (DBN)
Fusión de Anotaciones Multimédico: Se desarrolló un método novedoso para integrar anotaciones de cuadros delimitadores de múltiples médicos
Detección de Alto Rendimiento: Se logró un rendimiento excepcional en tareas de detección y clasificación de lesiones orales
Diseño Práctico: Diseñado para escenarios de aplicación práctica con imágenes de dispositivos móviles

Explicación Detallada del Método

Definición de Tareas

Entrada: Imágenes de la cavidad oral (provenientes de dispositivos móviles o equipos clínicos)
Salida: Resultados de detección de lesiones, etiquetas de clasificación, recomendaciones de derivación
Objetivo: Identificar automáticamente lesiones orales y clasificarlas según el grado de malignidad

Arquitectura del Modelo

1. Diseño de Arquitectura Híbrida

El modelo híbrido propuesto en esta investigación combina dos componentes principales:

CapsNet: Utilizado para tareas de clasificación de imágenes
Red de Creencias Profundas (DBN): Utilizada para extracción de características y reconocimiento de patrones

2. Componente CapsNet

Idea Central: Simula unidades de procesamiento de "cápsulas" en el cerebro humano

Estructura de Cápsulas: Cada cápsula representa una entidad específica en la imagen, con el estado neuronal codificando características de la entidad
Salida Vectorial: La longitud del vector de salida representa la probabilidad de existencia de la entidad, mientras que la dirección refleja atributos de la entidad
Enrutamiento Dinámico: Reemplaza el agrupamiento máximo tradicional mediante el mecanismo de "enrutamiento por acuerdo"
Función de Compresión: Aplica transformación no lineal a la salida vectorial, asegurando representación de escala apropiada

Ventajas Técnicas:

CNN Tradicional: Apilamiento capa por capa → Pérdida de características
CapsNet: Anidamiento jerárquico → Preservación de relaciones espaciales

3. Red de Creencias Profundas (DBN)

Flujo de Preprocesamiento:

Blanqueamiento de Imagen: Reduce la correlación entre píxeles adyacentes, normaliza la varianza a 0
Procesamiento en Minilotes: Divide aleatoriamente los datos de entrada, reduce el impacto del ruido

Estructura de Red:

Arquitectura DBN de Tres Capas: Utilizada para extracción de características de imágenes histológicas de neuroblastoma
Apilamiento CRBM: Máquinas de Boltzmann Restringidas Convolucionales apiladas verticalmente
Estructura Jerárquica: Capa visible (RK×RK) → Capa oculta (N grupos de unidades MQ×MQ) → Capa de agrupamiento

Parámetros Clave:

Número total de neuronas
Número de grupos de capas ocultas
Tamaño de minilote

Puntos de Innovación Técnica

Aplicación de Red de Cápsulas: Primera aplicación de CapsNet en detección de cáncer oral, preservando información jerárquica espacial
Arquitectura Híbrida: Combinación efectiva de DBN y CapsNet, aprovechando las ventajas de cada uno
Anotación Multimédico: Estrategia innovadora de fusión de anotaciones de cuadros delimitadores
Aprendizaje Extremo a Extremo: Proceso completo desde imagen sin procesar hasta recomendación de diagnóstico final

Configuración Experimental

Conjunto de Datos

Fuente de Datos: Imágenes orales recopiladas por expertos clínicos globales
Método de Anotación: Anotación de cuadros delimitadores multimédico
Aumento de Datos: Aplicación de técnicas de rotación, volteo, etc. para expandir el conjunto de entrenamiento
Preprocesamiento:
- Normalización de color para eliminar variaciones de tinción
- Filtrado de mediana para reducción de ruido
- Mejora de imagen para reducir sobreajuste

Métricas de Evaluación

Puntuación F1: Media armónica de precisión y recuperación
Precisión (Precision): Proporción de ejemplos positivos predichos correctamente entre todos los ejemplos positivos predichos
Recuperación (Recall): Proporción de ejemplos positivos predichos correctamente entre todos los ejemplos positivos reales
Precisión (Accuracy): Proporción de predicciones correctas en general

Estrategia de Entrenamiento

Épocas de Entrenamiento: 10 épocas iniciales, posteriormente extendidas a 30 épocas
Parada Temprana: Se detiene después de alcanzar la mejor precisión de validación del 97.1% en la época 12
Función de Pérdida: Tanto la pérdida de entrenamiento como la de validación muestran tendencia decreciente y se estabilizan

Resultados Experimentales

Resultados Principales

Indicadores de Rendimiento General

Clasificación de Imágenes:
- Detección de lesiones: Puntuación F1 94.23%
- Identificación de derivación: Puntuación F1 93.46%
Detección de Objetos:
- Identificación de lesiones que requieren derivación: Puntuación F1 89.34%

Resultados de Clasificación Detallados

Categoría de Imagen	Precisión (%)	Recuperación (%)	Puntuación F1 (%)
Sin lesión detectada	90.86	91.23	80.65
Imagen sin necesidad de derivación	93.26	90.21	94.52
Consulta por otras razones	89.32	91.24	80.15
Riesgo bajo de cáncer	90.88	89.23	87.21
Riesgo alto de cáncer	94.24	90.21	84.21

Análisis del Proceso de Entrenamiento

Cambio de Precisión: Crecimiento exponencial en las primeras 12 épocas, posteriormente se estabiliza
Precisión de Entrenamiento Final: 94.28%
Precisión de Validación Final: 94.55%
Valores de Pérdida: Pérdida de entrenamiento 0.18432, pérdida de validación 0.16543

Hallazgos Experimentales

Características de Convergencia: El modelo converge efectivamente dentro de 30 épocas
Capacidad de Generalización: Las tendencias de curvas de entrenamiento y validación son consistentes, mostrando buena generalización
Estabilidad: La función de pérdida disminuye suavemente, el entrenamiento del modelo es estable
Rendimiento Estratificado: Existen diferencias en el rendimiento de detección entre diferentes niveles de riesgo

Trabajo Relacionado

Evolución de Métodos Tradicionales

Características de Textura: La investigación temprana se concentró en características de escala de grises y textura
Técnicas Avanzadas: Investigaciones posteriores introdujeron técnicas de imagen de orden superior y leyes de energía de textura
Aprendizaje Profundo: Las CNN se aplicaron ampliamente en imágenes médicas después de la competencia ImageNet

Métodos Existentes de Aprendizaje Profundo

Métodos Multimodales: Marco de aprendizaje profundo multimodal que combina metadatos de pacientes (precisión 87%)
Ada Boosting: Método que utiliza cinco espacios de color (precisión 97.25%)
Aprendizaje por Ensamble: Modelo de ensamble CNN preentrenado (precisión 97.88%)
Aprendizaje por Transferencia: Aplicación de modelos preentrenados como ResNet50

Ventajas de Este Trabajo

Requisitos de Equipamiento Bajos: Aplicable a imágenes de dispositivos móviles, sin necesidad de equipos especializados
Innovación Arquitectónica: Combinación única de CapsNet + DBN
Fortaleza Práctica: Diseñado para escenarios de aplicación clínica real

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: El aprendizaje profundo tiene la capacidad de resolver el complejo problema de detección de cáncer oral
Rendimiento Excepcional: Alcanza rendimiento superior al 90% en múltiples métricas de evaluación
Valor Clínico: Puede apoyar decisiones de diagnóstico temprano y derivación

Limitaciones

Escala del Conjunto de Datos: No se especifica claramente el tamaño específico del conjunto de datos
Validación Transétnica: Falta de resultados de validación en diferentes poblaciones
Rendimiento en Tiempo Real: No se reportan tiempos de inferencia del modelo ni complejidad computacional
Inconsistencia de Título: El título del artículo menciona "Leucopenia Oral" pero el contenido se enfoca principalmente en cáncer oral

Direcciones Futuras

Fusión Multimodal: Integración de más tipos de datos clínicos
Expansión Poblacional: Validación del rendimiento del modelo en poblaciones más amplias
Despliegue en Tiempo Real: Optimización del modelo para apoyar inferencia en tiempo real en dispositivos móviles
Estandarización: Establecimiento de estándares de evaluación unificados y conjuntos de datos

Evaluación Profunda

Fortalezas

Innovación Metodológica: La combinación de CapsNet y DBN posee novedad
Necesidad Práctica: Aplicación importante dirigida a problemas de salud global
Rendimiento Excelente: Alcanza niveles altos en múltiples indicadores
Diseño Práctico: Considera la viabilidad del despliegue real

Deficiencias

Análisis Teórico: Falta análisis teórico profundo de la arquitectura híbrida
Experimentos Comparativos: Comparación insuficiente con otros métodos SOTA
Experimentos de Ablación: Validación insuficiente de la contribución independiente de cada componente
Validación de Generalización: Falta de resultados de validación entre conjuntos de datos

Impacto

Valor Académico: Proporciona nuevas rutas técnicas para análisis de imágenes médicas
Valor Práctico: Tiene potencial para aplicación en cribado en regiones con recursos limitados
Reproducibilidad: Requiere detalles de implementación más detallados para apoyar la reproducción

Escenarios Aplicables

Telemedicina: Aplicable en regiones que carecen de médicos especialistas
Cribado Inicial: Puede servir como herramienta auxiliar para examen clínico
Capacitación Educativa: Puede utilizarse para capacitación de estudiantes de medicina y médicos generales
Cribado a Gran Escala: Apoya programas de cribado de cáncer oral a nivel poblacional

Referencias

El artículo cita 15 investigaciones relacionadas, cubriendo múltiples aspectos incluyendo detección de cáncer oral, aplicaciones de aprendizaje profundo, métodos multimodales, etc., proporcionando una base teórica sólida y comparación técnica para esta investigación.

Evaluación General: Esta investigación propone un marco innovador de aprendizaje profundo híbrido para la detección de cáncer oral, con importante valor de aplicación clínica. Aunque hay espacio para mejora en análisis teórico y verificación experimental, su enfoque de diseño orientado a necesidades prácticas y su rendimiento excepcional la convierten en una contribución valiosa en este campo.