2025-11-18T01:13:20.274920

Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning

V, K

Lung cancer is an extremely lethal disease primarily due to its late-stage diagnosis and significant mortality rate, making it the major cause of cancer-related demises globally. Machine Learning (ML) and Convolution Neural network (CNN) based Deep Learning (DL) techniques are primarily used for precise segmentation and classification of cancerous nodules in the CT (Computed Tomography) or MRI images. This study introduces an innovative approach to lung nodule segmentation by utilizing the Segment Anything Model (SAM) combined with transfer learning techniques. Precise segmentation of lung nodules is crucial for the early detection of lung cancer. The proposed method leverages Bounding Box prompts and a vision transformer model to enhance segmentation performance, achieving high accuracy, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU) metrics. The integration of SAM and Transfer Learning significantly improves Computer-Aided Detection (CAD) systems in medical imaging, particularly for lung cancer diagnosis. The findings demonstrate the proposed model effectiveness in precisely segmenting lung nodules from CT scans, underscoring its potential to advance early detection and improve patient care outcomes in lung cancer diagnosis. The results show SAM Model with transfer learning achieving a DSC of 97.08% and an IoU of 95.6%, for segmentation and accuracy of 96.71% for classification indicates that ,its performance is noteworthy compared to existing techniques.

academic

Segmentación y Clasificación Avanzada de Nódulos Pulmonares para la Detección Temprana del Cáncer de Pulmón utilizando SAM y Aprendizaje por Transferencia

Información Básica

ID del Artículo: 2501.00586
Título: Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning
Autores: Asha V, Bhavanishankar K (Instituto de Tecnología RNS, Bengaluru & Universidad Tecnológica Visvesvaraya, Belagavi)
Clasificación: eess.IV cs.CV cs.LG
Fecha de Publicación: Preimpresión enviada a Image and Vision Computing, 31 de diciembre de 2024
Enlace del Artículo: https://arxiv.org/abs/2501.00586

Resumen

Este estudio aborda el problema médico crítico de la detección temprana del cáncer de pulmón, proponiendo un método innovador de segmentación y clasificación de nódulos pulmonares. El método combina el Modelo Segment Anything (SAM) y técnicas de aprendizaje por transferencia, utilizando indicaciones de cuadros delimitadores y modelos de transformadores visuales para mejorar el rendimiento de segmentación. Los resultados experimentales demuestran que el método logra un coeficiente de similitud de Dice (DSC) del 97.08% e intersección sobre unión (IoU) del 95.6% en tareas de segmentación, y una precisión del 96.71% en tareas de clasificación, mostrando ventajas significativas respecto a la tecnología existente.

Antecedentes de Investigación y Motivación

Importancia del Problema

Gravedad del Cáncer de Pulmón: El cáncer de pulmón es la principal causa de muerte relacionada con el cáncer a nivel mundial, representando aproximadamente el 18% de todas las muertes por cáncer en 2024, causando aproximadamente 1.8 millones de muertes anuales
Criticidad de la Detección Temprana: La alta tasa de mortalidad del cáncer de pulmón se debe principalmente al diagnóstico tardío; la detección temprana y precisa es crucial para mejorar el pronóstico del paciente
Desafíos en el Análisis de Imágenes Médicas: La complejidad de las imágenes de tomografía computarizada y los requisitos de volumen de datos demandan sistemas de detección asistida por computadora (CAD) para ayudar a los radiólogos en el diagnóstico preciso

Limitaciones de Métodos Existentes

Métodos Tradicionales de Procesamiento de Imágenes: La detección de bordes, segmentación por umbralización y métodos basados en regiones presentan limitaciones al tratar con la complejidad y variabilidad de imágenes médicas
Desafíos de Métodos de Aprendizaje Profundo: Aunque métodos de aprendizaje profundo como CNN muestran excelente rendimiento en análisis de imágenes médicas, aún enfrentan desafíos en precisión de segmentación y clasificación
Problemas de Calidad de Datos y Anotación: La obtención de datos de alta calidad, la implementación de segmentación precisa y la obtención de anotaciones precisas siguen siendo obstáculos principales

Motivación de la Investigación

Este estudio tiene como objetivo desarrollar un sistema de detección de nódulos pulmonares más preciso y eficiente, combinando la poderosa capacidad de segmentación de SAM y las ventajas del aprendizaje por transferencia, para mejorar la precisión del diagnóstico temprano del cáncer de pulmón.

Contribuciones Principales

Integración Innovadora de SAM y Aprendizaje por Transferencia: Primera integración del Modelo Segment Anything con técnicas de aprendizaje por transferencia para segmentación de nódulos pulmonares, mejorando significativamente el rendimiento de detección y precisión
Aplicación Optimizada de Indicaciones de Cuadros Delimitadores y Transformadores Visuales: Mediante la integración de indicaciones de cuadros delimitadores y modelos de transformadores visuales, se logró un rendimiento de segmentación excepcional, con desempeño superior en métricas de precisión, DSC e IoU
Clasificación de Tumores Malignos con MobileNetV2: Combinación de resultados de segmentación de SAM con MobileNetV2, logrando clasificación eficiente del grado de malignidad de nódulos pulmonares
Validación Integral del Rendimiento: Validación experimental exhaustiva en el conjunto de datos LUNA16, con comparaciones detalladas con múltiples métodos de referencia

Explicación Detallada del Método

Definición de Tareas

Este estudio comprende dos tareas principales:

Segmentación de Nódulos Pulmonares: Segmentación precisa de regiones de nódulos pulmonares a partir de imágenes de tomografía computarizada
Clasificación de Grado de Malignidad: Clasificación de nódulos segmentados como benignos o malignos

La entrada es una imagen de tomografía computarizada, y la salida es una máscara de segmentación y un resultado de clasificación de grado de malignidad.

Arquitectura del Modelo

1. Arquitectura Base de SAM

El modelo SAM contiene tres componentes principales:

Codificador de Imagen (Image Encoder):

Utiliza Vision Transformer preentrenado (ViT-H/16)
Emplea mecanismo de atención de ventana 14×14 y 4 módulos de atención global equidistantes
Genera incrustaciones submuestreadas de 16×16, con resolución de imagen de entrada de 256×256
Utiliza convoluciones de 1×1 y 3×3 para obtener 256 canales, seguidas de normalización de capas

Codificador de Indicaciones (Prompt Encoder):

Convierte indicaciones de cuadros delimitadores en incrustaciones vectoriales de 256 dimensiones
Cada cuadro delimitador se representa como un par de incrustaciones de puntos de esquina superior izquierda e inferior derecha
Soporta indicaciones dispersas (puntos, cuadros, texto) e indicaciones densas (máscaras)

Decodificador de Máscaras (Mask Decoder):

Utiliza un decodificador Transformer personalizado con bloques de autoatención y atención cruzada
Genera la máscara de segmentación final mediante sobremuestreo y clasificador lineal dinámico
Utiliza interpolación bilineal para ajustar resultados al tamaño de entrada

2. Ajuste Fino para el Conjunto de Datos LUNA16

Utiliza indicaciones de cuadros delimitadores para aprendizaje supervisado
Combina pesos preentrenados para aprendizaje por transferencia
Optimización de parámetros del modelo para características específicas de nódulos pulmonares

3. Red de Clasificación MobileNetV2

Emplea convoluciones separables en profundidad para reducir complejidad computacional
Utiliza estructura residual invertida y diseño de cuello de botella lineal
Adaptación mediante aprendizaje por transferencia para tarea de clasificación de grado de malignidad de nódulos pulmonares

Puntos de Innovación Técnica

Conversión de Aprendizaje de Cero Ejemplos a Aprendizaje Supervisado: Transformación de SAM de modelo de segmentación de cero ejemplos a modelo de aprendizaje supervisado específico para nódulos pulmonares
Optimización de Indicaciones de Cuadros Delimitadores: Optimización del mecanismo de indicación de cuadros delimitadores considerando características de imágenes médicas
Diseño de Arquitectura Multietapa: Diseño en cascada de segmentación y clasificación, aprovechando plenamente los resultados de segmentación para guiar la clasificación

Configuración Experimental

Conjunto de Datos

Conjunto de Datos LUNA16:

Derivado de una versión seleccionada del conjunto de datos LIDC-IDRI
Contiene 888 exploraciones de tomografía computarizada (formato .mhd)
Dividido en 10 subconjuntos (subconjunto 0-9), cada uno con 88-89 imágenes
Proporciona anotaciones de coordenadas del centro de nódulos 3D y diámetro
Preprocesamiento de datos: conversión .mhd → .npy → .jpg

División de Datos:

Conjunto de entrenamiento: 70%
Conjunto de prueba: 30%

Métricas de Evaluación

Métricas de Segmentación:

DSC (Coeficiente de Similitud de Dice): 2×TP/(2×TP+FP+FN)
IoU (Intersección sobre Unión): TP/(TP+FP+FN)
Sensibilidad: TP/(TP+FN)
Valor Predictivo Positivo (PPV): TP/(TP+FP)

Métricas de Clasificación:

Precisión, Exactitud, Sensibilidad, Especificidad, Puntuación F1

Métodos de Comparación

Métodos de Segmentación: UNet, VNet, FCNUNet, Mask RCNN, EFCM Métodos de Clasificación: Inception V3, ResNet, VGG16, DenseNet, AlexNet, DenseAlexNet

Detalles de Implementación

Lenguaje de Programación: Python 3.8
Plataforma: Google Colab, Kaggle
Hardware: 64GB RAM, tarjeta gráfica NVIDIA de 6GB
Optimizador: Adam (tasa de aprendizaje 0.001)
Tamaño de Lote: 4 (segmentación), 5 (clasificación)
Épocas de Entrenamiento: 100

Resultados Experimentales

Resultados Principales

Rendimiento de Segmentación:

DSC: 97.08%
IoU: 95.6%
Sensibilidad: 97.85%
PPV: 98.1%

Rendimiento de Clasificación:

Precisión: 96.71%
Exactitud: 95.25%
Sensibilidad: 98.30%
Especificidad: 95.45%
Puntuación F1: 96.50%

Análisis Comparativo

Comparación en Tarea de Segmentación:

Método	DSC	IoU
UNet	94.97%	-
RFRVNet	95.01%	83.00%
EFCM	97.10%	91.96%
Método Propuesto	97.08%	95.60%

Comparación en Tarea de Clasificación:

Método	Precisión	Puntuación F1
DenseAlexNet	95.65%	95.58%
Inception V3	91.40%	92.31%
Método Propuesto	96.71%	96.50%

Hallazgos Experimentales

SAM demuestra una poderosa capacidad de generalización en segmentación de imágenes médicas
El aprendizaje por transferencia mejora significativamente el rendimiento del modelo en tareas médicas específicas
El mecanismo de indicación de cuadros delimitadores mejora efectivamente la precisión de segmentación
MobileNetV2 logra mantener alta precisión mientras implementa eficiencia computacional

Trabajos Relacionados

Campo de Segmentación de Nódulos Pulmonares

Métodos Tradicionales: DEHA-Net, SMR-UNet, SKV-Net y otros métodos mejorados basados en UNet
Aplicaciones de SAM: MedSAM, Medical SAM Adapter y otros intentos de aplicar SAM a segmentación de imágenes médicas
Ventaja del Presente Trabajo: Primera aplicación sistemática de SAM combinado con aprendizaje por transferencia para detección de nódulos pulmonares

Campo de Clasificación de Nódulos Pulmonares

Métodos de Aprendizaje Profundo: Diversas arquitecturas basadas en CNN (AlexNet, ResNet, VGG, etc.)
Aplicación de Aprendizaje por Transferencia: Aplicación de modelos preentrenados en clasificación de imágenes médicas
Contribución del Presente Trabajo: Integración orgánica de segmentación y clasificación, formando un sistema de detección de extremo a extremo

Conclusiones y Discusión

Conclusiones Principales

La combinación de SAM y aprendizaje por transferencia logra rendimiento excepcional en tareas de segmentación de nódulos pulmonares
El mecanismo de indicación de cuadros delimitadores mejora efectivamente la precisión de segmentación de imágenes médicas
El método propuesto alcanza o se aproxima a niveles óptimos en múltiples métricas de evaluación
El método tiene potencial para mejorar el rendimiento de sistemas CAD y mejorar el pronóstico del paciente

Limitaciones

Limitación de Conjunto de Datos: Validación únicamente en el conjunto de datos LUNA16; la capacidad de generalización requiere validación adicional
Precisión de Segmentación: SAM no puede generar máscaras precisas para todas las imágenes de tomografía computarizada pulmonar
Complejidad Computacional: Aunque se utiliza MobileNetV2, el costo computacional general del sistema aún requiere optimización
Validación Clínica: Falta de validación en ensayos clínicos a gran escala

Direcciones Futuras

Mejorar la precisión de generación de máscaras para todas las imágenes de tomografía computarizada pulmonar
Extender la validación a más conjuntos de datos de imágenes médicas
Optimizar la estructura del modelo para mejorar la eficiencia computacional
Realizar ensayos clínicos para validar la efectividad de aplicación práctica

Evaluación Profunda

Fortalezas

Innovación Técnica: Primera combinación sistemática de SAM con aprendizaje por transferencia para detección de nódulos pulmonares, con fuerte innovación
Suficiencia Experimental: Comparación exhaustiva con múltiples métodos de referencia en múltiples métricas; diseño experimental razonable
Rendimiento Excepcional: Logro de excelente rendimiento en tareas de segmentación y clasificación
Valor Práctico: El método posee claro valor de aplicación clínica, contribuyendo a mejorar el nivel de diagnóstico temprano del cáncer de pulmón

Insuficiencias

Limitaciones del Método: Análisis insuficiente de la adaptabilidad de SAM en imágenes médicas
Alcance Experimental: Validación únicamente en un conjunto de datos único; falta validación entre conjuntos de datos
Análisis Teórico: Falta análisis teórico y explicación de la efectividad del método
Eficiencia Computacional: Análisis insuficiente de complejidad computacional y capacidad de tiempo real del modelo

Impacto

Contribución Académica: Proporciona exploración valiosa para aplicación de SAM en el campo del análisis de imágenes médicas
Valor Práctico: El método posee fuerte potencial de aplicación clínica
Reproducibilidad: Proporciona detalles de implementación detallados con buena reproducibilidad
Generalización: El marco del método es generalizable a otras tareas de análisis de imágenes médicas

Escenarios Aplicables

Sistemas CAD Hospitalarios: Puede integrarse en sistemas de diagnóstico asistido por computadora existentes
Detección de Cáncer de Pulmón: Aplicable a proyectos de detección a gran escala de cáncer de pulmón
Educación Médica: Puede utilizarse en enseñanza y capacitación de radiología médica
Aplicación de Investigación: Proporciona herramientas base para investigación relacionada con análisis de imágenes médicas

Referencias Bibliográficas

El artículo cita 35 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo principios de SAM, segmentación de imágenes médicas, detección de nódulos pulmonares, aprendizaje profundo y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.