2025-11-18T01:13:20.274920

Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning

V, K

Lung cancer is an extremely lethal disease primarily due to its late-stage diagnosis and significant mortality rate, making it the major cause of cancer-related demises globally. Machine Learning (ML) and Convolution Neural network (CNN) based Deep Learning (DL) techniques are primarily used for precise segmentation and classification of cancerous nodules in the CT (Computed Tomography) or MRI images. This study introduces an innovative approach to lung nodule segmentation by utilizing the Segment Anything Model (SAM) combined with transfer learning techniques. Precise segmentation of lung nodules is crucial for the early detection of lung cancer. The proposed method leverages Bounding Box prompts and a vision transformer model to enhance segmentation performance, achieving high accuracy, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU) metrics. The integration of SAM and Transfer Learning significantly improves Computer-Aided Detection (CAD) systems in medical imaging, particularly for lung cancer diagnosis. The findings demonstrate the proposed model effectiveness in precisely segmenting lung nodules from CT scans, underscoring its potential to advance early detection and improve patient care outcomes in lung cancer diagnosis. The results show SAM Model with transfer learning achieving a DSC of 97.08% and an IoU of 95.6%, for segmentation and accuracy of 96.71% for classification indicates that ,its performance is noteworthy compared to existing techniques.

academic

Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning

基本信息

论文ID: 2501.00586
标题: Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning
作者: Asha V, Bhavanishankar K (RNS Institute of Technology, Bengaluru & Visvesvaraya Technological University, Belagavi)
分类: eess.IV cs.CV cs.LG
发表时间: Preprint submitted to Image and Vision Computing December 31, 2024
论文链接: https://arxiv.org/abs/2501.00586

摘要

本研究针对肺癌早期检测这一关键医疗问题，提出了一种创新的肺结节分割和分类方法。该方法结合了Segment Anything Model (SAM)和迁移学习技术，利用边界框提示和视觉变换器模型来增强分割性能。实验结果显示，该方法在分割任务上达到了97.08%的Dice相似系数(DSC)和95.6%的交并比(IoU)，在分类任务上达到了96.71%的准确率，相较于现有技术表现出显著优势。

研究背景与动机

问题的重要性

肺癌的严重性: 肺癌是全球癌症相关死亡的主要原因，2024年统计数据显示约占所有癌症死亡的18%，每年导致约180万人死亡
早期检测的关键性: 肺癌的高死亡率主要由于晚期诊断，早期准确检测对改善患者预后至关重要
医学影像分析的挑战: CT扫描图像的复杂性和数据量要求计算机辅助检测(CAD)系统协助放射科医师进行准确诊断

现有方法的局限性

传统图像处理方法: 边缘检测、阈值分割和基于区域的方法在处理医学图像的复杂性和变异性时存在局限
深度学习方法的挑战: 尽管CNN等深度学习方法在医学图像分析中表现出色，但在分割和分类精度方面仍面临挑战
数据质量和标注问题: 获取高质量数据、实现精确分割和获得准确标注仍是主要障碍

研究动机

本研究旨在通过结合SAM的强大分割能力和迁移学习的优势，开发一个更精确、高效的肺结节检测系统，以提高早期肺癌诊断的准确性。

核心贡献

创新的SAM与迁移学习集成: 首次将Segment Anything Model与迁移学习技术结合，用于肺结节分割，显著提升了检测性能和准确率
边界框提示和视觉变换器的优化应用: 通过整合边界框提示和视觉变换器模型，实现了卓越的分割性能，在准确率、DSC和IoU指标上均表现优异
MobileNetV2恶性肿瘤分类: 将SAM分割结果与MobileNetV2相结合，实现了高效的肺结节恶性程度分类
全面的性能验证: 在LUNA16数据集上进行了全面的实验验证，与多种基准方法进行了详细对比

方法详解

任务定义

本研究包含两个主要任务：

肺结节分割: 从CT扫描图像中精确分割出肺结节区域
恶性程度分类: 对分割出的结节进行良性/恶性分类

输入为CT扫描图像，输出为分割掩码和恶性程度分类结果。

模型架构

1. SAM基础架构

SAM模型包含三个核心组件：

图像编码器(Image Encoder):

使用预训练的Vision Transformer (ViT-H/16)
采用14×14窗口注意力机制和4个等间距全局注意力模块
生成16×16的下采样嵌入，输入图像分辨率为256×256
使用1×1和3×3卷积获得256个通道，每个卷积后跟层归一化

提示编码器(Prompt Encoder):

将边界框提示转换为256维向量嵌入
每个边界框由左上角和右下角点的嵌入对表示
支持稀疏提示(点、框、文本)和密集提示(掩码)

掩码解码器(Mask Decoder):

采用定制的Transformer解码器，包含自注意力和交叉注意力块
通过上采样和动态线性分类器生成最终分割掩码
使用双线性插值将结果调整到输入尺寸

2. 针对LUNA16数据集的微调

使用边界框提示进行监督学习
结合预训练权重进行迁移学习
针对肺结节特征进行模型参数优化

3. MobileNetV2分类网络

采用深度可分离卷积减少计算复杂度
使用倒残差结构和线性瓶颈设计
通过迁移学习适应肺结节恶性程度分类任务

技术创新点

零样本到监督学习的转换: 将SAM从零样本分割模型转换为针对肺结节的监督学习模型
边界框提示优化: 针对医学图像特点优化边界框提示机制
多阶段架构设计: 分割和分类的级联设计，充分利用分割结果指导分类

实验设置

数据集

LUNA16数据集:

来源于LIDC-IDRI数据集的精选版本
包含888个CT扫描(.mhd格式)
分为10个子集(subset 0-9)，每个子集88-89个图像
提供3D结节中心坐标和直径标注
数据预处理：.mhd → .npy → .jpg格式转换

数据划分:

训练集：70%
测试集：30%

评价指标

分割指标:

DSC (Dice Similarity Coefficient): 2×TP/(2×TP+FP+FN)
IoU (Intersection over Union): TP/(TP+FP+FN)
敏感性(Sensitivity): TP/(TP+FN)
阳性预测值(PPV): TP/(TP+FP)

分类指标:

准确率、精确率、敏感性、特异性、F1分数

对比方法

分割方法: UNet, VNet, FCNUNet, Mask RCNN, EFCM 分类方法: Inception V3, ResNet, VGG16, DenseNet, AlexNet, DenseAlexNet

实现细节

编程语言：Python 3.8
平台：Google Colab, Kaggle
硬件：64GB RAM, 6GB NVIDIA显卡
优化器：Adam (学习率0.001)
批大小：4(分割), 5(分类)
训练轮数：100 epochs

实验结果

主要结果

分割性能:

DSC: 97.08%
IoU: 95.6%
敏感性: 97.85%
PPV: 98.1%

分类性能:

准确率: 96.71%
精确率: 95.25%
敏感性: 98.30%
特异性: 95.45%
F1分数: 96.50%

对比分析

分割任务对比:

方法	DSC	IoU
UNet	94.97%	-
RFRVNet	95.01%	83.00%
EFCM	97.10%	91.96%
本文方法	97.08%	95.60%

分类任务对比:

方法	准确率	F1分数
DenseAlexNet	95.65%	95.58%
Inception V3	91.40%	92.31%
本文方法	96.71%	96.50%

实验发现

SAM在医学图像分割中表现出强大的泛化能力
迁移学习显著提升了模型在特定医学任务上的性能
边界框提示机制有效提高了分割精度
MobileNetV2在保持高精度的同时实现了计算效率

相关工作

肺结节分割领域

传统方法: DEHA-Net、SMR-UNet、SKV-Net等基于UNet的改进方法
SAM应用: MedSAM、Medical SAM Adapter等将SAM应用于医学图像分割的尝试
本文优势: 首次系统性地将SAM与迁移学习结合用于肺结节检测

肺结节分类领域

深度学习方法: 基于CNN的各种架构(AlexNet、ResNet、VGG等)
迁移学习应用: 预训练模型在医学图像分类中的应用
本文贡献: 将分割和分类有机结合，形成端到端的检测系统

结论与讨论

主要结论

SAM与迁移学习的结合在肺结节分割任务上取得了优异性能
边界框提示机制有效提升了医学图像分割的精度
所提出的方法在多个评价指标上均达到或接近最优水平
该方法具有提升CAD系统性能和改善患者预后的潜力

局限性

数据集限制: 仅在LUNA16数据集上进行验证，泛化能力有待进一步验证
分割精度: SAM并不能为所有肺部CT图像生成准确掩码
计算复杂度: 虽然使用了MobileNetV2，但整体系统的计算开销仍需优化
临床验证: 缺乏大规模临床试验验证

未来方向

提高所有肺部CT图像的掩码生成精度
扩展到更多医学图像数据集进行验证
优化模型结构以提高计算效率
开展临床试验验证实际应用效果

深度评价

优点

技术创新性: 首次将SAM与迁移学习系统性结合用于肺结节检测，具有较强的创新性
实验充分性: 在多个指标上与多种基准方法进行了全面对比，实验设计合理
性能优异: 在分割和分类任务上均取得了优秀的性能表现
实用价值: 方法具有明确的临床应用价值，有助于提升肺癌早期诊断水平

不足

方法局限性: 对SAM在医学图像上的适应性分析不够深入
实验范围: 仅在单一数据集上验证，缺乏跨数据集验证
理论分析: 缺乏对方法有效性的理论分析和解释
计算效率: 对模型的计算复杂度和实时性分析不足

影响力

学术贡献: 为SAM在医学图像分析领域的应用提供了有价值的探索
实用价值: 方法具有较强的临床应用潜力
可复现性: 提供了详细的实现细节，具有良好的可复现性
推广性: 方法框架可推广到其他医学图像分析任务

适用场景

医院CAD系统: 可集成到现有的计算机辅助诊断系统中
肺癌筛查: 适用于大规模肺癌筛查项目
医学教育: 可用于医学影像学教学和培训
科研应用: 为相关医学图像分析研究提供基础工具

参考文献

论文引用了35篇相关文献，涵盖了SAM原理、医学图像分割、肺结节检测、深度学习等多个相关领域的重要工作，为研究提供了坚实的理论基础。