Lung cancer is an extremely lethal disease primarily due to its late-stage diagnosis and significant mortality rate, making it the major cause of cancer-related demises globally. Machine Learning (ML) and Convolution Neural network (CNN) based Deep Learning (DL) techniques are primarily used for precise segmentation and classification of cancerous nodules in the CT (Computed Tomography) or MRI images. This study introduces an innovative approach to lung nodule segmentation by utilizing the Segment Anything Model (SAM) combined with transfer learning techniques. Precise segmentation of lung nodules is crucial for the early detection of lung cancer. The proposed method leverages Bounding Box prompts and a vision transformer model to enhance segmentation performance, achieving high accuracy, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU) metrics. The integration of SAM and Transfer Learning significantly improves Computer-Aided Detection (CAD) systems in medical imaging, particularly for lung cancer diagnosis. The findings demonstrate the proposed model effectiveness in precisely segmenting lung nodules from CT scans, underscoring its potential to advance early detection and improve patient care outcomes in lung cancer diagnosis. The results show SAM Model with transfer learning achieving a DSC of 97.08% and an IoU of 95.6%, for segmentation and accuracy of 96.71% for classification indicates that ,its performance is noteworthy compared to existing techniques.
- ID de l'article: 2501.00586
- Titre: Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning
- Auteurs: Asha V, Bhavanishankar K (RNS Institute of Technology, Bengaluru & Visvesvaraya Technological University, Belagavi)
- Classification: eess.IV cs.CV cs.LG
- Date de publication: Préimpression soumise à Image and Vision Computing, 31 décembre 2024
- Lien de l'article: https://arxiv.org/abs/2501.00586
Cette étude aborde la question médicale critique de la détection précoce du cancer du poumon en proposant une méthode innovante de segmentation et de classification des nodules pulmonaires. La méthode combine le Segment Anything Model (SAM) et les techniques d'apprentissage par transfert, en utilisant des indices de boîte englobante et des modèles de transformateurs visuels pour améliorer les performances de segmentation. Les résultats expérimentaux montrent que la méthode atteint un coefficient de similarité de Dice (DSC) de 97,08% et une intersection sur union (IoU) de 95,6% pour la tâche de segmentation, ainsi qu'une précision de 96,71% pour la tâche de classification, démontrant des avantages significatifs par rapport aux techniques existantes.
- Gravité du cancer du poumon: Le cancer du poumon est la principale cause de décès liés au cancer à l'échelle mondiale, représentant environ 18% de tous les décès par cancer selon les statistiques de 2024, causant environ 1,8 million de décès par an
- Criticité de la détection précoce: Le taux de mortalité élevé du cancer du poumon est principalement dû à un diagnostic tardif; une détection précoce et précise est cruciale pour améliorer le pronostic des patients
- Défis de l'analyse d'images médicales: La complexité des images de tomodensitométrie et le volume de données exigent des systèmes de détection assistée par ordinateur (CAD) pour aider les radiologues à établir des diagnostics précis
- Méthodes traditionnelles de traitement d'images: La détection de contours, la segmentation par seuillage et les méthodes basées sur les régions présentent des limitations dans le traitement de la complexité et de la variabilité des images médicales
- Défis des méthodes d'apprentissage profond: Bien que les méthodes d'apprentissage profond telles que les CNN aient démontré des performances exceptionnelles dans l'analyse d'images médicales, elles font toujours face à des défis en termes de précision de segmentation et de classification
- Problèmes de qualité des données et d'annotation: L'acquisition de données de haute qualité, la réalisation d'une segmentation précise et l'obtention d'annotations exactes restent des obstacles majeurs
Cette étude vise à développer un système de détection des nodules pulmonaires plus précis et efficace en combinant les puissantes capacités de segmentation du SAM et les avantages de l'apprentissage par transfert, afin d'améliorer la précision du diagnostic précoce du cancer du poumon.
- Intégration innovante du SAM et de l'apprentissage par transfert: Première combinaison systématique du Segment Anything Model avec les techniques d'apprentissage par transfert pour la segmentation des nodules pulmonaires, améliorant significativement les performances de détection et la précision
- Application optimisée des indices de boîte englobante et des transformateurs visuels: Grâce à l'intégration des indices de boîte englobante et des modèles de transformateurs visuels, des performances de segmentation exceptionnelles ont été réalisées, avec des résultats supérieurs sur les métriques de précision, DSC et IoU
- Classification des tumeurs malignes avec MobileNetV2: Combinaison des résultats de segmentation du SAM avec MobileNetV2 pour réaliser une classification efficace du degré de malignité des nodules pulmonaires
- Validation complète des performances: Vérification expérimentale complète sur l'ensemble de données LUNA16 avec des comparaisons détaillées avec plusieurs méthodes de référence
Cette étude comprend deux tâches principales:
- Segmentation des nodules pulmonaires: Segmentation précise des régions des nodules pulmonaires à partir des images de tomodensitométrie
- Classification du degré de malignité: Classification bénigne/maligne des nodules segmentés
L'entrée est une image de tomodensitométrie et la sortie est un masque de segmentation et un résultat de classification du degré de malignité.
Le modèle SAM comprend trois composants principaux:
Encodeur d'images (Image Encoder):
- Utilise un Vision Transformer (ViT-H/16) pré-entraîné
- Emploie un mécanisme d'attention de fenêtre 14×14 et quatre modules d'attention globale espacés régulièrement
- Génère des plongements sous-échantillonnés 16×16, avec une résolution d'image d'entrée de 256×256
- Utilise des convolutions 1×1 et 3×3 pour obtenir 256 canaux, chaque convolution étant suivie d'une normalisation de couche
Encodeur d'indices (Prompt Encoder):
- Convertit les indices de boîte englobante en plongements vectoriels de 256 dimensions
- Chaque boîte englobante est représentée par une paire de plongements des points coin supérieur gauche et inférieur droit
- Supporte les indices clairsemés (points, boîtes, texte) et les indices denses (masques)
Décodeur de masque (Mask Decoder):
- Utilise un décodeur Transformer personnalisé comprenant des blocs d'auto-attention et d'attention croisée
- Génère le masque de segmentation final par sur-échantillonnage et classificateur linéaire dynamique
- Utilise l'interpolation bilinéaire pour ajuster le résultat à la taille d'entrée
- Utilise des indices de boîte englobante pour l'apprentissage supervisé
- Combine les poids pré-entraînés pour l'apprentissage par transfert
- Optimise les paramètres du modèle pour les caractéristiques des nodules pulmonaires
- Emploie des convolutions séparables en profondeur pour réduire la complexité de calcul
- Utilise une structure résiduelle inversée et une conception de goulot d'étranglement linéaire
- S'adapte à la tâche de classification du degré de malignité des nodules pulmonaires par apprentissage par transfert
- Conversion de la segmentation zéro-shot à l'apprentissage supervisé: Conversion du SAM d'un modèle de segmentation zéro-shot à un modèle d'apprentissage supervisé pour les nodules pulmonaires
- Optimisation des indices de boîte englobante: Optimisation du mécanisme d'indices de boîte englobante en fonction des caractéristiques des images médicales
- Conception d'architecture multi-étapes: Conception en cascade de la segmentation et de la classification, exploitant pleinement les résultats de segmentation pour guider la classification
Ensemble de données LUNA16:
- Provient d'une version sélectionnée de l'ensemble de données LIDC-IDRI
- Contient 888 balayages CT (format .mhd)
- Divisé en 10 sous-ensembles (subset 0-9), chaque sous-ensemble contenant 88-89 images
- Fournit les coordonnées du centre des nodules 3D et les annotations de diamètre
- Prétraitement des données: .mhd → .npy → .jpg conversion de format
Division des données:
- Ensemble d'entraînement: 70%
- Ensemble de test: 30%
Métriques de segmentation:
- DSC (Coefficient de Similarité de Dice): 2×TP/(2×TP+FP+FN)
- IoU (Intersection sur Union): TP/(TP+FP+FN)
- Sensibilité: TP/(TP+FN)
- Valeur Prédictive Positive (VPP): TP/(TP+FP)
Métriques de classification:
- Précision, Exactitude, Sensibilité, Spécificité, Score F1
Méthodes de segmentation: UNet, VNet, FCNUNet, Mask RCNN, EFCM
Méthodes de classification: Inception V3, ResNet, VGG16, DenseNet, AlexNet, DenseAlexNet
- Langage de programmation: Python 3.8
- Plateforme: Google Colab, Kaggle
- Matériel: 64 Go de RAM, carte graphique NVIDIA 6 Go
- Optimiseur: Adam (taux d'apprentissage 0,001)
- Taille de lot: 4 (segmentation), 5 (classification)
- Nombre d'epochs: 100
Performance de segmentation:
- DSC: 97,08%
- IoU: 95,6%
- Sensibilité: 97,85%
- VPP: 98,1%
Performance de classification:
- Précision: 96,71%
- Exactitude: 95,25%
- Sensibilité: 98,30%
- Spécificité: 95,45%
- Score F1: 96,50%
Comparaison des tâches de segmentation:
| Méthode | DSC | IoU |
|---|
| UNet | 94,97% | - |
| RFRVNet | 95,01% | 83,00% |
| EFCM | 97,10% | 91,96% |
| Méthode proposée | 97,08% | 95,60% |
Comparaison des tâches de classification:
| Méthode | Précision | Score F1 |
|---|
| DenseAlexNet | 95,65% | 95,58% |
| Inception V3 | 91,40% | 92,31% |
| Méthode proposée | 96,71% | 96,50% |
- Le SAM démontre une puissante capacité de généralisation dans la segmentation d'images médicales
- L'apprentissage par transfert améliore significativement les performances du modèle sur des tâches médicales spécifiques
- Le mécanisme d'indices de boîte englobante améliore efficacement la précision de segmentation
- MobileNetV2 réalise l'efficacité de calcul tout en maintenant une haute précision
- Méthodes traditionnelles: DEHA-Net, SMR-UNet, SKV-Net et autres méthodes améliorées basées sur UNet
- Applications du SAM: MedSAM, Medical SAM Adapter et autres tentatives d'application du SAM à la segmentation d'images médicales
- Avantages de cet article: Première combinaison systématique du SAM et de l'apprentissage par transfert pour la détection des nodules pulmonaires
- Méthodes d'apprentissage profond: Diverses architectures basées sur CNN (AlexNet, ResNet, VGG, etc.)
- Applications de l'apprentissage par transfert: Application de modèles pré-entraînés à la classification d'images médicales
- Contribution de cet article: Combinaison organique de la segmentation et de la classification, formant un système de détection de bout en bout
- La combinaison du SAM et de l'apprentissage par transfert atteint des performances exceptionnelles dans la tâche de segmentation des nodules pulmonaires
- Le mécanisme d'indices de boîte englobante améliore efficacement la précision de la segmentation d'images médicales
- La méthode proposée atteint ou s'approche des niveaux optimaux sur plusieurs métriques d'évaluation
- La méthode a le potentiel d'améliorer les performances des systèmes CAD et d'améliorer le pronostic des patients
- Limitations de l'ensemble de données: Vérification uniquement sur l'ensemble de données LUNA16, la capacité de généralisation nécessite une vérification supplémentaire
- Précision de segmentation: Le SAM ne peut pas générer des masques précis pour toutes les images de tomodensitométrie pulmonaire
- Complexité de calcul: Bien que MobileNetV2 soit utilisé, la charge de calcul globale du système nécessite toujours une optimisation
- Vérification clinique: Absence d'essais cliniques à grande échelle
- Améliorer la précision de la génération de masques pour toutes les images de tomodensitométrie pulmonaire
- Étendre la vérification à d'autres ensembles de données d'images médicales
- Optimiser la structure du modèle pour améliorer l'efficacité de calcul
- Mener des essais cliniques pour vérifier l'efficacité de l'application pratique
- Innovation technologique: Première combinaison systématique du SAM et de l'apprentissage par transfert pour la détection des nodules pulmonaires, avec une forte innovativité
- Suffisance expérimentale: Comparaisons complètes avec plusieurs méthodes de référence sur plusieurs métriques, conception expérimentale raisonnable
- Performance exceptionnelle: Résultats d'excellente performance sur les tâches de segmentation et de classification
- Valeur pratique: La méthode possède une valeur clinique claire et contribue à améliorer le niveau de diagnostic précoce du cancer du poumon
- Limitations méthodologiques: L'analyse de l'adaptabilité du SAM aux images médicales manque de profondeur
- Portée expérimentale: Vérification uniquement sur un seul ensemble de données, absence de vérification inter-ensembles
- Analyse théorique: Manque d'analyse théorique et d'explication de l'efficacité de la méthode
- Efficacité de calcul: Analyse insuffisante de la complexité de calcul et de la nature temps réel du modèle
- Contribution académique: Fournit une exploration précieuse de l'application du SAM dans le domaine de l'analyse d'images médicales
- Valeur pratique: La méthode possède un fort potentiel d'application clinique
- Reproductibilité: Fournit des détails d'implémentation détaillés avec une bonne reproductibilité
- Généralisation: Le cadre méthodologique peut être étendu à d'autres tâches d'analyse d'images médicales
- Systèmes CAD hospitaliers: Peut être intégré dans les systèmes de diagnostic assisté par ordinateur existants
- Dépistage du cancer du poumon: Applicable aux programmes de dépistage du cancer du poumon à grande échelle
- Éducation médicale: Peut être utilisé pour l'enseignement et la formation en imagerie médicale
- Applications de recherche: Fournit des outils de base pour la recherche connexe en analyse d'images médicales
L'article cite 35 références connexes, couvrant les principes du SAM, la segmentation d'images médicales, la détection des nodules pulmonaires, l'apprentissage profond et d'autres domaines connexes importants, fournissant une base théorique solide pour la recherche.