Lung cancer is an extremely lethal disease primarily due to its late-stage diagnosis and significant mortality rate, making it the major cause of cancer-related demises globally. Machine Learning (ML) and Convolution Neural network (CNN) based Deep Learning (DL) techniques are primarily used for precise segmentation and classification of cancerous nodules in the CT (Computed Tomography) or MRI images. This study introduces an innovative approach to lung nodule segmentation by utilizing the Segment Anything Model (SAM) combined with transfer learning techniques. Precise segmentation of lung nodules is crucial for the early detection of lung cancer. The proposed method leverages Bounding Box prompts and a vision transformer model to enhance segmentation performance, achieving high accuracy, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU) metrics. The integration of SAM and Transfer Learning significantly improves Computer-Aided Detection (CAD) systems in medical imaging, particularly for lung cancer diagnosis. The findings demonstrate the proposed model effectiveness in precisely segmenting lung nodules from CT scans, underscoring its potential to advance early detection and improve patient care outcomes in lung cancer diagnosis. The results show SAM Model with transfer learning achieving a DSC of 97.08% and an IoU of 95.6%, for segmentation and accuracy of 96.71% for classification indicates that ,its performance is noteworthy compared to existing techniques.
- Paper-ID: 2501.00586
- Titel: Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning
- Autoren: Asha V, Bhavanishankar K (RNS Institute of Technology, Bengaluru & Visvesvaraya Technological University, Belagavi)
- Klassifizierung: eess.IV cs.CV cs.LG
- Veröffentlichungsdatum: Preprint eingereicht bei Image and Vision Computing, 31. Dezember 2024
- Paper-Link: https://arxiv.org/abs/2501.00586
Diese Forschungsarbeit befasst sich mit einem kritischen medizinischen Problem – der Früherkennung von Lungenkrebs – und schlägt eine innovative Methode zur Lungenknotensegmentierung und -klassifizierung vor. Die Methode kombiniert das Segment Anything Model (SAM) und Transfer-Learning-Techniken und nutzt Bounding-Box-Prompts sowie Vision-Transformer-Modelle zur Verbesserung der Segmentierungsleistung. Die experimentellen Ergebnisse zeigen, dass die Methode bei der Segmentierungsaufgabe einen Dice-Ähnlichkeitskoeffizienten (DSC) von 97,08% und einen Intersection-over-Union (IoU) von 95,6% erreicht, während sie bei der Klassifizierungsaufgabe eine Genauigkeit von 96,71% erzielt und damit einen signifikanten Vorteil gegenüber bestehenden Techniken aufweist.
- Schweregrad von Lungenkrebs: Lungenkrebs ist die Hauptursache krebsbedingter Todesfälle weltweit; Statistiken aus dem Jahr 2024 zeigen, dass er etwa 18% aller Krebstodesfälle ausmacht und jährlich etwa 1,8 Millionen Todesfälle verursacht
- Kritikalität der Früherkennung: Die hohe Sterblichkeitsrate von Lungenkrebs ist hauptsächlich auf späte Diagnosen zurückzuführen; eine genaue Früherkennung ist entscheidend für die Verbesserung der Patientenprognose
- Herausforderungen bei der medizinischen Bildanalyse: Die Komplexität von CT-Scan-Bildern und das Datenvolumen erfordern computergestützte Erkennungssysteme (CAD), um Radiologen bei der genauen Diagnose zu unterstützen
- Traditionelle Bildverarbeitungsmethoden: Kantenerkennung, Schwellenwertbildung und regionenbasierte Verfahren weisen Einschränkungen bei der Verarbeitung der Komplexität und Variabilität medizinischer Bilder auf
- Herausforderungen bei Deep-Learning-Methoden: Obwohl Deep-Learning-Methoden wie CNNs in der medizinischen Bildanalyse hervorragende Ergebnisse zeigen, bestehen weiterhin Herausforderungen bei der Segmentierungs- und Klassifizierungsgenauigkeit
- Datenqualität und Annotationsprobleme: Die Beschaffung hochwertiger Daten, die Erreichung präziser Segmentierung und die Gewinnung genauer Annotationen bleiben Haupthindernisse
Diese Forschung zielt darauf ab, durch die Kombination der starken Segmentierungsfähigkeiten von SAM und der Vorteile des Transfer Learning ein präziseres und effizienteres Lungenknotenerkennungssystem zu entwickeln, um die Genauigkeit der Früherkennung von Lungenkrebs zu verbessern.
- Innovative Integration von SAM und Transfer Learning: Erstmalige Kombination des Segment Anything Model mit Transfer-Learning-Techniken für die Lungenknotensegmentierung, die die Erkennungsleistung und Genauigkeit erheblich verbessert
- Optimierte Anwendung von Bounding-Box-Prompts und Vision Transformers: Durch die Integration von Bounding-Box-Prompts und Vision-Transformer-Modellen wurde eine hervorragende Segmentierungsleistung mit überlegenen Ergebnissen bei Genauigkeit, DSC und IoU-Metriken erreicht
- MobileNetV2-basierte Malignität-Klassifizierung: Kombination der SAM-Segmentierungsergebnisse mit MobileNetV2 zur Erreichung einer effizienten Klassifizierung des Malignitätsgrades von Lungenknoten
- Umfassende Leistungsvalidierung: Durchführung umfassender experimenteller Validierungen auf dem LUNA16-Datensatz mit detaillierten Vergleichen zu verschiedenen Baseline-Methoden
Diese Forschung umfasst zwei Hauptaufgaben:
- Lungenknotensegmentierung: Präzise Segmentierung von Lungenknotenbereichen aus CT-Scan-Bildern
- Malignität-Klassifizierung: Klassifizierung der segmentierten Knoten als benigne oder maligne
Die Eingabe besteht aus CT-Scan-Bildern, die Ausgabe aus Segmentierungsmasken und Malignität-Klassifizierungsergebnissen.
Das SAM-Modell besteht aus drei Kernkomponenten:
Bildencoder (Image Encoder):
- Verwendet vortrainierte Vision Transformer (ViT-H/16)
- Nutzt 14×14-Fenster-Aufmerksamkeitsmechanismus und vier gleichmäßig verteilte globale Aufmerksamkeitsmodule
- Erzeugt 16×16 Untersampling-Einbettungen bei einer Eingabebildauflösung von 256×256
- Verwendet 1×1 und 3×3 Faltungen zur Gewinnung von 256 Kanälen, wobei jede Faltung von Schichtnormalisierung gefolgt wird
Prompt-Encoder (Prompt Encoder):
- Konvertiert Bounding-Box-Prompts in 256-dimensionale Vektor-Einbettungen
- Jede Bounding Box wird durch ein Paar von Einbettungen der oberen linken und unteren rechten Ecke dargestellt
- Unterstützt spärliche Prompts (Punkte, Boxen, Text) und dichte Prompts (Masken)
Masken-Decoder (Mask Decoder):
- Nutzt einen benutzerdefinierten Transformer-Decoder mit Selbst- und Kreuzaufmerksamkeitsblöcken
- Erzeugt die endgültige Segmentierungsmaske durch Hochabtastung und dynamische lineare Klassifizierer
- Verwendet bilineare Interpolation zur Anpassung des Ergebnisses auf die Eingabegröße
- Überwachtes Lernen mit Bounding-Box-Prompts
- Kombination mit vortrainierten Gewichten für Transfer Learning
- Optimierung der Modellparameter für Lungenknotenmerkmale
- Nutzt tiefenweise separierbare Faltungen zur Reduzierung der Rechenkomplexität
- Verwendet invertierte Restblöcke und lineares Engpass-Design
- Adaptiert sich durch Transfer Learning an die Aufgabe der Malignität-Klassifizierung von Lungenknoten
- Umwandlung von Zero-Shot zu überwachtem Lernen: Umwandlung von SAM von einem Zero-Shot-Segmentierungsmodell zu einem überwachten Lernmodell für Lungenknoten
- Optimierung von Bounding-Box-Prompts: Optimierung des Bounding-Box-Prompt-Mechanismus für medizinische Bildmerkmale
- Mehrstufige Architekturgestaltung: Kaskadendesign von Segmentierung und Klassifizierung, das Segmentierungsergebnisse vollständig zur Anleitung der Klassifizierung nutzt
LUNA16-Datensatz:
- Stammt aus einer kuratierten Version des LIDC-IDRI-Datensatzes
- Enthält 888 CT-Scans (.mhd-Format)
- Unterteilt in 10 Teilmengen (Subset 0-9), jede mit 88-89 Bildern
- Bietet 3D-Knotenmittelpunktkoordinaten und Durchmesserannotationen
- Datenvorverarbeitung: .mhd → .npy → .jpg-Formatkonvertierung
Datenteilung:
- Trainingssatz: 70%
- Testsatz: 30%
Segmentierungsmetriken:
- DSC (Dice Similarity Coefficient): 2×TP/(2×TP+FP+FN)
- IoU (Intersection over Union): TP/(TP+FP+FN)
- Sensitivität: TP/(TP+FN)
- Positiver Vorhersagewert (PPV): TP/(TP+FP)
Klassifizierungsmetriken:
- Genauigkeit, Präzision, Sensitivität, Spezifität, F1-Score
Segmentierungsmethoden: UNet, VNet, FCNUNet, Mask RCNN, EFCM
Klassifizierungsmethoden: Inception V3, ResNet, VGG16, DenseNet, AlexNet, DenseAlexNet
- Programmiersprache: Python 3.8
- Plattform: Google Colab, Kaggle
- Hardware: 64GB RAM, 6GB NVIDIA-Grafikkarte
- Optimierer: Adam (Lernrate 0,001)
- Batch-Größe: 4 (Segmentierung), 5 (Klassifizierung)
- Trainings-Epochen: 100
Segmentierungsleistung:
- DSC: 97,08%
- IoU: 95,6%
- Sensitivität: 97,85%
- PPV: 98,1%
Klassifizierungsleistung:
- Genauigkeit: 96,71%
- Präzision: 95,25%
- Sensitivität: 98,30%
- Spezifität: 95,45%
- F1-Score: 96,50%
Segmentierungsaufgaben-Vergleich:
| Methode | DSC | IoU |
|---|
| UNet | 94,97% | - |
| RFRVNet | 95,01% | 83,00% |
| EFCM | 97,10% | 91,96% |
| Vorliegende Methode | 97,08% | 95,60% |
Klassifizierungsaufgaben-Vergleich:
| Methode | Genauigkeit | F1-Score |
|---|
| DenseAlexNet | 95,65% | 95,58% |
| Inception V3 | 91,40% | 92,31% |
| Vorliegende Methode | 96,71% | 96,50% |
- SAM zeigt starke Verallgemeinerungsfähigkeiten bei der medizinischen Bildsegmentierung
- Transfer Learning verbessert die Modellleistung bei spezifischen medizinischen Aufgaben erheblich
- Der Bounding-Box-Prompt-Mechanismus erhöht die Segmentierungsgenauigkeit effektiv
- MobileNetV2 erreicht Rechneneffizienz bei Beibehaltung hoher Genauigkeit
- Traditionelle Methoden: DEHA-Net, SMR-UNet, SKV-Net und andere UNet-basierte Verbesserungsmethoden
- SAM-Anwendungen: MedSAM, Medical SAM Adapter und andere Versuche, SAM auf medizinische Bildsegmentierung anzuwenden
- Vorteil dieser Arbeit: Erstmalige systematische Kombination von SAM mit Transfer Learning für die Lungenknotenerkennung
- Deep-Learning-Methoden: Verschiedene CNN-basierte Architekturen (AlexNet, ResNet, VGG usw.)
- Transfer-Learning-Anwendungen: Anwendung vortrainierter Modelle in der medizinischen Bildklassifizierung
- Beitrag dieser Arbeit: Organische Kombination von Segmentierung und Klassifizierung zu einem End-to-End-Erkennungssystem
- Die Kombination von SAM und Transfer Learning erreicht hervorragende Leistungen bei der Lungenknotensegmentierungsaufgabe
- Der Bounding-Box-Prompt-Mechanismus verbessert die Genauigkeit der medizinischen Bildsegmentierung effektiv
- Die vorgeschlagene Methode erreicht oder nähert sich optimalen Werten bei mehreren Bewertungsmetriken
- Die Methode hat das Potenzial, die Leistung von CAD-Systemen zu verbessern und die Patientenprognose zu verbessern
- Datensatz-Einschränkung: Validierung nur auf dem LUNA16-Datensatz; die Verallgemeinerungsfähigkeit erfordert weitere Überprüfung
- Segmentierungsgenauigkeit: SAM kann nicht für alle Lungen-CT-Bilder genaue Masken generieren
- Rechenkomplexität: Obwohl MobileNetV2 verwendet wird, erfordert der Gesamtsystem-Rechenaufwand weitere Optimierung
- Klinische Validierung: Mangel an großangelegten klinischen Studien zur Validierung
- Verbesserung der Maskengenerierungsgenauigkeit für alle Lungen-CT-Bilder
- Erweiterung auf weitere medizinische Bilddatensätze zur Validierung
- Optimierung der Modellstruktur zur Verbesserung der Rechneneffizienz
- Durchführung klinischer Studien zur Validierung der praktischen Anwendungseffektivität
- Technische Innovativität: Erstmalige systematische Kombination von SAM mit Transfer Learning für die Lungenknotenerkennung mit starker Innovativität
- Experimentelle Vollständigkeit: Umfassende Vergleiche mit mehreren Baseline-Methoden bei verschiedenen Metriken mit rationellem Experimentdesign
- Überlegene Leistung: Ausgezeichnete Leistungsergebnisse bei Segmentierungs- und Klassifizierungsaufgaben
- Praktischer Wert: Die Methode hat klaren klinischen Anwendungswert und trägt zur Verbesserung der Früherkennung von Lungenkrebs bei
- Methodische Einschränkungen: Unzureichende Analyse der Adaptierungsfähigkeit von SAM bei medizinischen Bildern
- Experimenteller Umfang: Validierung nur auf einem einzelnen Datensatz; Mangel an datensatzübergreifender Validierung
- Theoretische Analyse: Mangel an theoretischer Analyse und Erklärung der Methodeneffektivität
- Rechneneffizienz: Unzureichende Analyse der Rechenkomplexität und Echtzeitfähigkeit des Modells
- Akademischer Beitrag: Bietet wertvolle Erkundung der SAM-Anwendung im Bereich der medizinischen Bildanalyse
- Praktischer Wert: Die Methode hat starkes klinisches Anwendungspotenzial
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails mit guter Reproduzierbarkeit
- Übertragbarkeit: Das Methoden-Framework kann auf andere medizinische Bildanalysaufgaben übertragen werden
- Krankenhaus-CAD-Systeme: Kann in bestehende computergestützte Diagnosesysteme integriert werden
- Lungenkrebsscreening: Geeignet für großangelegte Lungenkrebsscreening-Programme
- Medizinische Ausbildung: Kann für medizinische Bildgebungslehre und -schulung verwendet werden
- Forschungsanwendungen: Bietet grundlegende Werkzeuge für verwandte medizinische Bildanalysforschung
Das Papier zitiert 35 verwandte Literaturquellen, die SAM-Prinzipien, medizinische Bildsegmentierung, Lungenknotenerkennung, Deep Learning und andere verwandte Bereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten.