2025-11-18T01:13:20.274920

Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning

V, K

Lung cancer is an extremely lethal disease primarily due to its late-stage diagnosis and significant mortality rate, making it the major cause of cancer-related demises globally. Machine Learning (ML) and Convolution Neural network (CNN) based Deep Learning (DL) techniques are primarily used for precise segmentation and classification of cancerous nodules in the CT (Computed Tomography) or MRI images. This study introduces an innovative approach to lung nodule segmentation by utilizing the Segment Anything Model (SAM) combined with transfer learning techniques. Precise segmentation of lung nodules is crucial for the early detection of lung cancer. The proposed method leverages Bounding Box prompts and a vision transformer model to enhance segmentation performance, achieving high accuracy, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU) metrics. The integration of SAM and Transfer Learning significantly improves Computer-Aided Detection (CAD) systems in medical imaging, particularly for lung cancer diagnosis. The findings demonstrate the proposed model effectiveness in precisely segmenting lung nodules from CT scans, underscoring its potential to advance early detection and improve patient care outcomes in lung cancer diagnosis. The results show SAM Model with transfer learning achieving a DSC of 97.08% and an IoU of 95.6%, for segmentation and accuracy of 96.71% for classification indicates that ,its performance is noteworthy compared to existing techniques.

academic

تقسيم وتصنيف عقد الرئة المتقدم للكشف المبكر عن سرطان الرئة باستخدام SAM والتعلم بالنقل

المعلومات الأساسية

معرّف الورقة البحثية: 2501.00586
العنوان: Advanced Lung Nodule Segmentation and Classification for Early Detection of Lung Cancer using SAM and Transfer Learning
المؤلفون: Asha V, Bhavanishankar K (معهد RNS للتكنولوجيا، بنغالور وجامعة Visvesvaraya التكنولوجية، بيلاجافي)
التصنيف: eess.IV cs.CV cs.LG
تاريخ النشر: مسودة مقدمة لمجلة Image and Vision Computing في 31 ديسمبر 2024
رابط الورقة البحثية: https://arxiv.org/abs/2501.00586

الملخص

تقدم هذه الدراسة طريقة مبتكرة لتقسيم وتصنيف عقد الرئة لمعالجة المشكلة الطبية الحرجة المتمثلة في الكشف المبكر عن سرطان الرئة. تجمع الطريقة بين نموذج Segment Anything Model (SAM) وتقنيات التعلم بالنقل، مستفيدة من تلميحات الصناديق المحيطة ونماذج محولات الرؤية لتحسين أداء التقسيم. تُظهر النتائج التجريبية أن الطريقة حققت معامل تشابه Dice (DSC) بنسبة 97.08% و Intersection over Union (IoU) بنسبة 95.6% في مهمة التقسيم، وحققت دقة بنسبة 96.71% في مهمة التصنيف، مما يُظهر مزايا كبيرة مقارنة بالتقنيات الموجودة.

خلفية البحث والدافع

أهمية المشكلة

خطورة سرطان الرئة: يُعتبر سرطان الرئة السبب الرئيسي للوفيات المرتبطة بالسرطان عالمياً، حيث تشير إحصائيات 2024 إلى أنه يمثل حوالي 18% من جميع وفيات السرطان، مما يؤدي إلى وفاة حوالي 1.8 مليون شخص سنوياً
أهمية الكشف المبكر: يرجع معدل الوفيات المرتفع لسرطان الرئة بشكل أساسي إلى التشخيص المتأخر، والكشف المبكر والدقيق حاسم لتحسين التنبؤ بسير المرض لدى المرضى
تحديات تحليل الصور الطبية: يتطلب التعقيد وحجم البيانات في صور التصوير المقطعي المحوسب (CT) أنظمة كشف بمساعدة الحاسوب (CAD) لمساعدة أطباء الأشعة على التشخيص الدقيق

قيود الطرق الموجودة

طرق معالجة الصور التقليدية: تواجه كشف الحواف والتقسيم بالعتبة والطرق القائمة على المناطق قيوداً في التعامل مع تعقيد وتباين الصور الطبية
تحديات طرق التعلم العميق: على الرغم من أن طرق التعلم العميق مثل الشبكات العصبية الالتفافية (CNN) تُظهر أداءً ممتازاً في تحليل الصور الطبية، إلا أنها لا تزال تواجه تحديات في دقة التقسيم والتصنيف
مشاكل جودة البيانات والتعليق: يظل الحصول على بيانات عالية الجودة وتحقيق التقسيم الدقيق والحصول على تعليقات دقيقة من العقبات الرئيسية

دافع البحث

تهدف هذه الدراسة إلى تطوير نظام كشف عقد رئة أكثر دقة وكفاءة من خلال الجمع بين القدرات القوية للتقسيم في SAM ومزايا التعلم بالنقل، لتحسين دقة التشخيص المبكر لسرطان الرئة.

المساهمات الأساسية

دمج مبتكر لـ SAM والتعلم بالنقل: يجمع هذا البحث للمرة الأولى بين نموذج Segment Anything Model وتقنيات التعلم بالنقل لتقسيم عقد الرئة، مما يحسن بشكل كبير أداء الكشف والدقة
التطبيق الأمثل لتلميحات الصناديق المحيطة ومحولات الرؤية: من خلال دمج تلميحات الصناديق المحيطة ونماذج محولات الرؤية، تم تحقيق أداء تقسيم متفوق، مع أداء ممتازة في مؤشرات الدقة و DSC و IoU
تصنيف الأورام الخبيثة باستخدام MobileNetV2: يجمع هذا البحث بين نتائج تقسيم SAM و MobileNetV2 لتحقيق تصنيف فعال لدرجة الخباثة في عقد الرئة
التحقق الشامل من الأداء: تم إجراء التحقق التجريبي الشامل على مجموعة بيانات LUNA16 مع مقارنة تفصيلية مع طرق معيارية متعددة

شرح الطريقة

تعريف المهام

يتضمن هذا البحث مهمتين رئيسيتين:

تقسيم عقد الرئة: استخراج دقيق لمناطق عقد الرئة من صور التصوير المقطعي المحوسب
تصنيف درجة الخباثة: تصنيف العقد المستخرجة إلى حميدة/خبيثة

يكون الإدخال عبارة عن صور التصوير المقطعي المحوسب، والمخرجات عبارة عن أقنعة التقسيم ونتائج تصنيف درجة الخباثة.

معمارية النموذج

1. معمارية SAM الأساسية

يتضمن نموذج SAM ثلاثة مكونات أساسية:

مشفر الصور (Image Encoder):

يستخدم محول الرؤية المدرب مسبقاً (ViT-H/16)
يستخدم آلية الانتباه بنافذة 14×14 وأربع وحدات انتباه عام متباعدة بشكل متساوٍ
ينتج عنه تضمين بحجم 16×16 مع دقة صورة إدخال 256×256
يستخدم التفافات 1×1 و 3×3 للحصول على 256 قناة، مع تطبيع الطبقة بعد كل التفاف

مشفر التلميحات (Prompt Encoder):

يحول تلميحات الصناديق المحيطة إلى تضمينات متجهة بحجم 256 بُعد
يتم تمثيل كل صندوق محيط بواسطة زوج من تضمينات نقطة الزاوية العلوية اليسرى والزاوية السفلية اليمنى
يدعم التلميحات المتفرقة (نقاط، صناديق، نصوص) والتلميحات الكثيفة (أقنعة)

فك تشفير الأقنعة (Mask Decoder):

يستخدم فك تشفير محول مخصص يتضمن كتل الانتباه الذاتي والانتباه المتقاطع
ينتج عنه قناع التقسيم النهائي من خلال الإفراط في الأخذ والمصنف الخطي الديناميكي
يستخدم الاستيفاء الثنائي الخطي لتعديل النتيجة إلى حجم الإدخال

2. الضبط الدقيق لمجموعة بيانات LUNA16

استخدام تلميحات الصناديق المحيطة للتعلم الخاضع للإشراف
دمج الأوزان المدربة مسبقاً مع التعلم بالنقل
تحسين معاملات النموذج لخصائص عقد الرئة

3. شبكة تصنيف MobileNetV2

تستخدم التفافات قابلة للفصل بعمق لتقليل التعقيد الحسابي
تستخدم هيكل البقايا المقلوب وتصميم الاختناق الخطي
تتكيف من خلال التعلم بالنقل مع مهمة تصنيف درجة خباثة عقد الرئة

نقاط الابتكار التقني

التحويل من التعلم بدون عينات إلى التعلم الخاضع للإشراف: تحويل SAM من نموذج تقسيم بدون عينات إلى نموذج تعلم خاضع للإشراف لعقد الرئة
تحسين تلميحات الصناديق المحيطة: تحسين آلية تلميحات الصناديق المحيطة بما يتناسب مع خصائص الصور الطبية
تصميم معمارية متعددة المراحل: تصميم متسلسل للتقسيم والتصنيف، مع الاستفادة الكاملة من نتائج التقسيم لتوجيه التصنيف

إعداد التجربة

مجموعة البيانات

مجموعة بيانات LUNA16:

مشتقة من نسخة منتقاة من مجموعة بيانات LIDC-IDRI
تتضمن 888 مسح CT (بصيغة .mhd)
مقسمة إلى 10 مجموعات فرعية (subset 0-9)، كل مجموعة تحتوي على 88-89 صورة
توفر إحداثيات مركز العقدة ثلاثية الأبعاد وتعليقات القطر
معالجة البيانات المسبقة: .mhd → .npy → .jpg

تقسيم البيانات:

مجموعة التدريب: 70%
مجموعة الاختبار: 30%

مؤشرات التقييم

مؤشرات التقسيم:

DSC (معامل تشابه Dice): 2×TP/(2×TP+FP+FN)
IoU (تقاطع على الاتحاد): TP/(TP+FP+FN)
الحساسية (Sensitivity): TP/(TP+FN)
القيمة التنبؤية الإيجابية (PPV): TP/(TP+FP)

مؤشرات التصنيف:

الدقة والدقة والحساسية والخصوصية ودرجة F1

طرق المقارنة

طرق التقسيم: UNet, VNet, FCNUNet, Mask RCNN, EFCM طرق التصنيف: Inception V3, ResNet, VGG16, DenseNet, AlexNet, DenseAlexNet

تفاصيل التنفيذ

لغة البرمجة: Python 3.8
المنصة: Google Colab, Kaggle
الأجهزة: 64GB RAM, بطاقة رسومات NVIDIA بسعة 6GB
المحسّن: Adam (معدل التعلم 0.001)
حجم الدفعة: 4 (للتقسيم), 5 (للتصنيف)
عدد الحقب: 100 epoch

نتائج التجربة

النتائج الرئيسية

أداء التقسيم:

DSC: 97.08%
IoU: 95.6%
الحساسية: 97.85%
PPV: 98.1%

أداء التصنيف:

الدقة: 96.71%
الدقة: 95.25%
الحساسية: 98.30%
الخصوصية: 95.45%
درجة F1: 96.50%

تحليل المقارنة

مقارنة مهام التقسيم:

الطريقة	DSC	IoU
UNet	94.97%	-
RFRVNet	95.01%	83.00%
EFCM	97.10%	91.96%
الطريقة المقترحة	97.08%	95.60%

مقارنة مهام التصنيف:

الطريقة	الدقة	درجة F1
DenseAlexNet	95.65%	95.58%
Inception V3	91.40%	92.31%
الطريقة المقترحة	96.71%	96.50%

النتائج التجريبية

يُظهر SAM قدرة تعميم قوية في تقسيم الصور الطبية
يحسّن التعلم بالنقل بشكل كبير أداء النموذج في مهام طبية محددة
تحسّن آلية تلميحات الصناديق المحيطة دقة التقسيم بشكل فعال
يحقق MobileNetV2 كفاءة حسابية مع الحفاظ على دقة عالية

الأعمال ذات الصلة

مجال تقسيم عقد الرئة

الطرق التقليدية: DEHA-Net و SMR-UNet و SKV-Net وغيرها من طرق التحسين القائمة على UNet
تطبيقات SAM: MedSAM و Medical SAM Adapter ومحاولات أخرى لتطبيق SAM على تقسيم الصور الطبية
مزايا هذا البحث: أول تطبيق منهجي يجمع بين SAM والتعلم بالنقل للكشف عن عقد الرئة

مجال تصنيف عقد الرئة

طرق التعلم العميق: معماريات مختلفة قائمة على CNN (AlexNet و ResNet و VGG وغيرها)
تطبيقات التعلم بالنقل: استخدام النماذج المدربة مسبقاً في تصنيف الصور الطبية
مساهمة هذا البحث: دمج التقسيم والتصنيف بشكل عضوي لتشكيل نظام كشف شامل

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحقق الجمع بين SAM والتعلم بالنقل أداءً ممتازاً في مهمة تقسيم عقد الرئة
تحسّن آلية تلميحات الصناديق المحيطة دقة تقسيم الصور الطبية بشكل فعال
تحقق الطريقة المقترحة مستويات أداء مثالية أو قريبة من المثالية في مؤشرات متعددة
تتمتع الطريقة بإمكانية تحسين أداء أنظمة CAD وتحسين التنبؤ بسير المرض لدى المرضى

القيود

قيود مجموعة البيانات: تم التحقق فقط على مجموعة بيانات LUNA16، وتحتاج قدرة التعميم إلى مزيد من التحقق
دقة التقسيم: لا يمكن لـ SAM إنتاج أقنعة دقيقة لجميع صور التصوير المقطعي المحوسب للرئة
التعقيد الحسابي: على الرغم من استخدام MobileNetV2، لا تزال التكاليف الحسابية الإجمالية للنظام تحتاج إلى تحسين
التحقق السريري: يفتقر إلى التجارب السريرية واسعة النطاق للتحقق

الاتجاهات المستقبلية

تحسين دقة إنتاج الأقنعة لجميع صور التصوير المقطعي المحوسب للرئة
التوسع إلى مجموعات بيانات صور طبية أكثر لإجراء التحقق
تحسين معمارية النموذج لزيادة الكفاءة الحسابية
إجراء تجارب سريرية للتحقق من فعالية التطبيق العملي

التقييم المتعمق

المزايا

الابتكار التقني: يجمع هذا البحث للمرة الأولى بشكل منهجي بين SAM والتعلم بالنقل للكشف عن عقد الرئة، مع ابتكار قوي
كفاية التجربة: تم إجراء مقارنة شاملة مع طرق معيارية متعددة على مؤشرات متعددة، مع تصميم تجريبي معقول
أداء متفوقة: حققت الطريقة أداءً ممتازاً في مهام التقسيم والتصنيف
القيمة العملية: تتمتع الطريقة بقيمة تطبيق سريري واضحة، مما يساعد على تحسين مستوى التشخيص المبكر لسرطان الرئة

أوجه القصور

قيود الطريقة: التحليل المتعمق لتكيف SAM مع الصور الطبية غير كافٍ
نطاق التجربة: تم التحقق فقط على مجموعة بيانات واحدة، مع نقص التحقق عبر مجموعات البيانات
التحليل النظري: يفتقر إلى التحليل النظري والشرح لفعالية الطريقة
الكفاءة الحسابية: التحليل غير كافٍ للتعقيد الحسابي والخصائص الفعلية للنموذج

التأثير

المساهمة الأكاديمية: توفر استكشافاً قيماً لتطبيق SAM في مجال تحليل الصور الطبية
القيمة العملية: تتمتع الطريقة بإمكانية تطبيق سريري قوية
قابلية إعادة الإنتاج: توفر تفاصيل تنفيذ شاملة، مع قابلية جيدة لإعادة الإنتاج
قابلية التعميم: يمكن تعميم إطار الطريقة على مهام تحليل صور طبية أخرى

السيناريوهات المطبقة

أنظمة CAD في المستشفيات: يمكن دمجها في أنظمة التشخيص بمساعدة الحاسوب الموجودة
برامج فحص سرطان الرئة: مناسبة لمشاريع فحص سرطان الرئة واسعة النطاق
التعليم الطبي: يمكن استخدامها في تدريس وتدريب التصوير الطبي
التطبيقات البحثية: توفر أداة أساسية لأبحاث تحليل الصور الطبية ذات الصلة

المراجع

تستشهد الورقة البحثية بـ 35 مرجعاً ذا صلة، تغطي مبادئ SAM وتقسيم الصور الطبية والكشف عن عقد الرئة والتعلم العميق والعديد من المجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً متيناً للبحث.