2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

نهج جديد باستخدام CapsNet وشبكة المعتقدات العميقة لكشف وتحديد سرطان الفم

المعلومات الأساسية

  • معرّف الورقة البحثية: 2501.00876
  • العنوان: تصنيف محسّن لسرطان الفم باستخدام تقنيات التعلم العميق
  • المؤلفون: د. سينثيل باندي إس، هيرثيك ماثيش جي في، كافين تشاكرافارثي إم (كلية راجالاكشمي الهندسية، تشيناي، الهند)
  • التصنيف: eess.IV cs.CV cs.LG
  • مجال البحث: معالجة الصور الطبية، التعلم العميق، الرؤية الحاسوبية
  • رابط الورقة: https://arxiv.org/abs/2501.00876

الملخص

يُعتبر سرطان الفم مشكلة صحية عالمية كبرى، حيث تسبب وفيات 277,484 شخصاً في عام 2023، مع أعلى معدلات إصابة في الدول منخفضة ومتوسطة الدخل. تقترح هذه الدراسة نهجاً جديداً يجمع بين شبكة الكبسولات (CapsNet) وشبكة المعتقدات العميقة (DBN) للكشف التلقائي وتصنيف آفات الفم. جمعت الدراسة بيانات صور من خبراء سريريين عالميين، مزودة بأدوات تعليق شامل. حققت الطريقة درجة F1 بنسبة 94.23% في مهام تصنيف الصور للكشف عن صور الآفات، و93.46% لتحديد الصور التي تتطلب إحالة، و89.34% لمهام الكشف عن الأجسام.

خلفية البحث والدافع

أهمية المشكلة

  1. العبء الصحي العالمي: يُعتبر سرطان الفم مشكلة صحية كبرى عالمياً، حيث توقعت GLOBOCAN لعام 2021 وجود 387,864 حالة جديدة و234,384 حالة وفيات
  2. الاختلافات الجغرافية: تحدث ثلاثة أرباع الحالات في الدول منخفضة الدخل، حيث تمثل أفريقيا والهند نصف الحالات العالمية
  3. التشخيص المتأخر: في الدول منخفضة ومتوسطة الدخل (LMICs)، يتم اكتشاف أكثر من ثلثي الحالات في مراحل متقدمة، مما يؤدي إلى معدلات بقاء أقل
  4. العبء الاقتصادي: تكاليف علاج السرطان مرتفعة جداً، خاصة في حالات التشخيص المتأخر

قيود الطرق الموجودة

  1. نقص المتخصصين: نقص الأطباء المتخصصين والموارد الطبية، خاصة في مناطق الدول منخفضة ومتوسطة الدخل
  2. الذاتية في التشخيص: يعتمد التشخيص التقليدي على خبرة الطبيب السريري، مع غياب الطرق الموحدة
  3. متطلبات المعدات: تتطلب طرق التعلم العميق الموجودة معدات مكلفة أو منصات فحص مصممة خصيصاً
  4. مشاكل إمكانية الوصول: يحد متطلب الفحص بالعدسات المكبرة العالية لمنطقة الاهتمام من الانتشار الواسع

دافع البحث

  1. تطوير نظام تشخيص مبكر مؤتمت فعال من حيث التكلفة
  2. الاستفادة من صور الأجهزة المحمولة للفحص الطبي عن بعد
  3. تحسين دقة الإحالة في برامج الفحص
  4. تقليل الاعتماد على المعدات المتخصصة والموظفين

المساهمات الأساسية

  1. معمارية مبتكرة: اقتراح إطار عمل هجين للتعلم العميق يجمع بين CapsNet وشبكة المعتقدات العميقة (DBN)
  2. دمج التعليقات متعددة الأطباء: تطوير طريقة جديدة لدمج تعليقات صناديق الحدود من عدة أطباء
  3. كشف عالي الأداء: تحقيق أداء ممتازة في مهام كشف وتصنيف آفات الفم
  4. التصميم العملي: تصميم موجه نحو سيناريوهات التطبيق العملي لصور الأجهزة المحمولة

شرح الطريقة

تعريف المهام

  • الإدخال: صور تجويف الفم (من الأجهزة المحمولة أو الأجهزة السريرية)
  • الإخراج: نتائج كشف الآفات، تسميات التصنيف، توصيات الإحالة
  • الهدف: تحديد آفات الفم تلقائياً وتصنيفها حسب درجة الخطورة

معمارية النموذج

1. تصميم المعمارية الهجينة

يجمع النموذج الهجين المقترح في هذه الدراسة بين مكونين أساسيين:

  • CapsNet: للمهام المتعلقة بتصنيف الصور
  • شبكة المعتقدات العميقة (DBN): لاستخراج الميزات والتعرف على الأنماط

2. مكون CapsNet

الفكرة الأساسية: محاكاة وحدات معالجة "الكبسولات" في الدماغ البشري

  • بنية الكبسولات: تمثل كل كبسولة كياناً محدداً في الصورة، حيث تشفر حالة الخلايا العصبية ميزات الكيان
  • إخراج المتجهات: يعبر طول متجه الإخراج عن احتمالية وجود الكيان، بينما يعكس الاتجاه خصائص الكيان
  • التوجيه الديناميكي: استبدال تجميع أقصى تقليدي بآلية "التوجيه المتسق"
  • دالة الضغط: تطبيق تحويل غير خطي على مخرجات المتجهات، مما يضمن تمثيلاً مناسب الحجم

المزايا التقنية:

شبكات CNN التقليدية: تكديس متتالي → فقدان الميزات
CapsNet: تداخل هرمي → الحفاظ على العلاقات المكانية

3. شبكة المعتقدات العميقة (DBN)

عملية المعالجة المسبقة:

  1. تبييض الصور: تقليل الارتباط بين البكسلات المجاورة، توحيد التباين إلى 0
  2. معالجة الدفعات الصغيرة: تقسيم عشوائي لبيانات الإدخال، تقليل تأثير الضوضاء

بنية الشبكة:

  • معمارية DBN ثلاثية الطبقات: لاستخراج ميزات صور الأنسجة الأرومية العصبية
  • تكديس CRBM: تكديس عمودي لآلات بولتزمان المقيدة الالتفافية
  • البنية الهرمية: الطبقة المرئية (RK×RK) → الطبقة المخفية (N مجموعة من وحدات MQ×MQ) → طبقة التجميع

المعاملات الرئيسية:

  • إجمالي عدد الخلايا العصبية
  • عدد مجموعات الطبقات المخفية
  • حجم الدفعة الصغيرة

نقاط الابتكار التقني

  1. تطبيق شبكات الكبسولات: أول تطبيق لـ CapsNet في كشف سرطان الفم، مع الحفاظ على معلومات الهرمية المكانية
  2. المعمارية الهجينة: الجمع الفعال بين DBN و CapsNet، الاستفادة من مزايا كل منهما
  3. تعليقات متعددة الأطباء: استراتيجية مبتكرة لدمج تعليقات صناديق الحدود
  4. التعلم من النهاية إلى النهاية: عملية كاملة من الصور الخام إلى توصيات التشخيص النهائية

إعداد التجارب

مجموعة البيانات

  • مصدر البيانات: صور الفم المجمعة من قبل خبراء سريريين عالميين
  • طريقة التعليق: تعليقات صناديق الحدود متعددة الأطباء
  • تعزيز البيانات: تطبيق تقنيات الدوران والقلب وغيرها لتوسيع مجموعة التدريب
  • المعالجة المسبقة:
    • توحيد الألوان لإزالة اختلافات الصبغة
    • تصفية الوسيط لتقليل الضوضاء
    • تحسين الصور لتقليل الإفراط في التدريب

مقاييس التقييم

  • درجة F1: المتوسط التوافقي للدقة والاستدعاء
  • الدقة (Precision): نسبة الأمثلة الموجبة المتنبأ بها بشكل صحيح من إجمالي الأمثلة الموجبة المتنبأ بها
  • الاستدعاء (Recall): نسبة الأمثلة الموجبة المتنبأ بها بشكل صحيح من إجمالي الأمثلة الموجبة الفعلية
  • الدقة (Accuracy): نسبة التنبؤات الصحيحة الإجمالية

استراتيجية التدريب

  • عدد الحقب: 10 حقب أولية، موسعة لاحقاً إلى 30 حقة
  • استراتيجية الإيقاف المبكر: التوقف في الحقة 12 بعد تحقيق أفضل دقة تحقق 97.1%
  • دالة الخسارة: تظهر خسائر التدريب والتحقق اتجاهاً هابطاً وتستقر

نتائج التجارب

النتائج الرئيسية

مؤشرات الأداء الإجمالية

  • تصنيف الصور:
    • كشف الآفات: درجة F1 بنسبة 94.23%
    • تحديد الإحالة: درجة F1 بنسبة 93.46%
  • الكشف عن الأجسام:
    • تحديد آفات الإحالة: درجة F1 بنسبة 89.34%

نتائج التصنيف التفصيلية

فئة الصورةالدقة (%)الاستدعاء (%)درجة F1 (%)
عدم اكتشاف آفات90.8691.2380.65
صور بدون حاجة إحالة93.2690.2194.52
الزيارة لأسباب أخرى89.3291.2480.15
خطر سرطان منخفض90.8889.2387.21
خطر سرطان مرتفع94.2490.2184.21

تحليل عملية التدريب

  • تغير الدقة: نمو أسي في الحقب الـ 12 الأولى، ثم استقرار
  • دقة التدريب النهائية: 94.28%
  • دقة التحقق النهائية: 94.55%
  • قيم الخسارة: خسارة التدريب 0.18432، خسارة التحقق 0.16543

النتائج التجريبية

  1. خصائص التقارب: يتقارب النموذج بفعالية خلال 30 حقة
  2. القدرة على التعميم: اتجاه متسق بين منحنيات التدريب والتحقق، مما يشير إلى تعميم جيد
  3. الاستقرار: انخفاض سلس لدالة الخسارة، تدريب نموذج مستقر
  4. الأداء الطبقي: وجود اختلافات في أداء الكشف لمستويات الخطر المختلفة

الأعمال ذات الصلة

تطور الطرق التقليدية

  1. ميزات النسيج: ركزت الدراسات المبكرة على ميزات الدرجات الرمادية والنسيج
  2. التقنيات المتقدمة: أدخلت الدراسات اللاحقة تقنيات التصوير المتقدمة وقوانين طاقة النسيج
  3. التعلم العميق: انتشر استخدام شبكات CNN على نطاق واسع في الصور الطبية بعد منافسة ImageNet

طرق التعلم العميق الموجودة

  1. الطرق متعددة الأنماط: إطار عمل التعلم العميق متعدد الأنماط الذي يجمع بيانات المريض الوصفية (دقة 87%)
  2. Ada Boosting: طريقة تستخدم خمس فضاءات ألوان (دقة 97.25%)
  3. التعلم المجمع: نماذج CNN المجمعة المدربة مسبقاً (دقة 97.88%)
  4. التعلم بالنقل: تطبيق النماذج المدربة مسبقاً مثل ResNet50

مزايا هذه الورقة

  1. متطلبات معدات منخفضة: قابلة للتطبيق على صور الأجهزة المحمولة، بدون الحاجة إلى معدات متخصصة
  2. ابتكار معماري: مزيج فريد من CapsNet و DBN
  3. قوة عملية: مصممة لسيناريوهات التطبيق السريري الفعلي

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. جدوى تقنية: يمتلك التعلم العميق القدرة على حل مشاكل كشف سرطان الفم المعقدة
  2. أداء ممتازة: تحقيق أداء تزيد عن 90% في مؤشرات تقييم متعددة
  3. القيمة السريرية: يمكن أن يدعم التشخيص المبكر وقرارات الإحالة

القيود

  1. حجم مجموعة البيانات: لم يتم توضيح الحجم المحدد لمجموعة البيانات
  2. التحقق عبر الأعراق: نقص نتائج التحقق لمجموعات سكانية مختلفة
  3. الأداء في الوقت الفعلي: عدم الإبلاغ عن وقت الاستدلال والتعقيد الحسابي للنموذج
  4. عدم اتساق العنوان: يذكر عنوان الورقة "Oral Leukopenia" لكن المحتوى يركز بشكل أساسي على سرطان الفم

الاتجاهات المستقبلية

  1. دمج متعدد الأنماط: دمج المزيد من أنواع البيانات السريرية
  2. توسيع السكان: التحقق من أداء النموذج في مجموعات سكانية أوسع
  3. النشر في الوقت الفعلي: تحسين النموذج لدعم الاستدلال في الوقت الفعلي على الأجهزة المحمولة
  4. التوحيد: إنشاء معايير تقييم موحدة ومجموعات بيانات

التقييم المتعمق

المزايا

  1. ابتكار الطريقة: يتمتع الجمع بين CapsNet و DBN بالجدة
  2. الاحتياجات العملية: تطبيق مهم يعالج مشكلة صحية عالمية
  3. أداء ممتازة: تحقيق مستويات أداء عالية في مؤشرات متعددة
  4. التصميم العملي: يأخذ في الاعتبار جدوى النشر الفعلي

أوجه القصور

  1. التحليل النظري: نقص التحليل النظري العميق للمعمارية الهجينة
  2. التجارب المقارنة: عدم كفاية المقارنة مع طرق الحالة الفنية الأخرى
  3. تجارب الاستئصال: عدم التحقق الكافي من المساهمة المستقلة لكل مكون
  4. التحقق من التعميم: نقص نتائج التحقق عبر مجموعات البيانات

التأثير

  1. القيمة الأكاديمية: توفير مسار تقني جديد لتحليل الصور الطبية
  2. القيمة العملية: من المتوقع تطبيقها في الفحص في المناطق ذات الموارد المحدودة
  3. قابلية إعادة الإنتاج: تحتاج إلى تفاصيل تنفيذ أكثر تفصيلاً لدعم إعادة الإنتاج

السيناريوهات القابلة للتطبيق

  1. الطب عن بعد: قابلة للتطبيق في المناطق التي تفتقر إلى الأطباء المتخصصين
  2. الفحص الأولي: يمكن استخدامها كأداة مساعدة للفحص السريري
  3. التدريب التعليمي: يمكن استخدامها في تدريب طلاب الطب والأطباء العامين
  4. برامج الفحص على نطاق واسع: دعم برامج فحص سرطان الفم على مستوى السكان

المراجع

تستشهد الورقة بـ 15 دراسة ذات صلة، تغطي كشف سرطان الفم وتطبيقات التعلم العميق والطرق متعددة الأنماط وجوانب أخرى، مما يوفر أساساً نظرياً قوياً ومقارنة تقنية لهذا البحث.


التقييم الإجمالي: تقترح هذه الدراسة إطار عمل هجين مبتكر للتعلم العميق لكشف سرطان الفم، مع قيمة سريرية تطبيقية مهمة. على الرغم من وجود مجال للتحسن في التحليل النظري والتحقق التجريبي، فإن نهجها في تصميم الاحتياجات العملية والأداء الممتازة تجعلها مساهمة قيمة في هذا المجال.