2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

Une Approche Novatrice Utilisant CapsNet et le Réseau de Croyance Profond pour la Détection et l'Identification du Cancer Oral

Informations Fondamentales

  • ID de l'article: 2501.00876
  • Titre: Classification Améliorée du Cancer Oral Utilisant des Techniques d'Apprentissage Profond
  • Auteurs: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, Inde)
  • Classification: eess.IV cs.CV cs.LG
  • Domaine de recherche: Traitement d'images médicales, apprentissage profond, vision par ordinateur
  • Lien de l'article: https://arxiv.org/abs/2501.00876

Résumé

Le cancer oral constitue un problème majeur de santé mondiale, ayant causé 277 484 décès en 2023, avec les taux d'incidence les plus élevés dans les pays à revenus faibles et intermédiaires. Cette étude propose une approche novatrice combinant CapsNet et le Réseau de Croyance Profond (DBN) pour la détection et la classification automatiques des lésions orales. L'étude a collecté des données d'images auprès d'experts cliniques mondiaux et les a équipées d'outils d'annotation pour un étiquetage complet. La méthode a atteint un score F1 de 94,23% pour la détection d'images de lésions, 93,46% pour l'identification d'images nécessitant une orientation, et 89,34% pour les tâches de détection d'objets.

Contexte de Recherche et Motivation

Importance du Problème

  1. Charge de santé mondiale: Le cancer oral constitue un problème majeur de santé à l'échelle mondiale, avec 387 864 nouveaux cas et 234 384 décès prévus selon GLOBOCAN 2021
  2. Disparités géographiques: Trois quarts des cas surviennent dans les pays à faibles revenus, l'Afrique et l'Inde représentant la moitié des cas mondiaux
  3. Diagnostic retardé: Dans les pays à revenus faibles et intermédiaires (PRFI), plus des deux tiers des cas sont découverts à un stade avancé, avec des taux de survie plus faibles
  4. Fardeau économique: Les coûts du traitement du cancer sont extrêmement élevés, particulièrement en cas de diagnostic tardif

Limitations des Méthodes Existantes

  1. Pénurie de professionnels: Manque de médecins spécialistes et de ressources médicales, particulièrement dans les régions PRFI
  2. Subjectivité du diagnostic: Le diagnostic traditionnel dépend de l'expérience du clinicien, sans méthode standardisée
  3. Exigences d'équipement: Les méthodes d'apprentissage profond existantes nécessitent des équipements coûteux ou des plateformes de dépistage spécialement conçues
  4. Problèmes d'accessibilité: Les exigences de microscopie à fort grossissement pour examiner la région d'intérêt limitent l'application généralisée

Motivation de la Recherche

  1. Développer un système d'automatisation du diagnostic précoce rentable
  2. Utiliser des images de dispositifs mobiles pour le dépistage en télémédecine
  3. Améliorer la précision de l'orientation des programmes de dépistage
  4. Réduire la dépendance aux équipements spécialisés et au personnel

Contributions Principales

  1. Architecture innovante: Proposition d'un cadre d'apprentissage profond hybride combinant CapsNet et le Réseau de Croyance Profond (DBN)
  2. Fusion d'annotations multi-médecins: Développement d'une nouvelle méthode intégrant les annotations de boîtes englobantes de plusieurs médecins
  3. Détection haute performance: Réalisation de performances exceptionnelles dans les tâches de détection et de classification des lésions orales
  4. Conception pratique: Conception orientée vers des scénarios d'application réels avec des images de dispositifs mobiles

Explication Détaillée de la Méthode

Définition des Tâches

  • Entrée: Images de la cavité orale (provenant de dispositifs mobiles ou d'équipements cliniques)
  • Sortie: Résultats de détection de lésions, étiquettes de classification, recommandations d'orientation
  • Objectif: Identifier automatiquement les lésions orales et classifier leur degré de malignité

Architecture du Modèle

1. Conception d'Architecture Hybride

Le modèle hybride proposé dans cette étude combine deux composants principaux:

  • CapsNet: Pour les tâches de classification d'images
  • Réseau de Croyance Profond (DBN): Pour l'extraction de caractéristiques et la reconnaissance de motifs

2. Composant CapsNet

Idée fondamentale: Simulation des unités de traitement de "capsules" dans le cerveau humain

  • Structure de capsule: Chaque capsule représente une entité spécifique dans l'image, l'état des neurones codant les caractéristiques de l'entité
  • Sortie vectorielle: La longueur du vecteur de sortie représente la probabilité d'existence de l'entité, la direction reflétant les attributs de l'entité
  • Routage dynamique: Remplacement du regroupement maximal traditionnel par un mécanisme de "routage par accord"
  • Fonction de compression: Application d'une transformation non linéaire à la sortie vectorielle, assurant une représentation d'échelle appropriée

Avantages techniques:

CNN traditionnel: Empilement couche par couche → Perte de caractéristiques
CapsNet: Imbrication hiérarchique → Préservation des relations spatiales

3. Réseau de Croyance Profond (DBN)

Processus de prétraitement:

  1. Blanchiment d'image: Réduction de la corrélation entre pixels adjacents, normalisation de la variance à 0
  2. Traitement par mini-lots: Division aléatoire des données d'entrée, réduction de l'effet du bruit

Structure du réseau:

  • Architecture DBN à trois couches: Pour l'extraction de caractéristiques d'images histologiques de neuroblastome
  • Empilement CRBM: Empilement vertical de machines de Boltzmann restreintes convolutives
  • Structure hiérarchique: Couche visible (RK×RK) → Couche cachée (N groupes d'unités MQ×MQ) → Couche de regroupement

Paramètres clés:

  • Nombre total de neurones
  • Nombre de groupes de couches cachées
  • Taille des mini-lots

Points d'Innovation Technique

  1. Application de réseau de capsules: Première application de CapsNet à la détection du cancer oral, préservant les informations hiérarchiques spatiales
  2. Architecture hybride: Combinaison efficace de DBN et CapsNet, exploitant les avantages respectifs
  3. Annotation multi-médecins: Stratégie innovante de fusion d'annotations de boîtes englobantes
  4. Apprentissage de bout en bout: Processus complet des images brutes aux recommandations diagnostiques finales

Configuration Expérimentale

Ensemble de Données

  • Source de données: Images orales collectées par des experts cliniques mondiaux
  • Méthode d'annotation: Annotation de boîtes englobantes par plusieurs médecins
  • Augmentation de données: Application de techniques de rotation, retournement, etc. pour élargir l'ensemble d'entraînement
  • Prétraitement:
    • Normalisation des couleurs pour éliminer les variations de coloration
    • Filtrage médian pour la réduction du bruit
    • Amélioration d'image pour réduire le surapprentissage

Métriques d'Évaluation

  • Score F1: Moyenne harmonique de la précision et du rappel
  • Précision: Proportion d'exemples positifs correctement prédits parmi les exemples prédits positifs
  • Rappel: Proportion d'exemples positifs correctement prédits parmi les exemples réellement positifs
  • Exactitude: Proportion globale de prédictions correctes

Stratégie d'Entraînement

  • Nombre d'épochs: 10 épochs initialement, puis extension à 30 épochs
  • Stratégie d'arrêt anticipé: Arrêt après la 12e époque avec une exactitude de validation optimale de 97,1%
  • Fonction de perte: Les pertes d'entraînement et de validation présentent une tendance décroissante et se stabilisent

Résultats Expérimentaux

Résultats Principaux

Indicateurs de Performance Globale

  • Classification d'images:
    • Détection de lésions: Score F1 de 94,23%
    • Identification d'orientation: Score F1 de 93,46%
  • Détection d'objets:
    • Identification de lésions nécessitant une orientation: Score F1 de 89,34%

Résultats de Classification Détaillés

Catégorie d'imagePrécision (%)Rappel (%)Score F1 (%)
Aucune lésion détectée90,8691,2380,65
Images sans orientation nécessaire93,2690,2194,52
Visite pour autres raisons89,3291,2480,15
Risque de cancer faible90,8889,2387,21
Risque de cancer élevé94,2490,2184,21

Analyse du Processus d'Entraînement

  • Variation d'exactitude: Croissance exponentielle dans les 12 premières épochs, puis stabilisation
  • Exactitude d'entraînement finale: 94,28%
  • Exactitude de validation finale: 94,55%
  • Valeur de perte: Perte d'entraînement 0,18432, perte de validation 0,16543

Découvertes Expérimentales

  1. Caractéristiques de convergence: Le modèle converge efficacement en 30 épochs
  2. Capacité de généralisation: Les courbes d'entraînement et de validation présentent des tendances cohérentes, démontrant une bonne généralisation
  3. Stabilité: La fonction de perte diminue régulièrement, l'entraînement du modèle est stable
  4. Performance stratifiée: Existence de différences de performance de détection selon les niveaux de risque

Travaux Connexes

Évolution des Méthodes Traditionnelles

  1. Caractéristiques de texture: Les premières recherches se concentraient sur les caractéristiques de niveau de gris et de texture
  2. Techniques avancées: Introduction ultérieure de techniques d'imagerie avancées et de lois d'énergie de texture
  3. Apprentissage profond: Application généralisée des CNN à l'imagerie médicale après la compétition ImageNet

Méthodes d'Apprentissage Profond Existantes

  1. Approches multimodales: Cadre d'apprentissage profond multimodal combinant les métadonnées des patients (exactitude 87%)
  2. Ada Boosting: Méthode utilisant cinq espaces de couleur (exactitude 97,25%)
  3. Apprentissage d'ensemble: Modèles d'ensemble CNN pré-entraînés (exactitude 97,88%)
  4. Apprentissage par transfert: Application de modèles pré-entraînés tels que ResNet50

Avantages de cet Article

  1. Exigences d'équipement faibles: Applicable aux images de dispositifs mobiles, sans nécessité d'équipement spécialisé
  2. Innovation architecturale: Combinaison unique de CapsNet+DBN
  3. Forte praticité: Conception orientée vers des scénarios d'application clinique réels

Conclusions et Discussion

Conclusions Principales

  1. Faisabilité technique: L'apprentissage profond possède la capacité de résoudre les problèmes complexes de détection du cancer oral
  2. Performance exceptionnelle: Atteinte de performances supérieures à 90% sur plusieurs métriques d'évaluation
  3. Valeur clinique: Peut soutenir le diagnostic précoce et les décisions d'orientation

Limitations

  1. Taille de l'ensemble de données: La taille spécifique de l'ensemble de données n'est pas clairement indiquée
  2. Validation multi-ethnique: Absence de résultats de validation dans différentes populations
  3. Performance en temps réel: Temps d'inférence du modèle et complexité de calcul non rapportés
  4. Incohérence du titre: Le titre de l'article mentionne "Oral Leukopenia" mais le contenu se concentre principalement sur le cancer oral

Directions Futures

  1. Fusion multimodale: Intégration de plus de types de données cliniques
  2. Expansion de population: Validation de la performance du modèle dans des populations plus larges
  3. Déploiement en temps réel: Optimisation du modèle pour soutenir l'inférence en temps réel sur dispositifs mobiles
  4. Standardisation: Établissement de normes d'évaluation et d'ensembles de données uniformes

Évaluation Approfondie

Points Forts

  1. Innovation méthodologique: La combinaison de CapsNet et DBN présente une nouveauté
  2. Besoins pratiques: Application importante répondant à un problème de santé mondiale
  3. Performance excellente: Atteinte de niveaux élevés sur plusieurs indicateurs
  4. Conception pratique: Prise en compte de la faisabilité du déploiement réel

Insuffisances

  1. Analyse théorique: Manque d'analyse théorique approfondie de l'architecture hybride
  2. Expériences comparatives: Comparaison insuffisante avec d'autres méthodes de pointe
  3. Expériences d'ablation: Vérification insuffisante de la contribution indépendante de chaque composant
  4. Vérification de généralisation: Absence de résultats de validation inter-ensembles de données

Impact

  1. Valeur académique: Fourniture d'une nouvelle voie technologique pour l'analyse d'images médicales
  2. Valeur pratique: Potentiel d'application au dépistage dans les régions aux ressources limitées
  3. Reproductibilité: Nécessité de détails d'implémentation plus détaillés pour soutenir la reproduction

Scénarios d'Application

  1. Télémédecine: Applicable aux régions manquant de médecins spécialistes
  2. Dépistage initial: Peut servir d'outil auxiliaire aux examens cliniques
  3. Formation éducative: Utilisable pour la formation des étudiants en médecine et des médecins généralistes
  4. Dépistage à grande échelle: Soutien des programmes de dépistage du cancer oral au niveau de la population

Références Bibliographiques

L'article cite 15 études connexes, couvrant la détection du cancer oral, l'application de l'apprentissage profond, les méthodes multimodales et d'autres aspects, fournissant une base théorique solide et une comparaison technique pour cette recherche.


Évaluation globale: Cette étude propose un cadre d'apprentissage profond hybride innovant pour la détection du cancer oral, possédant une valeur clinique d'application importante. Bien qu'il existe un espace d'amélioration dans l'analyse théorique et la vérification expérimentale, son approche de conception répondant aux besoins pratiques et ses performances exceptionnelles en font une contribution précieuse dans ce domaine.