2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

Une Approche Novatrice Utilisant CapsNet et le Réseau de Croyance Profond pour la Détection et l'Identification du Cancer Oral

Informations Fondamentales

ID de l'article: 2501.00876
Titre: Classification Améliorée du Cancer Oral Utilisant des Techniques d'Apprentissage Profond
Auteurs: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, Inde)
Classification: eess.IV cs.CV cs.LG
Domaine de recherche: Traitement d'images médicales, apprentissage profond, vision par ordinateur
Lien de l'article: https://arxiv.org/abs/2501.00876

Résumé

Le cancer oral constitue un problème majeur de santé mondiale, ayant causé 277 484 décès en 2023, avec les taux d'incidence les plus élevés dans les pays à revenus faibles et intermédiaires. Cette étude propose une approche novatrice combinant CapsNet et le Réseau de Croyance Profond (DBN) pour la détection et la classification automatiques des lésions orales. L'étude a collecté des données d'images auprès d'experts cliniques mondiaux et les a équipées d'outils d'annotation pour un étiquetage complet. La méthode a atteint un score F1 de 94,23% pour la détection d'images de lésions, 93,46% pour l'identification d'images nécessitant une orientation, et 89,34% pour les tâches de détection d'objets.

Contexte de Recherche et Motivation

Importance du Problème

Charge de santé mondiale: Le cancer oral constitue un problème majeur de santé à l'échelle mondiale, avec 387 864 nouveaux cas et 234 384 décès prévus selon GLOBOCAN 2021
Disparités géographiques: Trois quarts des cas surviennent dans les pays à faibles revenus, l'Afrique et l'Inde représentant la moitié des cas mondiaux
Diagnostic retardé: Dans les pays à revenus faibles et intermédiaires (PRFI), plus des deux tiers des cas sont découverts à un stade avancé, avec des taux de survie plus faibles
Fardeau économique: Les coûts du traitement du cancer sont extrêmement élevés, particulièrement en cas de diagnostic tardif

Limitations des Méthodes Existantes

Pénurie de professionnels: Manque de médecins spécialistes et de ressources médicales, particulièrement dans les régions PRFI
Subjectivité du diagnostic: Le diagnostic traditionnel dépend de l'expérience du clinicien, sans méthode standardisée
Exigences d'équipement: Les méthodes d'apprentissage profond existantes nécessitent des équipements coûteux ou des plateformes de dépistage spécialement conçues
Problèmes d'accessibilité: Les exigences de microscopie à fort grossissement pour examiner la région d'intérêt limitent l'application généralisée

Motivation de la Recherche

Développer un système d'automatisation du diagnostic précoce rentable
Utiliser des images de dispositifs mobiles pour le dépistage en télémédecine
Améliorer la précision de l'orientation des programmes de dépistage
Réduire la dépendance aux équipements spécialisés et au personnel

Contributions Principales

Architecture innovante: Proposition d'un cadre d'apprentissage profond hybride combinant CapsNet et le Réseau de Croyance Profond (DBN)
Fusion d'annotations multi-médecins: Développement d'une nouvelle méthode intégrant les annotations de boîtes englobantes de plusieurs médecins
Détection haute performance: Réalisation de performances exceptionnelles dans les tâches de détection et de classification des lésions orales
Conception pratique: Conception orientée vers des scénarios d'application réels avec des images de dispositifs mobiles

Explication Détaillée de la Méthode

Définition des Tâches

Entrée: Images de la cavité orale (provenant de dispositifs mobiles ou d'équipements cliniques)
Sortie: Résultats de détection de lésions, étiquettes de classification, recommandations d'orientation
Objectif: Identifier automatiquement les lésions orales et classifier leur degré de malignité

Architecture du Modèle

1. Conception d'Architecture Hybride

Le modèle hybride proposé dans cette étude combine deux composants principaux:

CapsNet: Pour les tâches de classification d'images
Réseau de Croyance Profond (DBN): Pour l'extraction de caractéristiques et la reconnaissance de motifs

2. Composant CapsNet

Idée fondamentale: Simulation des unités de traitement de "capsules" dans le cerveau humain

Structure de capsule: Chaque capsule représente une entité spécifique dans l'image, l'état des neurones codant les caractéristiques de l'entité
Sortie vectorielle: La longueur du vecteur de sortie représente la probabilité d'existence de l'entité, la direction reflétant les attributs de l'entité
Routage dynamique: Remplacement du regroupement maximal traditionnel par un mécanisme de "routage par accord"
Fonction de compression: Application d'une transformation non linéaire à la sortie vectorielle, assurant une représentation d'échelle appropriée

Avantages techniques:

CNN traditionnel: Empilement couche par couche → Perte de caractéristiques
CapsNet: Imbrication hiérarchique → Préservation des relations spatiales

3. Réseau de Croyance Profond (DBN)

Processus de prétraitement:

Blanchiment d'image: Réduction de la corrélation entre pixels adjacents, normalisation de la variance à 0
Traitement par mini-lots: Division aléatoire des données d'entrée, réduction de l'effet du bruit

Structure du réseau:

Architecture DBN à trois couches: Pour l'extraction de caractéristiques d'images histologiques de neuroblastome
Empilement CRBM: Empilement vertical de machines de Boltzmann restreintes convolutives
Structure hiérarchique: Couche visible (RK×RK) → Couche cachée (N groupes d'unités MQ×MQ) → Couche de regroupement

Paramètres clés:

Nombre total de neurones
Nombre de groupes de couches cachées
Taille des mini-lots

Points d'Innovation Technique

Application de réseau de capsules: Première application de CapsNet à la détection du cancer oral, préservant les informations hiérarchiques spatiales
Architecture hybride: Combinaison efficace de DBN et CapsNet, exploitant les avantages respectifs
Annotation multi-médecins: Stratégie innovante de fusion d'annotations de boîtes englobantes
Apprentissage de bout en bout: Processus complet des images brutes aux recommandations diagnostiques finales

Configuration Expérimentale

Ensemble de Données

Source de données: Images orales collectées par des experts cliniques mondiaux
Méthode d'annotation: Annotation de boîtes englobantes par plusieurs médecins
Augmentation de données: Application de techniques de rotation, retournement, etc. pour élargir l'ensemble d'entraînement
Prétraitement:
- Normalisation des couleurs pour éliminer les variations de coloration
- Filtrage médian pour la réduction du bruit
- Amélioration d'image pour réduire le surapprentissage

Métriques d'Évaluation

Score F1: Moyenne harmonique de la précision et du rappel
Précision: Proportion d'exemples positifs correctement prédits parmi les exemples prédits positifs
Rappel: Proportion d'exemples positifs correctement prédits parmi les exemples réellement positifs
Exactitude: Proportion globale de prédictions correctes

Stratégie d'Entraînement

Nombre d'épochs: 10 épochs initialement, puis extension à 30 épochs
Stratégie d'arrêt anticipé: Arrêt après la 12e époque avec une exactitude de validation optimale de 97,1%
Fonction de perte: Les pertes d'entraînement et de validation présentent une tendance décroissante et se stabilisent

Résultats Expérimentaux

Résultats Principaux

Indicateurs de Performance Globale

Classification d'images:
- Détection de lésions: Score F1 de 94,23%
- Identification d'orientation: Score F1 de 93,46%
Détection d'objets:
- Identification de lésions nécessitant une orientation: Score F1 de 89,34%

Résultats de Classification Détaillés

Catégorie d'image	Précision (%)	Rappel (%)	Score F1 (%)
Aucune lésion détectée	90,86	91,23	80,65
Images sans orientation nécessaire	93,26	90,21	94,52
Visite pour autres raisons	89,32	91,24	80,15
Risque de cancer faible	90,88	89,23	87,21
Risque de cancer élevé	94,24	90,21	84,21

Analyse du Processus d'Entraînement

Variation d'exactitude: Croissance exponentielle dans les 12 premières épochs, puis stabilisation
Exactitude d'entraînement finale: 94,28%
Exactitude de validation finale: 94,55%
Valeur de perte: Perte d'entraînement 0,18432, perte de validation 0,16543

Découvertes Expérimentales

Caractéristiques de convergence: Le modèle converge efficacement en 30 épochs
Capacité de généralisation: Les courbes d'entraînement et de validation présentent des tendances cohérentes, démontrant une bonne généralisation
Stabilité: La fonction de perte diminue régulièrement, l'entraînement du modèle est stable
Performance stratifiée: Existence de différences de performance de détection selon les niveaux de risque

Travaux Connexes

Évolution des Méthodes Traditionnelles

Caractéristiques de texture: Les premières recherches se concentraient sur les caractéristiques de niveau de gris et de texture
Techniques avancées: Introduction ultérieure de techniques d'imagerie avancées et de lois d'énergie de texture
Apprentissage profond: Application généralisée des CNN à l'imagerie médicale après la compétition ImageNet

Méthodes d'Apprentissage Profond Existantes

Approches multimodales: Cadre d'apprentissage profond multimodal combinant les métadonnées des patients (exactitude 87%)
Ada Boosting: Méthode utilisant cinq espaces de couleur (exactitude 97,25%)
Apprentissage d'ensemble: Modèles d'ensemble CNN pré-entraînés (exactitude 97,88%)
Apprentissage par transfert: Application de modèles pré-entraînés tels que ResNet50

Avantages de cet Article

Exigences d'équipement faibles: Applicable aux images de dispositifs mobiles, sans nécessité d'équipement spécialisé
Innovation architecturale: Combinaison unique de CapsNet+DBN
Forte praticité: Conception orientée vers des scénarios d'application clinique réels

Conclusions et Discussion

Conclusions Principales

Faisabilité technique: L'apprentissage profond possède la capacité de résoudre les problèmes complexes de détection du cancer oral
Performance exceptionnelle: Atteinte de performances supérieures à 90% sur plusieurs métriques d'évaluation
Valeur clinique: Peut soutenir le diagnostic précoce et les décisions d'orientation

Limitations

Taille de l'ensemble de données: La taille spécifique de l'ensemble de données n'est pas clairement indiquée
Validation multi-ethnique: Absence de résultats de validation dans différentes populations
Performance en temps réel: Temps d'inférence du modèle et complexité de calcul non rapportés
Incohérence du titre: Le titre de l'article mentionne "Oral Leukopenia" mais le contenu se concentre principalement sur le cancer oral

Directions Futures

Fusion multimodale: Intégration de plus de types de données cliniques
Expansion de population: Validation de la performance du modèle dans des populations plus larges
Déploiement en temps réel: Optimisation du modèle pour soutenir l'inférence en temps réel sur dispositifs mobiles
Standardisation: Établissement de normes d'évaluation et d'ensembles de données uniformes

Évaluation Approfondie

Points Forts

Innovation méthodologique: La combinaison de CapsNet et DBN présente une nouveauté
Besoins pratiques: Application importante répondant à un problème de santé mondiale
Performance excellente: Atteinte de niveaux élevés sur plusieurs indicateurs
Conception pratique: Prise en compte de la faisabilité du déploiement réel

Insuffisances

Analyse théorique: Manque d'analyse théorique approfondie de l'architecture hybride
Expériences comparatives: Comparaison insuffisante avec d'autres méthodes de pointe
Expériences d'ablation: Vérification insuffisante de la contribution indépendante de chaque composant
Vérification de généralisation: Absence de résultats de validation inter-ensembles de données

Impact

Valeur académique: Fourniture d'une nouvelle voie technologique pour l'analyse d'images médicales
Valeur pratique: Potentiel d'application au dépistage dans les régions aux ressources limitées
Reproductibilité: Nécessité de détails d'implémentation plus détaillés pour soutenir la reproduction

Scénarios d'Application

Télémédecine: Applicable aux régions manquant de médecins spécialistes
Dépistage initial: Peut servir d'outil auxiliaire aux examens cliniques
Formation éducative: Utilisable pour la formation des étudiants en médecine et des médecins généralistes
Dépistage à grande échelle: Soutien des programmes de dépistage du cancer oral au niveau de la population

Références Bibliographiques

L'article cite 15 études connexes, couvrant la détection du cancer oral, l'application de l'apprentissage profond, les méthodes multimodales et d'autres aspects, fournissant une base théorique solide et une comparaison technique pour cette recherche.

Évaluation globale: Cette étude propose un cadre d'apprentissage profond hybride innovant pour la détection du cancer oral, possédant une valeur clinique d'application importante. Bien qu'il existe un espace d'amélioration dans l'analyse théorique et la vérification expérimentale, son approche de conception répondant aux besoins pratiques et ses performances exceptionnelles en font une contribution précieuse dans ce domaine.