2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

Un Approccio Innovativo Utilizzando CapsNet e Deep Belief Network per la Rilevazione e l'Identificazione del Cancro Orale

Informazioni Fondamentali

  • ID Articolo: 2501.00876
  • Titolo: Enhanced Classification of Oral Cancer Using Deep Learning Techniques
  • Autori: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
  • Classificazione: eess.IV cs.CV cs.LG
  • Ambito di Ricerca: Elaborazione di immagini mediche, apprendimento profondo, visione artificiale
  • Link Articolo: https://arxiv.org/abs/2501.00876

Riassunto

Il cancro orale rappresenta un grave problema sanitario globale, causando 277.484 decessi nel 2023, con il più alto tasso di incidenza nei paesi a reddito basso e medio. Questo studio propone un metodo innovativo che combina CapsNet e Deep Belief Network (DBN) per la rilevazione e la classificazione automatica delle lesioni orali. La ricerca ha raccolto dati di immagini da esperti clinici globali, dotati di strumenti di annotazione per un'etichettatura completa. Il metodo ha raggiunto un punteggio F1 del 94,23% per la rilevazione di immagini con lesioni nei compiti di classificazione delle immagini, un punteggio F1 del 93,46% per l'identificazione di immagini che richiedono rinvio, e un punteggio F1 dell'89,34% nei compiti di rilevazione di oggetti.

Contesto di Ricerca e Motivazione

Importanza del Problema

  1. Onere Sanitario Globale: Il cancro orale rappresenta un grave problema sanitario a livello mondiale, con GLOBOCAN 2021 che prevede 387.864 nuovi casi e 234.384 decessi
  2. Disparità Geografiche: Tre quarti dei casi si verificano nei paesi a basso reddito, con Africa e India che rappresentano la metà dei casi globali
  3. Diagnosi Ritardata: Nei paesi a reddito basso e medio (LMIC), oltre due terzi dei casi vengono scoperti in fase avanzata, con tassi di sopravvivenza inferiori
  4. Onere Economico: I costi del trattamento del cancro sono estremamente elevati, in particolare nei casi di diagnosi tardiva

Limitazioni dei Metodi Esistenti

  1. Carenza di Professionisti: Mancanza di medici specialisti e risorse mediche, in particolare nelle regioni LMIC
  2. Soggettività Diagnostica: La diagnosi tradizionale dipende dall'esperienza del clinico, mancando di metodi standardizzati
  3. Requisiti di Apparecchiature: I metodi di apprendimento profondo esistenti richiedono apparecchiature costose o piattaforme di screening appositamente progettate
  4. Problemi di Accessibilità: Il requisito di esame con microscopio ad alto ingrandimento della ROI limita l'applicazione diffusa

Motivazione della Ricerca

  1. Sviluppare sistemi automatizzati di diagnosi precoce conveniente
  2. Utilizzare immagini da dispositivi mobili per lo screening di telemedicina
  3. Migliorare l'accuratezza del rinvio nei programmi di screening
  4. Ridurre la dipendenza da apparecchiature specializzate e personale

Contributi Principali

  1. Architettura Innovativa: Propone un framework ibrido di apprendimento profondo che combina CapsNet e Deep Belief Network (DBN)
  2. Fusione di Annotazioni Multi-Medico: Sviluppa un nuovo metodo per integrare le annotazioni dei riquadri di delimitazione di più medici
  3. Rilevazione ad Alte Prestazioni: Realizza prestazioni eccellenti nei compiti di rilevazione e classificazione delle lesioni orali
  4. Progettazione Pratica: Progettata per scenari di applicazione pratica con immagini da dispositivi mobili

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Immagini della cavità orale (da dispositivi mobili o apparecchiature cliniche)
  • Output: Risultati di rilevazione delle lesioni, etichette di classificazione, raccomandazioni di rinvio
  • Obiettivo: Identificare automaticamente le lesioni orali e classificarle in base al grado di malignità

Architettura del Modello

1. Progettazione dell'Architettura Ibrida

Il modello ibrido proposto in questo studio combina due componenti principali:

  • CapsNet: Utilizzato per compiti di classificazione delle immagini
  • Deep Belief Network (DBN): Utilizzato per l'estrazione di caratteristiche e il riconoscimento di modelli

2. Componente CapsNet

Idea Centrale: Simula le unità di elaborazione "capsule" nel cervello umano

  • Struttura Capsule: Ogni capsula rappresenta un'entità specifica nell'immagine, con lo stato dei neuroni che codifica le caratteristiche dell'entità
  • Output Vettoriale: La lunghezza del vettore di output rappresenta la probabilità di esistenza dell'entità, la direzione riflette gli attributi dell'entità
  • Routing Dinamico: Sostituisce il tradizionale max pooling con il meccanismo di "routing per consenso"
  • Funzione di Compressione: Applica una trasformazione non lineare all'output vettoriale, garantendo una rappresentazione di scala appropriata

Vantaggi Tecnici:

CNN Tradizionale: Stacking sequenziale → Perdita di caratteristiche
CapsNet: Annidamento gerarchico → Preservazione delle relazioni spaziali

3. Deep Belief Network (DBN)

Procedura di Pre-elaborazione:

  1. Whitening dell'Immagine: Riduce la correlazione tra pixel adiacenti, standardizza la varianza a 0
  2. Elaborazione in Mini-Batch: Divide casualmente i dati di input, riduce l'effetto del rumore

Struttura della Rete:

  • Architettura DBN a Tre Strati: Utilizzata per l'estrazione di caratteristiche da immagini istologiche di neuroblastoma
  • Stack CRBM: Macchine di Boltzmann Ristrette Convoluzionali impilate verticalmente
  • Struttura Gerarchica: Strato visibile (RK×RK) → Strato nascosto (N gruppi di unità MQ×MQ) → Strato di pooling

Parametri Chiave:

  • Numero totale di neuroni
  • Numero di gruppi dello strato nascosto
  • Dimensione del mini-batch

Punti di Innovazione Tecnica

  1. Applicazione della Rete Capsule: Prima applicazione di CapsNet alla rilevazione del cancro orale, preservando le informazioni gerarchiche spaziali
  2. Architettura Ibrida: Combinazione efficace di DBN e CapsNet, sfruttando i vantaggi di ciascuno
  3. Annotazione Multi-Medico: Strategia innovativa di fusione delle annotazioni dei riquadri di delimitazione
  4. Apprendimento End-to-End: Processo completo dalle immagini grezze alle raccomandazioni diagnostiche finali

Configurazione Sperimentale

Dataset

  • Fonte dei Dati: Immagini orali raccolte da esperti clinici globali
  • Metodo di Annotazione: Annotazione di riquadri di delimitazione multi-medico
  • Aumento dei Dati: Applicazione di tecniche di rotazione, capovolgimento, ecc. per espandere il set di addestramento
  • Pre-elaborazione:
    • Normalizzazione del colore per eliminare le differenze di colorazione
    • Filtro mediano per la riduzione del rumore
    • Miglioramento dell'immagine per ridurre l'overfitting

Metriche di Valutazione

  • Punteggio F1: Media armonica di precisione e richiamo
  • Precisione (Precision): Proporzione di esempi positivi corretti tra gli esempi positivi predetti
  • Richiamo (Recall): Proporzione di esempi positivi corretti tra gli esempi positivi effettivi
  • Accuratezza (Accuracy): Proporzione di predizioni corrette nel complesso

Strategia di Addestramento

  • Numero di Epoche: Inizialmente 10, successivamente esteso a 30
  • Early Stopping: Arresto dopo l'epoca 12 quando raggiunge la migliore accuratezza di validazione del 97,1%
  • Funzione di Perdita: Sia la perdita di addestramento che di validazione mostrano una tendenza al ribasso e si stabilizzano

Risultati Sperimentali

Risultati Principali

Indicatori di Prestazione Complessivi

  • Classificazione delle Immagini:
    • Rilevazione di lesioni: Punteggio F1 94,23%
    • Identificazione di rinvio: Punteggio F1 93,46%
  • Rilevazione di Oggetti:
    • Identificazione di lesioni che richiedono rinvio: Punteggio F1 89,34%

Risultati di Classificazione Dettagliati

Categoria di ImmaginePrecisione (%)Richiamo (%)Punteggio F1 (%)
Nessuna lesione rilevata90,8691,2380,65
Immagini senza necessità di rinvio93,2690,2194,52
Visita per altri motivi89,3291,2480,15
Basso rischio di cancro90,8889,2387,21
Alto rischio di cancro94,2490,2184,21

Analisi del Processo di Addestramento

  • Variazione dell'Accuratezza: Crescita esponenziale nelle prime 12 epoche, successivamente stabilizzazione
  • Accuratezza di Addestramento Finale: 94,28%
  • Accuratezza di Validazione Finale: 94,55%
  • Valore di Perdita: Perdita di addestramento 0,18432, perdita di validazione 0,16543

Risultati Sperimentali

  1. Caratteristiche di Convergenza: Il modello converge efficacemente entro 30 epoche
  2. Capacità di Generalizzazione: Le curve di addestramento e validazione mostrano una tendenza coerente, indicando una buona generalizzazione
  3. Stabilità: La funzione di perdita diminuisce uniformemente, l'addestramento del modello è stabile
  4. Prestazioni Stratificate: Esistono differenze nelle prestazioni di rilevazione per diversi livelli di rischio

Lavori Correlati

Evoluzione dei Metodi Tradizionali

  1. Caratteristiche di Trama: La ricerca iniziale si è concentrata su caratteristiche di scala di grigi e trama
  2. Tecniche Avanzate: Successivamente sono state introdotte tecniche di imaging avanzate e leggi di energia della trama
  3. Apprendimento Profondo: Le CNN sono state ampiamente applicate alle immagini mediche dopo la competizione ImageNet

Metodi di Apprendimento Profondo Esistenti

  1. Approccio Multimodale: Framework di apprendimento profondo multimodale che combina metadati dei pazienti (accuratezza 87%)
  2. Ada Boosting: Metodo che utilizza cinque spazi colore (accuratezza 97,25%)
  3. Apprendimento d'Insieme: Modello d'insieme CNN pre-addestrato (accuratezza 97,88%)
  4. Apprendimento per Trasferimento: Applicazione di modelli pre-addestrati come ResNet50

Vantaggi di Questo Articolo

  1. Requisiti di Apparecchiature Bassi: Applicabile a immagini da dispositivi mobili, senza necessità di apparecchiature specializzate
  2. Innovazione Architettonica: Combinazione unica di CapsNet+DBN
  3. Forte Praticità: Progettata per scenari di applicazione clinica reale

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: L'apprendimento profondo ha la capacità di risolvere complessi problemi di rilevazione del cancro orale
  2. Prestazioni Eccellenti: Raggiunge prestazioni superiori al 90% su più metriche di valutazione
  3. Valore Clinico: Può supportare la diagnosi precoce e le decisioni di rinvio

Limitazioni

  1. Dimensione del Dataset: La dimensione specifica del dataset non è chiaramente indicata
  2. Validazione Interetnica: Mancano risultati di validazione su diverse popolazioni
  3. Prestazioni in Tempo Reale: Non sono stati riportati i tempi di inferenza del modello e la complessità computazionale
  4. Incoerenza del Titolo: Il titolo dell'articolo menziona "Oral Leukopenia" ma il contenuto si concentra principalmente sul cancro orale

Direzioni Future

  1. Fusione Multimodale: Integrazione di più tipi di dati clinici
  2. Espansione della Popolazione: Validazione delle prestazioni del modello su popolazioni più ampie
  3. Distribuzione in Tempo Reale: Ottimizzazione del modello per supportare l'inferenza in tempo reale su dispositivi mobili
  4. Standardizzazione: Stabilire standard di valutazione unificati e dataset

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Metodo: La combinazione di CapsNet e DBN presenta novità
  2. Esigenze Pratiche: Applicazione importante a un problema sanitario globale
  3. Prestazioni Eccellenti: Raggiunge livelli elevati su più indicatori
  4. Progettazione Pratica: Considera la fattibilità della distribuzione effettiva

Insufficienze

  1. Analisi Teorica: Manca un'analisi teorica approfondita dell'architettura ibrida
  2. Esperimenti Comparativi: Il confronto con altri metodi SOTA non è sufficientemente completo
  3. Esperimenti di Ablazione: Non verifica sufficientemente il contributo indipendente di ogni componente
  4. Validazione della Generalizzazione: Mancano risultati di validazione tra dataset

Impatto

  1. Valore Accademico: Fornisce un nuovo percorso tecnico per l'analisi di immagini mediche
  2. Valore Pratico: Ha il potenziale di essere applicato allo screening in aree con risorse limitate
  3. Riproducibilità: Richiede dettagli di implementazione più dettagliati per supportare la riproduzione

Scenari Applicabili

  1. Telemedicina: Applicabile a regioni prive di medici specialisti
  2. Screening Iniziale: Può fungere da strumento ausiliario per l'esame clinico
  3. Formazione Educativa: Può essere utilizzato per la formazione di studenti di medicina e medici generici
  4. Screening su Larga Scala: Supporta programmi di screening del cancro orale a livello di popolazione

Bibliografia

L'articolo cita 15 studi correlati, coprendo molteplici aspetti tra cui rilevazione del cancro orale, applicazioni di apprendimento profondo, metodi multimodali, ecc., fornendo una solida base teorica e confronti tecnici per questa ricerca.


Valutazione Complessiva: Questo studio propone un framework ibrido innovativo di apprendimento profondo per la rilevazione del cancro orale, con importante valore di applicazione clinica. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica sperimentale, il suo approccio di progettazione orientato alle esigenze pratiche e le eccellenti prestazioni lo rendono un contributo prezioso in questo campo.