2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

Un Approccio Innovativo Utilizzando CapsNet e Deep Belief Network per la Rilevazione e l'Identificazione del Cancro Orale

Informazioni Fondamentali

ID Articolo: 2501.00876
Titolo: Enhanced Classification of Oral Cancer Using Deep Learning Techniques
Autori: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
Classificazione: eess.IV cs.CV cs.LG
Ambito di Ricerca: Elaborazione di immagini mediche, apprendimento profondo, visione artificiale
Link Articolo: https://arxiv.org/abs/2501.00876

Riassunto

Il cancro orale rappresenta un grave problema sanitario globale, causando 277.484 decessi nel 2023, con il più alto tasso di incidenza nei paesi a reddito basso e medio. Questo studio propone un metodo innovativo che combina CapsNet e Deep Belief Network (DBN) per la rilevazione e la classificazione automatica delle lesioni orali. La ricerca ha raccolto dati di immagini da esperti clinici globali, dotati di strumenti di annotazione per un'etichettatura completa. Il metodo ha raggiunto un punteggio F1 del 94,23% per la rilevazione di immagini con lesioni nei compiti di classificazione delle immagini, un punteggio F1 del 93,46% per l'identificazione di immagini che richiedono rinvio, e un punteggio F1 dell'89,34% nei compiti di rilevazione di oggetti.

Contesto di Ricerca e Motivazione

Importanza del Problema

Onere Sanitario Globale: Il cancro orale rappresenta un grave problema sanitario a livello mondiale, con GLOBOCAN 2021 che prevede 387.864 nuovi casi e 234.384 decessi
Disparità Geografiche: Tre quarti dei casi si verificano nei paesi a basso reddito, con Africa e India che rappresentano la metà dei casi globali
Diagnosi Ritardata: Nei paesi a reddito basso e medio (LMIC), oltre due terzi dei casi vengono scoperti in fase avanzata, con tassi di sopravvivenza inferiori
Onere Economico: I costi del trattamento del cancro sono estremamente elevati, in particolare nei casi di diagnosi tardiva

Limitazioni dei Metodi Esistenti

Carenza di Professionisti: Mancanza di medici specialisti e risorse mediche, in particolare nelle regioni LMIC
Soggettività Diagnostica: La diagnosi tradizionale dipende dall'esperienza del clinico, mancando di metodi standardizzati
Requisiti di Apparecchiature: I metodi di apprendimento profondo esistenti richiedono apparecchiature costose o piattaforme di screening appositamente progettate
Problemi di Accessibilità: Il requisito di esame con microscopio ad alto ingrandimento della ROI limita l'applicazione diffusa

Motivazione della Ricerca

Sviluppare sistemi automatizzati di diagnosi precoce conveniente
Utilizzare immagini da dispositivi mobili per lo screening di telemedicina
Migliorare l'accuratezza del rinvio nei programmi di screening
Ridurre la dipendenza da apparecchiature specializzate e personale

Contributi Principali

Architettura Innovativa: Propone un framework ibrido di apprendimento profondo che combina CapsNet e Deep Belief Network (DBN)
Fusione di Annotazioni Multi-Medico: Sviluppa un nuovo metodo per integrare le annotazioni dei riquadri di delimitazione di più medici
Rilevazione ad Alte Prestazioni: Realizza prestazioni eccellenti nei compiti di rilevazione e classificazione delle lesioni orali
Progettazione Pratica: Progettata per scenari di applicazione pratica con immagini da dispositivi mobili

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagini della cavità orale (da dispositivi mobili o apparecchiature cliniche)
Output: Risultati di rilevazione delle lesioni, etichette di classificazione, raccomandazioni di rinvio
Obiettivo: Identificare automaticamente le lesioni orali e classificarle in base al grado di malignità

Architettura del Modello

1. Progettazione dell'Architettura Ibrida

Il modello ibrido proposto in questo studio combina due componenti principali:

CapsNet: Utilizzato per compiti di classificazione delle immagini
Deep Belief Network (DBN): Utilizzato per l'estrazione di caratteristiche e il riconoscimento di modelli

2. Componente CapsNet

Idea Centrale: Simula le unità di elaborazione "capsule" nel cervello umano

Struttura Capsule: Ogni capsula rappresenta un'entità specifica nell'immagine, con lo stato dei neuroni che codifica le caratteristiche dell'entità
Output Vettoriale: La lunghezza del vettore di output rappresenta la probabilità di esistenza dell'entità, la direzione riflette gli attributi dell'entità
Routing Dinamico: Sostituisce il tradizionale max pooling con il meccanismo di "routing per consenso"
Funzione di Compressione: Applica una trasformazione non lineare all'output vettoriale, garantendo una rappresentazione di scala appropriata

Vantaggi Tecnici:

CNN Tradizionale: Stacking sequenziale → Perdita di caratteristiche
CapsNet: Annidamento gerarchico → Preservazione delle relazioni spaziali

3. Deep Belief Network (DBN)

Procedura di Pre-elaborazione:

Whitening dell'Immagine: Riduce la correlazione tra pixel adiacenti, standardizza la varianza a 0
Elaborazione in Mini-Batch: Divide casualmente i dati di input, riduce l'effetto del rumore

Struttura della Rete:

Architettura DBN a Tre Strati: Utilizzata per l'estrazione di caratteristiche da immagini istologiche di neuroblastoma
Stack CRBM: Macchine di Boltzmann Ristrette Convoluzionali impilate verticalmente
Struttura Gerarchica: Strato visibile (RK×RK) → Strato nascosto (N gruppi di unità MQ×MQ) → Strato di pooling

Parametri Chiave:

Numero totale di neuroni
Numero di gruppi dello strato nascosto
Dimensione del mini-batch

Punti di Innovazione Tecnica

Applicazione della Rete Capsule: Prima applicazione di CapsNet alla rilevazione del cancro orale, preservando le informazioni gerarchiche spaziali
Architettura Ibrida: Combinazione efficace di DBN e CapsNet, sfruttando i vantaggi di ciascuno
Annotazione Multi-Medico: Strategia innovativa di fusione delle annotazioni dei riquadri di delimitazione
Apprendimento End-to-End: Processo completo dalle immagini grezze alle raccomandazioni diagnostiche finali

Configurazione Sperimentale

Dataset

Fonte dei Dati: Immagini orali raccolte da esperti clinici globali
Metodo di Annotazione: Annotazione di riquadri di delimitazione multi-medico
Aumento dei Dati: Applicazione di tecniche di rotazione, capovolgimento, ecc. per espandere il set di addestramento
Pre-elaborazione:
- Normalizzazione del colore per eliminare le differenze di colorazione
- Filtro mediano per la riduzione del rumore
- Miglioramento dell'immagine per ridurre l'overfitting

Metriche di Valutazione

Punteggio F1: Media armonica di precisione e richiamo
Precisione (Precision): Proporzione di esempi positivi corretti tra gli esempi positivi predetti
Richiamo (Recall): Proporzione di esempi positivi corretti tra gli esempi positivi effettivi
Accuratezza (Accuracy): Proporzione di predizioni corrette nel complesso

Strategia di Addestramento

Numero di Epoche: Inizialmente 10, successivamente esteso a 30
Early Stopping: Arresto dopo l'epoca 12 quando raggiunge la migliore accuratezza di validazione del 97,1%
Funzione di Perdita: Sia la perdita di addestramento che di validazione mostrano una tendenza al ribasso e si stabilizzano

Risultati Sperimentali

Risultati Principali

Indicatori di Prestazione Complessivi

Classificazione delle Immagini:
- Rilevazione di lesioni: Punteggio F1 94,23%
- Identificazione di rinvio: Punteggio F1 93,46%
Rilevazione di Oggetti:
- Identificazione di lesioni che richiedono rinvio: Punteggio F1 89,34%

Risultati di Classificazione Dettagliati

Categoria di Immagine	Precisione (%)	Richiamo (%)	Punteggio F1 (%)
Nessuna lesione rilevata	90,86	91,23	80,65
Immagini senza necessità di rinvio	93,26	90,21	94,52
Visita per altri motivi	89,32	91,24	80,15
Basso rischio di cancro	90,88	89,23	87,21
Alto rischio di cancro	94,24	90,21	84,21

Analisi del Processo di Addestramento

Variazione dell'Accuratezza: Crescita esponenziale nelle prime 12 epoche, successivamente stabilizzazione
Accuratezza di Addestramento Finale: 94,28%
Accuratezza di Validazione Finale: 94,55%
Valore di Perdita: Perdita di addestramento 0,18432, perdita di validazione 0,16543

Risultati Sperimentali

Caratteristiche di Convergenza: Il modello converge efficacemente entro 30 epoche
Capacità di Generalizzazione: Le curve di addestramento e validazione mostrano una tendenza coerente, indicando una buona generalizzazione
Stabilità: La funzione di perdita diminuisce uniformemente, l'addestramento del modello è stabile
Prestazioni Stratificate: Esistono differenze nelle prestazioni di rilevazione per diversi livelli di rischio

Lavori Correlati

Evoluzione dei Metodi Tradizionali

Caratteristiche di Trama: La ricerca iniziale si è concentrata su caratteristiche di scala di grigi e trama
Tecniche Avanzate: Successivamente sono state introdotte tecniche di imaging avanzate e leggi di energia della trama
Apprendimento Profondo: Le CNN sono state ampiamente applicate alle immagini mediche dopo la competizione ImageNet

Metodi di Apprendimento Profondo Esistenti

Approccio Multimodale: Framework di apprendimento profondo multimodale che combina metadati dei pazienti (accuratezza 87%)
Ada Boosting: Metodo che utilizza cinque spazi colore (accuratezza 97,25%)
Apprendimento d'Insieme: Modello d'insieme CNN pre-addestrato (accuratezza 97,88%)
Apprendimento per Trasferimento: Applicazione di modelli pre-addestrati come ResNet50

Vantaggi di Questo Articolo

Requisiti di Apparecchiature Bassi: Applicabile a immagini da dispositivi mobili, senza necessità di apparecchiature specializzate
Innovazione Architettonica: Combinazione unica di CapsNet+DBN
Forte Praticità: Progettata per scenari di applicazione clinica reale

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: L'apprendimento profondo ha la capacità di risolvere complessi problemi di rilevazione del cancro orale
Prestazioni Eccellenti: Raggiunge prestazioni superiori al 90% su più metriche di valutazione
Valore Clinico: Può supportare la diagnosi precoce e le decisioni di rinvio

Limitazioni

Dimensione del Dataset: La dimensione specifica del dataset non è chiaramente indicata
Validazione Interetnica: Mancano risultati di validazione su diverse popolazioni
Prestazioni in Tempo Reale: Non sono stati riportati i tempi di inferenza del modello e la complessità computazionale
Incoerenza del Titolo: Il titolo dell'articolo menziona "Oral Leukopenia" ma il contenuto si concentra principalmente sul cancro orale

Direzioni Future

Fusione Multimodale: Integrazione di più tipi di dati clinici
Espansione della Popolazione: Validazione delle prestazioni del modello su popolazioni più ampie
Distribuzione in Tempo Reale: Ottimizzazione del modello per supportare l'inferenza in tempo reale su dispositivi mobili
Standardizzazione: Stabilire standard di valutazione unificati e dataset

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: La combinazione di CapsNet e DBN presenta novità
Esigenze Pratiche: Applicazione importante a un problema sanitario globale
Prestazioni Eccellenti: Raggiunge livelli elevati su più indicatori
Progettazione Pratica: Considera la fattibilità della distribuzione effettiva

Insufficienze

Analisi Teorica: Manca un'analisi teorica approfondita dell'architettura ibrida
Esperimenti Comparativi: Il confronto con altri metodi SOTA non è sufficientemente completo
Esperimenti di Ablazione: Non verifica sufficientemente il contributo indipendente di ogni componente
Validazione della Generalizzazione: Mancano risultati di validazione tra dataset

Impatto

Valore Accademico: Fornisce un nuovo percorso tecnico per l'analisi di immagini mediche
Valore Pratico: Ha il potenziale di essere applicato allo screening in aree con risorse limitate
Riproducibilità: Richiede dettagli di implementazione più dettagliati per supportare la riproduzione

Scenari Applicabili

Telemedicina: Applicabile a regioni prive di medici specialisti
Screening Iniziale: Può fungere da strumento ausiliario per l'esame clinico
Formazione Educativa: Può essere utilizzato per la formazione di studenti di medicina e medici generici
Screening su Larga Scala: Supporta programmi di screening del cancro orale a livello di popolazione

Bibliografia

L'articolo cita 15 studi correlati, coprendo molteplici aspetti tra cui rilevazione del cancro orale, applicazioni di apprendimento profondo, metodi multimodali, ecc., fornendo una solida base teorica e confronti tecnici per questa ricerca.

Valutazione Complessiva: Questo studio propone un framework ibrido innovativo di apprendimento profondo per la rilevazione del cancro orale, con importante valore di applicazione clinica. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica sperimentale, il suo approccio di progettazione orientato alle esigenze pratiche e le eccellenti prestazioni lo rendono un contributo prezioso in questo campo.