2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Cancer

基本信息

论文ID: 2501.00876
标题: Enhanced Classification of Oral Cancer Using Deep Learning Techniques
作者: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
分类: eess.IV cs.CV cs.LG
研究领域: 医学图像处理、深度学习、计算机视觉
论文链接: https://arxiv.org/abs/2501.00876

摘要

口腔癌是全球重大健康问题，2023年导致277,484人死亡，在中低收入国家发病率最高。本研究提出了一种结合CapsNet和深度信念网络(DBN)的新方法，用于口腔病变的自动检测和分类。研究收集了来自全球临床专家的图像数据，并配备标注工具进行全面标记。该方法在图像分类任务中达到了94.23%的F1分数用于检测病变图像，93.46%的F1分数用于识别需要转诊的图像，目标检测任务达到89.34%的F1分数。

研究背景与动机

问题重要性

全球健康负担: 口腔癌是世界范围内的重大健康问题，2021年GLOBOCAN预测有387,864新病例和234,384死亡病例
地域差异: 四分之三的病例发生在低收入国家，非洲和印度占全球病例的一半
延迟诊断: 在低中收入国家(LMICs)，超过三分之二的病例在晚期才被发现，生存率较低
经济负担: 癌症治疗成本极高，特别是晚期诊断的情况下

现有方法局限性

专业人员短缺: 缺乏专科医生和医疗资源，特别是在LMICs地区
诊断主观性: 传统诊断依赖临床医生经验，缺乏标准化方法
设备要求: 现有深度学习方法需要昂贵设备或特殊设计的筛查平台
可及性问题: 高倍放大镜检查ROI的要求限制了普及应用

研究动机

开发成本效益的早期诊断自动化系统
利用移动设备图像进行远程医疗筛查
提高筛查项目的转诊准确性
降低对专业设备和人员的依赖

核心贡献

创新架构: 提出了结合CapsNet和深度信念网络(DBN)的混合深度学习框架
多医生标注融合: 开发了整合多个医生边界框标注的新方法
高性能检测: 在口腔病变检测和分类任务中实现了优异性能
实用性设计: 面向移动设备图像的实际应用场景设计

方法详解

任务定义

输入: 口腔腔体图像（来自移动设备或临床设备）
输出: 病变检测结果、分类标签、转诊建议
目标: 自动识别口腔病变并进行恶性程度分类

模型架构

1. 混合架构设计

本研究提出的混合模型结合了两个核心组件：

CapsNet: 用于图像分类任务
Deep Belief Network (DBN): 用于特征提取和模式识别

2. CapsNet组件

核心思想: 模拟人脑中的"胶囊"处理单元

胶囊结构: 每个胶囊代表图像中的特定实体，神经元状态编码实体特征
向量输出: 输出向量长度表示实体存在概率，方向反映实体属性
动态路由: 通过"一致性路由"机制替代传统最大池化
压缩函数: 对向量输出应用非线性变换，确保适当的尺度表示

技术优势:

传统CNN: 逐层堆叠 → 特征丢失
CapsNet: 层次化嵌套 → 保持空间关系

3. Deep Belief Network (DBN)

预处理流程:

图像白化: 减少相邻像素间相关性，标准化方差为0
小批量处理: 随机分割输入数据，减少噪音影响

网络结构:

三层DBN架构: 用于神经母细胞瘤组织学图像特征提取
CRBM堆叠: 垂直堆叠卷积受限玻尔兹曼机
层次结构: 可见层(RK×RK) → 隐藏层(N组MQ×MQ单元) → 池化层

关键参数:

神经元总数
隐藏层组数
小批量大小

技术创新点

胶囊网络应用: 首次将CapsNet应用于口腔癌检测，保持空间层次信息
混合架构: DBN与CapsNet的有效结合，发挥各自优势
多医生标注: 创新的边界框标注融合策略
端到端学习: 从原始图像到最终诊断建议的完整流程

实验设置

数据集

数据来源: 全球临床专家收集的口腔图像
标注方式: 多医生边界框标注
数据增强: 应用旋转、翻转等技术扩充训练集
预处理:
- 颜色标准化消除染色差异
- 中值滤波降噪
- 图像增强减少过拟合

评价指标

F1分数: 精确率和召回率的调和平均
精确率(Precision): 正确预测的正例占预测正例的比例
召回率(Recall): 正确预测的正例占实际正例的比例
准确率(Accuracy): 总体预测正确的比例

训练策略

训练轮数: 初始10轮，后扩展至30轮
早停策略: 在第12轮达到最佳验证准确率97.1%后停止
损失函数: 训练和验证损失均呈下降趋势并趋于稳定

实验结果

主要结果

整体性能指标

图像分类:
- 病变检测: F1分数94.23%
- 转诊识别: F1分数93.46%
目标检测:
- 转诊病变识别: F1分数89.34%

详细分类结果

图像类别	精确率(%)	召回率(%)	F1分数(%)
未发现病变	90.86	91.23	80.65
无需转诊图像	93.26	90.21	94.52
其他原因就诊	89.32	91.24	80.15
低癌症风险	90.88	89.23	87.21
高癌症风险	94.24	90.21	84.21