2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Cancer

基本信息

  • 论文ID: 2501.00876
  • 标题: Enhanced Classification of Oral Cancer Using Deep Learning Techniques
  • 作者: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
  • 分类: eess.IV cs.CV cs.LG
  • 研究领域: 医学图像处理、深度学习、计算机视觉
  • 论文链接: https://arxiv.org/abs/2501.00876

摘要

口腔癌是全球重大健康问题,2023年导致277,484人死亡,在中低收入国家发病率最高。本研究提出了一种结合CapsNet和深度信念网络(DBN)的新方法,用于口腔病变的自动检测和分类。研究收集了来自全球临床专家的图像数据,并配备标注工具进行全面标记。该方法在图像分类任务中达到了94.23%的F1分数用于检测病变图像,93.46%的F1分数用于识别需要转诊的图像,目标检测任务达到89.34%的F1分数。

研究背景与动机

问题重要性

  1. 全球健康负担: 口腔癌是世界范围内的重大健康问题,2021年GLOBOCAN预测有387,864新病例和234,384死亡病例
  2. 地域差异: 四分之三的病例发生在低收入国家,非洲和印度占全球病例的一半
  3. 延迟诊断: 在低中收入国家(LMICs),超过三分之二的病例在晚期才被发现,生存率较低
  4. 经济负担: 癌症治疗成本极高,特别是晚期诊断的情况下

现有方法局限性

  1. 专业人员短缺: 缺乏专科医生和医疗资源,特别是在LMICs地区
  2. 诊断主观性: 传统诊断依赖临床医生经验,缺乏标准化方法
  3. 设备要求: 现有深度学习方法需要昂贵设备或特殊设计的筛查平台
  4. 可及性问题: 高倍放大镜检查ROI的要求限制了普及应用

研究动机

  1. 开发成本效益的早期诊断自动化系统
  2. 利用移动设备图像进行远程医疗筛查
  3. 提高筛查项目的转诊准确性
  4. 降低对专业设备和人员的依赖

核心贡献

  1. 创新架构: 提出了结合CapsNet和深度信念网络(DBN)的混合深度学习框架
  2. 多医生标注融合: 开发了整合多个医生边界框标注的新方法
  3. 高性能检测: 在口腔病变检测和分类任务中实现了优异性能
  4. 实用性设计: 面向移动设备图像的实际应用场景设计

方法详解

任务定义

  • 输入: 口腔腔体图像(来自移动设备或临床设备)
  • 输出: 病变检测结果、分类标签、转诊建议
  • 目标: 自动识别口腔病变并进行恶性程度分类

模型架构

1. 混合架构设计

本研究提出的混合模型结合了两个核心组件:

  • CapsNet: 用于图像分类任务
  • Deep Belief Network (DBN): 用于特征提取和模式识别

2. CapsNet组件

核心思想: 模拟人脑中的"胶囊"处理单元

  • 胶囊结构: 每个胶囊代表图像中的特定实体,神经元状态编码实体特征
  • 向量输出: 输出向量长度表示实体存在概率,方向反映实体属性
  • 动态路由: 通过"一致性路由"机制替代传统最大池化
  • 压缩函数: 对向量输出应用非线性变换,确保适当的尺度表示

技术优势:

传统CNN: 逐层堆叠 → 特征丢失
CapsNet: 层次化嵌套 → 保持空间关系

3. Deep Belief Network (DBN)

预处理流程:

  1. 图像白化: 减少相邻像素间相关性,标准化方差为0
  2. 小批量处理: 随机分割输入数据,减少噪音影响

网络结构:

  • 三层DBN架构: 用于神经母细胞瘤组织学图像特征提取
  • CRBM堆叠: 垂直堆叠卷积受限玻尔兹曼机
  • 层次结构: 可见层(RK×RK) → 隐藏层(N组MQ×MQ单元) → 池化层

关键参数:

  • 神经元总数
  • 隐藏层组数
  • 小批量大小

技术创新点

  1. 胶囊网络应用: 首次将CapsNet应用于口腔癌检测,保持空间层次信息
  2. 混合架构: DBN与CapsNet的有效结合,发挥各自优势
  3. 多医生标注: 创新的边界框标注融合策略
  4. 端到端学习: 从原始图像到最终诊断建议的完整流程

实验设置

数据集

  • 数据来源: 全球临床专家收集的口腔图像
  • 标注方式: 多医生边界框标注
  • 数据增强: 应用旋转、翻转等技术扩充训练集
  • 预处理:
    • 颜色标准化消除染色差异
    • 中值滤波降噪
    • 图像增强减少过拟合

评价指标

  • F1分数: 精确率和召回率的调和平均
  • 精确率(Precision): 正确预测的正例占预测正例的比例
  • 召回率(Recall): 正确预测的正例占实际正例的比例
  • 准确率(Accuracy): 总体预测正确的比例

训练策略

  • 训练轮数: 初始10轮,后扩展至30轮
  • 早停策略: 在第12轮达到最佳验证准确率97.1%后停止
  • 损失函数: 训练和验证损失均呈下降趋势并趋于稳定

实验结果

主要结果

整体性能指标

  • 图像分类:
    • 病变检测: F1分数94.23%
    • 转诊识别: F1分数93.46%
  • 目标检测:
    • 转诊病变识别: F1分数89.34%

详细分类结果

图像类别精确率(%)召回率(%)F1分数(%)
未发现病变90.8691.2380.65
无需转诊图像93.2690.2194.52
其他原因就诊89.3291.2480.15
低癌症风险90.8889.2387.21
高癌症风险94.2490.2184.21

训练过程分析

  • 准确率变化: 前12轮指数增长,后趋于平稳
  • 最终训练准确率: 94.28%
  • 最终验证准确率: 94.55%
  • 损失值: 训练损失0.18432,验证损失0.16543

实验发现

  1. 收敛特性: 模型在30轮内有效收敛
  2. 泛化能力: 训练和验证曲线趋势一致,显示良好泛化
  3. 稳定性: 损失函数平稳下降,模型训练稳定
  4. 性能分层: 不同风险等级的检测性能存在差异

相关工作

传统方法演进

  1. 纹理特征: 早期研究集中于灰度和纹理特征
  2. 高阶技术: 后续引入高阶成像技术和纹理能量定律
  3. 深度学习: CNN在ImageNet竞赛后广泛应用于医学图像

现有深度学习方法

  1. 多模态方法: 结合患者元数据的多模态深度学习框架(准确率87%)
  2. Ada Boosting: 利用五种颜色空间的方法(准确率97.25%)
  3. 集成学习: 预训练CNN集成模型(准确率97.88%)
  4. 迁移学习: ResNet50等预训练模型的应用

本文优势

  1. 设备要求低: 适用于移动设备图像,无需专业设备
  2. 架构创新: CapsNet+DBN的独特组合
  3. 实用性强: 面向实际临床应用场景设计

结论与讨论

主要结论

  1. 技术可行性: 深度学习具备解决口腔癌检测复杂问题的能力
  2. 性能优异: 在多个评价指标上达到90%以上的性能
  3. 临床价值: 可支持早期诊断和转诊决策

局限性

  1. 数据集规模: 未明确说明数据集的具体规模
  2. 跨种族验证: 缺乏不同人群的验证结果
  3. 实时性能: 未报告模型推理时间和计算复杂度
  4. 标题不一致: 论文标题提到"Oral Leukopenia"但内容主要关注口腔癌

未来方向

  1. 多模态融合: 整合更多临床数据类型
  2. 人群扩展: 在更广泛人群中验证模型性能
  3. 实时部署: 优化模型以支持移动设备实时推理
  4. 标准化: 建立统一的评价标准和数据集

深度评价

优点

  1. 方法创新: CapsNet与DBN的结合具有新颖性
  2. 实际需求: 针对全球健康问题的重要应用
  3. 性能优秀: 在多个指标上达到较高水平
  4. 实用设计: 考虑了实际部署的可行性

不足

  1. 理论分析: 缺乏对混合架构的深入理论分析
  2. 对比实验: 与其他SOTA方法的对比不够充分
  3. 消融实验: 未充分验证各组件的独立贡献
  4. 泛化验证: 缺乏跨数据集的验证结果

影响力

  1. 学术价值: 为医学图像分析提供新的技术路径
  2. 实用价值: 有望应用于资源受限地区的筛查
  3. 可复现性: 需要更详细的实现细节支持复现

适用场景

  1. 远程医疗: 适用于缺乏专科医生的地区
  2. 初步筛查: 可作为临床检查的辅助工具
  3. 教育培训: 可用于医学生和全科医生培训
  4. 大规模筛查: 支持人群级别的口腔癌筛查项目

参考文献

论文引用了15篇相关研究,涵盖了口腔癌检测、深度学习应用、多模态方法等多个方面,为本研究提供了坚实的理论基础和技术对比。


总体评价: 本研究提出了一个创新的混合深度学习框架用于口腔癌检测,具有重要的临床应用价值。虽然在理论分析和实验验证方面还有改进空间,但其针对实际需求的设计思路和优异的性能表现使其成为该领域的有价值贡献。