2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

CapsNetと深度信念ネットワークを用いた口腔がん検出・同定の新規アプローチ

基本情報

論文ID: 2501.00876
タイトル: 深層学習技術を用いた口腔がんの分類強化
著者: Dr. Senthil Pandi S、Hirthik Mathesh GV、Kavin Chakravarthy M（チェンナイ、インド、Rajalakshmi工科大学）
分類: eess.IV cs.CV cs.LG
研究領域: 医学画像処理、深層学習、コンピュータビジョン
論文リンク: https://arxiv.org/abs/2501.00876

要旨

口腔がんは世界的な重大な健康問題であり、2023年には277,484人の死亡を引き起こし、中低所得国で最も高い発症率を示している。本研究は、CapsNetと深度信念ネットワーク(DBN)を組み合わせた新規手法を提案し、口腔病変の自動検出と分類に用いている。本研究は世界中の臨床専門家から画像データを収集し、包括的なラベリングのための注釈ツールを備えている。本手法は画像分類タスクにおいて病変画像検出で94.23%のF1スコア、紹介が必要な画像識別で93.46%のF1スコアを達成し、物体検出タスクでは89.34%のF1スコアを達成した。

研究背景と動機

問題の重要性

世界的な健康負担: 口腔がんは世界規模での重大な健康問題であり、2021年のGLOBOCANでは387,864件の新規症例と234,384件の死亡症例が予測されている
地域的差異: 症例の4分の3は低所得国で発生し、アフリカとインドが世界的症例の半分を占めている
診断の遅延: 低中所得国(LMICs)では、症例の3分の2以上が進行期に発見され、生存率が低い
経済的負担: がん治療費は極めて高く、特に進行期診断の場合である

既存手法の限界

専門家不足: 特にLMICs地域における専門医と医療資源の不足
診断の主観性: 従来の診断は臨床医の経験に依存し、標準化された手法が欠ける
機器要件: 既存の深層学習手法は高価な機器または特別に設計されたスクリーニングプラットフォームを必要とする
アクセス可能性の問題: ROI検査に高倍率顕微鏡検査が必要であることが、普及応用を制限している

研究動機

費用対効果の高い早期診断自動化システムの開発
モバイルデバイス画像を用いた遠隔医療スクリーニングの活用
スクリーニングプログラムの紹介精度の向上
専門機器と人員への依存性の低減

核心的貢献

革新的アーキテクチャ: CapsNetと深度信念ネットワーク(DBN)を組み合わせたハイブリッド深層学習フレームワークを提案
複数医師注釈融合: 複数の医師によるバウンディングボックス注釈を統合する新規手法の開発
高性能検出: 口腔病変検出・分類タスクにおける優れた性能の実現
実用的設計: モバイルデバイス画像を対象とした実際の応用シナリオに対応した設計

方法の詳細

タスク定義

入力: 口腔腔体画像（モバイルデバイスまたは臨床機器から取得）
出力: 病変検出結果、分類ラベル、紹介推奨
目標: 口腔病変を自動識別し、悪性度を分類する

モデルアーキテクチャ

1. ハイブリッドアーキテクチャ設計

本研究で提案されたハイブリッドモデルは、2つの核心的コンポーネントを組み合わせている：

CapsNet: 画像分類タスク用
深度信念ネットワーク(DBN): 特徴抽出とパターン認識用

2. CapsNetコンポーネント

核心概念: 人間の脳における「カプセル」処理ユニットをシミュレート

カプセル構造: 各カプセルは画像内の特定のエンティティを表現し、ニューロン状態がエンティティの特性をエンコード
ベクトル出力: 出力ベクトルの長さはエンティティの存在確率を表し、方向はエンティティの属性を反映
動的ルーティング: 従来の最大プーリングに代わる「一貫性ルーティング」メカニズムを通じて実現
圧縮関数: ベクトル出力に非線形変換を適用し、適切なスケール表現を確保

技術的利点:

従来のCNN: 層を順次積み重ねる → 特徴喪失
CapsNet: 階層的ネスト → 空間関係を保持

3. 深度信念ネットワーク(DBN)

前処理フロー:

画像白色化: 隣接ピクセル間の相関性を低減し、分散を標準化
ミニバッチ処理: 入力データをランダムに分割し、ノイズの影響を低減

ネットワーク構造:

3層DBNアーキテクチャ: 神経芽細胞腫組織学画像の特徴抽出に使用
CRBM積層: 畳み込み制限ボルツマンマシンを垂直に積層
階層構造: 可視層(RK×RK) → 隠れ層(N個のMQ×MQ単位グループ) → プーリング層

主要パラメータ:

ニューロン総数
隠れ層グループ数
ミニバッチサイズ

技術的革新点

カプセルネットワークの応用: 口腔がん検出への初めてのCapsNet適用、空間階層情報を保持
ハイブリッドアーキテクチャ: DBNとCapsNetの効果的な組み合わせ、各々の利点を発揮
複数医師注釈: バウンディングボックス注釈融合の革新的戦略
エンドツーエンド学習: 原画像から最終診断推奨までの完全なプロセス

実験設定

データセット

データ源: 世界中の臨床専門家から収集した口腔画像
注釈方式: 複数医師によるバウンディングボックス注釈
データ拡張: 回転、反転などの技術を適用して訓練セットを拡充
前処理:
- 色標準化による染色差異の除去
- メディアンフィルタリングによるノイズ低減
- 過学習を低減する画像強化

評価指標

F1スコア: 適合率と再現率の調和平均
適合率(Precision): 予測された正例のうち正しく予測された正例の割合
再現率(Recall): 実際の正例のうち正しく予測された正例の割合
精度(Accuracy): 全体的な予測正確性の割合

訓練戦略

訓練エポック: 初期10エポック、後に30エポックに拡張
早期停止戦略: 第12エポックで最適な検証精度97.1%に達した後に停止
損失関数: 訓練損失と検証損失の両方が低下傾向を示し、安定化

実験結果

主要結果

全体的性能指標

画像分類:
- 病変検出: F1スコア94.23%
- 紹介識別: F1スコア93.46%
物体検出:
- 紹介病変識別: F1スコア89.34%

詳細な分類結果

画像カテゴリ	適合率(%)	再現率(%)	F1スコア(%)
病変なし	90.86	91.23	80.65
紹介不要画像	93.26	90.21	94.52
その他の理由での受診	89.32	91.24	80.15
低がんリスク	90.88	89.23	87.21
高がんリスク	94.24	90.21	84.21