2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

CapsNet과 Deep Belief Network을 이용한 구강암 검출 및 식별을 위한 새로운 접근법

기본 정보

논문 ID: 2501.00876
제목: 심층 학습 기법을 이용한 구강암의 향상된 분류
저자: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
분류: eess.IV cs.CV cs.LG
연구 분야: 의료 영상 처리, 심층 학습, 컴퓨터 비전
논문 링크: https://arxiv.org/abs/2501.00876

초록

구강암은 전 세계적 보건 문제로, 2023년에 277,484명의 사망을 초래했으며, 중저소득 국가에서 발병률이 가장 높다. 본 연구는 CapsNet과 Deep Belief Network(DBN)을 결합한 새로운 방법을 제안하여 구강 병변의 자동 검출 및 분류를 수행한다. 연구팀은 전 세계 임상 전문가로부터 수집한 영상 데이터를 활용하였으며, 포괄적인 표지 작업을 위해 주석 도구를 갖추었다. 본 방법은 영상 분류 작업에서 병변 영상 검출을 위해 94.23%의 F1 점수를, 전문의 진료 의뢰가 필요한 영상 식별을 위해 93.46%의 F1 점수를 달성했으며, 목표 검출 작업에서는 89.34%의 F1 점수를 기록했다.

연구 배경 및 동기

문제의 중요성

전 세계 보건 부담: 구강암은 세계적 규모의 주요 보건 문제로, 2021년 GLOBOCAN 예측에 따르면 387,864건의 신규 사례와 234,384건의 사망 사례가 있었다
지역적 차이: 사례의 4분의 3이 저소득 국가에서 발생하며, 아프리카와 인도가 전 세계 사례의 절반을 차지한다
진단 지연: 저중소득 국가(LMICs)에서는 3분의 2 이상의 사례가 후기 단계에서 발견되어 생존율이 낮다
경제적 부담: 암 치료 비용은 극히 높으며, 특히 후기 진단의 경우 더욱 그렇다

기존 방법의 한계

전문 인력 부족: 특히 LMICs 지역에서 전문의와 의료 자원이 부족하다
진단의 주관성: 전통적 진단은 임상의의 경험에 의존하며, 표준화된 방법이 부족하다
장비 요구사항: 기존 심층 학습 방법은 고가의 장비나 특수 설계된 선별 플랫폼을 필요로 한다
접근성 문제: 관심 영역(ROI)의 고배율 현미경 검사 요구사항이 광범위한 적용을 제한한다

연구 동기

비용 효율적인 조기 진단 자동화 시스템 개발
모바일 기기 영상을 이용한 원격 의료 선별 활용
선별 프로그램의 의뢰 정확도 향상
전문 장비 및 인력에 대한 의존도 감소

핵심 기여

혁신적 아키텍처: CapsNet과 Deep Belief Network(DBN)을 결합한 하이브리드 심층 학습 프레임워크 제안
다중 의사 주석 융합: 여러 의사의 경계 상자 주석을 통합하는 새로운 방법 개발
고성능 검출: 구강 병변 검출 및 분류 작업에서 우수한 성능 달성
실용적 설계: 모바일 기기 영상의 실제 응용 시나리오를 고려한 설계

방법론 상세 설명

작업 정의

입력: 구강 강실 영상(모바일 기기 또는 임상 기기에서 획득)
출력: 병변 검출 결과, 분류 레이블, 의뢰 권고사항
목표: 구강 병변을 자동으로 식별하고 악성도를 분류

모델 아키텍처

1. 하이브리드 아키텍처 설계

본 연구에서 제안한 하이브리드 모델은 두 가지 핵심 구성 요소를 결합한다:

CapsNet: 영상 분류 작업에 사용
Deep Belief Network (DBN): 특징 추출 및 패턴 인식에 사용

2. CapsNet 구성 요소

핵심 개념: 인간 뇌의 "캡슐" 처리 단위 모방

캡슐 구조: 각 캡슐은 영상의 특정 개체를 나타내며, 신경원 상태는 개체 특징을 인코딩한다
벡터 출력: 출력 벡터의 길이는 개체 존재 확률을 나타내고, 방향은 개체 속성을 반영한다
동적 라우팅: 전통적 최대 풀링을 대체하는 "일관성 라우팅" 메커니즘을 통해 구현
압축 함수: 벡터 출력에 비선형 변환을 적용하여 적절한 규모 표현을 보장한다

기술적 장점:

전통적 CNN: 계층별 적층 → 특징 손실
CapsNet: 계층적 중첩 → 공간 관계 유지

3. Deep Belief Network (DBN)

전처리 프로세스:

영상 백색화: 인접 픽셀 간 상관성 감소, 분산 표준화를 0으로 설정
소배치 처리: 입력 데이터를 무작위로 분할하여 노이즈 영향 감소

네트워크 구조:

3계층 DBN 아키텍처: 신경모세포종 조직학 영상 특징 추출에 사용
CRBM 적층: 합성곱 제한 볼츠만 기계를 수직으로 적층
계층 구조: 가시 계층(RK×RK) → 숨겨진 계층(N개 그룹 MQ×MQ 단위) → 풀링 계층

주요 매개변수:

신경원 총 개수
숨겨진 계층 그룹 수
소배치 크기

기술 혁신 포인트

캡슐 네트워크 적용: 구강암 검출에 CapsNet을 처음 적용하여 공간 계층 정보 유지
하이브리드 아키텍처: DBN과 CapsNet의 효과적 결합으로 각각의 장점 발휘
다중 의사 주석: 혁신적인 경계 상자 주석 융합 전략
종단 간 학습: 원본 영상에서 최종 진단 권고사항까지의 완전한 프로세스

실험 설정

데이터셋

데이터 출처: 전 세계 임상 전문가가 수집한 구강 영상
주석 방식: 다중 의사 경계 상자 주석
데이터 증강: 회전, 반전 등의 기법을 적용하여 훈련 집합 확대
전처리:
- 색상 표준화로 염색 차이 제거
- 중앙값 필터링으로 노이즈 감소
- 영상 향상으로 과적합 감소

평가 지표

F1 점수: 정밀도와 재현율의 조화 평균
정밀도(Precision): 예측된 양성 중 올바르게 예측된 양성의 비율
재현율(Recall): 실제 양성 중 올바르게 예측된 양성의 비율
정확도(Accuracy): 전체 예측 중 올바른 예측의 비율

훈련 전략

훈련 에포크: 초기 10 에포크, 이후 30 에포크로 확대
조기 중단 전략: 12 에포크에서 최적 검증 정확도 97.1% 달성 후 중단
손실 함수: 훈련 및 검증 손실이 모두 감소 추세를 보이며 안정화

실험 결과

주요 결과

전체 성능 지표

영상 분류:
- 병변 검출: F1 점수 94.23%
- 의뢰 식별: F1 점수 93.46%
목표 검출:
- 의뢰 병변 식별: F1 점수 89.34%

상세 분류 결과

영상 범주	정밀도(%)	재현율(%)	F1 점수(%)
병변 미발견	90.86	91.23	80.65
의뢰 불필요 영상	93.26	90.21	94.52
기타 사유 방문	89.32	91.24	80.15
저 암 위험	90.88	89.23	87.21
고 암 위험	94.24	90.21	84.21

훈련 과정 분석

정확도 변화: 처음 12 에포크에서 지수적 증가, 이후 평탄화
최종 훈련 정확도: 94.28%
최종 검증 정확도: 94.55%
손실값: 훈련 손실 0.18432, 검증 손실 0.16543

실험 발견

수렴 특성: 모델이 30 에포크 내에서 효과적으로 수렴
일반화 능력: 훈련 및 검증 곡선 추세가 일치하여 우수한 일반화 능력 입증
안정성: 손실 함수가 평탄하게 감소하여 모델 훈련이 안정적
성능 계층화: 서로 다른 위험 등급의 검출 성능에 차이 존재

결론 및 논의

주요 결론

기술 타당성: 심층 학습은 구강암 검출의 복잡한 문제를 해결할 능력이 있다
우수한 성능: 여러 평가 지표에서 90% 이상의 성능 달성
임상적 가치: 조기 진단 및 의뢰 결정을 지원할 수 있다

한계점

데이터셋 규모: 데이터셋의 구체적 규모가 명확하지 않음
인종 간 검증: 서로 다른 인구 집단에 대한 검증 결과 부족
실시간 성능: 모델 추론 시간 및 계산 복잡도 미보고
제목 불일치: 논문 제목에서 "구강 백반증"을 언급하나 내용은 주로 구강암에 초점

향후 방향

다중 모달 융합: 더 많은 임상 데이터 유형 통합
인구 확대: 더 광범위한 인구 집단에서 모델 성능 검증
실시간 배포: 모바일 기기 실시간 추론을 지원하도록 모델 최적화
표준화: 통일된 평가 표준 및 데이터셋 구축

심층 평가

장점

방법 혁신: CapsNet과 DBN의 결합이 새로운 특성을 보임
실제 필요성: 전 세계 보건 문제에 대한 중요한 응용
우수한 성능: 여러 지표에서 높은 수준 달성
실용적 설계: 실제 배포의 타당성을 고려

부족한 점

이론적 분석: 하이브리드 아키텍처에 대한 심층적 이론 분석 부족
비교 실험: 다른 최신 기법과의 비교가 충분하지 않음
절제 실험: 각 구성 요소의 독립적 기여도 검증 미흡
일반화 검증: 크로스 데이터셋 검증 결과 부족

영향력

학술적 가치: 의료 영상 분석을 위한 새로운 기술 경로 제시
실용적 가치: 자원이 제한된 지역의 선별에 적용될 가능성
재현성: 복현을 지원하기 위한 더 상세한 구현 세부사항 필요

적용 시나리오

원격 의료: 전문의가 부족한 지역에 적용 가능
초기 선별: 임상 검사의 보조 도구로 활용 가능
교육 훈련: 의학생 및 일반의 훈련에 활용 가능
대규모 선별: 인구 수준의 구강암 선별 프로그램 지원

참고문헌

본 논문은 구강암 검출, 심층 학습 응용, 다중 모달 방법 등 여러 분야를 포괄하는 15편의 관련 연구를 인용하여 견고한 이론적 기초 및 기술적 비교를 제공한다.

종합 평가: 본 연구는 구강암 검출을 위한 혁신적인 하이브리드 심층 학습 프레임워크를 제안하며, 중요한 임상 응용 가치를 지닌다. 이론적 분석 및 실험 검증 측면에서 개선의 여지가 있지만, 실제 필요성을 고려한 설계 사고와 우수한 성능 표현이 이를 해당 분야의 가치 있는 기여로 만든다.