2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S

Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.

academic

Новый подход с использованием CapsNet и Deep Belief Network для обнаружения и идентификации рака полости рта

Основная информация

ID статьи: 2501.00876
Название: Enhanced Classification of Oral Cancer Using Deep Learning Techniques
Авторы: Dr. Senthil Pandi S, Hirthik Mathesh GV, Kavin Chakravarthy M (Rajalakshmi Engineering College, Chennai, India)
Классификация: eess.IV cs.CV cs.LG
Область исследования: Обработка медицинских изображений, глубокое обучение, компьютерное зрение
Ссылка на статью: https://arxiv.org/abs/2501.00876

Аннотация

Рак полости рта является серьёзной глобальной проблемой здравоохранения, приведший к 277 484 смертям в 2023 году с наибольшей заболеваемостью в странах с низким и средним доходом. В данном исследовании предложен новый метод, сочетающий CapsNet и глубокую сеть убеждений (DBN), для автоматического обнаружения и классификации поражений полости рта. Исследование собрало данные изображений от глобальных клинических экспертов с использованием инструментов аннотации для комплексной разметки. Метод достиг F1-оценки 94,23% для обнаружения поражённых изображений при классификации изображений, 93,46% F1-оценки для идентификации изображений, требующих направления, и 89,34% F1-оценки при задачах обнаружения объектов.

Предпосылки и мотивация исследования

Важность проблемы

Глобальное бремя здравоохранения: Рак полости рта является серьёзной проблемой здравоохранения во всём мире; согласно GLOBOCAN 2021 прогнозируется 387 864 новых случая и 234 384 смерти
Географические различия: Три четверти случаев происходят в странах с низким доходом; Африка и Индия составляют половину глобальных случаев
Задержка диагностики: В странах с низким и средним доходом (СНСД) более двух третей случаев выявляются на поздних стадиях с более низкой выживаемостью
Экономическое бремя: Стоимость лечения рака чрезвычайно высока, особенно при диагностике на поздних стадиях

Ограничения существующих методов

Дефицит специалистов: Нехватка специализированных врачей и медицинских ресурсов, особенно в регионах СНСД
Субъективность диагностики: Традиционная диагностика зависит от опыта клинициста, отсутствует стандартизированный подход
Требования к оборудованию: Существующие методы глубокого обучения требуют дорогостоящего оборудования или специально разработанных платформ скрининга
Проблемы доступности: Требование высокого увеличения при микроскопии интересующей области ограничивает широкое распространение

Мотивация исследования

Разработка экономически эффективной системы автоматизации ранней диагностики
Использование изображений с мобильных устройств для телемедицинского скрининга
Повышение точности направления в программах скрининга
Снижение зависимости от специализированного оборудования и персонала

Основные вклады

Инновационная архитектура: Предложена гибридная структура глубокого обучения, сочетающая CapsNet и глубокую сеть убеждений (DBN)
Интеграция аннотаций нескольких врачей: Разработан новый метод объединения ограничивающих рамок, аннотированных несколькими врачами
Высокопроизводительное обнаружение: Достигнута превосходная производительность при обнаружении и классификации поражений полости рта
Практичный дизайн: Разработан для практического применения с использованием изображений с мобильных устройств

Подробное описание методологии

Определение задачи

Входные данные: Изображения полости рта (с мобильных устройств или клинического оборудования)
Выходные данные: Результаты обнаружения поражений, метки классификации, рекомендации по направлению
Цель: Автоматическое выявление поражений полости рта и классификация по степени злокачественности

Архитектура модели

1. Проектирование гибридной архитектуры

Предложенная гибридная модель объединяет два основных компонента:

CapsNet: Для задач классификации изображений
Deep Belief Network (DBN): Для извлечения признаков и распознавания образов

2. Компонент CapsNet

Основная идея: Имитация обработки "капсулами" в человеческом мозге

Структура капсул: Каждая капсула представляет конкретный объект на изображении; состояние нейронов кодирует характеристики объекта
Векторный выход: Длина выходного вектора представляет вероятность наличия объекта; направление отражает атрибуты объекта
Динамическая маршрутизация: Замена традиционного максимального объединения механизмом "маршрутизации согласованности"
Функция сжатия: Применение нелинейного преобразования к выходным векторам для обеспечения надлежащего масштабирования

Технические преимущества:

Традиционная CNN: Последовательное наложение слоёв → Потеря признаков
CapsNet: Иерархическое вложение → Сохранение пространственных отношений

3. Deep Belief Network (DBN)

Процесс предварительной обработки:

Отбеливание изображения: Снижение корреляции между соседними пикселями, стандартизация дисперсии до 0
Обработка мини-пакетами: Случайное разделение входных данных для снижения влияния шума

Структура сети:

Трёхслойная архитектура DBN: Для извлечения признаков из гистологических изображений нейробластомы
Стек CRBM: Вертикальное наложение свёрточных машин Больцмана с ограничениями
Иерархическая структура: Видимый слой (RK×RK) → Скрытый слой (N групп единиц MQ×MQ) → Слой объединения

Ключевые параметры:

Общее количество нейронов
Количество групп скрытых слоёв
Размер мини-пакета

Технические инновации

Применение сетей капсул: Первое применение CapsNet для обнаружения рака полости рта с сохранением информации о пространственной иерархии
Гибридная архитектура: Эффективное сочетание DBN и CapsNet, использующее преимущества каждого
Аннотация несколькими врачами: Инновационная стратегия объединения ограничивающих рамок
Сквозное обучение: Полный процесс от исходного изображения до окончательного рекомендации по диагностике

Экспериментальная установка

Набор данных

Источник данных: Изображения полости рта, собранные глобальными клиническими экспертами
Способ аннотации: Ограничивающие рамки, аннотированные несколькими врачами
Увеличение данных: Применение ротации, отражения и других методов расширения обучающего набора
Предварительная обработка:
- Нормализация цвета для устранения различий в окрашивании
- Медианная фильтрация для снижения шума
- Улучшение изображения для снижения переобучения

Метрики оценки

F1-оценка: Гармоническое среднее точности и полноты
Точность (Precision): Доля правильно предсказанных положительных примеров среди всех предсказанных положительных примеров
Полнота (Recall): Доля правильно предсказанных положительных примеров среди всех фактических положительных примеров
Точность (Accuracy): Доля правильно предсказанных примеров в целом

Стратегия обучения

Количество эпох: Первоначально 10 эпох, позже расширено до 30
Ранняя остановка: Остановка после 12-й эпохи при достижении лучшей точности валидации 97,1%
Функция потерь: Как потери обучения, так и валидации показывают тенденцию к снижению и стабилизации

Результаты экспериментов

Основные результаты

Общие показатели производительности

Классификация изображений:
- Обнаружение поражений: F1-оценка 94,23%
- Идентификация направления: F1-оценка 93,46%
Обнаружение объектов:
- Идентификация поражений, требующих направления: F1-оценка 89,34%

Детальные результаты классификации

Категория изображения	Точность (%)	Полнота (%)	F1-оценка (%)
Поражения не обнаружены	90,86	91,23	80,65
Изображения без необходимости направления	93,26	90,21	94,52
Посещение по другим причинам	89,32	91,24	80,15
Низкий риск рака	90,88	89,23	87,21
Высокий риск рака	94,24	90,21	84,21

Анализ процесса обучения

Изменение точности: Экспоненциальный рост в первые 12 эпох, затем стабилизация
Итоговая точность обучения: 94,28%
Итоговая точность валидации: 94,55%
Значения потерь: Потери обучения 0,18432, потери валидации 0,16543

Экспериментальные выводы

Характеристики сходимости: Модель эффективно сходится в течение 30 эпох
Способность к обобщению: Согласованная тенденция кривых обучения и валидации указывает на хорошее обобщение
Стабильность: Плавное снижение функции потерь, стабильное обучение модели
Расслоение производительности: Существуют различия в производительности обнаружения для разных уровней риска

Связанные работы

Эволюция традиционных методов

Признаки текстуры: Ранние исследования сосредоточены на признаках серого уровня и текстуры
Передовые методы: Последующее введение передовых методов визуализации и законов энергии текстуры
Глубокое обучение: Широкое применение CNN в медицинской визуализации после конкурса ImageNet

Существующие методы глубокого обучения

Мультимодальные методы: Структуры мультимодального глубокого обучения, объединяющие метаданные пациентов (точность 87%)
Ada Boosting: Методы, использующие пять цветовых пространств (точность 97,25%)
Ансамблевое обучение: Модели ансамбля предварительно обученных CNN (точность 97,88%)
Трансферное обучение: Применение предварительно обученных моделей, таких как ResNet50

Преимущества данной работы

Низкие требования к оборудованию: Применимо к изображениям с мобильных устройств без необходимости в специализированном оборудовании
Архитектурная инновация: Уникальное сочетание CapsNet+DBN
Высокая практичность: Разработано для реальных клинических сценариев применения

Заключение и обсуждение

Основные выводы

Техническая осуществимость: Глубокое обучение обладает способностью решать сложные задачи обнаружения рака полости рта
Превосходная производительность: Достижение производительности выше 90% по нескольким метрикам оценки
Клиническая ценность: Может поддерживать раннюю диагностику и принятие решений по направлению

Ограничения

Размер набора данных: Не указан конкретный размер набора данных
Кросс-этническая валидация: Отсутствуют результаты валидации на различных популяциях
Производительность в реальном времени: Не сообщается время вывода модели и вычислительная сложность
Несоответствие названия: Название статьи упоминает "Oral Leukopenia", но содержание в основном сосредоточено на раке полости рта

Направления будущих исследований

Мультимодальное объединение: Интеграция большего количества типов клинических данных
Расширение популяции: Валидация производительности модели на более широких популяциях
Развёртывание в реальном времени: Оптимизация модели для поддержки вывода в реальном времени на мобильных устройствах
Стандартизация: Установление единых стандартов оценки и наборов данных

Углубленная оценка

Преимущества

Методологическая инновация: Сочетание CapsNet и DBN обладает новизной
Соответствие практическим потребностям: Применение к важной глобальной проблеме здравоохранения
Превосходная производительность: Достижение высокого уровня по нескольким метрикам
Практичный дизайн: Учёт осуществимости реального развёртывания

Недостатки

Теоретический анализ: Отсутствует углубленный теоретический анализ гибридной архитектуры
Сравнительные эксперименты: Недостаточное сравнение с другими методами SOTA
Абляционные исследования: Неполная верификация независимого вклада каждого компонента
Валидация обобщения: Отсутствуют результаты валидации на кросс-наборах данных

Влияние

Академическая ценность: Предоставление новых технических подходов для анализа медицинских изображений
Практическая ценность: Потенциальное применение в программах скрининга в регионах с ограниченными ресурсами
Воспроизводимость: Требуется более подробное описание деталей реализации для поддержки воспроизведения

Применимые сценарии

Телемедицина: Применимо в регионах с дефицитом специализированных врачей
Первичный скрининг: Может использоваться как вспомогательный инструмент при клинических обследованиях
Образование и обучение: Применимо для обучения студентов-медиков и врачей общей практики
Массовый скрининг: Поддержка программ скрининга рака полости рта на уровне популяции

Библиография

Статья цитирует 15 связанных исследований, охватывающих обнаружение рака полости рта, применение глубокого обучения, мультимодальные методы и другие аспекты, обеспечивая прочную теоретическую базу и техническое сравнение для данного исследования.

Общая оценка: Данное исследование предлагает инновационную гибридную структуру глубокого обучения для обнаружения рака полости рта с важной клинической ценностью применения. Хотя существует пространство для улучшения в теоретическом анализе и экспериментальной верификации, его подход, ориентированный на практические потребности, и превосходные показатели производительности делают его ценным вкладом в данную область.