nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net: Swin-NeXt с кросс-вниманием для сегментации 3D медицинских изображений
В данной работе предложена новая архитектура модели nnY-Net для сегментации 3D медицинских изображений. Модель получила своё название благодаря Y-образной структуре, образованной добавлением модуля кросс-внимания в нижней части U-Net. Авторы интегрировали преимущества двух современных моделей SOTA — MedNeXt и SwinUNETR, используя Swin Transformer в качестве кодировщика и ConvNeXt в качестве декодировщика, создав инновационную архитектуру Swin-NeXt. Модель использует карты признаков самого низкого уровня кодировщика в качестве Key и Value, а клинические характеристики пациента (патологическую и терапевтическую информацию) в качестве Query для вычисления весов кросс-внимания. Кроме того, на основе фреймворков dynUnet и nnU-Net упрощены методы предварительной и постобработки для 3D сегментации изображений, а также разработана функция потерь DiceFocalCELoss для повышения эффективности обучения при классификации несбалансированных вокселей.
Сегментация 3D CT-изображений опухолей печени является важной задачей в сегментации медицинских изображений. Точная сегментация CT-изображений помогает врачам оценить объём опухоли и разработать адекватный план лечения.
Ограничения традиционных методов: До 2016 года в основном использовались неконтролируемые алгоритмы, такие как рост регионов, с ограниченной точностью
Дефекты единственной архитектуры: Существующие методы основаны либо на чистой свёртке (например, nnU-Net), либо на чистом Transformer (например, SwinUNETR), не полностью объединяя преимущества обоих подходов
Недостаточное мультимодальное слияние: Существующие методы в основном обрабатывают информацию изображения, неэффективно используя патологическую и терапевтическую информацию пациента
Проблема дисбаланса классов: Фоновая метка занимает более 90% пикселей, что затрудняет обучение
Данная работа направлена на разработку мультимодальной модели сегментации, объединяющей преимущества Transformer и свёрточных нейронных сетей, способной одновременно обрабатывать 3D-изображения и клиническую информацию пациента для повышения точности и практичности сегментации медицинских изображений.
Предложена архитектура Swin-NeXt: Инновационное объединение кодировщика SwinUNETR с декодировщиком MedNeXt, полностью использующее преимущества Transformer в извлечении признаков и свёртки в пиксельном декодировании
Разработан механизм кросс-внимания для слияния: Предложены три метода слияния признаков, выявлено, что механизм кросс-внимания показывает лучшие результаты при мультимодальном слиянии и стабильно повышает производительность модели
Построена функция потерь DiceFocalCELoss: Объединение DiceLoss, FocalLoss и кросс-энтропийной потери эффективно решает проблему дисбаланса классов при классификации вокселей
Упрощение процесса предварительной обработки: На основе фреймворков dynUnet и nnU-Net упрощены и оптимизированы методы предварительной и постобработки для 3D сегментации изображений
Визуализация результатов сегментации CT-срезов пациента HCC066 показывает, что хотя Swin-NeXt не достигает оптимальных числовых показателей, форма и размер сегментации наиболее близки к истинной метке, обладая лучшей клинической практичностью.
Данная работа является первым систематическим объединением кодировщика Transformer и современного декодировщика свёртки для 3D сегментации медицинских изображений с введением механизма мультимодального кросс-внимания.
Статья цитирует важные работы в этой области, включая:
3D U-Net: Основополагающая работа по сегментации 3D медицинских изображений
nnU-Net: Автоматизированный фреймворк для сегментации медицинских изображений
SwinUNETR: Применение Swin Transformer в сегментации медицинских изображений
MedNeXt: Метод сегментации медицинских изображений на основе ConvNeXt
Общая оценка: Это работа с определённой инновационностью в области 3D сегментации медицинских изображений, особенно в аспектах мультимодального слияния и проектирования архитектур. Хотя повышение производительности относительно ограничено, практичность метода и его вклад в область заслуживают признания.