2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net: Swin-NeXt с кросс-вниманием для сегментации 3D медицинских изображений

Основная информация

ID статьи: 2501.01406
Название: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Авторы: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
Учреждения: ¹Университет Сиднея, ²Китайский университет Гонконга
Классификация: cs.CV (компьютерное зрение)
Ссылка на статью: https://arxiv.org/abs/2501.01406

Аннотация

В данной работе предложена новая архитектура модели nnY-Net для сегментации 3D медицинских изображений. Модель получила своё название благодаря Y-образной структуре, образованной добавлением модуля кросс-внимания в нижней части U-Net. Авторы интегрировали преимущества двух современных моделей SOTA — MedNeXt и SwinUNETR, используя Swin Transformer в качестве кодировщика и ConvNeXt в качестве декодировщика, создав инновационную архитектуру Swin-NeXt. Модель использует карты признаков самого низкого уровня кодировщика в качестве Key и Value, а клинические характеристики пациента (патологическую и терапевтическую информацию) в качестве Query для вычисления весов кросс-внимания. Кроме того, на основе фреймворков dynUnet и nnU-Net упрощены методы предварительной и постобработки для 3D сегментации изображений, а также разработана функция потерь DiceFocalCELoss для повышения эффективности обучения при классификации несбалансированных вокселей.

Исследовательский контекст и мотивация

Определение проблемы

Сегментация 3D CT-изображений опухолей печени является важной задачей в сегментации медицинских изображений. Точная сегментация CT-изображений помогает врачам оценить объём опухоли и разработать адекватный план лечения.

Ограничения существующих методов

Ограничения традиционных методов: До 2016 года в основном использовались неконтролируемые алгоритмы, такие как рост регионов, с ограниченной точностью
Дефекты единственной архитектуры: Существующие методы основаны либо на чистой свёртке (например, nnU-Net), либо на чистом Transformer (например, SwinUNETR), не полностью объединяя преимущества обоих подходов
Недостаточное мультимодальное слияние: Существующие методы в основном обрабатывают информацию изображения, неэффективно используя патологическую и терапевтическую информацию пациента
Проблема дисбаланса классов: Фоновая метка занимает более 90% пикселей, что затрудняет обучение

Исследовательская мотивация

Данная работа направлена на разработку мультимодальной модели сегментации, объединяющей преимущества Transformer и свёрточных нейронных сетей, способной одновременно обрабатывать 3D-изображения и клиническую информацию пациента для повышения точности и практичности сегментации медицинских изображений.

Основные вклады

Предложена архитектура Swin-NeXt: Инновационное объединение кодировщика SwinUNETR с декодировщиком MedNeXt, полностью использующее преимущества Transformer в извлечении признаков и свёртки в пиксельном декодировании
Разработан механизм кросс-внимания для слияния: Предложены три метода слияния признаков, выявлено, что механизм кросс-внимания показывает лучшие результаты при мультимодальном слиянии и стабильно повышает производительность модели
Построена функция потерь DiceFocalCELoss: Объединение DiceLoss, FocalLoss и кросс-энтропийной потери эффективно решает проблему дисбаланса классов при классификации вокселей
Упрощение процесса предварительной обработки: На основе фреймворков dynUnet и nnU-Net упрощены и оптимизированы методы предварительной и постобработки для 3D сегментации изображений

Подробное описание методов

Определение задачи

Входные данные:

3D CT-сканирование χ ∈ R^(H×W×D×C)
Клиническая информация пациента (патологическая, терапевтическая информация и т.д.)

Выходные данные: Многоклассовая маска сегментации, включающая печень, опухоль, кровеносные сосуды, аорту и другие структуры

Ограничения: Ограничения памяти при обработке высокоразрешённых 3D-изображений, задача сегментации с экстремальным дисбалансом классов

Архитектура модели

1. Кодировщик Swin Transformer

Использует 3D Swin Transformer в качестве кодировщика с конкретной реализацией:

Разбиение на патчи: Разделение входного изображения на 3D окна размером M×M×M

Механизм оконного внимания:

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

Вычисление внимания:

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. Декодировщик ConvNeXt

Использует структуру декодировщика MedNeXt:

Транспонированная свёртка для повышения дискретизации:
```
Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
```
Функция активации GELU:
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. Модуль кросс-внимания для слияния

Интеграция мультимодальной информации в нижнем слое кодировщика (Bottleneck):

Key и Value: Карты признаков самого низкого уровня кодировщика
Query: Вектор клинических характеристик пациента
Стратегия слияния: Отображение клинических характеристик в подходящее измерение через полносвязный слой, затем вычисление кросс-внимания

Технические инновации

Проектирование гибридной архитектуры: Первое объединение кодировщика Swin Transformer с декодировщиком ConvNeXt, использующее преимущества каждого
Мультимодальное кросс-внимание: Инновационное использование механизма кросс-внимания для слияния признаков изображения и клинической информации
Комбинированная функция потерь: Разработка DiceFocalCELoss для решения проблемы дисбаланса классов в сегментации медицинских изображений

Экспериментальная установка

Набор данных

Данные изображений: 110 CT-сканирований печени от 98 пациентов
Клинические данные: 56 переменных патологической и терапевтической информации пациента
Очистка данных: Удалены 4 проблемных набора данных (HCC 017, 008, 025, 009)
Обработка пропущенных значений: Использование моделей машинного обучения для заполнения пропусков

Метрики оценки

Коэффициент Dice: Dice = 2×|X∩Y|/(|X|+|Y|)
Средний IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
Расстояние Хаусдорфа (HD95): 95-й процентиль расстояния Хаусдорфа
Точность, полнота, прецизионность: Стандартные метрики классификации

Методы сравнения

U-Net
UNETR
SwinUNETR
MedNeXt
Предложенные Swin-NeXt и его варианты

Детали реализации

Фреймворк: Разработано на основе MONAI, совместимо с Jupyter Notebook
Предварительная обработка: Обрезка изображений, нормализация, передискретизация, увеличение данных
Стратегия обучения: Стратегия скользящего окна, блочная обработка для предотвращения переполнения памяти

Результаты экспериментов

Основные результаты

Сравнение производительности при сегментации опухолей печени:

Модель	Класс	Dice	MIoU	HD95	Точность	Полнота	Прецизионность
U-Net	Общее	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	Общее	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	Общее	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	Общее	0.662	0.569	14.614	0.992	0.714	0.684

Абляционные исследования

Сравнение методов слияния признаков:

Метод слияния	Модель	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Cross Attention	SwinUNETR	0.666	0.564	32.883
Cross Attention	MedNeXt	0.683	0.589	26.428
Cross Attention	Swin-NeXt	0.657	0.565	11.28

Ключевые выводы:

Механизм кросс-внимания обеспечивает стабильное повышение производительности на всех моделях
Методы Add и Concat не сходятся при использовании с моделями с транспонированной свёрткой (MedNeXt, Swin-NeXt)
Механизм кросс-внимания имеет лучшую совместимость со структурой транспонированной свёртки

Анализ конкретных случаев

Визуализация результатов сегментации CT-срезов пациента HCC066 показывает, что хотя Swin-NeXt не достигает оптимальных числовых показателей, форма и размер сегментации наиболее близки к истинной метке, обладая лучшей клинической практичностью.

Связанные работы

Развитие 3D сегментации медицинских изображений

Традиционные методы: Неконтролируемые методы, такие как рост регионов
Эпоха глубокого обучения: 3D U-Net заложил основу
Автоматизированные фреймворки: nnU-Net интегрирует автоматическую предварительную обработку и выбор параметров
Применение Transformer: UNETR вводит ViT, SwinUNETR использует Swin Transformer
Современная свёртка: MedNeXt разработан на основе ConvNeXt

Позиционирование вклада работы

Данная работа является первым систематическим объединением кодировщика Transformer и современного декодировщика свёртки для 3D сегментации медицинских изображений с введением механизма мультимодального кросс-внимания.

Заключение и обсуждение

Основные выводы

Эффективность архитектурного слияния: Объединение кодировщика Swin Transformer и декодировщика ConvNeXt является эффективным
Превосходство кросс-внимания: При мультимодальном слиянии механизм кросс-внимания значительно превосходит простые методы сложения и конкатенации
Эффективность комбинированной функции потерь: DiceFocalCELoss улучшает сходимость обучения при решении проблемы дисбаланса классов

Ограничения

Консервативные параметры: Для справедливого сравнения сокращено количество параметров, не использовано оптимальное соотношение блоков извлечения признаков 1:1:3:1
Ограничения вычислительных ресурсов: Из-за очередей на сервере не удалось завершить все запланированные эксперименты
Масштаб набора данных: Относительно небольшой набор данных может ограничить обобщающую способность модели

Направления будущих исследований

Исследование более оптимальных пропорций архитектуры сети
Проверка эффективности метода на более крупных наборах данных
Изучение применимости к другим задачам сегментации медицинских изображений

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое объединение преимуществ Swin Transformer и ConvNeXt
Мультимодальное слияние: Эффективное использование клинической информации для вспомогательной сегментации изображений
Полные эксперименты: Включены подробные абляционные исследования и сравнительный анализ
Высокая практическая ценность: Разработано в соответствии с практическими потребностями сегментации медицинских изображений

Недостатки

Ограниченное повышение производительности: Числовое улучшение по сравнению с базовыми методами недостаточно значительно
Несогласованность экспериментальных условий: Существуют различия во времени обучения и условиях для разных моделей
Недостаточный теоретический анализ: Отсутствует глубокий анализ причин, по которым кросс-внимание более эффективно
Неизвестная обобщающая способность: Проверено только на сегментации опухолей печени, производительность на других задачах неизвестна

Влияние

Методологический вклад: Предоставляет новые идеи для проектирования архитектур 3D сегментации медицинских изображений
Мультимодальное слияние: Предлагает эффективное решение для слияния мультимодальной информации в медицинском анализе изображений
Практическая ценность: Методы, учитывающие клиническую информацию, лучше соответствуют реальным медицинским потребностям

Применимые сценарии

3D сегментация медицинских изображений: Особенно в сценариях, требующих объединения клинической информации
Мультимодальный медицинский анализ: Задачи, объединяющие изображения и структурированные данные
Сегментация с дисбалансом классов: Задачи сегментации, где фон доминирует

Список литературы

Статья цитирует важные работы в этой области, включая:

3D U-Net: Основополагающая работа по сегментации 3D медицинских изображений
nnU-Net: Автоматизированный фреймворк для сегментации медицинских изображений
SwinUNETR: Применение Swin Transformer в сегментации медицинских изображений
MedNeXt: Метод сегментации медицинских изображений на основе ConvNeXt

Общая оценка: Это работа с определённой инновационностью в области 3D сегментации медицинских изображений, особенно в аспектах мультимодального слияния и проектирования архитектур. Хотя повышение производительности относительно ограничено, практичность метода и его вклад в область заслуживают признания.