2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net: 3D医学画像セグメンテーション用Swin-NeXt交差注意機構

基本情報

論文ID: 2501.01406
タイトル: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
著者: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
所属機関: ¹シドニー大学, ²香港中文大学
分類: cs.CV (コンピュータビジョン)
論文リンク: https://arxiv.org/abs/2501.01406

要旨

本論文は、nnY-Netと呼ばれる新規の3D医学画像セグメンテーションモデルアーキテクチャを提案している。本モデルは、U-Netアーキテクチャの底部に交差注意機構モジュールを追加することでY字型構造を形成することから命名されている。著者らは、最新のSOTA（State-of-the-Art）モデルであるMedNeXtとSwinUNETRの利点を統合し、Swin Transformerをエンコーダとして、ConvNeXtをデコーダとして使用し、革新的にSwin-NeXtアーキテクチャを設計した。本モデルは、エンコーダの最下層特徴マップをKeyおよびValueとして使用し、病理学的情報および治療情報などの患者特性をQueryとして交差注意重みを計算する。さらに、dynUnetおよびnnU-netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化し、不均衡なボクセル分類の訓練効率を向上させるためにDiceFocalCELossを構築した。

研究背景と動機

問題定義

肝臓腫瘍CT 3D画像セグメンテーションは、医学画像セグメンテーションにおける重要なタスクである。正確なCT画像セグメンテーションは、医師が腫瘍体積を推定し、合理的な治療計画を立案するのに役立つ。

既存手法の限界

従来手法の限界: 2016年以前は主に領域成長などの教師なしアルゴリズムが使用され、精度が限定的であった
単一アーキテクチャの欠陥: 既存手法は純粋な畳み込み（nnU-Netなど）または純粋なTransformer（SwinUNETRなど）に基づいており、両者の利点を十分に組み合わせていない
マルチモーダル融合の不足: 既存手法は主に画像情報を処理し、患者の病理学的情報および治療情報を効果的に利用していない
クラス不均衡問題: 背景ラベルが90%以上のピクセルを占めており、訓練が困難である

研究動機

本論文は、Transformerおよび畳み込みニューラルネットワークの利点を融合させることにより、3D画像と患者の臨床情報を同時に処理できるマルチモーダルセグメンテーションモデルを設計し、医学画像セグメンテーションの精度と実用性を向上させることを目的としている。

核心的貢献

Swin-NeXtアーキテクチャの提案: SwinUNETRのエンコーダとMedNeXtのデコーダを革新的に組み合わせ、特徴抽出におけるTransformerの利点とピクセルレベルデコーディングにおける畳み込みの利点を十分に活用する
交差注意融合機構の設計: 3つの特徴融合方法を提案し、交差注意機構がマルチモーダル融合において最良の性能を示し、モデル性能を安定的に向上させることを発見する
DiceFocalCELoss損失関数の構築: DiceLoss、FocalLoss、交差エントロピー損失を組み合わせ、ボクセル分類におけるクラス不均衡問題を効果的に解決する
前処理フローの簡略化: dynUnetおよびnnU-Netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化および最適化する

方法の詳細

タスク定義

入力:

3D CTスキャン画像 χ ∈ R^(H×W×D×C)
患者臨床情報（病理学的情報、治療情報など）

出力: 肝臓、腫瘍、血管、大動脈などの構造を含むマルチクラスセグメンテーションマスク

制約: 高解像度3D画像のメモリ制限、クラスが極度に不均衡なセグメンテーションタスク

モデルアーキテクチャ

1. Swin Transformerエンコーダ

3D Swin Transformerをエンコーダとして採用し、具体的な実装は以下の通りである：

パッチ分割: 入力画像をM×M×Mサイズの3Dウィンドウに分割する

ウィンドウ注意機構:

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

注意計算:

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. ConvNeXtデコーダ

MedNeXtのデコーダ構造を使用する：

転置畳み込みアップサンプリング:

Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}

GELU活性化関数:
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. 交差注意融合モジュール

エンコーダの最下層（ボトルネック）にマルチモーダル情報を統合する：

KeyおよびValue: エンコーダの最下層特徴マップ
Query: 患者臨床特性ベクトル
融合戦略: 全結合層を通じて臨床特性を適切な次元にマッピングし、その後交差注意計算を実行する

技術的革新点

ハイブリッドアーキテクチャ設計: Swin TransformerエンコーダとConvNeXtデコーダを初めて組み合わせ、各々の利点を発揮する
マルチモーダル交差注意: 交差注意機構を革新的に使用して画像特性と臨床情報を融合させる
組み合わせ損失関数: 医学画像セグメンテーションにおけるクラス不均衡問題を解決するためにDiceFocalCELossを設計する

実験設定

データセット

画像データ: 98名の患者から得られた110枚の肝臓CTスキャン画像
臨床データ: 患者の病理学的情報および治療情報の56変数
データクリーニング: 問題のある4組のデータ（HCC 017、008、025、009）を削除
欠損値処理: 機械学習モデルを使用して欠損値を補完する

評価指標

Diceスコア: Dice = 2×|X∩Y|/(|X|+|Y|)
平均IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
Hausdorff距離（HD95）: 95パーセンタイルのHausdorff距離
精度、再現率、適合率: 標準分類指標

比較手法

U-Net
UNETR
SwinUNETR
MedNeXt
提案されたSwin-NeXtおよびその変種

実装詳細

フレームワーク: MONAIに基づいて開発、Jupyter Notebookと互換性あり
前処理: 画像トリミング、正規化、リサンプリング、データ拡張
訓練戦略: スライディングウィンドウ戦略、メモリオーバーフロー回避のためのチャンク処理

実験結果

主要結果

肝臓腫瘍セグメンテーションタスクにおけるパフォーマンス比較：

モデル	クラス	Dice	MIoU	HD95	精度	再現率	適合率
U-Net	全体	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	全体	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	全体	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	全体	0.662	0.569	14.614	0.992	0.714	0.684

アブレーション実験

特徴融合方法の比較：

融合方法	モデル	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Cross Attention	SwinUNETR	0.666	0.564	32.883
Cross Attention	MedNeXt	0.683	0.589	26.428
Cross Attention	Swin-NeXt	0.657	0.565	11.28