2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net: 3D医学画像セグメンテーション用Swin-NeXt交差注意機構

基本情報

  • 論文ID: 2501.01406
  • タイトル: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • 著者: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • 所属機関: ¹シドニー大学, ²香港中文大学
  • 分類: cs.CV (コンピュータビジョン)
  • 論文リンク: https://arxiv.org/abs/2501.01406

要旨

本論文は、nnY-Netと呼ばれる新規の3D医学画像セグメンテーションモデルアーキテクチャを提案している。本モデルは、U-Netアーキテクチャの底部に交差注意機構モジュールを追加することでY字型構造を形成することから命名されている。著者らは、最新のSOTA(State-of-the-Art)モデルであるMedNeXtとSwinUNETRの利点を統合し、Swin Transformerをエンコーダとして、ConvNeXtをデコーダとして使用し、革新的にSwin-NeXtアーキテクチャを設計した。本モデルは、エンコーダの最下層特徴マップをKeyおよびValueとして使用し、病理学的情報および治療情報などの患者特性をQueryとして交差注意重みを計算する。さらに、dynUnetおよびnnU-netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化し、不均衡なボクセル分類の訓練効率を向上させるためにDiceFocalCELossを構築した。

研究背景と動機

問題定義

肝臓腫瘍CT 3D画像セグメンテーションは、医学画像セグメンテーションにおける重要なタスクである。正確なCT画像セグメンテーションは、医師が腫瘍体積を推定し、合理的な治療計画を立案するのに役立つ。

既存手法の限界

  1. 従来手法の限界: 2016年以前は主に領域成長などの教師なしアルゴリズムが使用され、精度が限定的であった
  2. 単一アーキテクチャの欠陥: 既存手法は純粋な畳み込み(nnU-Netなど)または純粋なTransformer(SwinUNETRなど)に基づいており、両者の利点を十分に組み合わせていない
  3. マルチモーダル融合の不足: 既存手法は主に画像情報を処理し、患者の病理学的情報および治療情報を効果的に利用していない
  4. クラス不均衡問題: 背景ラベルが90%以上のピクセルを占めており、訓練が困難である

研究動機

本論文は、Transformerおよび畳み込みニューラルネットワークの利点を融合させることにより、3D画像と患者の臨床情報を同時に処理できるマルチモーダルセグメンテーションモデルを設計し、医学画像セグメンテーションの精度と実用性を向上させることを目的としている。

核心的貢献

  1. Swin-NeXtアーキテクチャの提案: SwinUNETRのエンコーダとMedNeXtのデコーダを革新的に組み合わせ、特徴抽出におけるTransformerの利点とピクセルレベルデコーディングにおける畳み込みの利点を十分に活用する
  2. 交差注意融合機構の設計: 3つの特徴融合方法を提案し、交差注意機構がマルチモーダル融合において最良の性能を示し、モデル性能を安定的に向上させることを発見する
  3. DiceFocalCELoss損失関数の構築: DiceLoss、FocalLoss、交差エントロピー損失を組み合わせ、ボクセル分類におけるクラス不均衡問題を効果的に解決する
  4. 前処理フローの簡略化: dynUnetおよびnnU-Netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化および最適化する

方法の詳細

タスク定義

入力:

  • 3D CTスキャン画像 χ ∈ R^(H×W×D×C)
  • 患者臨床情報(病理学的情報、治療情報など)

出力: 肝臓、腫瘍、血管、大動脈などの構造を含むマルチクラスセグメンテーションマスク

制約: 高解像度3D画像のメモリ制限、クラスが極度に不均衡なセグメンテーションタスク

モデルアーキテクチャ

1. Swin Transformerエンコーダ

3D Swin Transformerをエンコーダとして採用し、具体的な実装は以下の通りである:

  • パッチ分割: 入力画像をM×M×Mサイズの3Dウィンドウに分割する
  • ウィンドウ注意機構:
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • 注意計算:
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. ConvNeXtデコーダ

MedNeXtのデコーダ構造を使用する:

  • 転置畳み込みアップサンプリング:
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • GELU活性化関数:
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. 交差注意融合モジュール

エンコーダの最下層(ボトルネック)にマルチモーダル情報を統合する:

  • KeyおよびValue: エンコーダの最下層特徴マップ
  • Query: 患者臨床特性ベクトル
  • 融合戦略: 全結合層を通じて臨床特性を適切な次元にマッピングし、その後交差注意計算を実行する

技術的革新点

  1. ハイブリッドアーキテクチャ設計: Swin TransformerエンコーダとConvNeXtデコーダを初めて組み合わせ、各々の利点を発揮する
  2. マルチモーダル交差注意: 交差注意機構を革新的に使用して画像特性と臨床情報を融合させる
  3. 組み合わせ損失関数: 医学画像セグメンテーションにおけるクラス不均衡問題を解決するためにDiceFocalCELossを設計する

実験設定

データセット

  • 画像データ: 98名の患者から得られた110枚の肝臓CTスキャン画像
  • 臨床データ: 患者の病理学的情報および治療情報の56変数
  • データクリーニング: 問題のある4組のデータ(HCC 017、008、025、009)を削除
  • 欠損値処理: 機械学習モデルを使用して欠損値を補完する

評価指標

  1. Diceスコア: Dice = 2×|X∩Y|/(|X|+|Y|)
  2. 平均IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Hausdorff距離(HD95): 95パーセンタイルのHausdorff距離
  4. 精度、再現率、適合率: 標準分類指標

比較手法

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • 提案されたSwin-NeXtおよびその変種

実装詳細

  • フレームワーク: MONAIに基づいて開発、Jupyter Notebookと互換性あり
  • 前処理: 画像トリミング、正規化、リサンプリング、データ拡張
  • 訓練戦略: スライディングウィンドウ戦略、メモリオーバーフロー回避のためのチャンク処理

実験結果

主要結果

肝臓腫瘍セグメンテーションタスクにおけるパフォーマンス比較:

モデルクラスDiceMIoUHD95精度再現率適合率
U-Net全体0.7090.61416.8470.9910.7700.704
SwinUNETR全体0.6560.5537.30.9830.7330.64
MedNeXt全体0.6830.58321.60.990.7520.674
Swin-NeXt全体0.6620.56914.6140.9920.7140.684

アブレーション実験

特徴融合方法の比較:

融合方法モデルDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Cross AttentionSwinUNETR0.6660.56432.883
Cross AttentionMedNeXt0.6830.58926.428
Cross AttentionSwin-NeXt0.6570.56511.28

主要な発見:

  1. 交差注意機構はすべてのモデルで安定したパフォーマンス向上を提供する
  2. AddおよびConcat方法は、転置畳み込みを使用するモデル(MedNeXt、Swin-NeXt)では収束できない
  3. 交差注意機構は転置畳み込み構造との互換性がより優れている

ケース分析

患者HCC066のCTスライスの可視化結果を通じて、Swin-NeXtは数値指標では最適に達していないが、セグメンテーション形状およびサイズにおいて真のラベルに最も近く、より優れた臨床実用価値を有することが示されている。

関連研究

3D医学画像セグメンテーションの発展

  1. 従来手法: 領域成長などの教師なし手法
  2. 深層学習時代: 3D U-Netが基礎を確立
  3. 自動化フレームワーク: nnU-Netが自動前処理とパラメータ選択を統合
  4. Transformer応用: UNETRがViTを導入、SwinUNETRがSwin Transformerを使用
  5. 現代的畳み込み: MedNeXtがConvNeXtに基づいて設計

本論文の貢献の位置付け

本論文は、Transformerエンコーダと現代的畳み込みデコーダを体系的に組み合わせた初めての3D医学画像セグメンテーション手法であり、マルチモーダル交差注意機構を導入している。

結論と考察

主要な結論

  1. アーキテクチャ融合の有効性: Swin TransformerエンコーダとConvNeXtデコーダの組み合わせは有効である
  2. 交差注意の優越性: マルチモーダル融合において、交差注意機構は単純な加算および連結方法よりも著しく優れている
  3. 組み合わせ損失関数の有効性: DiceFocalCELossはクラス不均衡問題の訓練収束を改善できる

限界

  1. パラメータ設定の保守性: 公正な比較のためにパラメータ数を削減し、最適な1:1:3:1特徴抽出ブロック比率を使用していない
  2. 計算リソースの制限: サーバーキューイングなどの要因により、すべての予定実験を完了できなかった
  3. データセット規模: 比較的小規模なデータセットはモデルの汎化能力を制限する可能性がある

今後の方向性

  1. より最適なネットワークアーキテクチャ比率設計の探索
  2. より大規模なデータセット上での方法の有効性の検証
  3. 他の医学画像セグメンテーションタスクへの適用可能性の研究

深層的評価

利点

  1. 革新性が高い: Swin TransformerとConvNeXtの利点を初めて体系的に組み合わせている
  2. マルチモーダル融合: 臨床情報を効果的に利用して画像セグメンテーションを支援する
  3. 実験が充分: 詳細なアブレーション実験および比較分析を含む
  4. 実用価値が高い: 医学画像セグメンテーションの実際のニーズに基づいて設計されている

不足点

  1. パフォーマンス向上が限定的: ベースライン手法と比較して、数値向上が十分でない
  2. 実験条件の不一致: 異なるモデルの訓練時間および条件に差異がある
  3. 理論分析の不足: 交差注意がなぜより有効であるかについての深い理論分析が欠けている
  4. 汎化性が未知: 肝臓腫瘍セグメンテーションのみで検証され、他のタスクでのパフォーマンスは未知である

影響力

  1. 方法論的貢献: 3D医学画像セグメンテーションに新しいアーキテクチャ設計思想を提供する
  2. マルチモーダル融合: 医学画像分析におけるマルチモーダル情報融合に有効な方案を提供する
  3. 実用価値: 臨床情報を考慮したセグメンテーション手法は実際の医療ニーズにより適合している

適用シーン

  1. 3D医学画像セグメンテーション: 特に臨床情報の結合が必要なシーン
  2. マルチモーダル医学分析: 画像と構造化データを結合するタスク
  3. クラス不均衡セグメンテーション: 背景が主導的なセグメンテーションタスク

参考文献

論文は本分野の重要な研究を引用しており、以下を含む:

  • 3D U-Net: 3D医学画像セグメンテーションの基礎的研究
  • nnU-Net: 自動化医学画像セグメンテーションフレームワーク
  • SwinUNETR: 医学画像セグメンテーションにおけるSwin Transformerの応用
  • MedNeXt: ConvNeXtに基づく医学画像セグメンテーション手法

総合評価: これは3D医学画像セグメンテーション分野における一定の革新性を有する研究であり、特にマルチモーダル融合およびアーキテクチャ設計の面で優れている。パフォーマンス向上は相対的に限定的であるが、方法の実用性および分野への貢献は認識に値する。