This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
論文ID : 2501.01406タイトル : nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation著者 : Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹所属機関 : ¹シドニー大学, ²香港中文大学分類 : cs.CV (コンピュータビジョン)論文リンク : https://arxiv.org/abs/2501.01406 本論文は、nnY-Netと呼ばれる新規の3D医学画像セグメンテーションモデルアーキテクチャを提案している。本モデルは、U-Netアーキテクチャの底部に交差注意機構モジュールを追加することでY字型構造を形成することから命名されている。著者らは、最新のSOTA(State-of-the-Art)モデルであるMedNeXtとSwinUNETRの利点を統合し、Swin Transformerをエンコーダとして、ConvNeXtをデコーダとして使用し、革新的にSwin-NeXtアーキテクチャを設計した。本モデルは、エンコーダの最下層特徴マップをKeyおよびValueとして使用し、病理学的情報および治療情報などの患者特性をQueryとして交差注意重みを計算する。さらに、dynUnetおよびnnU-netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化し、不均衡なボクセル分類の訓練効率を向上させるためにDiceFocalCELossを構築した。
肝臓腫瘍CT 3D画像セグメンテーションは、医学画像セグメンテーションにおける重要なタスクである。正確なCT画像セグメンテーションは、医師が腫瘍体積を推定し、合理的な治療計画を立案するのに役立つ。
従来手法の限界 : 2016年以前は主に領域成長などの教師なしアルゴリズムが使用され、精度が限定的であった単一アーキテクチャの欠陥 : 既存手法は純粋な畳み込み(nnU-Netなど)または純粋なTransformer(SwinUNETRなど)に基づいており、両者の利点を十分に組み合わせていないマルチモーダル融合の不足 : 既存手法は主に画像情報を処理し、患者の病理学的情報および治療情報を効果的に利用していないクラス不均衡問題 : 背景ラベルが90%以上のピクセルを占めており、訓練が困難である本論文は、Transformerおよび畳み込みニューラルネットワークの利点を融合させることにより、3D画像と患者の臨床情報を同時に処理できるマルチモーダルセグメンテーションモデルを設計し、医学画像セグメンテーションの精度と実用性を向上させることを目的としている。
Swin-NeXtアーキテクチャの提案 : SwinUNETRのエンコーダとMedNeXtのデコーダを革新的に組み合わせ、特徴抽出におけるTransformerの利点とピクセルレベルデコーディングにおける畳み込みの利点を十分に活用する交差注意融合機構の設計 : 3つの特徴融合方法を提案し、交差注意機構がマルチモーダル融合において最良の性能を示し、モデル性能を安定的に向上させることを発見するDiceFocalCELoss損失関数の構築 : DiceLoss、FocalLoss、交差エントロピー損失を組み合わせ、ボクセル分類におけるクラス不均衡問題を効果的に解決する前処理フローの簡略化 : dynUnetおよびnnU-Netフレームワークに基づいて、3D画像セグメンテーションの前処理および後処理方法を簡略化および最適化する入力 :
3D CTスキャン画像 χ ∈ R^(H×W×D×C) 患者臨床情報(病理学的情報、治療情報など) 出力 : 肝臓、腫瘍、血管、大動脈などの構造を含むマルチクラスセグメンテーションマスク
制約 : 高解像度3D画像のメモリ制限、クラスが極度に不均衡なセグメンテーションタスク
3D Swin Transformerをエンコーダとして採用し、具体的な実装は以下の通りである:
パッチ分割 : 入力画像をM×M×Mサイズの3Dウィンドウに分割するウィンドウ注意機構 :
z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
注意計算 :
Attention(Q,K,V) = Softmax(QK^T/√d + B)V
MedNeXtのデコーダ構造を使用する:
転置畳み込みアップサンプリング :
Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
GELU活性化関数 :
GELU(x) = x/2[1 + erf(x/√2)]
エンコーダの最下層(ボトルネック)にマルチモーダル情報を統合する:
KeyおよびValue : エンコーダの最下層特徴マップQuery : 患者臨床特性ベクトル融合戦略 : 全結合層を通じて臨床特性を適切な次元にマッピングし、その後交差注意計算を実行するハイブリッドアーキテクチャ設計 : Swin TransformerエンコーダとConvNeXtデコーダを初めて組み合わせ、各々の利点を発揮するマルチモーダル交差注意 : 交差注意機構を革新的に使用して画像特性と臨床情報を融合させる組み合わせ損失関数 : 医学画像セグメンテーションにおけるクラス不均衡問題を解決するためにDiceFocalCELossを設計する画像データ : 98名の患者から得られた110枚の肝臓CTスキャン画像臨床データ : 患者の病理学的情報および治療情報の56変数データクリーニング : 問題のある4組のデータ(HCC 017、008、025、009)を削除欠損値処理 : 機械学習モデルを使用して欠損値を補完するDiceスコア : Dice = 2×|X∩Y|/(|X|+|Y|)平均IoU : MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|Hausdorff距離(HD95) : 95パーセンタイルのHausdorff距離精度、再現率、適合率 : 標準分類指標U-Net UNETR SwinUNETR MedNeXt 提案されたSwin-NeXtおよびその変種 フレームワーク : MONAIに基づいて開発、Jupyter Notebookと互換性あり前処理 : 画像トリミング、正規化、リサンプリング、データ拡張訓練戦略 : スライディングウィンドウ戦略、メモリオーバーフロー回避のためのチャンク処理肝臓腫瘍セグメンテーションタスクにおけるパフォーマンス比較:
モデル クラス Dice MIoU HD95 精度 再現率 適合率 U-Net 全体 0.709 0.614 16.847 0.991 0.770 0.704 SwinUNETR 全体 0.656 0.55 37.3 0.983 0.733 0.64 MedNeXt 全体 0.683 0.583 21.6 0.99 0.752 0.674 Swin-NeXt 全体 0.662 0.569 14.614 0.992 0.714 0.684
融合方法 モデル Dice MIoU HD95 Add SwinUNETR 0.662 0.562 26.956 Concat SwinUNETR 0.641 0.537 39.197 Cross Attention SwinUNETR 0.666 0.564 32.883 Cross Attention MedNeXt 0.683 0.589 26.428 Cross Attention Swin-NeXt 0.657 0.565 11.28
主要な発見 :
交差注意機構はすべてのモデルで安定したパフォーマンス向上を提供する AddおよびConcat方法は、転置畳み込みを使用するモデル(MedNeXt、Swin-NeXt)では収束できない 交差注意機構は転置畳み込み構造との互換性がより優れている 患者HCC066のCTスライスの可視化結果を通じて、Swin-NeXtは数値指標では最適に達していないが、セグメンテーション形状およびサイズにおいて真のラベルに最も近く、より優れた臨床実用価値を有することが示されている。
従来手法 : 領域成長などの教師なし手法深層学習時代 : 3D U-Netが基礎を確立自動化フレームワーク : nnU-Netが自動前処理とパラメータ選択を統合Transformer応用 : UNETRがViTを導入、SwinUNETRがSwin Transformerを使用現代的畳み込み : MedNeXtがConvNeXtに基づいて設計本論文は、Transformerエンコーダと現代的畳み込みデコーダを体系的に組み合わせた初めての3D医学画像セグメンテーション手法であり、マルチモーダル交差注意機構を導入している。
アーキテクチャ融合の有効性 : Swin TransformerエンコーダとConvNeXtデコーダの組み合わせは有効である交差注意の優越性 : マルチモーダル融合において、交差注意機構は単純な加算および連結方法よりも著しく優れている組み合わせ損失関数の有効性 : DiceFocalCELossはクラス不均衡問題の訓練収束を改善できるパラメータ設定の保守性 : 公正な比較のためにパラメータ数を削減し、最適な1:1:3:1特徴抽出ブロック比率を使用していない計算リソースの制限 : サーバーキューイングなどの要因により、すべての予定実験を完了できなかったデータセット規模 : 比較的小規模なデータセットはモデルの汎化能力を制限する可能性があるより最適なネットワークアーキテクチャ比率設計の探索 より大規模なデータセット上での方法の有効性の検証 他の医学画像セグメンテーションタスクへの適用可能性の研究 革新性が高い : Swin TransformerとConvNeXtの利点を初めて体系的に組み合わせているマルチモーダル融合 : 臨床情報を効果的に利用して画像セグメンテーションを支援する実験が充分 : 詳細なアブレーション実験および比較分析を含む実用価値が高い : 医学画像セグメンテーションの実際のニーズに基づいて設計されているパフォーマンス向上が限定的 : ベースライン手法と比較して、数値向上が十分でない実験条件の不一致 : 異なるモデルの訓練時間および条件に差異がある理論分析の不足 : 交差注意がなぜより有効であるかについての深い理論分析が欠けている汎化性が未知 : 肝臓腫瘍セグメンテーションのみで検証され、他のタスクでのパフォーマンスは未知である方法論的貢献 : 3D医学画像セグメンテーションに新しいアーキテクチャ設計思想を提供するマルチモーダル融合 : 医学画像分析におけるマルチモーダル情報融合に有効な方案を提供する実用価値 : 臨床情報を考慮したセグメンテーション手法は実際の医療ニーズにより適合している3D医学画像セグメンテーション : 特に臨床情報の結合が必要なシーンマルチモーダル医学分析 : 画像と構造化データを結合するタスククラス不均衡セグメンテーション : 背景が主導的なセグメンテーションタスク論文は本分野の重要な研究を引用しており、以下を含む:
3D U-Net: 3D医学画像セグメンテーションの基礎的研究 nnU-Net: 自動化医学画像セグメンテーションフレームワーク SwinUNETR: 医学画像セグメンテーションにおけるSwin Transformerの応用 MedNeXt: ConvNeXtに基づく医学画像セグメンテーション手法 総合評価 : これは3D医学画像セグメンテーション分野における一定の革新性を有する研究であり、特にマルチモーダル融合およびアーキテクチャ設計の面で優れている。パフォーマンス向上は相対的に限定的であるが、方法の実用性および分野への貢献は認識に値する。