🦔

論文要約:UNesT

2022/11/17に公開

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

概要

パッチシーケンスを階層的に集約することで、Transformerを用いながら、局所空間表現を学習する3D医療領域分割 UNesTを提案。複数の臓器でSOTA。

書誌情報

2022/9/28
Xin Yu
ヴァンダービルト大学(アメリカ)、Google Cloud AI、Nvidia
https://arxiv.org/abs/2209.14378v1

方法

全体
U-Net+skip connection。
多重解像度特徴量をマージ。

Encoder
階層的Transformer Encoder+3D Block集約

階層的Transformer Encoder
Transformer Encoderはmulti-head self-attention (MSA)、multi-layer perceptron (MLP)、layer normalization (LN)で構成。

3D Block Aggregation(集約)
各ブロックを集約。

Decoder
Residual Block+Transpose Conv

結果

脳・腎臓MRI、多臓器CTでSOTA。
SLANT27(同モデル27個のアンサンブル)より優位。

3D Block Aggregation(集約)はShifted Windowsより優位とのこと。

Discussion