🦔
論文要約:UNesT
UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation
概要
パッチシーケンスを階層的に集約することで、Transformerを用いながら、局所空間表現を学習する3D医療領域分割 UNesTを提案。複数の臓器でSOTA。
書誌情報
2022/9/28
Xin Yu
ヴァンダービルト大学(アメリカ)、Google Cloud AI、Nvidia
https://arxiv.org/abs/2209.14378v1
方法
全体
U-Net+skip connection。
多重解像度特徴量をマージ。
Encoder
階層的Transformer Encoder+3D Block集約
階層的Transformer Encoder
Transformer Encoderはmulti-head self-attention (MSA)、multi-layer perceptron (MLP)、layer normalization (LN)で構成。
3D Block Aggregation(集約)
各ブロックを集約。
Decoder
Residual Block+Transpose Conv
結果
脳・腎臓MRI、多臓器CTでSOTA。
SLANT27(同モデル27個のアンサンブル)より優位。
3D Block Aggregation(集約)はShifted Windowsより優位とのこと。
Discussion