🦔

論文要約：UNesT

2022/11/17に公開

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

パッチシーケンスを階層的に集約することで、Transformerを用いながら、局所空間表現を学習する3D医療領域分割　UNesTを提案。複数の臓器でSOTA。

2022/9/28
Xin Yu
ヴァンダービルト大学（アメリカ）、Google Cloud AI、Nvidia
https://arxiv.org/abs/2209.14378v1

全体
U-Net＋skip connection。
多重解像度特徴量をマージ。

Encoder
階層的Transformer Encoder＋3D Block集約

階層的Transformer Encoder
Transformer Encoderはmulti-head self-attention (MSA)、multi-layer perceptron (MLP)、layer normalization (LN)で構成。

3D Block Aggregation（集約）
各ブロックを集約。

Decoder
Residual Block＋Transpose Conv

脳・腎臓MRI、多臓器CTでSOTA。
SLANT27（同モデル27個のアンサンブル）より優位。

3D Block Aggregation（集約）はShifted Windowsより優位とのこと。