📝

Cell segmentationモデル訓練に有用なデータセット

2024/09/30に公開

明視野の病理画像、蛍光の病理画像、蛍光の培養細胞画像などを対象に深層学習モデルを訓練するときの正解ラベル付きの画像Datasetのメモ。
実際にダウンロードして確認していないものも多数あるので、本当に有用かは保障しない。画像として汚いものやパッチサイズが小さすぎるものなどもあるので要確認。


↓↓ 明視野の病理画像 ↓↓

【 TNBC_2018 】

  • Triple Negative Breast Cancer
  • HEやIHC画像
  • 11症例、50枚の画像
  • 512*512 pxのタイル
  • 細胞の中心座標から背景までのDistance mapを使った初期の論文で使われているdataset。https://ieeexplore.ieee.org/document/8438559
  • ダウンロード先
    Zenodoにdepositあり。明視野画像と細胞のバイナリマスク画像のセット。https://zenodo.org/records/1175282#.WyP61xy-l5E
    上記のDatasetにTCGAの脳のHE画像を追加し、さらに細胞種のラベル画像、細胞インスタンスラベル画像も追加されている。Zenodo 3552674: https://zenodo.org/records/3552674

【 PanNuke 】

【 MoNuSeg 】


原著 Fig.2

  • HoVer-Netの論文のKumar datasetはこれのことっぽい。
  • ダウンロード先:
  1. EmbedSegのGitHubからreleaseページのリンクを辿ると「monuseg-2018.zip」のリンクがある。
    中身を見ると、train 30枚、test 14枚のHE画像(tif)とそれに対応したインスタンスラベル画像(tif)が得られる。
  2. Grand Challengeというサイトからも取得可能。こちらはインスタンスラベルデータがxmlファイル。 https://monuseg.grand-challenge.org/Data/

【 MoNuSAC 】

  • MoNuSegのCell instance segmentaionに加えて、細胞分類まで行うチャレンジで用意されたdataset
  • TCGAのHE画像
  • ダウンロード先: https://monusac-2020.grand-challenge.org/Data/
    明視野画像(svsとtif)とインスタンスラベル情報(xml)がダウンロードできた。

【 CoNSeP 】

https://paperswithcode.com/dataset/consep

  • Colorectal adenocarcinomaのHE画像
  • 40倍対物レンズ
  • 1000*1000 pxのタイル画像

HoVer-NetのGitHubページのリンクからアクセスすると、Warwick大学のサインインページに飛んでダウンロードできない。

【 CPM15 / CPM17 】

【 EmbedSeg datasets 】

EmbedSegというセグメンテーションモデルのGitHubに、使用したdatasetの配布ページがある。明視野画像/蛍光画像とそれに対応したインスタンスラベル画像が配布されている。

https://github.com/juglab/EmbedSeg/releases/tag/v0.1.0

2D明視野画像や2D蛍光画像のみならず、3D画像や線虫の画像なども含む。

【 NuCLS (Nucleus Classification, Localization and Segmentation) 】

  • ホームページ: https://sites.google.com/view/nucls/home?authuser=0
  • TCGAのHE画像
    小さい領域のパッチ画像。
  • DatasetのホームページのSingle-rater、Multi-raterからダウンロード可能。Singleは1名のアノテーター、Multiは32名のアノテーター。Multiはアノテーターごとのデータもあったりと冗長。
  • 細胞核のセグメンテーションマスクと細胞分類ラベル

    ホームページ Data Formatページ

細胞核のマスクはバウンディングボックスのものとセグメンテーションのものがある。

https://sites.google.com/view/nucls/multi-rater?authuser=0

schemaを見る感じでの想像だが、以下のことをやっていそう。

  1. 古典的な方法で核セグメンテーション
  2. 低解像度の広視野画像で腫瘍領域や間質領域などをアノテーション
  3. 細胞核が属する領域を細胞核のラベルとして採用 ➔ これがNoisy Bootstrap??
  4. 3.のデータを訓練データとしてMaskRCNNモデルを作る
  5. モデルの予測結果をアノテーターがチェック。間違っているとセグメンテーションではなく、バウンディングボックスで修正??

【 LyNSec 】

  • びまん性大細胞型リンパ腫のHE、IHC画像
    本文より「LyNSeC (lymphoma nuclear segmentation and classification) containing 73,931 annotated cell nuclei from H&E and 87,316 from IHC slides」
  • 細胞のインスタンスラベルと、細胞種のラベルがある。
  • 40x 対物レンズ
  • 512*512 pxのタイル
  • HoLy-Netというモデルの原著内で使われているDatasets。モデルはHoVerNetがベースでdropoutを追加したぐらい??
    原著 (Computers in Biology and Medicine, 2024): https://www.sciencedirect.com/science/article/pii/S0010482524000623
  • ダウンロード先
    Zenodo: https://zenodo.org/records/8065174

【 CryoNuSeg 】

【 NuInsSeg 】

【 CoNIC 】

【 HAPPY dataset 】

原著(Nature Communications, 2024): https://www.nature.com/articles/s41467-024-46986-2
GitHub: https://github.com/Nellaker-group/happy

  • 核検出、細胞分類、組織分類の一連のモデル・ワークフローを提供

  • 核検出:
    RetinaNetモデルを使用。

  • 細胞分類:
    検出された1つの細胞核を含む200*200 pxの画像をResNet-50で分類

  • 使用したdatasetの提供有り。GitHub内のリンクからGoogleドライブへ飛べる。
    https://drive.google.com/drive/folders/1RvSQOxsWyUHf_SGV1Jzqa_Gc5QI4wQoy
    この内の「datasets」フォルダに核検出用に使用した画像(1600*1200 px)と細胞分類に用いた画像(200*200 px)がある。
    核検出の正解は「annotations/nuclei」フォルダのcsvファイルが各インスタンスのbounding box座標っぽい。


↓↓ 蛍光の病理画像 ↓↓

【 TissueNet 】

  • 蛍光染色の病理画像

  • Cell segmentation modelのMesmerの訓練使用されている。
    原著(Nature Biotechnology, 2022): https://www.nature.com/articles/s41587-021-01094-0

  • ダウンロード先
    本文中のData availabilityのリンクに飛ぶとDeepCellのページへ繋がる。https://datasets.deepcell.org/
    アカウントを作ってログインするとダウンロード可能。

    ログイン後の画面

  • Datasetの中身:
    train/test/valの3つのnpzファイルがダウンロードされる。512*512 pxサイズの2 ch画像。ラベルはインスタンスラベル画像(細胞核のラベル画像と細胞のラベル画像で2 chある)。

読み込み例
import numpy as np
data = np.load("tissuenet_v1.1_train.npz", allow_pickle=True)

X = data["X"] # 顕微鏡画像
y = data["y"] # インスタンスラベル画像
meta = data["meta"] # ファイル名などの情報

【 Cross-platform dataset of multiplex fluorescent cellular object image annotations 】


↓↓ 培養細胞の蛍光顕微鏡画像 ↓↓

【 DynamicNuclearNet 】

  • 培養細胞の蛍光顕微鏡画像

  • このDatasetを使った原著: https://www.biorxiv.org/content/10.1101/803205v4.full
    Cell segmentationとlive cell imagingの論文

  • ダウンロード先
    DeepCellで提供されている。https://datasets.deepcell.org/data

  • Datasetの中身:
    train/test/valの3つのnpzファイルがダウンロードされる。512*512 pxサイズの16bitグレースケール画像。ラベルはインスタンスラベル画像。
    trainデータは4950枚あった。

import numpy as np
data = np.load("train.npz", allow_pickle=True)

X = data["X"] # 顕微鏡画像
y = data["y"] # インスタンスラベル画像
meta = data["meta"] # ファイル名などの情報

【 CellPose 】

  • CellPoseモデルの訓練に使用されたdataset。
  • ダウンロード先: https://www.cellpose.org/dataset
    利用規約に同意するとダウンロードできる。
  • 培養細胞の蛍光顕微鏡画像が主だが、電顕画像など多様な画像がある。それに対応するインスタンスラベル画像もある。
  • 画像サイズはバラバラだが大体512 px辺程度。

【 Cell Image Library 】

【 HPA Cell Image Segmentation Dataset 】


↓↓ その他 ↓↓

以下は正解ラベルとしてはCell segmentationのラベルデータは無いが、訓練/検証に使用できるかもというdataset。

【 Kather100K dataset 】

  • human colorectal cancer and healthy tissue
  • 10万枚のHE画像
  • 正解ラベル:
    Adipose (ADI), background (BACK), debris (DEB), lymphocytes (LYM), mucus (MUC), smooth muscle (MUS), normal colon mucosa (NORM), cancer-associated stroma (STR), colorectal adenocarcinoma epithelium (TUM)
  • ダウンロード先: https://zenodo.org/records/1214456

【 PatchCamelyon (PCam) 】

【 Breast Cancer Semantic Segmentation (BCSS) 】

【 BCCD 】

  • 血液塗抹標本
  • 白血球、赤血球、血小板の正解ラベル付きのバウンディングボックス

【 Kaggle Datasets 】

Blood Cells Image Dataset

https://www.kaggle.com/datasets/unclesamulus/blood-cells-image-dataset

血液塗抹標本の細胞分類に使えそう。

Blood Cells Cancer (ALL) dataset

https://www.kaggle.com/datasets/mohammadamireshraghi/blood-cell-cancer-all-4class

血液塗抹標本から悪性リンパ腫細胞を見つける。

Blood Cell Segmentation Dataset

  • Segmentation maskあり。
  • 個々の細胞のマスクが分離しているのでインスタンスラベルへ簡単に変換可能

https://www.kaggle.com/datasets/jeetblahiri/bccd-dataset-with-mask

Discussion