Cell segmentationモデル訓練に有用なデータセット
明視野の病理画像、蛍光の病理画像、蛍光の培養細胞画像などを対象に深層学習モデルを訓練するときの正解ラベル付きの画像Datasetのメモ。
実際にダウンロードして確認していないものも多数あるので、本当に有用かは保障しない。画像として汚いものやパッチサイズが小さすぎるものなどもあるので要確認。
↓↓ 明視野の病理画像 ↓↓
【 TNBC_2018 】
- Triple Negative Breast Cancer
- HEやIHC画像
- 11症例、50枚の画像
- 512*512 pxのタイル
- 細胞の中心座標から背景までのDistance mapを使った初期の論文で使われているdataset。https://ieeexplore.ieee.org/document/8438559
- ダウンロード先
Zenodoにdepositあり。明視野画像と細胞のバイナリマスク画像のセット。https://zenodo.org/records/1175282#.WyP61xy-l5E
上記のDatasetにTCGAの脳のHE画像を追加し、さらに細胞種のラベル画像、細胞インスタンスラベル画像も追加されている。Zenodo 3552674: https://zenodo.org/records/3552674
【 PanNuke 】
- 19の組織のHE画像
- 256 × 256 pxのパッチ画像
- 7904枚
- 20万の細胞核のラベル
- arXiv (2020): https://arxiv.org/abs/2003.10778
- ダウンロード先:
HoVerNetのGitHubページ内にあるリンクでは、リンク先が変わっていてWarwick大学のTIA centerのページに飛ぶ。Datasetタブを見てもPanNukeは無し。
2024年9月時点で、このリンクは生きていた。 https://warwick.ac.uk/fac/cross_fac/tia/data/pannuke
Kaggleにもある? https://www.kaggle.com/datasets/llwlabs/pannuke
PathMLライブラリを使えば訓練/検証データなどを生成できるかも。https://pathml.readthedocs.io/en/latest/api_datasets_reference.html
【 MoNuSeg 】
- TCGAのHE画像
- 40倍対物レンズ
- 1000*1000 pxのタイル
- 細胞マスクと細胞膜マスクを予測する初期の論文で使われたdataset。
https://ieeexplore.ieee.org/abstract/document/7872382
https://ieeexplore.ieee.org/abstract/document/8880654
原著 Fig.2
- HoVer-Netの論文のKumar datasetはこれのことっぽい。
- ダウンロード先:
- EmbedSegのGitHubからreleaseページのリンクを辿ると「monuseg-2018.zip」のリンクがある。
中身を見ると、train 30枚、test 14枚のHE画像(tif)とそれに対応したインスタンスラベル画像(tif)が得られる。 - Grand Challengeというサイトからも取得可能。こちらはインスタンスラベルデータがxmlファイル。 https://monuseg.grand-challenge.org/Data/
【 MoNuSAC 】
- MoNuSegのCell instance segmentaionに加えて、細胞分類まで行うチャレンジで用意されたdataset
- TCGAのHE画像
- ダウンロード先: https://monusac-2020.grand-challenge.org/Data/
明視野画像(svsとtif)とインスタンスラベル情報(xml)がダウンロードできた。
【 CoNSeP 】
- Colorectal adenocarcinomaのHE画像
- 40倍対物レンズ
- 1000*1000 pxのタイル画像
HoVer-NetのGitHubページのリンクからアクセスすると、Warwick大学のサインインページに飛んでダウンロードできない。
【 CPM15 / CPM17 】
- TCGAのHE画像
- 細胞マスクと細胞膜マスクを予測するモデルの論文で使われたdataset。
論文 2019: https://www.frontiersin.org/journals/bioengineering-and-biotechnology/articles/10.3389/fbioe.2019.00053/full - ダウンロード先: https://drive.google.com/drive/folders/1l55cv3DuY-f7-JotDN7N5nbNnjbLWchK
HoVer-Netの1st AuthorがGoogle driveで共有している。 - CPM15は画像サイズが不均一、CPM17は500*500px
- ラベルはmatlabファイル
【 EmbedSeg datasets 】
EmbedSegというセグメンテーションモデルのGitHubに、使用したdatasetの配布ページがある。明視野画像/蛍光画像とそれに対応したインスタンスラベル画像が配布されている。
2D明視野画像や2D蛍光画像のみならず、3D画像や線虫の画像なども含む。
【 NuCLS (Nucleus Classification, Localization and Segmentation) 】
- ホームページ: https://sites.google.com/view/nucls/home?authuser=0
- TCGAのHE画像
小さい領域のパッチ画像。 - DatasetのホームページのSingle-rater、Multi-raterからダウンロード可能。Singleは1名のアノテーター、Multiは32名のアノテーター。Multiはアノテーターごとのデータもあったりと冗長。
- 細胞核のセグメンテーションマスクと細胞分類ラベル
ホームページ Data Formatページ
細胞核のマスクはバウンディングボックスのものとセグメンテーションのものがある。
https://sites.google.com/view/nucls/multi-rater?authuser=0
schemaを見る感じでの想像だが、以下のことをやっていそう。
- 古典的な方法で核セグメンテーション
- 低解像度の広視野画像で腫瘍領域や間質領域などをアノテーション
- 細胞核が属する領域を細胞核のラベルとして採用 ➔ これがNoisy Bootstrap??
- 3.のデータを訓練データとしてMaskRCNNモデルを作る
- モデルの予測結果をアノテーターがチェック。間違っているとセグメンテーションではなく、バウンディングボックスで修正??
【 LyNSec 】
- びまん性大細胞型リンパ腫のHE、IHC画像
本文より「LyNSeC (lymphoma nuclear segmentation and classification) containing 73,931 annotated cell nuclei from H&E and 87,316 from IHC slides」 - 細胞のインスタンスラベルと、細胞種のラベルがある。
- 40x 対物レンズ
- 512*512 pxのタイル
- HoLy-Netというモデルの原著内で使われているDatasets。モデルはHoVerNetがベースでdropoutを追加したぐらい??
原著 (Computers in Biology and Medicine, 2024): https://www.sciencedirect.com/science/article/pii/S0010482524000623 - ダウンロード先
Zenodo: https://zenodo.org/records/8065174
【 CryoNuSeg 】
- TCGAのHE画像
- 凍結切片を対象にした??
- GitHub: https://github.com/masih4/CryoNuSeg
(Weighted mapは細胞がくっついているところの境界線みたい) - 原著(Computers in Biology and Medicine, 2021): https://www.sciencedirect.com/science/article/pii/S0010482521001438
- ダウンロード先
Kaggle: https://www.kaggle.com/datasets/ipateam/segmentation-of-nuclei-in-cryosectioned-he-images
明視野画像、マスク画像以外にもDistance mapなどもdepositされている。
【 NuInsSeg 】
- HE画像
- 上記CryotNuSegと同じチーム
- GitHub: https://github.com/masih4/NuInsSeg
GitHubより - 原著(Scientific Data, 2024): https://www.nature.com/articles/s41597-024-03117-2
- ダウンロード先:
Zenodo: https://zenodo.org/records/10518968
Kaggle: https://www.kaggle.com/datasets/ipateam/nuinsseg
【 CoNIC 】
- CoNIC: Colon Nuclei Identification and Counting Challenge
- 大腸のHE画像
- Grand challengeのデータセット https://conic-challenge.grand-challenge.org/
アカウント作ったら見れるかも。 - arXiv: https://arxiv.org/abs/2303.06274
【 HAPPY dataset 】
原著(Nature Communications, 2024): https://www.nature.com/articles/s41467-024-46986-2
GitHub: https://github.com/Nellaker-group/happy
-
核検出、細胞分類、組織分類の一連のモデル・ワークフローを提供
-
核検出:
RetinaNetモデルを使用。 -
細胞分類:
検出された1つの細胞核を含む200*200 pxの画像をResNet-50で分類 -
使用したdatasetの提供有り。GitHub内のリンクからGoogleドライブへ飛べる。
https://drive.google.com/drive/folders/1RvSQOxsWyUHf_SGV1Jzqa_Gc5QI4wQoy
この内の「datasets」フォルダに核検出用に使用した画像(1600*1200 px)と細胞分類に用いた画像(200*200 px)がある。
核検出の正解は「annotations/nuclei」フォルダのcsvファイルが各インスタンスのbounding box座標っぽい。
↓↓ 蛍光の病理画像 ↓↓
【 TissueNet 】
-
蛍光染色の病理画像
-
Cell segmentation modelのMesmerの訓練使用されている。
原著(Nature Biotechnology, 2022): https://www.nature.com/articles/s41587-021-01094-0 -
ダウンロード先
本文中のData availabilityのリンクに飛ぶとDeepCellのページへ繋がる。https://datasets.deepcell.org/
アカウントを作ってログインするとダウンロード可能。
ログイン後の画面 -
Datasetの中身:
train/test/valの3つのnpzファイルがダウンロードされる。512*512 pxサイズの2 ch画像。ラベルはインスタンスラベル画像(細胞核のラベル画像と細胞のラベル画像で2 chある)。
import numpy as np
data = np.load("tissuenet_v1.1_train.npz", allow_pickle=True)
X = data["X"] # 顕微鏡画像
y = data["y"] # インスタンスラベル画像
meta = data["meta"] # ファイル名などの情報
- PythonのDeepCellライブラリを使っても訓練用/検証用データが用意できるみたい。 https://deepcell.readthedocs.io/en/master/data-gallery/tissuenet.html
【 Cross-platform dataset of multiplex fluorescent cellular object image annotations 】
- マルチプレックス蛍光画像の大規模なDataset
原著 Fig.1 - 原著(Scientific Data, 2023): https://www.nature.com/articles/s41597-023-02108-z
- 細胞核レベルのマスクがあるものと細胞レベルのマスクがあるものがあるとのこと。
- ダウンロード先
Synapse: https://www.synapse.org/Synapse:syn27624812/files/
まずはアカウントを作るところから必要。
Synapse API: https://help.synapse.org/docs/Installing-Synapse-API-Clients.1985249668.html
↓↓ 培養細胞の蛍光顕微鏡画像 ↓↓
【 DynamicNuclearNet 】
-
培養細胞の蛍光顕微鏡画像
-
このDatasetを使った原著: https://www.biorxiv.org/content/10.1101/803205v4.full
Cell segmentationとlive cell imagingの論文 -
ダウンロード先
DeepCellで提供されている。https://datasets.deepcell.org/data -
Datasetの中身:
train/test/valの3つのnpzファイルがダウンロードされる。512*512 pxサイズの16bitグレースケール画像。ラベルはインスタンスラベル画像。
trainデータは4950枚あった。
import numpy as np
data = np.load("train.npz", allow_pickle=True)
X = data["X"] # 顕微鏡画像
y = data["y"] # インスタンスラベル画像
meta = data["meta"] # ファイル名などの情報
- PythonのDeepCellライブラリを使っても訓練用/検証用データが用意できるみたい。 https://deepcell.readthedocs.io/en/master/data-gallery/dynamicnuclearnet.html
【 CellPose 】
- CellPoseモデルの訓練に使用されたdataset。
- ダウンロード先: https://www.cellpose.org/dataset
利用規約に同意するとダウンロードできる。 - 培養細胞の蛍光顕微鏡画像が主だが、電顕画像など多様な画像がある。それに対応するインスタンスラベル画像もある。
- 画像サイズはバラバラだが大体512 px辺程度。
【 Cell Image Library 】
-
顕微鏡画像のdata portal。ラベル付き画像用ではないが、多種多様な画像がある。
https://www.cellimagelibrary.org/home -
Project: P2043の培養神経細胞の蛍光顕微鏡画像はラベル画像も用意されている。https://www.cellimagelibrary.org/images/CCDB_6843
【 HPA Cell Image Segmentation Dataset 】
-
培養細胞の蛍光顕微鏡画像。核、微小管、小胞体(+ target protein)のきれいな画像。
-
ダウンロード先:
Zenodoにdepositあり。https://zenodo.org/records/4665863
その中でDPU-Netのモデルもある。核のみのSegmentationモデルと細胞単位のSegmentationモデルがある。
Kaggleコンペでも同じDatasetが使われているっぽい。https://www.kaggle.com/c/hpa-single-cell-image-classification/data?select=train
-
このモデルとDatasetを使ったセグメンテーションパッケージがある。
HPA-Cell-Segmentation: https://github.com/CellProfiling/HPA-Cell-Segmentation
紹介: https://qiita.com/Hiroaki-K4/items/298797f1621070664c25
↓↓ その他 ↓↓
以下は正解ラベルとしてはCell segmentationのラベルデータは無いが、訓練/検証に使用できるかもというdataset。
【 Kather100K dataset 】
- human colorectal cancer and healthy tissue
- 10万枚のHE画像
- 正解ラベル:
Adipose (ADI), background (BACK), debris (DEB), lymphocytes (LYM), mucus (MUC), smooth muscle (MUS), normal colon mucosa (NORM), cancer-associated stroma (STR), colorectal adenocarcinoma epithelium (TUM) - ダウンロード先: https://zenodo.org/records/1214456
【 PatchCamelyon (PCam) 】
- リンパ節のHE画像
- 96*96 pxのタイル
- 327680枚
- 正解ラベルは転移有り無しのバイナリラベル
- ダウンロード先: GitHubにGoogle driveリンクと展開コードの記載あり
https://github.com/basveeling/pcam/?tab=readme-ov-file#download
【 Breast Cancer Semantic Segmentation (BCSS) 】
- Grand Challengeのdataset。がん領域のSemantic segmentationタスク
- TCGAのHE画像
- ダウンロード先: https://github.com/PathologyDataScience/BCSS
GitHubページにGoogle driveのリンクがある。
【 BCCD 】
- 血液塗抹標本
- 白血球、赤血球、血小板の正解ラベル付きのバウンディングボックス
- GitHub: https://github.com/Shenggan/BCCD_Dataset
- ダウンロード先:
GitHubページ内のdownloadリンク。
【 Kaggle Datasets 】
Blood Cells Image Dataset
https://www.kaggle.com/datasets/unclesamulus/blood-cells-image-dataset
血液塗抹標本の細胞分類に使えそう。
Blood Cells Cancer (ALL) dataset
https://www.kaggle.com/datasets/mohammadamireshraghi/blood-cell-cancer-all-4class
血液塗抹標本から悪性リンパ腫細胞を見つける。
Blood Cell Segmentation Dataset
- Segmentation maskあり。
- 個々の細胞のマスクが分離しているのでインスタンスラベルへ簡単に変換可能
https://www.kaggle.com/datasets/jeetblahiri/bccd-dataset-with-mask
Discussion