CWLCon 2024 Session 2(日本語)
Session 2 Schedule (UTC Time) APAC-Americas Friendly time
Session 2 (Online only)
Thursday 9 May / Friday 10 May
APAC-Americas Friendly time
Session 2 Schedule - CWLCon 2024
全体的にクラウドや分散環境での扱いの話が多くおもしろかった。
また、エディタの話など、開発環境も充実してきており、開発もしやすくなっているようにみえる。
特に、
CWLのCommandLineTool部分のみ、またはあるまとまった単位のWorkflowを書き、それを実行部分として使用、
分散したり、まとめたり、エラーのリトライ部分は独自実装という発表がいくつかあったように感じた。
それらはどれも、複数環境に投げる前提でできているようだ。
分散した複数環境に投げるものについては、すでに投げたい環境からAPIの提供があるものが多いように見えた。
そのため、抽象的な部分を書いてしまって、あとは環境ごとに、アダプタ的な物を書いて、それで制御しているようだ。toilもそんなかんじ。
タスクの粒度は、
- サンプル毎
- 1ファイル1計算ノード(インスタンス)で実行が完結
- ハードウェア毎
- FPGA, GPUなどで投げ先を変える。
- ジョブキューシステム毎
- slurmとk8sとに投げ分ける
JSON-Schemas for validating your CWL Code and CWL Code inputs
CWLの開発環境の話と理解した。
JSON-LDでの定義を利用して、CWLの開発時に強力なツールになりそう。
実は以前のAPAC EMEAミーティングで色々教えてもらっており、メモが少なくすみません。。
こんなはなしもきけるので、ぜひ、地域ごとのミーティングなどに時間が合えば参加していただけたら
Community | Common Workflow Language (CWL)
NGS360 - A NGS Data Management and Analysis Platform
タスク実行部分にCWLのCommandLineToolを使っている。
サンプルの投入、エラー処理、などオーケストレーションを、PAMLという実装を開発しているとのこと。
NGS360/PAML: Multi-Platform Launcher Framework
現状では、以下に対応しているとのこと。
- arvados
- sevenbridge
CWL @ ICA (Illumina Connected Analytics)
CWL @ ICA (Illumina Connected Analytics) - CWLCon 2024 - Common Workflow Language Discourse
Illumina Connected Analyticsの話。
個人的にtemporaryFailureを、SpotInstanceが落ちたときの処理に使うというのが面白かった。
書き方含めて非常に面白かった。
内部実装に非常に興味が湧いている。
CWL-Enabled Reusable and Reproducible Genomic Data Management and Analysis in R
Rを使うときの話。
個人的に興味部部かかったのは、rworkflow/RcwlCloudの話。
RからCWLを投げるというときに、投げ先にCloudも使えるとのこと。
Backend
- Anvil
- CAVATICA
- CANCERGENOMICS Cloud
Working Environment
Interactive Apps
- Rstudio
- Jupyter
Workflow
- CWL
- WDL
Performance Evaluation of GPU-intensive Genome Analysis Workflows in HPC and Cloud
CWLを使って解析パイプラインのベンチマーク。
GPU使っている。
シングルノードで実行。
GPUのスケジューリングとかどうするのか?みたいな話が今後の課題になりそうなディスカッションであったようにおもう。
この発表は自分も絡んでおり、個人的にはリソースの使用状況の把握部分をお手伝いさせていただき、やはりリソースの使用状況の把握は大事なんだなと実感した。
Extending CWL for High-Performance Computing: A Visual Workflow System with HPC Enhancements
スーパーコンピュータセンターでの運用の話、とくに可視化をしていた。
ジョブの投げ先は、スーパーコンピュータ上にすでにある以下の環境に、こ提供されているAPIを用いて投げているとのこと。
- slurm
- k8s
Goで開発されているようで興味深い
zetako/cwl.go: CWL Parser and Runner.
TODO
入力ファイルのバリデーションについて、やり方をAlexisにきいたとおもうので、再度聞きたい。
Discussion