🤖

CWLCon 2024 Session 2(日本語)

2024/05/10に公開

Session 2 Schedule (UTC Time) APAC-Americas Friendly time

English is here

Session 2 (Online only)
Thursday 9 May / Friday 10 May
APAC-Americas Friendly time

Session 2 Schedule - CWLCon 2024

全体的にクラウドや分散環境での扱いの話が多くおもしろかった。
また、エディタの話など、開発環境も充実してきており、開発もしやすくなっているようにみえる。

特に、
CWLのCommandLineTool部分のみ、またはあるまとまった単位のWorkflowを書き、それを実行部分として使用、
分散したり、まとめたり、エラーのリトライ部分は独自実装という発表がいくつかあったように感じた。
それらはどれも、複数環境に投げる前提でできているようだ。

分散した複数環境に投げるものについては、すでに投げたい環境からAPIの提供があるものが多いように見えた。
そのため、抽象的な部分を書いてしまって、あとは環境ごとに、アダプタ的な物を書いて、それで制御しているようだ。toilもそんなかんじ。

タスクの粒度は、

  • サンプル毎
    • 1ファイル1計算ノード(インスタンス)で実行が完結
  • ハードウェア毎
    • FPGA, GPUなどで投げ先を変える。
  • ジョブキューシステム毎
    • slurmとk8sとに投げ分ける

JSON-Schemas for validating your CWL Code and CWL Code inputs

JSON-Schemas for validating your CWL Code and CWL Code inputs - CWLCon 2024 - Common Workflow Language Discourse

CWLの開発環境の話と理解した。
JSON-LDでの定義を利用して、CWLの開発時に強力なツールになりそう。

実は以前のAPAC EMEAミーティングで色々教えてもらっており、メモが少なくすみません。。

こんなはなしもきけるので、ぜひ、地域ごとのミーティングなどに時間が合えば参加していただけたら
Community | Common Workflow Language (CWL)

NGS360 - A NGS Data Management and Analysis Platform

NGS360 - A NGS Data Management and Analysis Platform - CWLCon 2024 - Common Workflow Language Discourse

タスク実行部分にCWLのCommandLineToolを使っている。
サンプルの投入、エラー処理、などオーケストレーションを、PAMLという実装を開発しているとのこと。

NGS360/PAML: Multi-Platform Launcher Framework

現状では、以下に対応しているとのこと。

  • arvados
  • sevenbridge

CWL @ ICA (Illumina Connected Analytics)

CWL @ ICA (Illumina Connected Analytics) - CWLCon 2024 - Common Workflow Language Discourse

Illumina Connected Analyticsの話。

個人的にtemporaryFailureを、SpotInstanceが落ちたときの処理に使うというのが面白かった。

書き方含めて非常に面白かった。
内部実装に非常に興味が湧いている。

CWL-Enabled Reusable and Reproducible Genomic Data Management and Analysis in R

CWL-Enabled Reusable and Reproducible Genomic Data Management and Analysis in R - CWLCon 2024 - Common Workflow Language Discourse

Rを使うときの話。
個人的に興味部部かかったのは、rworkflow/RcwlCloudの話。
RからCWLを投げるというときに、投げ先にCloudも使えるとのこと。

Backend

  • Anvil
  • CAVATICA
  • CANCERGENOMICS Cloud

Working Environment

Interactive Apps

  • Rstudio
  • Jupyter

Workflow

  • CWL
  • WDL

Performance Evaluation of GPU-intensive Genome Analysis Workflows in HPC and Cloud

Performance Evaluation of GPU-intensive Genome Analysis Workflows in HPC and Cloud - CWLCon 2024 - Common Workflow Language Discourse

CWLを使って解析パイプラインのベンチマーク。
GPU使っている。
シングルノードで実行。

GPUのスケジューリングとかどうするのか?みたいな話が今後の課題になりそうなディスカッションであったようにおもう。

この発表は自分も絡んでおり、個人的にはリソースの使用状況の把握部分をお手伝いさせていただき、やはりリソースの使用状況の把握は大事なんだなと実感した。

Extending CWL for High-Performance Computing: A Visual Workflow System with HPC Enhancements

Extending CWL for High-Performance Computing: A Visual Workflow System with HPC Enhancements - CWLCon 2024 - Common Workflow Language Discourse

スーパーコンピュータセンターでの運用の話、とくに可視化をしていた。
ジョブの投げ先は、スーパーコンピュータ上にすでにある以下の環境に、こ提供されているAPIを用いて投げているとのこと。

  • slurm
  • k8s

Goで開発されているようで興味深い

zetako/cwl.go: CWL Parser and Runner.

TODO

入力ファイルのバリデーションについて、やり方をAlexisにきいたとおもうので、再度聞きたい。

Discussion