❄️

第1回 Snowflakeヘルスケアユーザーグループ会を開催しました!

2024/11/03に公開

クリニックフォアグループの是枝です。

この度第一回のSnowflakeのヘルスケアユーザーグループを開催したので、その開催レポートを書いておこうと思います。

https://techplay.jp/event/959622

概要

中外製薬様には「データドリブン創薬加速を目指したデータ統合・解析基盤」「PyZAP ~研究所まるごとDXへの挑戦~」というテーマにて製薬業界におけるデータ分析基盤の運用についてSnowflakeを活用した事例をにご講演いただきました。またクリニックフォアでは「大規模で多様なバイオデータ管理・解析のためのSnowflake データウェアハウス」というテーマで話しました。その後、オフラインメンバーでヘルスケア業界業界のデータに係るディスカッションを行いました。

スケジュール

14:00〜 受付開始
14:30〜14:35 オープニング
14:35〜14:40 運営スポンサーセッション:日本ベクトンディッキンソン株式会社 新原光貴
14:40〜15:05 クリニックフォア 是枝達也「大規模で多様なバイオデータ管理・解析のためのSnowflake データウェアハウス」
15:05〜15:10 Q&A
15:10〜15:30 中外製薬 武藤裕紀「データドリブン創薬加速を目指したデータ統合・解析基盤」
15:30〜15:50 中外製薬 角崎太郎「PyZAP ~研究所まるごとDXへの挑戦~」
15:50〜16:00 Q&A
16:00~ 16:10 休憩(オンラインの人はここまで)
16:10〜16:40 グループワーク(3~4人で一組)
お題に沿ってディスカッション
16:40~17:00 発表
17:00〜18:00 ネットワーキング

会場

Snowflake東京オフィス
〒104-0028 東京都中央区八重洲2丁目2−1八重洲セントラルタワー30F

開催日時

2024/11/01(金) 14:00〜18:00

セクション振り返り

ここからは各セクションの振り返りをしていきます。

オープニング

ヘルスケアユーザーグループを立ち上げた目的として2つを掲げました。

  1. Snowflakeの可能性を活かし、ヘルスケア・ライフサイエンス業界の課題解決に貢献
  2. データ分析基盤の役割を議論できる場を提供

この場を通じて、データ分析基盤の役割について議論し、Snowflakeの多様なユースケースを共有することで、新しい分野の融合や共同研究・開発によるシナジーを創出することを目指しています。

運営スポンサーセッション:日本ベクトンディッキンソン株式会社 新原光貴

運営にご協力をしていただきました日本ベクトンディッキンソン株式会社の新原さんに事業内容を紹介していただきました。
業界のユーザーグループならではの取り組みだと思っていて、同じ業界で集まっているからこそ、事業内容を紹介する価値があるなと感じました。

運営スポンサーセッションのみならず、さまざまなスポンサーをしていただいた方にセッションを設けていく取り組みは継続したいと思います。

クリニックフォア 是枝達也「大規模で多様なバイオデータ管理・解析のためのSnowflake データウェアハウス」

Snowflakeを活用した全ゲノムシーケンスデータ, RNA-seqデータを用いたデータサイエンスやSnowpark Container Service環境でのシングルセルRNA-seq解析、Snowflake NotebooksとStreamlit in Snowflakeを活用したIn Silico創薬の事例を発表しました。


私はメインのデータとしてライフサイエンス系のオミクス情報データ管理を話しました。

以前、TogoTVで動画解説をした内容なので、私の登壇深堀りは割愛します。こちらでゆっくりデモ付きで話しています。
https://togotv.dbcls.jp/en/20240712.html

登壇資料はこちらにアップロードしてあります。
https://speakerdeck.com/ktatsuya/da-gui-mo-deduo-yang-na-baiodetaguan-li-jie-xi-notamenosnowflake-detaueahausu

登壇内容は論文化をしてあり、こちらに詳細をまとめています。
https://www.jstage.jst.go.jp/article/jsbibr/5/2/5_jsbibr.2024.primer2/_html/-char/ja

中外製薬 武藤裕紀「データドリブン創薬加速を目指したデータ統合・解析基盤」

中外製薬の武藤さんに、データドリブン創薬加速を目指したデータ統合・解析基盤というテーマでご講演いただきました。


データ利活用に関する課題はヘルスケア業界のみならず、どの業界でも似たような課題感にあたってくるなと思いました。


中外さんのデータ統合基盤の全体像です。分子登録やオミクスデータなどライフサイエンス利用特有のワードが並びます。それにしてもバイオデータをきれいに階層分けされててとても参考になります。


S3やsnowflakeを中心としたデータ解析イメージ。データサイエンティストの様々なツール需要に満たすために解析データを一元化されています。


データ基盤への期待をまとめた図。基盤運用者がアンケートをとってどのようにデータ基盤を運用してほしいかの声を集めているそうです。この営みはどの業界でも参考になりそうですね。


個人的にこのスライドで、パブリックデータベースをこの数連携させているのはすごいと思いました。バイオインフォマティクスをしているとわかるのですが、パブリックDBを使う機会がとても多く、それぞれのデータ構造を把握するのが大変な作業だったりします。それらを基盤運用者側がすでに集約してくれているのは現場の人間はとても助かるのではないでしょうか?


Take Home Message!
武藤さんとは懇親会でも話しましたが、各社非競争領域ではデータコラボレーションをより加速させていくべきだというビジョンにとても共感しました。

中外製薬 角崎太郎「PyZAP ~研究所まるごとDXへの挑戦~」


中外製薬の角崎さんに、PyZAP ~研究所まるごとDXへの挑戦~というテーマでご講演いただきました。


WET(実験室研究者)の方でもプログラミングができるように教育するプログラム(DRY研究)のようです。WETとDRYを両方できる研究員の育成で創薬研究を加速させています。


創薬には高い専門性が求められ、複数分野の知見がないと行けない難しい分野。専門性×多様性×協働を推進。


データ整形×可視化に最初取り組むべきという集中の仕方は見習いたいと思いました。おっしゃるとおり一番そこがバリューが出やすい領域だと思ってます。


Pythonに全集中する潔さは素晴らしいと思いました。実際問題Pythonができれば、ほとんどの解析スキルにおいて事足ります。Snowflakeの標準サポート言語でもあり相性も良きです。


wet研究者がStreamlitでアプリを作ってDXを起こしている様子。素晴らしい以外の言葉が出ないですね。ここまでDX教育で成果を出されているのはすごいと思いました。


PyZAPでは脱落者を極力少なくすることを目指しているようです。習得率は90%を超えるそうです。すごい!


数々の成果を出しています。


数字に現れない成果で、「仮説検証を時前でやれる様になった」「ITリテラシーの向上」を挙げられています。確かにプログラミングをやると当たり前の知識が、やってない人と比べて習得が遅れていますよね。プログラミングを学ぶ副次的な効果だなと感じました。


まとめ


角崎さんがSnowflakeで気になる機能。Snowflake Notebooks上でPyZAPをやれるともっとデータドリブンな創薬が加速しそう。

グループワーク(3~4人で一組)


オフラインの方々でグループワークに取り組みました。

グループワークの目的として各企業が情報を交換し合い、お互いに学びを得ることを目指しました。各社の抱える課題や、他社の取り組み状況について話し合い、互いに有益な意見交換を行ってもらうことが狙いです。

いくつかのお題を提示して、各お題に沿ってディスカッションを進め、グループで意見をまとめてもらいました。話し合いの内容を共有するため、グループ内で代表者を1名選び、発表をしてもらいました。当日の発表であった興味深い議論をまとめてみました。


データ利活用における法的チェックとコンプライアンスの課題

ヘルスケア業界におけるデータ利活用には、法的なチェックが頻繁に必要となるという課題があります。特に毒性データや違法薬物認定に関わるデータでは、扱う情報がセンシティブであり、管理に高い精度が求められます。例えば、ある化合物が先月まで合法だったものが突然違法と認定されることがあり、警察庁などの外部機関からの情報によって、急に研究や製造のプロセスを変更せざるを得ないケースも発生します。このため、データマネジメントチームが法務部門と緊密に連携する必要があり、法的変更への迅速な対応が求められています。こうしたクロスファンクショナルなチーム体制を整備し、データ利用と法的規制の間に橋渡しをする役割が重要視されています。


組織的なマインドセットとアジリティの向上によるデータマネジメントの課題

データマネジメントにおける課題の一つとして、利活用を進めるための組織的なマインドセットの調整が必要だとされています。先進的なデータ活用が重要であると認識しつつも、心理的なハードルが高く、企業として「ファーストペンギン(先駆者)」としてチャレンジする姿勢を持ちにくい状況があります。アジリティを高く保ちながら迅速に意思決定を行うことで、挑戦しやすい文化や土壌を作る必要性が指摘されています。また、データはあくまで意思決定の補助ツールであるという考え方が根付いているため、組織全体としてデータの位置づけを再確認し、データを基にした戦略的な意思決定ができるようにする必要があります。


データの整形と可視化による意思決定支援

データを用いた意思決定支援の方法として、まずデータの整形と可視化にしっかり取り組むべきであるという結論が出ました。特に、データの「見える化」を通じて意思決定に必要な情報が直感的に理解できるようにすることが重要視しています。加えて、データストラテジーを策定し、企業の目指す方向性とデータ活用の目的を一致させることが不可欠です。例えば、「会社としてデータを使ってこうしたい」というビジョンを明確にし、現場の実務や経営層の理解を促進することで、組織全体の意思決定が円滑に進む環境を構築します。経営層や現場がデータ活用の意義を理解しないと、いずれかの段階でボトルネックが生じ、スムーズなデータ活用が阻害される恐れがあるため、全体の認識を統一することが不可欠です。

写真撮影

オフラインメンバーで写真撮影!
皆でSnowflakeのSマークを作りました。このあたり、KTさんのパッション、運営スタイルを経験しとかないとなかなか率先してできないと思うので、結構度胸がついているなと実感しました笑

総括

私はWESTという関西Snowflakeユーザーグループのリーダーもやっているのですが、業界特有のSnowflakeユーザーグループは地域ごとのユーザーグループと比較して、それぞれの企業が抱えるデータ基盤の課題をより解像度高く理解できるところが良いなと思いました。例えば、ヘルスケア業界では、VCFやFASTQやFASTAといった遺伝子・ゲノムデータ、PDB (.pdb)、SMILES (.smi, .smiles)、MOL (.mol)、SDF (.sdf)といったタンパク質・化合物構造データ、HL7 (.hl7)やFHIR (.json, .xml)などの 電子カルテ・臨床データ、BAM (.bam)やSAM (.sam)やCRAM (.cram)やHDF5 (.h5, .hdf5):などシーケンシングに関わるバイナリ形式ファイルデータなどのファイルフォーマットを扱うことが多いですが、それぞれのデータ構造を理解しているからこそ出てくる悩みも共有されており、インダストリーカットなグループの魅力だなと感じました。

終わりに

私自身、このSnowflakeヘルスケアユーザー会を長い間ずっと開催したいと考えており、やっとの思いで開催することができました。今後も、会社の垣根を超えて日本のヘルスケア業界におけるデータ利活用について議論できる場を提供していきたいと考えておりますので、会を積極的に盛り上げていただけますと幸いです。

special thanks!

Snowflakeヘルスケアグループのコンセプト整理、グループ運営を手伝っていただきました中外製薬 武藤さんと小野薬品工業 渡邊さんほんとありがとうございました。遅い時間に話し合いに応じていただきとても助かりました。またSnowflake 社員の皆様いつもご協力ありがとうございました。

GitHubで編集を提案

Discussion