📚

MICINにおけるデータ基盤の取り組み

2023/12/10に公開

この記事は MICIN Advent Calendar 2023 の 10 日目の記事です。
昨日はGoのanalysisパッケージを使った静的解析を実装するでした。

はじめに

2023年、MICINでは本格的にデータ基盤を整備する取り組みを始めることができました。
本稿では、ここまでの経緯やこれからの展望などをご紹介できればと思います。

データ基盤プロジェクト以前

本題に入る前に、少しだけMICINの事業についておさらいです。
会社説明資料 にあるように、

  • オンライン医療事業
  • 臨床開発デジタルソリューション事業
  • デジタルセラピューティクス事業(DTx事業)
  • 保険事業

の大きく分けて4つの事業があります。

ご想像の通り各事業・各サービスで持っているデータは事業に特化したものとなっており、それぞれに一定のデータ分析などを行ってはいるものの課題が多い状況でした。

データ基盤プロジェクトの始動

MICINにおけるデータ基盤整備のプロジェクトは、2022年の12月にキックオフをし、翌1月から本格的に始動しました。実はまだまだ始まったばかりの取り組みです。
座組としても、データエンジニアの私と、データプロダクトマネージャーが1名という非常にコンパクトな体制でやっています。
全社のデータを利活用するためのデータ基盤を目指した活動ではありますが、千里の道も一歩から。
まずはデータ利活用について一番課題が多く、また事業としても直近でデータマネジメントが必要になることがわかっていたDTx事業のデータを整理することから始めることにしました。

MICINでモダンデータスタックをやっていく

データを整備し、データが価値を生み出す仕組みをつくっていこうとしたときに、DMBOK をはじめとした様々な先人の知恵を取り入れていくことになります。
MICINでも、医療分野の事業というところで要配慮個人情報等の取扱に頭を悩ませながらも、できるかぎりモダンデータスタックのプラクティスに乗っかることができるように進めました。

大まかにいえば、ELTサービスとしてFivetranを、DWHの基盤としてBigQueryを、ETLツールとしてdbtを採用した非常にオーソドックスな形の基盤を目指しています。
これらの技術選定の詳細については、横道にそれすぎるのと、内々の事情も多く絡むこともあり、本稿では省略させてください。もしかしたら、今後お話する機会があるかもしれません。

デジタルセラピューティクス事業におけるデータ基盤の成果

約1年間この取り組みを続けてきたこの活動を通して、DTx事業の既存及び今年追加されたプロダクトについて、本データ基盤上にデータを連携しました。

これまではS3やGoogle Drive(Google Sheet)だけでなく、ローカルのExcelなどにも散在していたデータや独立して存在していたGoogle Analyticsのデータなどを探し回ったり、各所に依頼して抽出してもらったり、また手作業で突合したりすることが必要でしたが、データ基盤をみるだけで一覧できるようになりました。
これは、データ分析を行っていたビジネス側のメンバーから非常に好評をいただけています(ありがとうございます)

データ基盤にデータを集約することは管理上もメリットがあり、特にバックアップ周りやアクセス権などの管理は見通しがよくなりました。

また、データ変換を全てdbtで管理することにより、どのようなデータ加工を行っているかもgitを使ってコードベースで管理できるようになっています。
これも、データ基盤をすでにやっている皆様からすれば当たり前のことでもあるのですが、MICINにとっては無視できない一歩です。
このコードベースがあれば、新規のプロダクトをデータ基盤に組み込むといったときには(ないときに比べれば)格段にやりやすくなっているというのもあります。

副次的な成果

これはデータ基盤の本筋の成果とはちょっと違うのですが、データ基盤の取り組みを行っていくにあたり、当然プロダクトのエンジニアからデータベースの状況についてヒアリングすることになります。
そのような場でプロダクトのエンジニアとデータベースについて意見交換や議論をするきっかけがあったおかげなのか、1年前と比べるとプロダクトのエンジニアがデータベースを見る目が少しかわったような、テーブル設計を本気でやっていこうとしているような雰囲気を感じております。
具体的な動きの1つとして、DTx部のエンジニアである まじまっちょ さん が データベースを絶対にドキュメンテーションする という記事を公開してくれています。社内向けにはもっと具体的で泥臭いConfluence記事を書いたり、DB設計指針についてのディスカッションを仕掛けてくれたりと大活躍しています。
今回のアドベントカレンダーでも、5日目に DBスキーマはtblsのViewpointsで整理しよう という記事を書いてくれています。
これはもちろん私やデータ基盤だけが起因の成果というわけではなく、彼自身の課題意識はもちろん、他のエンジニアたちの相互作用やプロダクト開発上の課題があったなどいろいろな要因がありますが、私たちの活動もこのような動きの一因ではあるのかなと思っています。

ML基盤の取り組み

データを集約し、透過的に利用できることによって、データサイエンスや機械学習の分野での利活用もより活発になってきており、

  • データのビジネスへの貢献速度の向上
  • 医療特有のデータ/システムへの要求
  • 管理の省力化

などを狙って、ML Opsを組織的に行おうという動きがでてきました。
データソリューション部にはインターン生なども受け入れており、統制を効かせつつも効率的にデータ分析をする仕組みへの要求が強かったという事情もあります。

ここでは詳細には踏み込みませんが、分析プロジェクトごとに独立した Vertex AI Workbench の環境をつくり、適切なデータを分析に使えるという形で整備をしています。

今後の展望

今回は、この1年のMICINデータ基盤プロジェクトの取り組みについて、ご紹介させていただきました。
今後のやりたいことは多くあり、全社のデータを取り扱えるように推進していくのはもちろんのこと、データカタログの整備やデータ基盤そのものの運用管理、データマネジメントなどについては、もちろん最低限のことは押さえているつもりではあるものの、まだまだできることはたくさんあります。
今後MICINのデータ基盤をスケールさせ、複数事業のデータを透過的に扱うシナジーを得るために、私たちにはできること、やるべきことが山積みなのです。
非常に月並みな表現にはなりますが、まさに「やっていき」の精神で日々奮闘しています。


MICINではメンバーを大募集しています。
「とりあえず話を聞いてみたい」でも大歓迎ですので、お気軽にご応募ください!

https://recruit.micin.jp/

株式会社MICIN

Discussion