re:Invent 2024: NateraとAWS HealthOmicsによるがん診断革新
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
📖 AWS re:Invent 2024 - Scale clinical diagnostic operations: Natera's genomic innovation (HLS206)
この動画では、AWS HealthOmicsのPrincipal Product ManagerのMargo McDowallとNateraのVP of Software EngineeringのMirko Buholzerが、がん診断における最新の技術と取り組みについて解説しています。Signateraテストによって従来のCTスキャンよりも9ヶ月早くがんを発見できた患者の体験談から始まり、AWS HealthOmicsの機能と活用事例を詳しく紹介しています。特にNateraの事例では、週54,000件以上の検査を22のラボで処理し、1週間で約1.6ペタバイトのデータを生成する規模での運用を実現している点が印象的です。また、AWS HealthOmicsの新機能であるCall Cachingの導入や、AWS HealthImagingでのデジタルパソロジーのサポートなど、最新のアップデートについても言及されています。
※ 画像をクリックすると、動画中の該当シーンに遷移します。
re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!
本編
AWS HealthOmicsとNateraの紹介:本セッションの概要
こんにちは。AWS HealthOmicsのPrincipal Product ManagerのMargo McDowallです。本日は、NateraのVP of Software EngineeringのMirko Buholzerさんをお迎えしています。 今日は、まず患者さんのストーリーからお話を始めさせていただきます。その後、NateraがCurrently利用しているサービスの1つであるAWS HealthOmicsについて簡単にご紹介します。そして、MirkoさんからNateraがAWSサービスを活用して臨床診断業務をどのようにスケールしているかについてお話しいただきます。最後に、ヘルスケアとライフサイエンス分野のお客様にご関心いただけそうな、AWSが最近リリースした新機能や新しい機能についてご紹介させていただきます。
Signateraテストが変えた患者の人生:膀胱がん早期発見の事例
私は何度も医師の診察を受けていました。年齢的なこともあり、医師たちはマウンテンバイクの事故で大きな骨盤の外傷を負ったことから、陰部神経痛だと考えていました。ある日、かかりつけの泌尿器科医が不在で、代診の医師に診てもらった時のことです。その医師が「尿細胞診を受けたことはありますか?」と尋ねてきました。「簡単な尿検査で、尿中の異型細胞をチェックして、がんの可能性を調べることができます」と説明されたので、「ぜひお願いします」と答えました。検査結果は異型細胞陽性でした。その後すぐに、体内の腫瘍を見ることになりました。それだけのことでした。腫瘍を摘出して生検を行った結果、ステージ3の膀胱がんで、化学療法を受けることになりました。
私には素晴らしい腫瘍内科チームがいます。チームを率いる腫瘍内科医は、最先端の治療に精通していて、Signateraを見つけてくれた人です。私たちはできるだけ早くSignatera検査を始めることにしました。 Signatera検査の結果、がんの兆候が上昇していることが分かりました。約1年間、Signateraの結果が上下するのを見守っていましたが、着実に上昇していました。担当医にとってもこれは新しい経験で、「PETスカンを行う必要があると思います」と言われました。
その年の1月にPETスカンを受けたところ、新膀胱付近のリンパ系に活性が見られ、医師は「がんが再発していると思われます」と言いました。最も驚くべきことは、Signateraががんを非常に早期に発見したため、リンパ節がとても小さく、直径12ミリメートルで、がんではあるものの境界線上だったことです。医師はさらなる情報を必要としました。PETスカンの結果を受けて、CTスキャンも実施し、がんの再発が確認されました。Signateraがとても早期に発見したため、放射線科医は「本当にまだがんが残っているのですか?」と尋ねるほどでした。
Signateraのおかげで9ヶ月もの先行期間を得ることができました。従来のCTスキャンよりも9ヶ月も早くがんを発見し、寛解に導くことができたのです。本当に信じられないことでした。現在は、サーベイランスと免疫療法による維持療法を受けていて、もうすぐ終了する予定です。Signateraは長期的な視点で私を見守ってくれており、家族と一緒に安心して生活を送ることができています。もし再発したとしても、決断を下すための時間的余裕があるので、それほど心配する必要がないのです。
実は私の人生において、がんとラドンテストには多くの共通点があります。私の仕事はラドンの検査と低減対策なのですが、ラドンに対する不安も長年見てきました。これまでは短期・長期テストしかなく、家の中に2〜4日間、時には90日や1年間設置する必要がありました。しかし、それは1つの数値しか得られません。一方、このテストは設置してから最初の1時間で数十のデータポイントを取得します。私にとって、これは従来のCTスcanとNateraのテストの違いのようなものです。信頼性の高いデータを得られることは同じですが、よりミクロなレベルでより多くのデータが得られます。私としては、より多くのデータがある方が良いと思います。
Nateraの革新的な遺伝子検査技術とAWS HealthOmicsの機能
彼は依然として体に負担のかかる可能性のある免疫療法を続けていますが、Nateraのテストではがんが検出されていないことが分かり、とても嬉しく思っています。 特に家族にとって、 確実に知ることができる安心感があります。 Nateraは遺伝学と診断検査のグローバルリーダーです。彼らはがん治療、女性の健康、臓器の健康の分野で10以上の診断テストを提供しています。Nateraは設立以来、1,000万件以上の診断テストを実施し、100以上の査読付き論文を発表し、数百の特許を取得しています。Nateraは、Signateraのようなテストを開発したイノベーションのリーダーとして認められています。Signateraはその感度と有効性により、すでにBrentのような25万人以上の患者さんを支援してきました。Signateraは世界で最も急速に成長している遺伝子検査の1つとなっており、この信じられないほどの成長と他の検査ポートフォリオの成長に対応するため、Nateraは品質を損なうことなくスケールアップできるソリューションを必要としています。
これらのソリューションは、チームがイノベーションに集中できるようコラボレーションを支援し、基盤インフラではなく科学に注力できるようにする必要があります。AWSでは、ヘルスケアとライフサイエンス分野の多くのお客様とお話しています。臨床医、研究者、バイオインフォマティクスの専門家との対話を通じて、彼らが最初の分析に至るまでに、バイオインフォマティクスのインフラ構築、一般的なゲノムデータセットやデータタイプのETL管理・保守、そして反復作業に膨大な時間を費やしていることが分かりました。
そのため、私たちはAWS HealthOmicsを構築しました。これは、完全マネージド型の生物学的データストアと完全マネージド型のワークフローを備え、科学的ブレークスルーを加速するために特別に設計されたサービスです。現在、お客様はHealthOmicsを3つの主要な方法で使用しています。1つ目は、Nateraと同様の本番規模の臨床診断テストです。これらは患者の疾病スクリーニングとモニタリングを行い、治療を支援するテストです。また、現在のお客様の中には、生成AIと生物学的基盤モデルを実験して、完全なエンドツーエンドの創薬パイプラインを構築するためにHealthOmicsを使用している方々もいます。このサービスは、生物学的データで訓練された高度な生成AIモデルである生物学的基盤モデル(BioFM)をテストするために使用できます。
タンパク質構造を予測するためのタンパク質折りたたみを行うBioFM、新規の薬物様分子を生成する別のBioFM、そしてこれら2つの相互作用を調べる3つ目のBioFMを持つことができます。そして、このワークフローやパイプラインを何百回、何千回、あるいは何百万回も繰り返して、薬剤候補をスクリーニングすることができます。最後に、マルチモーダル分析にHealthOmicsを使用しているお客様もいます。ゲノミクスデータ単独でも非常に強力ですが、他のデータセットと組み合わせることでさらに強力になります。HealthOmicsは、バリアントデータを半構造化データから構造化データに変換し、他のデータモダリティと組み合わせることで、患者の健康状態をより包括的に把握することを支援します。
それでは、このサービスがどのように機能するのか詳しく見ていきましょう。私たちは意図的にサービスをモジュール式に設計しました。お客様が個々のモジュールやコンポーネントを採用し、既存のソリューションに統合して素早く始められるようにしたかったのです。サービスのすべてのコンポーネントを使用するお客様の場合、アーキテクチャは次のようになります:まず、生の配列データを取り込み、Sequence Storeに保存します。また、参照ゲノム用のReference Storeも提供しています。次に、一般的なバイオインフォマティクス言語やドメイン固有言語で定義できるバイオインフォマティクスワークフローを使用して、その配列データの解析を実行できます。
多くの解析の出力は、Variant Calling File(VCF)と呼ばれるものになります。私たちはその解決策を提供しています - 半構造化されたVCFデータを取り込み、クエリ可能な形式でVariant Storeに保存できます。また、バリアントにコンテキストを与える他のデータを取り込むことができるAnnotation Storeも提供しています。そして、Amazon AthenaやAmazon EMRなどの他のAWSサービスを使用してそのデータをクエリおよび分析し、他のデータセットと組み合わせて分析することができます。私たちがHealthOmics Sequence Storeを構築したのは、ペタバイト規模のゲノムデータの保存が課題だとお客様から聞いたからです。コスト効率よく行うのが難しく、すべてのデータセットを見つけることが困難で、権限管理も課題となっています。Sequence Storeを開発することで、お客様はペタバイト規模のデータを取り込み、すべてが発見可能で見つけやすい方法でデータをカタログ化し、被験者IDやサンプルIDなどのドメイン固有のメタデータを付加してすべてのデータを非常に整理された状態に保つことができます。Sequence Storeにデータを取り込む際には、自動化されたゲノム特有の圧縮を提供し、圧縮形式で保存することで、ストレージの最適なコストを実現します。
必要に応じてデータを再アクティブ化し、使用可能にすることができます。データの出所管理や共有・コラボレーション機能も組み込まれています。きめ細かなアクセス制御により、特定の個人に必要な特定のデータセットのみを共有する機能があります。
Sequence Storeを始めるには、FASTQ、BAM、CRAMなどの一般的なゲノムデータファイルをインポートできます。Sequence Storeへのインポートジョブを開始する際に、被験者IDやサンプルIDなどのメタデータを付加することができます。HealthOmicsはまた、Sequence Store内の各オブジェクトを一意に識別できるユニークなeTagを作成します。Sequence StoreはHealthOmicsまたはAWS S3 APIを使用してアプリケーションに統合でき、ゲノムブラウザやSAM ToolsやBoto3を使用するカスタムツールを利用することができます。
Sequence StoreはHealthOmics Workflowsと連携して解析を行えるように統合されています。私たちがHealthOmics Workflowsを構築したのは、最初の解析に到達するまでに多くの作業が必要だとお客様から聞いたからです。EC2インスタンスを管理し、ファイルシステムを起動し、場合によってはサイズを変更する必要があります。ワークフローエンジン自体も定期的にアップグレードし、パッチを適用し、メンテナンスする必要があります。組織が複数のバイオインフォマティクス言語を使用している場合、複数のエンジンを維持する必要があります。基盤となるインフラストラクチャを維持するだけでも、かなりの時間、リソース、メンテナンスが必要になります。
私たちは、お客様が1回のAPIコールでワークフローを実行できるように、HealthOmicsワークフローを構築しました。分析を設定して実行を開始するだけで、HealthOmicsが要求された量のvCPU、GPU、メモリに応じて、必要なインフラを自動的にプロビジョニングします。スケールアップが必要な場合は、単に実行開始のコールを増やすだけで、HealthOmicsサービスがバックエンド側で自動的にスケーリングを処理します。これにより、お客様はサンプルごとの予測可能な従量課金制を利用でき、不要な時に永続的なクラスターのコストを支払う必要がありません。
ワークフローには2つの形態があります。1つ目はPrivate Workflowsで、2つ目はReady2Runです。Private Workflowsでは、お客様が独自に作成したWDL、Nextflow、CWLによるバイオインフォマティクスのスクリプトを持ち込むことができます。独自のコンテナを使用できるため、ワークフローで必要なツール、パッケージ、依存関係を自由に持ち込むことが可能です。すぐに始めたい場合や、コードを書きたくない場合のオプションもご用意しています。Ready2Runワークフローは、現在約37のワークフローを提供するカタログで、AlphaFold、ESMFold、GATK、nf-coreなどが含まれており、コードを書かなくても使い始めることができます。また、Sentieon、NVIDIA、ULTIMA GENOMICS、Element Biosciencesと提携して、それらの分析機能もHealthOmicsに導入しています。
実行を開始してワークフローを起動すると、タスクごとに個別のEC2インスタンスとファイルシステムがプロビジョニングされ、ネットワークやワークフローを制御するエンジンノードがすべて管理されます。ワークフローの一般的な出力にはバリアントコーリングファイルがありますが、VCFファイルの処理には手間がかかることがあります。データは半構造化されているため、まず最初に、より使いやすく検索しやすい形式にデータを変換するETLを構築する必要があります。また、クエリのパフォーマンスを向上させるには最適なパーティショニングが必要で、データの構造化が非常に重要になります。
さらに、そのデータに文脈を与えるためにはアノテーションデータが必要で、複数のバージョンや種類のアノテーションデータを使用したい場合もあるでしょう。HealthOmics Variant Storeは、お客様にとってこれをゼロETLプロセスにすることを目的に設計されています。ファイルを持ち込んでインポートジョブを実行するだけで、Variant Storeが自動的にデータ変換を処理し、高速なクエリに最適な形式でデータを保存します。また、組み込みの共有・コラボレーション機能により、IAMを使用して行レベルや列レベルの権限を制御できます。Variant StoreはAWSの分析サービスと深く統合されており、Amazon EMR、Amazon Athena、QuickSightなど、様々なツールを使用してバリアントデータやアノテーションデータを検索できます。
ゲノミクスデータ単体でも非常に強力ですが、臨床記録や画像データなど他のデータと組み合わせることで、さらに大きな価値を生み出すことができます。現在、そのための他のAWSサービスもご用意しています。AWS HealthLakeで臨床記録を取り込み、AWS HealthImagingで画像データを取り込んでVariant Storeと連携させることで、これらのデータを一緒に検索し、患者の健康状態をより包括的に把握することができます。
HealthOmicsのお客様は今日、大規模な運用を行っています。毎日数千のサンプルを処理し、HealthOmicsのWorkflowsで数万の同時VCPUとタスクを実行し、数百ペタベースのデータを保存しています。UK Biobankは、HealthOmics Sequence Storeを使用して、50万人以上のボランティアの全ゲノムシーケンスへの安全なアクセスを民主化しています。他のお客様からは、HealthOmicsが信じられないほどの時間節約を実現し、研究開発の取り組みを加速させているとの声をいただいています。例えば、Rocheはがん研究の完了までの時間を1年から3ヶ月に短縮し、創薬スタートアップのSonrai Analyticsは創薬研究時間を70%削減し、Children's Hospital of Philadelphiaは数ヶ月かかっていたマルチモーダルデータセットへのアクセスが数分で可能になりました。Nateraは、Signateraの診断テストとVariant Storeを使用した社内コホートビルダーの一部として、HealthOmics Workflowsを活用しています。
Nateraのデジタル接続ラボ「Lab X」:AWS活用による大規模診断の実現
皆さん、こんにちは。Nateraのソフトウェアエンジニアリング担当VPのMirko Buholzerです。re:Inventに参加できることを、いつも嬉しく思っています。これは私にとって1年で最も好きなイベントの1つです。多くの優れた人々が集まり、来年の自社への適用について新しいアイデアを考える機会を与えてくれます。私にとってre:Inventへの参加は、来年実践したい新しいアイデアや取り組みについて考えられる素晴らしい機会となっています。
本日は、Nateraについてお話しさせていただきます。私たちは過去数年間で大きな進展を遂げてきました。Nateraは2004年に設立され、cfDNA技術の先駆者として幅広い分野で活躍してきました。この技術を用いて、胎児、腫瘍、ドナーDNAを検出することができ、他の介入を必要とせず、単一の採血で様々な検査を実施することが可能です。私たちの研究所はサンフランシスコのベイエリアとテキサス州オースチンにあり、最近、世界中で実施した検査件数が1,000万件を超えました。
私たちの目標は、世界中の疾病管理を変革することです。これは大胆な目標であり、それを実現するためには組織全体の様々な側面に投資する必要があります。科学的イノベーションは重要な要素ですが、それだけでは今すぐ助けを必要としている患者さんの役には立ちません。
そのため、私たちは迅速なイノベーションサイクルに取り組み、より多くの検査を実現し、日々より多くの患者さんを支援できるよう努めています。Brentの膀胱がんとの闘いの話は、私にとって大きなメッセージであり、見るたびに心を動かされます。それは毎日、疾病の変革に向けた改善に取り組む motivation となっています。
これは、Nateraが2017年に導入したテストです。このテストは、がん治療を大きく変えました。すでに25万人以上の患者さんが少なくとも1回は利用しており、その多くが継続的なモニタリングを受けています。50種類以上の固形がんに対応しており、Signateraテストをさまざまながん種で活用することができます。Signateraテストは、残存病変の検出を基本としています。患者さんの検査では、まず組織サンプルを採取してシーケンシングを行い、その腫瘍組織サンプルの特定の変異を検出します。そして、その腫瘍に特有の指紋のようなものを作成し、それをモニタリング検査に使用します。
モニタリングでは、基本的に経時的に血液サンプルを採取します。治療後は、テストで検出される残存病変が徐々に減少していくはずです。目標は陰性化することですが、このテストは初期の検査だけでなく、その後のモニタリングにも使用できます。再発は、がん患者さんの治療において重要な側面であり、私たちは常に患者さんをモニタリングして、がんが再発していないことを確認しています。このテストでは、標準的な画像診断よりも最大9ヶ月早く再発を検出することができ、これは医師と患者さんの両方にとって、早期に治療を開始できる大きなメリットだと個人的に考えています。
Signateraはパンキャンサー(全がん種対応)テストとして、がんをより効果的に管理することができます。これを実証するため、大腸がん、乳がん、肺がん、膀胱がんなど、多くの研究を実施しています。画面でご覧いただけるように、それぞれの研究で、テストの感度と特異度が異なるがん種でもほぼ同等であることが示されています。つまり、同じテストをすべてのがん種で使用でき、さまざまな状況で活用できるパンキャンサー対応のテストとなっています。
Nateraは、がん検査だけを行っているわけではありません。実際、Nateraは当初、家族計画から出生前検査、遺伝性がんスクリーニングまでの女性の健康に関する検査からスタートしました。家族計画に関連する多くの疾患や計画について、女性の健康分野であらゆる検査が利用可能です。同様に、臓器の健康分野では、通常では検出が難しい移植臓器の拒絶反応を評価できるテストも提供しています。これらはNateraが現在取り組んでいる重要な分野ですが、最終的な目標は、これをさらに異なる分野に拡大し、疾患管理全般を変革することにあります。
これを実現し、スケールアップするためには、3つの核となる要素に投資する必要があります。もちろん、科学的イノベーションはその中核を成すもので、新しい検査法の発見、新しい知見の獲得、膨大なゲノムデータや臨床データの活用が重要な側面となります。ただし、科学的イノベーションも、それを市場に導入できなければ、現時点で患者さんの役には立ちません。
医療業界では、素晴らしい科学的ブレークスルーが生まれているものの、それが実際に医師や患者のもとで実装されるまでに何十年もかかっているのが現状です。そこで私たちが重点的に取り組んでいるもう一つの側面が、これらの検査を迅速に市場に投入する能力です。過去5年間で、私たちは先ほど見てきたように、さまざまな分野で8つの検査を市場に投入してきました。これを大規模に展開するには、柔軟でスケーラブルなインフラが必要だと考えています。
Margoが言及したように、Signateraは最も急成長している遺伝子診断検査の一つです。この規模で検査を実施するには、適切なアーキテクチャとインフラが不可欠です。Signatera検査では、医師が検査結果に基づいて異なる治療戦略を決定できるよう、迅速に結果を患者に返すことが非常に重要です。 約2年前、私たちはラボの構造を見直し、Natera Lab Xと呼ぶデジタルに接続されたラボを作るという挑戦を始めました。ここでの目標は、大規模なラボ自動化と再利用可能なインフラを実装し、異なる場所、検査、領域にわたってスケールできるインフラを構築することでした。現在、22のラボで週に54,000件以上の検査を処理しています。これは約60,000のワークフローを実行していることになり、1週間で約1.6ペタバイトのデータを生成しています。
この実装方法を検討する際、私たちは2つの領域に焦点を当てました。一つは、AWSクラウド上で動作するデジタル接続側で、多くのサービスをクラウドサービスやAWS HealthOmicsに統合しています。もう一つはラボコンポーネントで、ウェットラボワークフローを通じて一部のアッセイを実行する自動化されたワークセルに焦点を当てています。そして、シーケンサーなどの機器からデータが生成され、それがクラウドインフラにプッシュバックされます。
この再設計を行う際に導入した重要なコンポーネントは、アッセイとその実行に関するものでした。多くのラボは基本的に、異なるラインで特定の製品を実行しているだけです。私たちはこのアプローチを変更し、製品間でアッセイを再利用できるようにしました。アッセイは、ウェットラボワークフロー、バイオインフォマティクスワークフロー、そしてそのアッセイの結果を検証するQCステップで構成されています。 これは解釈とレポーティング側で集約され、最終結果とレポートを作成する機能があります。特定の製品の注文が入り、サンプルを評価する際、これは実行する必要のある異なるアッセイにマッピングされます。一つの製品には、ラボワークフロー、バイオインフォマティクスワークフロー、QCを経て実行される1つ以上のアッセイがあり、これらの異なるアッセイは解釈レポーティング層で集約されます。現在、これらのアッセイを製品間で再利用できるようになり、特定のアッセイを多くの製品で特に使用することができます。もう一つのコンポーネントは、製品ライン間でサンプルをバッチ処理し共有する機能です。
現在、製品ライン間でサンプルをバッチ処理し共有する機能があります。その上で実行される製品に関係なく、アッセイを実行できます。これらすべてがイベントバスとストレージシステムを通じて接続されています。その上にラボ分析コンポーネントがあり、遺伝子データ、結果、アッセイQCメトリクスだけでなく、ラボを直接最適化するために使用している対応するラボメトリクスもプッシュしています。これにより、ラボをスケールし、アッセイ自体の再利用性を高める新しい構造化された方法が得られます。
これを視覚化するために、私はアニメーションを作成しました。左側には私たちが運用している製品群が表示され、右側にはカタログに含まれる各種アッセイが表示されています。これらのアッセイは、ウェットラボのワークフロー、ウェットラボとバイオインフォマティクスの組み合わせワークフロー、もしくはバイオインフォマティクスのみのワークフローを表しています。これらの製品は、実行時に異なるアッセイを使用します。例えば、Signateraの場合、2回目のタイムポイントでは、NGSワークフローと対応するパイプラインを実行し、腫瘍と正常組織の比較を行って結果を出力します。同様に、Renasightでも同じNGSワークフローを使用し、さらに別のワークフローも実行します。確認作業では、RNAアッセイを実行することもあります。Horizonの場合は、同じアッセイを活用しながら、スクリーニングワークフロー特有のアッセイも使用します。
Lab Xは、スケーラビリティを確保するためにHealthOmicsを使用しており、私たちは研究室を次のレベルにスケールアップするためのソリューションを探していました。HealthOmicsは私たちにとって最適なソリューションでした。私たちはすべてのバイオインフォマティクスパイプラインをHealthOmics上でWDLを使って実行しています。WDLの標準化も、ワークフロー内のステップを簡素化する点で素晴らしい選択でした。これらのワークフローは非常に複雑になることがありますが、ワークフロー内での再利用性も確保されています。すべてがコンテナ化されているため、特定のバージョンで実行でき、バイオインフォマティクスワークフロー全体でバージョン管理が可能です。
もう一つの重要な点はスケーラビリティです。1回のAPI呼び出しまたは1つのイベントで、バイオインフォマティクスワークフローを完全に実行できます。HealthOmicsがワークフローエンジン自体のオーケストレーション、コンピューティング、ファイルシステム、最終的なストレージまで管理してくれます。これにより、ワークフローを簡単に実行し、スケールアップすることができます。私たちが使用している他のコンポーネントは、主にVCFアノテーションに関するもので、Variant Storeと組み合わせて使用しています。Variant Storeには全てのVCFバリアントを保存し、コホート構築やQA、R&D用の一般的なクエリに使用しています。また、Analyticsプラットフォームについても触れましたが、Lab Xのコンポーネントの中で見たように、特定のデータセットをAnalyticsにプッシュするAnalyticsコンポーネントがあります。
私たちにとって、分散データストアを持つことが重要でした。これにより、各コンポーネントとアプリケーションチームが、それぞれのセクションにプッシュされるデータに責任を持つことができます。中央でのガバナンスと中央カタログにより、セキュアでコンプライアンスに準拠した方法で、データに簡単にアクセスできます。そこにプッシュされるメトリクスには、パイプラインの出力、機器データ、ラボ自体を最適化するためのラボメトリクスなどがあります。
このデータは、シンプルなデータ品質保証から解釈、そしてラボワークフローやラボを最適化できるラボオペレーションまで、様々な方法で活用されています。また、R&Dチームやデータプロダクトチームにとっても、異なるラボコンポーネントからData Meshに取り込まれるデータを基に、新しいデータセットを作成するための優れたストアとなっています。
私たちが扱うもう一つのデータセットは、診療セッションを通じて得られる臨床データです。これには患者の病理レポートや他の文書、そしてEMRとの連携から得られるものが含まれます。これらの非構造化データセットから臨床属性を抽出し、製品カタログに保存しています。この処理は、まずそれらの文書からコアとなるテキストを抽出することから始まります。これはOCRを通じて行われることもありますし、文書自体にテキストが含まれている場合は、そのテキストを抽出してVector Storeにプッシュするだけです。私たちはLLMを使用してこれらのデータチャンクのベクトルを作成し、Embedding Vector Storeに保存しています。
臨床データとAIの融合:包括的な患者ケアの実現へ
そこから、LLMに対するプロンプトを使用して臨床データを抽出するワークロードを実行することができます。LLMは現在、これらの非構造化データセットから適切なデータを抽出することができます。検証プロセスを経た後、そのデータをData Meshに取り込み、利用可能な完全な患者の健康記録を作成します。このデータを使用することで、臨床データと遺伝子データ、そして検査結果を組み合わせることができます。
これを見ると、完全な患者のがん治療の経過を生成することができます。この例では、ステージ2の膀胱がん患者のケースを示しています。画面の左側では、0日目に非侵襲的手術が行われ、その後52日目から94日目の間に術前補助化学療法が実施されています。その後、腫瘍が成長していたため、医師は侵襲的手術も実施することを決定しました。この手術で腫瘍サンプルを採取することができ、そのサンプルを使用してSignateraを実行することが可能になりました。腫瘍の特徴を特定し、時系列でモニタリングを行えるようになりました。手術後、最初の3回の測定ポイントは陰性でしたが、4回目の測定でMTM値が0.07を示し、Signateraの基準では陽性となりました。そして、5、6回目の測定でMTM値が上昇し、患者に何かが起きていることを示していました。573日目に、医師は遠隔再発を確認しました。
これにより治療方針の変更が必要となり、放射線療法と免疫療法が実施されました。その後のデータポイントは陰性に戻りました。この治療は成功を収め、患者はモニタリングを継続しています。このように、私たちの検査結果と臨床データを組み合わせることで、各患者のがん治療の経過を作成することができ、これらを集合的に分析することも可能です。
画面を見ると、横線は各患者のがん治療の経過を表しています。これらのタイムラインには、Signateraの結果、手術、治療、そして転帰に関する指標が表示されています。この可視化により、医師は自分の患者を他の患者と比較し、治療のタイムラインを確認し、クリニックの他の患者のデータに基づいて治療戦略を決定することができます。このアプローチにより、患者のケアについてより情報に基づいた意思決定が可能になります。
医療ケアの様々な領域を変革するためには、迅速なイノベーションに焦点を当てる必要があります。科学的なイノベーションやブレークスルーは不可欠ですが、これらの進歩を研究室で実装し、患者さんに適用することも同様に重要です。私たちは、再利用可能でデジタルに接続された研究室のインフラが、効果的なスケーリングを可能にすると考えています。このインフラにより、検査をより迅速に市場に投入することができます。組織内で遺伝情報と臨床情報を横断的に新しい知見を生み出すには、分散されたデータへのアクセスが不可欠です。さらに、Generative AIやLLMの新しい機能により、EMRの臨床データから非構造化データを抽出できるようになりました。これは私たちの働き方を変革し、新しい検査を市場に投入するための新たな洞察と機能を得るのに役立ちます。毎朝、私たちの仕事が患者さんの役に立つことを知って目覚めることは非常にやりがいがあり、この会場にいる多くの方々も同じ経験をされていることと思います。皆様ありがとうございます。では、Margoにバトンタッチしたいと思います。
AWS HealthOmicsの新機能と今後の展望
本日は、AWSが最近導入した2つの新機能についてお話ししたいと思います。新しいワークフローを開発された経験のある方にとって朗報ですが、AWS HealthOmicsは数週間前にCall Cachingのサポートを導入しました。Call Cachingとは、最後に正常に完了したタスクから実行を再開できる機能です。コードを書く新しいワークフローの開発では、構文エラーやその他の問題に遭遇することがよくあります。コードの変更点や、ワークフローで問題が発生した地点から再開できることは、ワークフロー開発のスピードアップに役立ちます。HealthOmicsは、同じファイル、タスク定義、コンテナセットが提供された場合、それを認識できるほど賢くなりました。キャッシュされたタスク結果を保存し、以前に計算されたものをスキップして再利用できるようになります。これにより大幅な時間短縮が可能になり、新しいパイプライン開発も加速されるため、HealthOmicsワークフローへの導入を大変嬉しく思っています。実際のランキャッシュはS3ベースなので、データに合わせてスケールすることができます。キャッシュのサイズを変更したり増やしたりする必要はなく、必要なだけデータを保存できます。そのキャッシュへの直接アクセスを導入し、高度なトラブルシューティングやデバッグにそれらのファイルを使用できるようになりました。また、このデータの分析に役立つ新しいCloudWatchログセットも導入しており、これについても大変嬉しく思っています。
もう1つお話ししたいのは、AWS HealthImagingを使用したデジタルパソロジーについてです。 私たちが提供しているもう1つのサービスがHealthImagingです。これは、医用画像データをクラウド上でペタバイト規模で保存、分析、共有できるサービスです。画像の1つのコピーだけを保存し、サブセカンドの画像取得レイテンシーでアクセスできるため、大幅なコスト削減につながります。現在、HealthImagingはX線、CT、MRI、超音波に使用されていますが、このたび、ロッシー医用画像データの強化サポートを導入できることを嬉しく思います。これにより、DICOM Whole Slide Imageのサポートが可能になります。
現在、研究室を運営していて病理検査を行っている場合、サンプルをスライドに載せて、スライドのデジタル化プロセスを経て、その画像をAWS HealthImagingに送信できるようになりました。現場の病理医や世界中のどこにいる病理医でも、非常に低いレイテンシーでこれらの画像にアクセスできます。他のサービスと組み合わせることで、非常に素晴らしいことができます。この例では、画像を非識別化し、Amazon SageMakerモデルを実行してサンプル内のものを検出・分析することができます。最後に、AWS HealthImaging内のこのデータを使用することで、Omicsデータや他の臨床データとより簡単に組み合わせることができ、患者の健康状態をより包括的に把握することができます。
本日のHealthOmicsについて要点をまとめますと、臨床診断パイプラインや創薬パイプラインをスケールさせるのに役立つサービスで、サンプルあたりの予測可能なコストと迅速な処理時間を提供します。また、共有やコラボレーション機能が組み込まれており、きめ細かなアクセス制御により、データを安全に保つことができます。さらに、フルマネージド型の生物学的データストアとフルマネージド型のコンピューティングにより、お客様のイノベーションを加速させることができます。
HealthOmicsやHealthImagingについてさらに詳しく知りたい方は、こちらのQRコードをご確認ください。製品のマーケティングページにアクセスでき、両サービスについてより詳しい情報をご覧いただけます。また、Nateraの患者様のストーリーをもっとお聞きになりたい方は、最後のQRコードをご確認ください。本日はご参加いただき、ありがとうございました。皆様のre:Inventの残りの日程が素晴らしいものとなりますように。セッションのアンケートへのご協力もお願いいたします。ありがとうございました。
※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。
Discussion