🐥

Kaggle Stanford Ribonanza RNA Folding コンペ に挑戦

2023/10/02に公開

イントロダクション

やること

KaggleのStanford Ribonanza RNA Folding コンペに挑戦します!
自信はないですが😅

プロフィール

  • webシステムのバックエンドエンジニア
  • 全く機械学習エンジニアではありません
  • Kaggle歴 2年くらい
  • 特に成果なし(パブリックノートブックをコピーしてそのまま提出して、たまたま銀メダル一つゲット)

なぜ書くのか?

今まで結果が出ていないので、備忘録的にコンペ概要や、取り組みを書いていこうかと思います。
あと、自社のチームミッションで対外発信をすることになっているため。(こっちが本音かも笑)

コンペについて

概要(DeepL)

RNA分子がどのように折り畳まれるのかを理解できなければ、自然がどのように機能するのか、生命はどのように誕生したのか、気候変動のような壮大な問題に対してより良い医薬品や生物学的アプローチをどのように設計できるのか、といった深い理解が得られない。

あなたの目標は、あらゆるRNA分子の構造と、その結果得られるケミカル・マッピング・プロファイルを予測するモデルを作成し、RNAの各位置について収集したデータと比較することです。

世界中のすべての生物学者やバイオテクノロジストが、あなたのアルゴリズムによる解決策を利用する日が来るかもしれません。

説明(DeepL)

リボ核酸(RNA)はほとんどの生物学的機能に不可欠である。RNAを操作する方法をよりよく理解することで、膵臓がんやアルツハイマー病の最初の治療法、そして必要とされている抗生物質や気候変動に対する新しいバイオテクノロジーのアプローチなど、プログラム可能な医療の時代を切り開くことができるだろう。しかしその前に、研究者たちはそれぞれのRNA分子の構造をよりよく理解しなければならない。

RNA構造を予測しようとする最近の努力は、(1)トレーニングデータの不足、(2)知的能力と計算能力の不足、(3)トレーニングデータとテストデータの厳密な分割の難しさ、といった多くの課題にぶつかっている。Kaggleコンペティションはこれらのギャップを埋めることができるのだろうか?

データ取得のための大規模で多様なRNA分子の収集に向けて、ホストであるダス研究所は、科学者とゲーマーを集め、パズルを解き、医療を発明するエテルナプロジェクトを立ち上げた。エテルナ・コミュニティはこれまでに、新しい科学的原理を解き明かし、熱力学的に最適化されたリボスイッチを設計し、mRNAワクチンの保存期間を改善するためのRNA分解パターンを明らかにしてきた。現在、エテルナ・プロジェクトは、複雑な構造を形成すると予測される多様な配列を創出している。

この新しいリボナンザ・コンペティションのデータは、RNA分子の各位置における化学反応性の実験的測定値である。これらのデータは、各RNAが試験管の中で形成する構造(あるいは複数の構造)に対して絶妙な感度を持つ。これらの化学反応性を完璧に予測できるアルゴリズムは、そのためにRNA構造を暗黙のうちに「理解」している必要がある。このようなオラクルは、新規RNA分子の構造を予測的にモデル化するために利用できる。OpenVaccineコンペティションと同様に、プライベートリーダーボードデータの大部分は、あなたの予測努力と並行して収集される!

RNA構造予測問題を解決する正確なモデルは、細菌、ウイルス、神経、ガンなど、タンパク質レベルでは治療不可能な多くの遺伝子の中から、RNAをベースにしたユニークな創薬標的を特定しようとしている医学研究者にとって、大きな変化をもたらす可能性がある。さらに、mRNAワクチンやCRISPR遺伝子治療薬のようなRNAベースの医薬品を予測的に設計するためには、正確なRNA構造予測が必要である。医学的な意味合い以上に、RNA分子は、地球上に誕生した最初の生命体や、現在地球上の炭素の大部分を固定している植物や海洋生物を含む、すべての生命の中核的な生物学的プロセスの根底にあり、支配的でさえある。生命を完全に理解するには、RNAを完全に、予測可能に理解する必要がある。

受賞者のイノベーションは、科学と医学のコミュニティ全体がオープンソースコードとして利用できるほか、2023年12月にNeurIPSで開催される構造生物学における機械学習の主要会議で、Rhiju Dasによる基調講演で紹介される。

評価(DeepL)

提出物はMAE(平均絶対誤差)を用いて採点される

ここで、Nはスコア化された基底真理値の数であり、𝑦と𝑦ˆはそれぞれ実際の値と予測値である。
y 値はMAEを計算する前に0と1の間で切り取られる

ここで、 𝑦RAM は生データの値である。
データページより、各RNA配列の各位置には、DMS_MaP2A3_MaPの2種類のケミカルマッピング実験から決定された反応性に対応する、2つの真理値が存在する。

その他のリソース(DeepL)

タイムライン

  • 2023年9月7日 - コンペ開始日
  • 2023年12月7日 - 最終提出期限。

提出物

このコンペはコードコンペではない。
このコンテストでは、テストセット全体が提供され、すべてのテストデータの最終予測を提出し、その一部はパブリックLB評価に使用され、残りはプライベートLB評価に保留される。

活動

これから少しづつ書いていきます!

https://zenn.dev/zizo_kuma/articles/5d25a207d6f3e3
https://zenn.dev/zizo_kuma/articles/335b0c8f129bb5
https://zenn.dev/zizo_kuma/articles/cca906f4e11ce4

結果

https://zenn.dev/zizo_kuma/articles/3262ae9fbaba5c

Discussion