📘

Kaggle Stanford Ribonanza RNA Folding コンペに挑戦（1）

2023/10/03に公開

Kaggle

tech

こちらのKaggle Stanford Ribonanza RNA Folding コンペに挑戦
記事の取り組み内容になります。

コンペの目的

まずRNAとは？

以下の引用を参照

wikipedia リボ核酸

リボ核酸（RNA: Ribonucleic acid）は、リボースを糖成分とする核酸である。リボヌクレオチドが多数重合したもので、一本鎖をなし、アデニン、グアニン、シトシン、ウラシルの四種の塩基を含む。一般にDNA（デオキシリボ核酸）を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行う。

国立がん研究センター研究所 RNAとは？【がんRNA研究分野】

細胞の機能に中心的に役割を果たすのが、タンパク質です。タンパク質は酵素として生化学反応を触媒したり、細胞内・細胞間の情報伝達を行ったり、細胞の構造を維持したりと細胞が活動を行うにはなくてはならないものです。そして、どのようなタンパク質をつくるかといった情報が、DNA（デオキシリボ核酸）に保持され遺伝子として親から子へと受け継がれています。DNAに保持されたタンパク質の情報は、RNA（リボ核酸）を介してタンパク質となります。RNAには様々な種類があり、タンパク質の情報を保持するだけでなく、タンパク質の産生に関わったり、産生するタンパク質の量を調整したりしています。細胞を取り巻く環境に応じて、RNAを介した産生するタンパク質の種類と量の調整により、細胞はその機能を果たしています。

ChatGPTに聞いてみた（RNAについて詳しく教えて）

RNA（リボ核酸）は、生物学的な分子の一つで、DNA（デオキシリボ核酸）と並んで遺伝情報の伝達や生命プロセスに重要な役割を果たす分子です。以下はRNAに関する詳細な情報です。

RNAの構造:
RNAは、糖、リン酸、塩基の3つの主要な構成要素で構成されています。RNAの糖はリボースと呼ばれ、DNAのデオキシリボースと似た構造を持っています。RNAの塩基にはアデニン（A）、ウラシル（U）、シトシン（C）、グアニン（G）の4つがあり、これらの塩基が特定の配列で結合してRNA鎖を形成します。

RNAの種類:
RNAはさまざまな種類が存在し、それぞれ異なる役割を果たします。主要なRNAのタイプには以下があります。

・ mRNA（Messenger RNA）: 遺伝情報をDNAからリボソームに伝え、タンパク質合成の指示を持つRNA。
・ rRNA（Ribosomal RNA）: リボソームの一部であり、タンパク質合成に関与する。
・ tRNA（Transfer RNA）: アミノ酸をリボソームに運び、タンパク質の合成に参加する。
・ snRNA（Small Nuclear RNA）: 核内でRNAスプライシングに関与する。
・ miRNA（MicroRNA）: 遺伝子発現の制御に関与する。
・ siRNA（Small Interfering RNA）: 遺伝子発現の抑制に関与し、RNA干渉（RNA interference）に関連する。

RNAの役割:
RNAは、DNAからの遺伝情報をタンパク質に翻訳する役割を持つmRNAを含むさまざまな役割を果たします。RNAはまた、細胞内の遺伝子発現の調節やRNAスプライシング、ウイルスRNAとしての役割など、さまざまな生物学的プロセスに関与します。

RNAの複製と翻訳:
RNAはDNAの情報をもとに複製され、mRNAはタンパク質合成における遺伝情報を運びます。このプロセスには転写と翻訳という2つの主要なステップが含まれます。

・転写（Transcription）: DNAの遺伝情報がRNAにコピーされます。このプロセスによって、mRNAが生成されます。
・翻訳（Translation）: mRNAに含まれる遺伝情報がリボソームで読み取られ、アミノ酸の順序に変換され、タンパク質が合成されます。
RNAは生命プロセスの鍵を握る重要な分子であり、細胞内でさまざまな機能を担当しています。その多様性と役割により、RNAの研究は生物学の重要な分野となっています。

データセットの説明（DeepL）

このコンペティションでは、 2種類の化学修飾剤DMSと2A3に対するRNA配列の反応性を予測する。 これらのデータは、ハイスループットシーケンスによって読み出される変異プロファイリング（MaP）実験によって効率的に測定することができ、化学修飾から保護されている位置は、塩基対や他の種類のRNA構造を形成している可能性が高い。

train_data.csv

項目名	説明
sequence_id	(文字列） 8cdfeef009ea のような任意の識別子
sequence	(文字列) A、C、G、Uの文字列からなるRNA配列を記述する
experiment_type	(文字列) DMS_MaPまたは2A3_MaPのいずれかで、各プロファイルの生成に使用されたケミカルマッピング実験のタイプを記述する。参照： DMS, 2A3.
dataset_name	(文字列) 反応性プロファイルを抽出したハイスループットシーケンスデータセットの任意の名前
reads	(整数) 高スループットシーケンス実験でRNA配列に割り当てられ、反応性プロファイルをコンパイルするためにその変異が集計されたリードの数。(これらの値はこのコンペティションで予測する必要はない）。
signal_to_noise	(浮動小数点)プロファイルのシグナル/ノイズ値。平均(プローブされた nts に渡る測定値)/平均(プローブされた nts に渡る測定値の統計誤差)として定義される。(これらの値は今大会で予測する必要はない)。
SN_filter	(真理値) signal_to_noise>1.0かつreads>100であるかどうかによって0または1となる。評価には、DMS_MaPと2A3_MaPプロファイルが共にこのフィルターを通過した配列のみがスコアに使用される。(これらの値はこのコンペティションで予測される必要はない）。
reactivity_0001,reactivity_0002,…	(浮動小数点)RNAの反応性プロファイルを定義するRNA配列と同じ長さの浮動小数点数の配列。これらはこのコンペティションで予測される必要があるタイプのデータである。最大RNA長より短い配列の場合、配列長を超える位置はnullとなる。また、配列の先頭や末尾に近いいくつかの位置も技術的な理由でプローブできず、反応性の値はnullとなる。
reactivity_error_0001,reactivity_error_0002,…	(浮動小数点)浮動小数点数の配列で、対応するreactivity_*列と同じ長さである必要がある。ハイスループットシーケンス実験における計数統計から得られた反応性の実験値の計算誤差。(これらの値はこのコンペティションで予測する必要はない）。

sample_submission.csv
正しい形式の提出ファイルのサンプル。
このフォーマットはtrain_data.csvよりコンパクトではなく、別々の配列位置が別々の行に置かれるため、KaggleのMAE実装で適切なスコアリングが可能になる。

項目名	説明
id	提出されたサンプルの各配列位置を識別する整数 (0,1,...) 。各ID値に関連する配列は、test_sequences.csvで提供される。
reactivity_DMS_MaP, reactivity_2A3_MaP	(浮動小数点）サンプル提出値（例ではゼロ）。

test_sequences.csv
テスト・セット・シーケンスには、グランド・トゥルースと関連する列はない。

項目名	説明
id_min, id_max	(整数）正しくフォーマットされた提出ファイル（sample_submission.csv を参照）における、テストシーケンスの ID の最小値と最大値。
sequence_id	(文字列）各テストシーケンスに対する eee73c1836bc のような任意の識別子。
sequence	(文字列) DMSと2A3の反応性を予測し、sample_submission.csvのようなファイルで提出する必要があるRNA配列（A、C、G、Uの文字列）を記述する。
future	(真理値）競技開始後（ただし最終採点前）にデータが収集されるシークエンスは1とラベル付けされる。

それで目的は？

データセットの説明に記載されている、 「2種類の化学修飾剤DMSと2A3に対するRNA配列の反応性を予測する。」 ということかと思います！
よーわからんけど。。

コンペの目的

まずRNAとは？

データセットの説明（DeepL）

それで目的は？

Discussion