🧬

俺の転写因子が翻訳されたらIDP（天然変性タンパク質）だった件

2022/12/24に公開

はじめに

この記事はKyoto.bioinfo Advent Calendar 2022のために書かれました。
京都が大好きな人たちによるバイオインフォに関係していそうな記事が満載です。
まだの方はぜひご覧ください。

すべてのバイオインフォ研究者にメリークリスマス

2022年のクリスマス・イブ（予定）、皆様いかがお過ごしでしょうか。私はこの記事を書き始めた12月22日現在、原稿の校正がやっと終わり今年中の〆切を片付けたところです。ようやく時間ができたので何を書こうかと思ったのですが、最近手をつけ始めた転写因子関連の件でちょうどやろうと思っていたことがありましたので、この機会に記事としてまとめてみたいと思います。特にインフォ技術的に特別なことはしませんが、バイオインフォで頻出するデータベース間のクロスサーチなど何かの参考になれば幸いです。

Intrinsically Disordered Region and Protein

皆さんはIDRをご存知でしょうか、irreproducible discovery rateではありません。Intrinsically Disordered Region(IDR) です。日本語では天然変性領域と呼ばれ、規則的な構造をとらないことで知られます。詳細な解説はWikipediaやこちらの日本語総説、レビューなどに譲りますが、IDRはfixされた立体構造を持たず、それゆえ様々な分子と相互作用することができることが知られています。IDRを持つタンパク質はIntrinsically Disoredered Protein (IDP)とも呼ばれ、その種類は部分的に構造を持つものや全体が構造をとらないものなど多岐に渡り、配列的特性や機能も簡潔に分類できる物ではなくその領域の機能は未だ謎に包まれています。

IDRの生物学的機能

このようなIDRが注目を集めるようになった背景には、近年これらのタンパク質・領域が液-液相分離（LLPS）などに大きく関わることが明らかになったためです。IDRを持つタンパク質は核酸などの他の分子と相互作用することで、細胞内で膜によらない区画を構成することができ、これによって局在や濃度をコントローし生物学的なプロセスの基盤となっているのではないかと言われています。実際に、セントラルドグマの根幹を担うクロマチン構造にも、こうしたIDPと相分離が深く関わっていることが近年示唆されており (Narlikar GJ, 2020.)、様々な分野で相分離の研究が新たに進められています。

もちろんすべてのIDPが必ずしも相分離を引き起こしているとは限りませんが、IDR自体が様々な因子との相互作用を可能にする特性を持つことから、そのタンパク質が持つ既知の機能にも深く寄与している可能性があります。例えば、がんの抑制因子として知られる転写因子p53では、DNA結合領域を挟んで左右にIDRがあるとされています(Uversky VN, et al. 2008)。この領域は多くの翻訳後修飾サイトを含み、また他のタンパク質との相互作用に富み、約70%のp53の相互作用がこのIDRで行われています。さらに最近の研究では、これまでよく知られてきたDNAモチーフ特異的な転写因子の結合領域の選択に、実はDNA結合ドメインだけでなくIDR領域が関連しているかもしれないという報告もされています(Brodsky S. et al. 2020)。この研究では、ドメインとIDR領域を入れ替えた組み換えタンパク質でChEC-seqを行うことで、IDR領域の欠損が結合領域とそのモチーフ特異性を大きく変化させる結果が示唆されています。

IDRの実験・計算機的分類予測

IDRはその名の通り構造的な特性から定められており、実験的にはNMRやX線結晶構造解析などから、フォールディングしていないタンパク質・領域の情報が得られます。一方で、実験的な構造解析にはコストやスループットの問題が伴い、またそもそも構造を得ることが難しいというIDR自体の特性のために、信頼性の高い結果を得ることが難しいという問題があります。

そこで、これまでのIDRのデータや一次配列的な特徴を利用して、計算機的にIDRの予測を行う様々な手法が開発され、利用されています（参考：Wikipedia）。IDRとなる領域は、一般的に親水性のアミノ酸や、極性で電荷を持つアミノ酸が多いという特徴があることが知られており、こうした特性をもとに何らかのDisorderd scoreを計算するのが、基本的な方針となります。

先行研究のGuo et al. 2012では、1,747の転写因子に関してPONDR VSL2, DISOPRED2, PreDisorderという3つの既存手法を利用して、IDRの予測を行っています。下のテーブルは上の論文から再構成したものですが、手法ごとにIDRの予測されやすさには大きなばらつきがあることがわかります。そこで、元論文ではコントロールとなる非TFに対しても同様にIDR予測を行い、TFでは非TFよりも統計学的に有意に高い割合でIDRが含まれていることを示しています（コントロールや統計の詳細は元論文を御覧ください）。

	TF	非TF
PONDR VSL2	83.2%	53.5%
DISOPRED2	47.4%	34.1%
PreDisorder	50.1%	38.3%

あなたは今ある転写因子を研究しています

それでは、実際に自分がある転写因子を研究していると仮定して、その転写因子がIDRを持つかどうかを実際に調べていきたいと思います。

実験的に決定されたIDRデータベース Disprot

まず実験的に決定されたIDRに含まれているかどうかを、データベースを利用して検索してみます。今回は、知り合いにおすすめされたような気がするDisprotというデータベースを紹介します。
データベースにアクセスして、検索フォームに遺伝子名「p53」と入れて検索を行うと、このような画面が出てきます。

この図を見てみると、p53は先述のように中心にあるDNA結合ドメインを挟むようにIDR領域を持っており、37.7%がIDRであるタンパク質であることがわかりました。Disprotは実験的なデータをもとにキュレーションされたデータベースであり、ここで得られる結果は、対象としているタンパク質が高い確度でIDPであることを示唆しています。

計算機的な予測のコンセンサスをとるデータベース　MobiDB

それでは、対象のタンパク質がDisprotには含まれていなかったときにはどうすればよいでしょうか？そんなときに役立つのが計算機的な予測です。
MobiDBは、Disprotを含む実験的な予測と、複数の予測手法の結果をまとめたコンセンサスからIDRを予測し、その結果を表示してくれるデータベースです。

配列情報を持っていれば、MobiDB-liteを動かすことでDe novoでのIDR予測を行うこともできます。
MobiDB-liteは最大で9つのDisorder予測ソフトを内部で動かし、そのコンセンサススコアを計算します。各予測手法のバイナリーを走らせる都合から、Linuxの64bitならダウンロードしてくればそのまま動きますが、別環境の場合には推奨のDockerで動かすのが良いようです。

git cloneしてきたディレクトリで以下のコマンドを叩くと、fastaファイル内の配列に対するDisorder予測が動きます。

python3 mobidb_lite.py examples/multi.fasta
python3 mobidb_lite.py examples/multi.fasta -o out_fasta_file.txt -f fasta
python3 mobidb_lite.py examples/multi.fasta -o out_mobi_file.txt -f mobidb4

出力フォーマットはいくつか選べますが、Disorderと予測された領域や、各残基ごとのDisorder状態を以下のようにfastaで出力するもの、また後述のmobidbフォーマットでは様々な特徴量をjson形式で出力してくれるので、任意のjson用ライブラリーを使うと読み込むことができます。

それでは大量の遺伝子に対してはどうする？

一つの遺伝子が対象ならばGUIの検索で事足りますが、数百、数千の遺伝子に対してIDRを調べたいときにはどうすればよいでしょうか。残念ながらDisprotの方ではデータの一括ダウンロードやバッチ処理のための方法が見つかりませんでしたが、MobiDBではAPIによるアクセスを提供しており、これを利用することで条件に合う構造情報を獲得し、手元の検索にかけることができます。また幸いなことにDisprotのアノテーション情報もMobiDBに統合されているとのことだったので、MobiDBから実験・計算機的な構造情報をダウンロードし、その中から手元の遺伝子リストに含まれるものだけを抽出してくることにします。

ということでやりました。
実際に走らせたPythonのコードには以下↓からアクセスすることができます。
（ちなみにコラボ用に書いていないので、そのままだとデータはマウントされていませんがお許しを）

コードやサンプルデータはgithubにあげておきましたので、以下のコマンドを叩いて直接アクセスしてみてください。
MobiDBの元データはファイルサイズが大きいため、ダウンロードのやり方をjupyter notebookに書いておきましたので、ご自身で試されたい方は直接ダウンロードをお願いいたします。

git clone https://github.com/carushi/cb_lab
cd cb_lab/code_collection/advent_calendar_2022/

実際にやっていることは、JASPARに含まれる結合モチーフを持つ転写因子のリストから、実験的・計算機的なDisorder領域を持つとされた遺伝子とその領域の割合を抽出しています。
最終的には、

DisprotによるIDRを含む転写因子を53個
MobiDBによってIDRを含むと予測された転写因子を889個

抽出することができました。遺伝子名が完全一致しているものを抽出しているので、シノニムなどを考慮するともう少し増えるかもしれません。ともあれ、転写因子のリストからIDRを持つIDPの可能性の高い遺伝子を無事抽出することができました。

まとめ

MobiDBべんり！IDRをしるとせかいがへいわに！

おまけ

こんな感じのことに興味がある学生さんや、学振特別研究員などのフェローシップを出したい研究員の方は、Twitterまでご連絡ください！
それでは皆さまメリークリスマス＆よいお年を！