🦋

生き物を扱う研究室でバイオインフォマティクスをやるときのTips

2023/01/06に公開

概要

この記事は、自分が生き物と遺伝子を扱う研究室で、インフォを中心に研究していた時の過去を振り返って、「始める前にこういうアドバイスが欲しかった」といったものをまとめたものです。

対象

学部3-4年でこれから研究を始める人たちから修士まで。特にウェット（飼育や細胞を使った実験）とドライ（パソコンにおける実験）の両方をやる人たち向け。

はじめに

自分は博士課程の学生です。学部のころから難しいテーマを選んで、論文どころか学内の発表でも具体的なデータが出せていません。学振も通りませんでした。それでも研究は好きですが、今思えば過去に似たような境遇で相談できる人がいたらなと思います。
そのため、「もしも自分が過去の自分に適切にメッセージを送るなら」という感じで書いていきたいと思います。人によっては当たり前と思うことでも

自分の経験は、主にR言語とWindows・Mac、RNA-seqやDNAのショートリードで得られたデータの操作、FASTAなどの塩基配列・タンパク質配列のデータの操作です。これに当てはまらない場合は参考にならないかもしれません（C++で速さを競うなど）。

Tips

パソコンのスペックはRAMが16GB以上 or スパコン申請

研究室によってはパソコンが支給されると思います。基本的には4-8GBだと思いますが、バイオインフォマティクスでソフトやプログラムを動かすときは、RAMが16GB以上のパソコンがおすすめです、というか一定のスペック以上ないと動きません。
　PowerPointのような実験以外のソフトも快適に動かすためには、スペックの高いパソコンを使いましょう。
　大学のようなアカデミックな研究なら遺伝研などのスパコンが使えるはずです。いろいろ活用しましょう。基本的にLinuxのCUI（画面ではなくコマンドで操作する方式）で、できないことも多いですが、大量にメモリを使う作業ではスパコンが一番です。慣れましょう。
　ただし、プログラムを書く場合はトライ＆エラーが必要なため、スパコンではなく自分のパソコンで行った方がいいです。
https://sc.ddbj.nig.ac.jp/

ちなみに自分はノートパソコン（16GBと32GB、ともにWindows）です。WindowsかMacかはどちらでもいいですが、個人的にはWindowsがおすすめです。WSL（Windows Subsystem for Linux）というLinuxを動かすシステムがあるのですが、基本的にほぼLinuxの操作もできるのと、失敗してもアンインストールして再インストールすれば動きます。MacもLinuxのような操作ができますが、InterproscanなどMacでは動かないソフトもあります。また、makeで呼び出されるのがgccではなくclangなど、Mac特有の問題もあります（逆に言えば同じことで困っている人は見つけやすいです。）。

研究で使うソフトは、基本的にLinuxの黒い画面（コマンドライン）と思ってください。

まずは目標を細かくアウトプットと定める、自分のためにも

研究で大切なことは発表です。解析もいいですが、発表・論文がより重要であることを覚えておいてください。「結果が出なかったこと」も結果です。
　解析の結果はメモだけではなく、レポートの形で保存しておくことを強く勧めます。レポートは印刷して実験ノートに張り付けましょう。後から見直すと過去の解析の結果が使えることがあります。また、論文を出すときは過去の実験データの提出が求められます。誰かに相談する際にもアウトプットしたものを見せると早く進みます。
　レポートは後から誰が見てもわかりやすいようにしましょう。変数名はコメント代わりにはなりません。また、「背景（目的）」「方法」「結果」「Discussion」に分けて書くと書きやすいです（参考文献は実験ノートの段階では後からわかるように書けば十分です）。

逆に言えば、レポートの形にならなければ何もしなかったことになります。気を付けましょう。
　
　レポートにするのにおすすめなのはNotionかR markdownです。Notionは簡単に言うと便利なメモ帳です。メモに見出しとリンクを付けてパソコンやスマホからアクセスできるサービスです。メモや文章・論文読みのまとめに使っていますが、レポートにも使えるようです。また、R markdownはR（R Studio）でのプログラムの実行結果をそのままレポートにできます。ぜひ活用しましょう。

https://www.notion.so/ja-jp

好きな解析ばかりしない

自分の悪い癖ですが、延々と試行錯誤しながら解析を続けることは楽しいです。しかし、先述したように大切なのはアウトプットです。解析を続ければ延々と結果が出ます。しかし、実際に自分が進んでいるかどうかを確認するのにもアウトプットが必要ですし、誤っているデータを解析している場合もあります。まずは目標を決めて簡単にまとめましょう。

新しいソフトに飛びつかない＆先行研究での利用を確かめる

バイオインフォマティクスは発展している分野で、どんどん新しいツールが出てきます。しかし、大切なのは「このツールは過去にはどのように使われているか」「実際に使われているか」です。Variant CallingではGATK（Genome Analysis Toolkit）など、黄金スタンダードのようなものがあります。実験手法としてのスタンダードを確かめるには、過去の複数の研究でどのようなツールが使われているかを調べることが最適です。たくさん先行研究を読みましょう。

手法として引用されていても実際の研究に使われていないツールはお勧めしません。なぜなら、先行研究と比較する場合、だれも使っていないソフトだと先行研究で使われていたソフトの方が条件が変わってしまうからです。研究は同じ条件で比べることが大切です。

先行研究が見当たらない場合、他の生物を調べることが大切です。たとえば家畜集団と野生集団の遺伝的変異を調べる場合は、ほぼ確実に「集団構造解析」「Variant Calling」「GWAS・またはFSTやXP-CLRなどの遺伝的変異を確認」のようになっているはずです。また発現量変動なら「STARでマッピング」「発現量比較」「q-valueから発現変異遺伝子を探索」のような感じです。
　特に、先ほどと矛盾するようですが先行研究で多く使われている場合は新しいソフトがおすすめです。これに当てはまるのはRNA-seqのマッピングでTopHat2ではなく、新しいHISAT2（またはSTAR）を使う例です。

手法が実際に正しいか確かめる

自分のオレオレ手法を思いつくこともありますが、できる限り先行研究で対応できるかどうか考えましょう。ソフトも既存のものをできる限り使いましょう。データを得るための手法が間違っていたら、その下の解析は意味がありません。

RやLinuxは必修 & コマンドのメモを取ろう

基本的には、解析の上流でLinuxのソフトを使って、データが出たらRで解析することになります。こればかりは慣れてください。
　Rは他のプログラミング言語のような部分が分かれば後は少しです。パッケージのインストール（install.package()コマンドとBiocManager::install()）、?（関数名）のヘルプくらいは使えるようになりましょう。
　Linuxの操作では、特に検定をとる必要はありません。ソフトのインストールやgrep、cutなどのファイル操作を知っていると便利です。
　コマンドのメモは、「さくらエディタ（Windows）」「CotEditor（Mac）」などがおすすめです。正規表現も使えますし、特に改行コードも指定できます。コマンドはコピペ（Ctrl + Cと右クリック）でターミナルに貼り付けられます。
　PythonやPerlも知っておくと便利だと思いますが、まずはこの二つです。

描画はきれいに

文字通りです。中間報告のようなものでも見やすい図を作ることになると思いますが、前もってきれいに書くツールに慣れておくのがおすすめです。
　バイオインフォマティクスではRを使うので、Rの描画パッケージであるggplot()やggtree()はほぼ必須かもしれません。

バックアップを取る＆すぐに取り出せるようにする

やはりバックアップは大切です。スパコンにあるデータも突然消えることがあります。ただバックアップを取るだけではなく、実際に自分のファイルがどこにあるかを常に覚えておく必要があります。人間は必ず忘れるものですから、ファイル名を簡潔にしましょう。できれば日付や用途で分けた場所に保存しておく習慣をつけましょう。
　バックアップはハードディスクやSSDに入れることがおすすめです。ちなみにWindowsとMacではファイルの保存様式が違うこともあるので、気を付けてください。

終わりに

過去に自分は試行錯誤しながら実験をして、ウェットもドライも上手いとは言えません。苦手なことが多いですが、周りに支えられて何とかなっています。
　このアドバイスが誰かのためになれば幸いです。
　好評でしたらおすすめソフトなどもまとめます。