【初心者理系大学生向け】機械学習の学習法
Google Developre Student Clubs(以下GDSC)で代表をしていますほきです。
現在はAcademiXというAI学習コミュニティに所属し、日々勉強をするとともに、AI開発の長期インターンに参加させていただいています。
今回は 「機械学習というワード最近よく聞くので勉強してみたい」 といった方や、 「研究で使うことになったけど何からやったらいいのかわからなくて困っている」 といった方に向けて、僕なりのロードマップを紹介していきたいと思います。
0.はじめに
本記事では、理系大学生向けと銘打っていますが、次のような方を対象としています。
記事の対象者
- 高校レベルの数学(微分・積分など)を理解している
- 機械学習というワードは聞いたことがあるがあまりよく知らない
- Pythonの簡単なコードを動かしたことがある
この記事は合わない人
- 高校数学を学んでいない
- コンペで上位入賞を狙っている・論文から実装できるようになりたい
- プログラミングを一切やったことがない
また、挙げている本や講座は、僕が実際に勉強した時にお世話になったものに絞っています。
人によって合う合わないはもちろんあると思うので、似たようなものを使ってもOKです。
目次
章 | タイトル | 備考 |
---|---|---|
0. | はじめに | |
1. | Pythonを学習しよう | Pythonを学ぶのに最適な教材を紹介 |
2. | 機械学習の基礎を学習しよう | 機械学習の基礎を学ぶのに最適な教材を紹介 |
3. | 深層学習の基礎を学習しよう | 深層学習の基礎を学ぶのに最適な教材を紹介 |
4. | アウトプットしよう | 今後の勉強のためにアウトプット法を紹介 |
5. | おわりに |
1.Pythonを学習しよう
Rなど他の言語でも機械学習を学ぶことができますが、今回はライブラリが充実しているPythonを例に挙げて話を進めていきます。
機械学習ではifやforなのどの基本知識に加えて、
- NumPy
- Pandas
- scikit-learn
といったライブラリの使い方をマスターする必要があります。
Pythonを学ぶ教材はいくらでもありますが、無料で公開されているもので特にいいなと思ったものを2つを挙げておきます。
-
東京大学「Pythonプログラミング入門」
めちゃめちゃ詳しく書かれているのでつまみ食いしながら読むことをお勧めします。
GDSCではこの教材を用いてPython初心者向け勉強会を行いました。 -
ゼロから学ぶPython
ただPythonを学ぶのではなく文字コードの話など情報系の学生にとって重要なことも同時に学べてとてもお勧めです。
あと余談がおもろいので余談だけでも全部読むべき()
実行環境について最初はGoogle Colaboratoryを使うことをお勧めします。
Anaconda等を用いてももちろんいいのですがプログラミング学習において環境構築は1番の心が折れるポイントと言っても過言じゃないと思います。
またゲーミングPCを使っている人以外はGPUがないパソコンを普段使っていることが多いと思います。
3章の深層学習に進むときにGPUが必要になってくるのでローカルでモデルを回せるスペックがないならColab一択だと思います。
僕はコンペやインターンでGPUを頻繁に使うのでPro+というプランに入っていますが、勉強のため個人で使う程度であれば無料プランでも十分使えます。
2.機械学習の基礎を学習しよう
Pythonの基礎が学べた人は、機械学習の勉強に入りましょう。
この段階では、難しい理論はひとまず置いておいて、全体像を早く掴むことをおすすめします。
まず、この記事は大学生向けなので、講義で 「機械学習」 に関係がある内容をやっていないか思い出してみてください。
例えば、僕が所属している大学では
- アルゴリズム論
- パターン認識と機械学習
- 人工知能
- データ分析の数理
といったものが該当します。また、数学分野では
- 線形代数
- 数理統計学
が役に立ちます。
大学の講義は、理論ベースで隅から隅まで理解すると時間がかかってしまうので、 サラッと目を通すくらいでいい と思います。
大学で該当するような講義がない場合は、次の講座や書籍がおすすめです。
-
東京大学グローバル消費インテリジェンス寄附講座
人工知能分野で有名な松尾研究室が主催している講座です。
学生なら東大生以外でも無料で受けることができます。 -
Kaggleで勝つデータ分析の技術
Kaggleと書いてありますが機械学習の初歩から説明されているのでコンペ関係なく機械学習の初学者の方におすすめです。
テーブルデータを中心に特徴量作成、決定木、パラメータのチューニングの仕方など機械学習の基礎的なトピックを広く取り扱っています。
また、GDSCの資料もおすすめです。特に時間がない方や知識があまりなく全体像を早く知りたい方には向いていると思います。
3.深層学習の基礎を学習しよう
機械学習の基礎がわかったら深層学習へ進みましょう。
最近のAIブームは深層学習がメインで、ここを理解できるとやれることが一気に増えます。
おすすめの書籍を挙げます。
-
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
Deep Learingではとても有名な本です。
PyTorchやTensorflowなどのライブラリに頼らず一から実装をおこなっており深層学習の理論を学ぶ上では最適だと思います。
ゼロつくでは理論を理解するためライブラリを用いずに実装していますが、実際には必要となってくることが多いです。
有名なライブラリとしてPyTorchとTensorflowがあります(この記事ではTensorflowに焦点を当てます)。
Tensorflowの入門〜応用を扱ったGDSCの資料を紹介しておきます。
- Explore ML DSC | Intermediate Track | Lesson 3 - Tensorflow 入門 - 公開用
- Explore ML DSC | Intermediate Track | Lesson 4 - 転移学習を用いた画像分類 - 公開用
- Explore ML DSC | Intermediate Track | Lesson 5 - 画像キャプション生成 - 公開用
- Explore ML DSC | Intermediate Track | Lesson 6 - テキスト分類 - 公開用
4.アウトプットしよう
ここまでやれば全体像はなんとなく掴めると思います。
機械学習に限らず、プログラミング学習においていかにアウトプットするかということはとても大切です。
いくつかアイデアを紹介するので、興味に応じて実践してみてください。
機械学習コンペに参加する
プログラミングのアウトプットとして競技プログラミングが有用なように、機械学習分野でもKaggleやSIGNATEといったコンペに出るのは、理解が深まりいいと思います。
といってもコンペはハードルが高いので、最初はテーブルデータを扱うコンペを選んだり、経験が豊富な人とチームを組んでキャリーしてもらうのがいいと思います。
SIGNATEの方が日本語で書かれていたり、入賞のハードルがKaggleに比べて低い(かといって簡単なわけではありませんが…)など初めての方には向いているかもしれません。特に初心者の方にはBeginner限定コンペがおすすめです。
また有名な日本語コンペとしてはatmaCupやNishikaといったものもあります。
現在(2022/12/19)に開催されているコンペをいくつか紹介しておくので、気になるものがあったら参加してみてください。
資格を取得する
こちらはインプットよりになってしまいますが、就活に役立つ&明確な目標になるという意味で紹介しました。
機械学習や人工知能に関する資格としてはG検定やE資格があります。
E資格はハードルが高いですが、G検定は人工知能分野を広く知るきっかけになるし受けてみる価値はあると思います。
僕自身も来年受ける予定で両方取得できるよう勉強中です。
インターンに参加する
上の2つに比べるとハードルが高いですが、僕自身1番良かったことなのでこれはとても推したい。
自分のスキルを高めるのに1番効率がいいですし、実際にプロダクトを開発することで生データを扱う難しさや、業界のリアルな姿が知れてとても勉強になります。また、人脈も広がるので刺激になっていいです。 何よりお金がもらえるの嬉しい。
5.おわりに
今回はGDSCの教材を中心に私が考える機械学習の勉強のロードマップを紹介しました。
少しでもこれから機械学習を勉強し始める方の力になれば幸いです。
またGDSCではこれからも機械学習系だけでなくアプリ開発などのイベントを企画しています。
興味がありましたらぜひチームに参加してください!お待ちしています!!
Discussion