😽

2022年2月学習記録

2022/02/27に公開

2月もいよいよ終わりということで、今月の学習記録です。

基本指針(再掲)

https://zenn.dev/yabebe/articles/c79e4cbc688a1d

前提としてこちらで書いた通り、データ分析、機械学習、基盤開発周りの知識と初歩的な実装能力を付けることを2022年の目標として設定している。

Objectives
1. 数学:高校数学から微積・線形代数までのやり直し
2. 統計学:数理統計を一定レベルで使いこなせるようになること
3. 機械学習:機械学習・ディープラーニング含む基礎理論を理解し実装できる。
4. Python:データ分析やモデル開発を行うことができる状態
5. データエンジニアリング (GCP+)GCPを使って初歩的なDWHDLDMETL処理を実装できるようになること
KeyResults
1. 数学:決めた参考書を回すこと
2. 統計学:統計学検定1級
3. 機械学習:Kaggle Expertをとる。
4. Python:会社のプロダクションコードへのコミット、もしくは個人開発の小さめプロダクト一個だしてみる
5. データエンジニアリング:GCP Professional資格とる

2022年2月の振り返り

数学

数学の学習は基礎的な問題集・参考書の学習を進めていく方針です。 
まずは最低限必要な数学範囲が何かを先取り確認する目的も兼ねて、石川さんの本をサクッと一周読みました。加えて、どうせだったら高校数学やり直そうという謎の楽しみを見つけてしまい、基礎問題精講という薄め・内容濃いめの問題集の数I・Aを回してみました。これは完全趣味ですが、2B,3までやろうと思ってて意外と量が多くて悩みです。

統計学

2月はあまり着手できなかったのですが、入門レベルの統計学の範囲を思い出すためのこの動画みたり、よびのりさんの確率統計シリーズを一通り見ました。ひとまず大学で最初にやる統計学くらいの水準までなる早でもっていくつもりで、3月は一旦問題を解きながら、Pythonでの実装方法もキャッチアップ予定。

そういえば気になったところで、統計学、計量経済学、機械学習ってそれぞれ何が違うんだろうという疑問を持って調べていたところ、下記のブログや伊神先生のビッグデータ・機械学習と経済分析の発表など面白かったのでここに貼っておきます。ざっくり違いも目的や手法の差異が理解できたので、別途まとめてみようと思います。

機械学習

1つめに全体像を理解するべくG検定の勉強をしました。詳細な数学的理論についてはまだわかってないですが、SVMとかブースティングなど機械学習の代表的な手法や活性化関数がなにぞとか、座学的に全体像は理解できました。ここから理論とか実装方法とかを深掘っていこうと思います。

それぞれ1~2周程度回してみました。

2つめにKaggleに登録して、まずは最初のTitanicのコンペをsubmitしてみました。一応scikit-learnを使って、重回帰分析的なことをやってみました。結構面白くて、他の人のCodeやDiscussionを見るとめっちゃ勉強になります。さすがにまだ理解全然できてないですが、一番初歩のRegressionとかも見よう見まねで実装できちゃったのでこれはすごい。。。

Python

基礎文法の復習と、Numpy,Pandas,Matplotlibの使い方を覚えました。本とかProgateとかをさらっとやり直して、あとはYoutubeで...
最近はほんと便利で、Youtubeひらけばめちゃ講座やってる人がいてびっくり。
いまにゅーさんの動画で基礎的なやつ10本くらいを見ながら動かしてみたり、仕事のデータを少し手元で分析してみたりしました。来月は一応簡単なもWeb API実装してみつつ、前処理技術らへんから先んじて着手して、機械学習回りのライブラリの使い方まで手を広げていこうと思います。

データエンジニアリング

2月はあまり手をつけれませんでした。ゆずたそさんのデータマネジメントが30分でわかる本を読んでみながらふむふむと思ったり。いくつかGoogle Cloudのドキュメントや動画、学習素材をみながらプランニングしていた感じ。

あとはデータエンジニアリングでは全くないですが、Dockerいれて開発環境整えたりしていました。ここらへんをみながら作ってみた感じです。gitを覚えたときと同じ感覚で、Dockerも便利やな〜という。

以上

2月の学習ログでした!
総論でいうと、全体像をインストールしつつ、まずは機械学習の概要をふかぼっていく&実務に必要な基礎部分を入門してった感じかなと思います。来月はさらに加速できるように頑張りたい。

Discussion