Zennで技術学習ログをつけることにした。
はじめに
こんにちは! yabebeです。Crezitというフィンテックスタートアップの代表をやっています。個人的には今年は勝負の年で、起業家としてはマネジメントや組織作りへのシフトなどなど色々な角度のチャレンジがあります。
そのなかでも、具体的に技術周りのキャッチアップにも一定時間を使っていきたいと考えています!
今年は事業でもかなりデータ周りの取り扱いに関するプロダクト開発や組織作りを行っていくこともあり、私自身も基礎的な知識をつけよう!!!ということで2022年の目標を立てました。
データ分析/機械学習/データ基盤開発などが(本当に)ちょっとだけわかる状態を目指して、学習計画を立てたので、その実行ログなどを中心に書き残していくことにしました。今回はその背景とかセットアップログです。
学習テーマを決めるにあたって
ここで記載していく大上段のテーマはデータです。
データといっても、分析とかデータベースとか、モデリングとか色々あってよくわからないなーというのが正直なところでした。自分の事業に直接生かすのであれば、を基本的に意識して勉強する内容を決めていきますが、全体像を理解する上で参考になりそうな材料を二つ見つけました。
- DMBOK2:データマネジメント
またデータマネジメントについての記事を見ていると、データマネジメントの知識体系DMBOKというものが存在しており、そのなかで下記の図のように領域を定義しているようです。
- MLOpsの全体像
MLOpsの文献を読み漁っているとHidden Technical Debt in Machine Learning Systemsという論文があると知りました。その中の機械学習プロジェクトの全体像として、下の図が紹介されていました。いわゆるモデル開発というのは限られた一部の領域でしかないということを再認識しました。Only a small fraction of real-world ML systems is composed of the ML code, as shown by the small black box in the middle. The required surrounding infrastructure is vast and complex.
2022年の学習テーマ
上記の通り、データといってもかなり広範な範囲があり、とても全てをキャッチアップするのは時間的にも私自身の役割的にも難しいのが現状です。その前提で今年学ぶ内容を定めました。
大上段としてはデータ分析とモデル開発ができる状態を目指しつつ、データ基盤についても理解を深めることが目標です。これを因数分解して5つのカテゴリー/Objectives/KeyResutlに分けました。
1. 数学:高校数学から微積・線形代数までのやり直し
2. 統計学:数理統計を一定レベルで使いこなせるようになること
3. 機械学習:機械学習・ディープラーニング含む基礎理論を理解し実装できる。
4. Python:データ分析やモデル開発を行うことができる状態
5. データエンジニアリング (GCP+):GCPを使って初歩的なDWH・DL・DMやETL処理を実装できるようになること
1. 数学:決めた参考書を回すこと
2. 統計学:統計学検定1級
3. 機械学習:Kaggle Expertをとる。
4. Python:会社のプロダクションコードへのコミット、もしくは個人開発の小さめプロダクト一個だしてみる
5. データエンジニアリング:GCP Professional資格とる
2月は上々の滑り出しなのですが、目標の7割達成できるくらいを目指して頑張ろうと思います。
途中で挫折する可能性も大いにあるので、ほどほどに見守っていただければ幸いです。
Discussion