Open7
機械学習関連(python)
ToDo
- 機械学習のモデルの知識を整理する
- 前処理の知識を整理する
- kaggleに参加する
『分析者のためのデータ解釈学入門 データの本質をとらえる技術』の記録
昨日と今日で8割くらい読んだ。
データの前処理のさらに前のデータを集めるとは?というところからデータの理解の仕方(正規分布、確率密度関数、ヒストグラム、相関係数、p値、...)といった統計学の基本やデータ解析で出てくる内容を網羅的に記載されている。一つ一つの単語は見聞きしたことはあったとしても整理されており、非常に読んでいて内容が濃いと感じる。一読で完全に理解できる人は相当統計学に詳しい人やデータ解析をさまざまな場所で取り組んできた人であると感じる。
おそらく3回くらい読まないと理解が深まらない気がする。1周目は全体的にざっくり読んで、2周目に一つ一つの項目を深く理解し、3周目に総復習という形でやるのが良さそう。まずは今週中に1周読み切りたい。
全部読んだ。自分の知識がいかに怪しいか、というのを思い知らされた。今後データを扱うことが増えるのであればここに記載されている内容を思い出し内省できるようになることと、その上で事実を正しく伝える倫理観を持ち合わせないと、都合の良い結果のみ出す人になってしまうと思った。
年明け早々にKaggleで勝つデータ分析の技術を買ったのだが、途中までしか読めていないので、記録をのこしていこうと思う。