機械学習関連(python)

aaa

ToDo

機械学習のモデルの知識を整理する
前処理の知識を整理する
kaggleに参加する

aaa

『分析者のためのデータ解釈学入門　データの本質をとらえる技術』の記録

aaa

昨日と今日で8割くらい読んだ。
データの前処理のさらに前のデータを集めるとは？というところからデータの理解の仕方（正規分布、確率密度関数、ヒストグラム、相関係数、p値、...）といった統計学の基本やデータ解析で出てくる内容を網羅的に記載されている。一つ一つの単語は見聞きしたことはあったとしても整理されており、非常に読んでいて内容が濃いと感じる。一読で完全に理解できる人は相当統計学に詳しい人やデータ解析をさまざまな場所で取り組んできた人であると感じる。
おそらく3回くらい読まないと理解が深まらない気がする。１周目は全体的にざっくり読んで、2周目に一つ一つの項目を深く理解し、3周目に総復習という形でやるのが良さそう。まずは今週中に1周読み切りたい。

aaa

全部読んだ。自分の知識がいかに怪しいか、というのを思い知らされた。今後データを扱うことが増えるのであればここに記載されている内容を思い出し内省できるようになることと、その上で事実を正しく伝える倫理観を持ち合わせないと、都合の良い結果のみ出す人になってしまうと思った。

aaa

データサイエンス周辺のことで悩んだ時や進む道を探したい時は以下を見て思考してみると良さそう。ほかによさそうなものがあればスレッドに追加する予定。
https://tjo.hatenablog.com/

aaa

https://shinyorke.hatenablog.com/

aaa

年明け早々にKaggleで勝つデータ分析の技術を買ったのだが、途中までしか読めていないので、記録をのこしていこうと思う。