👋

アンサンブルわけわかめ🌿【今年中にKaggleでメダルを取る男】

2024/03/16に公開

Kaggleでのスコアが悪い時、データセットの分割法禹歩が悪いからスコアが悪いと言った場合がある。
そんな時は、データセットや課題設定の特徴を考慮する必要がある(その分野についての知識があるとこれがしやすくなる)

「PythonではじめるKaggleスタートブック」でデータセット内に時系列性があると、気をつけることが色々とあるらしいのですね。その際に、どのようなことを気をつければ良いのか?を理解するのに以下のスライド資料が参考になるそうです。僕はとりあえず、この書籍を早めに読破しておきたいので今は読みませんが、、、。シェアだけしておきます。
https://www.slideshare.net/ShotaOkubo/neko-kin-96769953

アンサンブル

複数の機械学習モデルを組み合わせること

疑問

まあ、色々コードが書かれてるんですが、ひとまず以下のコードがあるんですね。

df.corr()

実行するとこうなります↓

これは「予測がどれくらい類似しているかを確認するため、それぞれの相関を計算。」だそうですが、「何と何の相関?」「機械学習モデル2つ用いてモデルの予測をしたときどれが一番いいのかみたいなのを調べてるってこと?」って感じでわけわかめです。

感想

本日は3月16日です。更新遅れちゃいました。「データセットの分割方法」っていう項目にかかれているコードリーディングに結構時間がかかって勉強があまり捗りませんでしたが、山場を超えた感があるので、幸です。きゅん🫰です!

Discussion