ピン留めされたアイテム

メモ用スクラップ
自分なりにまとめて記事化する予定

 特徴量
 モデルと特徴量特徴量の作成はモデルベースで考えるべきです。

例えば、テーブルデータのコンペで選定されやすいモデルのGBDT(Gradient Boosting Decision Tree: 勾配ブースティング木)の特徴は以下の通りです。
数値の大きさは意味をなさない。大小関係のみがモデルの出力に影響する
欠損値はそのまま扱える
決定木の分岐の繰り返しによって、変数間の相互作用を反映する
このようなモデルに対して数値のスケーリングや欠損値の処理を目的とした特徴量の作成は、あまり影響がないといえます（また、こういった特徴量の作成コストが低いことがモデル選定の理由の一つでもあるようです）。

このように、特徴量の作成というのはデータを与えるモデルを考慮して行うべきです。

futoneko

 モデル
 選定基準テーブルデータの分析に利用される主なモデルとして以下があります。
勾配ブースティング木
ニューラルネット
線形モデル
その他のモデル
kNN
ランダムフォレスト
ERT
RGF
FFM

また、分析コンペのモデル選定における主な基準は以下の通りです。
精度
計算速度
使いやすさ
多様性によってアンサンブルによる精度向上に寄与するか
精度だけでなく、試行回数などの面で使いやすさというのも重要視されます。

futoneko

データ理解

見るべき項目	手法やメソッド	備考
データの形状、型	shape, describe	-
カラム名とその意味	-	コンペサイトのデータなどを確認
各カラムの値の確認	info	数量変数なら要約統計量、カテゴリ変数なら各カテゴリの集計など
非説明変数の分布	skew, kurt	尖度、歪度などを確認し、多くのMLモデルに適している正規分布とのズレなどを確認
説明変数と被説明変数の相関	regplot, pearsonr, boxplot, plot_corr_matrix, violinplot	相関が弱い説明変数