Open4
データ分析の諸説
ピン留めされたアイテム

メモ用スクラップ
自分なりにまとめて記事化する予定

特徴量
モデルと特徴量
特徴量の作成はモデルベースで考えるべきです。
例えば、テーブルデータのコンペで選定されやすいモデルのGBDT(Gradient Boosting Decision Tree: 勾配ブースティング木)の特徴は以下の通りです。
- 数値の大きさは意味をなさない。大小関係のみがモデルの出力に影響する
- 欠損値はそのまま扱える
- 決定木の分岐の繰り返しによって、変数間の相互作用を反映する
このようなモデルに対して数値のスケーリングや欠損値の処理を目的とした特徴量の作成は、あまり影響がないといえます(また、こういった特徴量の作成コストが低いことがモデル選定の理由の一つでもあるようです)。
このように、特徴量の作成というのはデータを与えるモデルを考慮して行うべきです。

モデル
選定基準
テーブルデータの分析に利用される主なモデルとして以下があります。
- 勾配ブースティング木
- ニューラルネット
- 線形モデル
- その他のモデル
- kNN
- ランダムフォレスト
- ERT
- RGF
- FFM
また、分析コンペのモデル選定における主な基準は以下の通りです。
- 精度
- 計算速度
- 使いやすさ
- 多様性によってアンサンブルによる精度向上に寄与するか
精度だけでなく、試行回数などの面で使いやすさというのも重要視されます。

データ理解
見るべき項目 | 手法やメソッド | 備考 |
---|---|---|
データの形状、型 | shape, describe | - |
カラム名とその意味 | - | コンペサイトのデータなどを確認 |
各カラムの値の確認 | info | 数量変数なら要約統計量、カテゴリ変数なら各カテゴリの集計など |
非説明変数の分布 | skew, kurt | 尖度、歪度などを確認し、多くのMLモデルに適している正規分布とのズレなどを確認 |
説明変数と被説明変数の相関 | regplot, pearsonr, boxplot, plot_corr_matrix, violinplot | 相関が弱い説明変数 |