Open4

データ分析の諸説

ピン留めされたアイテム
futonekofutoneko

メモ用スクラップ
自分なりにまとめて記事化する予定

futonekofutoneko

特徴量

モデルと特徴量

特徴量の作成はモデルベースで考えるべきです。
例えば、テーブルデータのコンペで選定されやすいモデルのGBDT(Gradient Boosting Decision Tree: 勾配ブースティング木)の特徴は以下の通りです。

  • 数値の大きさは意味をなさない。大小関係のみがモデルの出力に影響する
  • 欠損値はそのまま扱える
  • 決定木の分岐の繰り返しによって、変数間の相互作用を反映する

このようなモデルに対して数値のスケーリングや欠損値の処理を目的とした特徴量の作成は、あまり影響がないといえます(また、こういった特徴量の作成コストが低いことがモデル選定の理由の一つでもあるようです)。
このように、特徴量の作成というのはデータを与えるモデルを考慮して行うべきです。

futonekofutoneko

モデル

選定基準

テーブルデータの分析に利用される主なモデルとして以下があります。

  • 勾配ブースティング木
  • ニューラルネット
  • 線形モデル
  • その他のモデル
    • kNN
    • ランダムフォレスト
    • ERT
    • RGF
    • FFM

また、分析コンペのモデル選定における主な基準は以下の通りです。

  • 精度
  • 計算速度
  • 使いやすさ
  • 多様性によってアンサンブルによる精度向上に寄与するか

精度だけでなく、試行回数などの面で使いやすさというのも重要視されます。

futonekofutoneko

データ理解

見るべき項目 手法やメソッド 備考
データの形状、型 shape, describe -
カラム名とその意味 - コンペサイトのデータなどを確認
各カラムの値の確認 info 数量変数なら要約統計量、カテゴリ変数なら各カテゴリの集計など
非説明変数の分布 skew, kurt 尖度、歪度などを確認し、多くのMLモデルに適している正規分布とのズレなどを確認
説明変数と被説明変数の相関 regplot, pearsonr, boxplot, plot_corr_matrix, violinplot 相関が弱い説明変数