このチャプターの目次
補足事項色々
PyCaretでできる前処理
setup()に関しての追加で設定
参考記事
以下の項目は、データに合わせて取捨選択して行ったほうが良い
normalize(bool型, default = False)
特徴量の正規化ができる。
本処理の実行有無(True/False)を指定。
normalize_method(string型, default = 'zscore')
正規化に使用するメソッド(下記のいずれか)を定義します。
'zscore' : 標準化と呼ばれる手法で、z = (x - u) / s として計算します。
'minmax' : Min-Maxスケーリングと呼ばれる手法で、0-1の範囲にスケーリングします。
'maxabs' : 最大、最小の絶対値を1にスケーリングします。
`robust' : データの四分位点を基準にしてスケーリングします。
remove_outliers(bool型, default= False)
実行有無(True/False)を指定。
outliers_threshold(float型, default= 0.05)
データセット内の外れ値の割合を指定します。
たとえばデフォルトの0.05を指定すると、分布の裾の両側の値の0.025%が除去されます。
ただし、行うと一番良いデータが消えるなども起こるときがあるので気をつける。
remove_multicollinearity(bool型, default= False)
実行有無(True/False)を指定します。
multicollinearity_threshold(float型, default= 0.9)
本パラメータで定義されたしきい値よりも高い相互相関を持つ変数が削除されます。
(2つの特徴量のうち、目的変数との相関が低い方を削除する様です。)