XGBoost
資料
-
XGBoost: A Scalable Tree Boosting System
- 本家論文
-
XGBoost StatQuest with Josh Starmer
- 一番わかりやすい解説YouTube動画。同じ人が前提知識である決定木、勾配木も解説してくれている。
YouTubeのvideoIDが不正です
XGBoost
ロス
Gradient Tree Boostingの場合、
ここで、
XGBoostでは、上記損失関数ではなく、以下の2次のテイラー展開で近似した損失関数を最小化する(ニュートン法)。
Structure Score
回帰のXGBoostでは、回帰木を連ねていくが、split点の選定に独自のスコアを使用する。Structure Score or Similarity Scoreと呼ばれる。Scoreといっているが、本家の定式化では小さいほうがより良い値で、Gini Impurityのような意味を持つ。
まず、ある木構造
split点は、以下のStructure Scoreの減少幅が最も大きい点をsplit点とする。
最終的なleaf
Pruning
ハイパーパラメータ
つまり、 Structure Scoreの減少幅
L2正則化パラメータ
L2正則化パラメータ
ただし、L2正則化パラメータを0に設定してもpruning が発生することはある。